add missing free_request method to Dummy cache manager

octoml · Dec 11, 2023 · c8b7f55 · c8b7f55
1 parent fd39416
commit c8b7f55
Showing 1 changed file with 6 additions and 12 deletions.
diff --git a/serve/mlc_serve/model/dummy_model.py b/serve/mlc_serve/model/dummy_model.py
@@ -1,28 +1,18 @@
-from typing import Optional, Union
+from typing import Union
 
 from mlc_serve.engine import (
     ChatMessage,
-    DebugOptions,
-    FinishReason,
-    Request,
+    RequestState,
     RequestId,
-    RequestOutput,
-    SamplingParams,
-    StoppingCriteria,
     get_engine_config
 )
 from mlc_serve.model.base import ModelArtifactConfig
 from mlc_serve.engine.model_module import (
-    ConversationTemplate,
     DecodeRequest,
     KVCache,
-    KVCacheManager,
-    ModelModule,
     PrefillRequest,
     SequenceId,
     TextGenerationResult,
-    TextGenerator,
-    Tokenizer,
 )
 
 class DummyTokenizer:
@@ -74,6 +64,10 @@ def free(self, sequence_id: SequenceId):
             raise RuntimeError("Multiple generated sequences not supported")
         del self.cache.cached_requests[sequence_id.request_id]
 
+    def free_request(self, state: RequestState):
+        for gen_seq in state.generation_sequences:
+            self.free(gen_seq.seq_id)
+
     def get_kv_cache_size(self) -> int:
         return self.cache.max_cached_tokens