openai · dkundel-openai · Sep 2, 2025 · Sep 2, 2025
diff --git a/gpt_oss/responses_api/inference/metal.py b/gpt_oss/responses_api/inference/metal.py
@@ -11,68 +11,16 @@ def setup_model(checkpoint: str) -> Callable[[list[int], float], int]:
     model = Model(checkpoint)
     context = Context(model)
 
-    def lcp(cache: list[int], inp: list[int]) -> list[int]:
-        i = 0
-        max_len = min(len(cache), len(inp))
-        while i < max_len and cache[i] == inp[i]:
-            i += 1
-        return cache[:i]
-
-    tokens_so_far = []
-
     def infer_next_token(
         tokens: list[int], temperature: float = 0.0, new_request: bool = False
     ) -> int:
         """Infer next token using incremental LCP caching when possible."""
-        nonlocal tokens_so_far
-
-        # Fast path: first call or explicitly new request.
-        if new_request or not tokens_so_far:
-            context.reset()
-            for t in tokens:
-                context.append(t)
-            tokens_so_far = tokens.copy()
-            context.process()
-            return int(context.sample(temperature=temperature))
-
-        # Longest common prefix length
-        overlap = lcp(tokens_so_far, tokens)
-        ol = len(overlap)
-        prev_len = len(tokens_so_far)
-        cur_len = len(tokens)
-
-        diverged_midstream = (ol < prev_len) and (
-            ol < cur_len
-        )  # mismatch not at the end
-
-        if diverged_midstream:
-            # safest: rebuild
-            context.reset()
-            for t in tokens:
-                context.append(t)
-            tokens_so_far = tokens.copy()
-            context.process()
-            return int(context.sample(temperature=temperature))
-
-        if cur_len > prev_len:
-            # pure extension (good for KV reuse)
-            extension = tokens[prev_len:]
-            for t in extension:
-                context.append(t)
-            tokens_so_far = tokens.copy()
-            context.process()
-            return int(context.sample(temperature=temperature))
-
-        if cur_len < prev_len:
-            # truncation/backspace; easiest correct behavior is rebuild
-            context.reset()
-            for t in tokens:
-                context.append(t)
-            tokens_so_far = tokens.copy()
-            context.process()
-            return int(context.sample(temperature=temperature))
 
-        # cur_len == prev_len and everything matches => no new tokens; just sample.
+        # Context handles LCP caching internally; if `tokens` matches the
+        # tokens in the KV cache, the KV cache is reused after reset+append.
+        context.reset()
+        for t in tokens:
+            context.append(t)
         return int(context.sample(temperature=temperature))
 
     return infer_next_token