Add response id to chat and audio

toslali-ibm · markurtz · commit 43985383e44a · 2025-11-16T11:49:43.000-05:00
Signed-off-by: Mert Toslali &lt;toslali@ibm.com&gt;
diff --git a/src/guidellm/backends/response_handlers.py b/src/guidellm/backends/response_handlers.py
@@ -164,7 +164,7 @@ def add_streaming_line(self, line: str) -> int | None:
         """
         if not (data := self.extract_line_data(line)):
             return None if data is None else 0
-        
+
         if "id" in data and self.streaming_response_id is None:
             self.streaming_response_id = data["id"]
 
@@ -312,6 +312,7 @@ def compile_non_streaming(
             request_args=str(
                 request.arguments.model_dump() if request.arguments else None
             ),
+            response_id=response.get("id"), # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
             output_metrics=output_metrics,
@@ -330,6 +331,9 @@ def add_streaming_line(self, line: str) -> int | None:
         if not (data := self.extract_line_data(line)):
             return None if data is None else 0
 
+        if "id" in data and self.streaming_response_id is None:
+            self.streaming_response_id = data["id"]
+
         updated = False
         choices, usage = self.extract_choices_and_usage(data)
         choice: dict[str, dict] = choices[0] if choices else {}
@@ -358,6 +362,7 @@ def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
             request_args=str(
                 request.arguments.model_dump() if request.arguments else None
             ),
+            response_id=self.streaming_response_id, # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
             output_metrics=output_metrics,
@@ -391,6 +396,8 @@ def __init__(self):
         self.streaming_buffer: bytearray = bytearray()
         self.streaming_texts: list[str] = []
         self.streaming_usage: dict[str, int | dict[str, int]] | None = None
+        self.streaming_response_id: str | None = None
+
 
     def compile_non_streaming(
         self, request: GenerationRequest, response: dict
@@ -414,6 +421,7 @@ def compile_non_streaming(
             request_args=str(
                 request.arguments.model_dump() if request.arguments else None
             ),
+            response_id=response.get("id"), # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
             output_metrics=output_metrics,
@@ -438,6 +446,9 @@ def add_streaming_line(self, line: str) -> int | None:
         data: dict[str, Any] = json.loads(line)
         updated = False
 
+        if "id" in data and self.streaming_response_id is None:
+            self.streaming_response_id = data["id"]
+
         if text := data.get("text"):
             self.streaming_texts.append(text)
             updated = True
@@ -462,6 +473,7 @@ def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
             request_args=str(
                 request.arguments.model_dump() if request.arguments else None
             ),
+            response_id=self.streaming_response_id,
             text=text,
             input_metrics=input_metrics,
             output_metrics=output_metrics,