Nvidia trt model name for stop_stream() (#16997)

just removing some legacy leftover.
2025-08-31 10:23:18 +00:00 · 2024-02-05 21:45:06 +03:00
parent 2ef69fe11b
commit 2145636f1d
1 changed files with 4 additions and 4 deletions
--- a/libs/partners/nvidia-trt/langchain_nvidia_trt/llms.py
+++ b/libs/partners/nvidia-trt/langchain_nvidia_trt/llms.py
@@ -377,14 +377,14 @@ class StreamingResponseGenerator(queue.Queue):
    def __init__(
        self,
-        client: grpcclient.InferenceServerClient,
+        llm: TritonTensorRTLLM,
        request_id: str,
        force_batch: bool,
        stop_words: Sequence[str],
    ) -> None:
        """Instantiate the generator class."""
        super().__init__()
-        self.client = client
+        self.llm = llm
        self.request_id = request_id
        self._batch = force_batch
        self._stop_words = stop_words
@@ -397,8 +397,8 @@ class StreamingResponseGenerator(queue.Queue):
        """Return the next retrieved token."""
        val = self.get()
        if val is None or val in self._stop_words:
-            self.client.stop_stream(
+            self.llm.stop_stream(
-                "tensorrt_llm", self.request_id, signal=not self._batch
+                self.llm.model_name, self.request_id, signal=not self._batch
            )
            raise StopIteration()
        return val