fix py llm request

jaedeok-nvidia · jaedeok-nvidia · commit b519ecacc008 · 2025-07-09T20:37:04.000+09:00
Signed-off-by: Jaedeok Kim &lt;jaedeokk@nvidia.com&gt;
diff --git a/examples/llm-api/quickstart_advanced.py b/examples/llm-api/quickstart_advanced.py
@@ -217,7 +217,7 @@ def setup_llm(args):
         if args.use_torch_compile else None,
         moe_backend=args.moe_backend,
         enable_trtllm_sampler=args.enable_trtllm_sampler,
-        mixed_sampler=mixed_sampler,
+        enable_mixed_sampler=mixed_sampler,
         max_seq_len=args.max_seq_len,
         max_batch_size=args.max_batch_size,
         max_num_tokens=args.max_num_tokens,
diff --git a/tensorrt_llm/_torch/pyexecutor/llm_request.py b/tensorrt_llm/_torch/pyexecutor/llm_request.py
@@ -276,10 +276,19 @@ def create_response(
         return None
     else:
         return LlmResponse(request_id=request.py_request_id,
-                           result=LlmResult(result, request.py_result),
+                           result=LlmResult(result, request.py_result,
+                                            result.is_final),
                            client_id=request.py_client_id)
 
 
+def finish_by(request: Union[
+    'LlmRequest', tensorrt_llm.bindings.internal.batch_manager.LlmRequest],
+              reason: FinishReason, beam: int) -> None:
+    """CPP finish by reason does not support beam_width > 1"""
+    request.state = LlmRequestState.GENERATION_COMPLETE
+    request.set_finished_reason(reason, beam)
+
+
 class LlmRequest(tensorrt_llm.bindings.internal.batch_manager.LlmRequest):
     """LlmRequest wraps `bindings.internal.batch_manager.LlmRequest`
     but detour some features to Python implementation"""
@@ -298,6 +307,7 @@ def __init__(
             stop_words_list: list[list[int]] | None = None,
             is_draft: bool = False,
             **kwargs):
+
         self.py_logits_post_processors = kwargs.pop("py_logits_post_processors",
                                                     None)
         # Multimodal data
@@ -377,8 +387,9 @@ def create_child_request(self, request_id: int):
         child_request.is_cuda_graph_dummy = self.is_cuda_graph_dummy
         child_request.is_dummy = self.is_dummy
 
-        # Override create_response to return the child request
+        # Mimic the behavior of the original LlmRequest.
         child_request.create_response = partial(create_response, child_request)
+        child_request.finish_by = partial(finish_by, child_request)
 
         return child_request
 
@@ -394,8 +405,7 @@ def is_dummy(self):
 
     def finish_by(self, reason: FinishReason, beam: int) -> None:
         """CPP finish by reason does not support beam_width > 1"""
-        self.state = LlmRequestState.GENERATION_COMPLETE
-        self.set_finished_reason(reason, beam)
+        finish_by(self, reason, beam)
 
 
 def convert_wordlist(word_list) -> List[List[int]]: