decrease kvcache fraction to avoid OOM

jiaganc · jiaganc · commit bd35a62ed43a · 2025-08-20T10:28:37.000Z
Signed-off-by: Jiagan Cheng &lt;jiaganc@nvidia.com&gt;
diff --git a/tests/integration/defs/accuracy/test_llm_api_pytorch.py b/tests/integration/defs/accuracy/test_llm_api_pytorch.py
@@ -2015,11 +2015,13 @@ def test_bf16(self, tp_size, pp_size, ep_size, attention_dp, cuda_graph,
         pytorch_config = dict(
             disable_overlap_scheduler=not overlap_scheduler,
             cuda_graph_config=CudaGraphConfig() if cuda_graph else None)
+        kv_cache_config = KvCacheConfig(free_gpu_memory_fraction=0.8)
 
         with LLM(f"{llm_models_root()}/Qwen3/Qwen3-8B",
                  tensor_parallel_size=tp_size,
                  pipeline_parallel_size=pp_size,
                  moe_expert_parallel_size=ep_size,
+                 kv_cache_config=kv_cache_config,
                  **pytorch_config,
                  enable_attention_dp=attention_dp) as llm:
             task = CnnDailymail(self.MODEL_NAME)