NVIDIA · shaharmor98 · Jun 19, 2025 · Jun 18, 2025 · Jun 18, 2025
@@ -282,14 +282,15 @@ def get_bindings_model_config(self) -> "ModelConfigCpp":
 
         num_heads = self.pretrained_config.num_attention_heads // (
             self.mapping.tp_size * self.mapping.cp_size)
+        hidden_size = self.pretrained_config.hidden_size // self.mapping.tp_size
 
         model_config_cpp = ModelConfigCpp(
             vocab_size=self.pretrained_config.vocab_size,
             num_layers=self.pretrained_config.num_hidden_layers,
             num_attention_layers=self.pretrained_config.num_hidden_layers,
             num_rnn_layers=0,
             num_heads=num_heads,
-            hidden_size=self.pretrained_config.hidden_size,
+            hidden_size=hidden_size,
             data_type=torch_dtype_to_binding(
                 self.pretrained_config.torch_dtype))
 
@@ -317,7 +318,7 @@ def get_bindings_model_config(self) -> "ModelConfigCpp":
         if "head_size" in self.pretrained_config:
             head_size = self.pretrained_config.head_size
         else:
-            head_size = self.pretrained_config.hidden_size // num_heads
+            head_size = hidden_size // num_heads
 
         model_config_cpp.mlp_hidden_size = mlp_hidden_size
         model_config_cpp.size_per_head = head_size

diff --git a/tests/integration/test_lists/test-db/l0_dgx_h100.yml b/tests/integration/test_lists/test-db/l0_dgx_h100.yml
@@ -17,7 +17,7 @@ l0_dgx_h100:
   # ------------- PyTorch tests ---------------
   - unittest/_torch/multi_gpu
   - unittest/_torch/auto_deploy/unit/multigpu
-  - unittest/llmapi/test_llm_multi_gpu_pytorch.py -m "gpu4"
+  - unittest/llmapi/test_llm_multi_gpu_pytorch.py -m "gpu4 or gpu2"
   - accuracy/test_llm_api_pytorch.py::TestLlama3_1_8BInstruct::test_bfloat16_4gpus[tp4-attn_backend=TRTLLM-torch_compile=False]
   - accuracy/test_llm_api_pytorch.py::TestLlama3_1_8BInstruct::test_bfloat16_4gpus[tp4-attn_backend=TRTLLM-torch_compile=True]
   - accuracy/test_llm_api_pytorch.py::TestLlama3_1_8BInstruct::test_bfloat16_4gpus[tp2pp2-attn_backend=TRTLLM-torch_compile=False]