[kv cache manager] Expose knob TRTLLM_WINDOW_SIZE_SHARES to adjust memory proportion shared

eopXD · eopXD · commit 54a398d68443 · 2025-09-23T01:29:21.000-07:00
Usage example:

export TRTLLM_WINDOW_SIZE_SHARES=0.4,0.6

Signed-off-by: eopXD &lt;yuehtingc@nvidia.com&gt;
diff --git a/cpp/tensorrt_llm/batch_manager/kvCacheManager.cpp b/cpp/tensorrt_llm/batch_manager/kvCacheManager.cpp
@@ -2450,12 +2450,40 @@ BlocksPerWindow BaseKVCacheManager::calculateMaxNumBlocks(executor::KvCacheConfi
     };
 
     std::map<SizeType32, float> windowSizeToShare;
-    // NOTE: Righteously, blocks allocated should be proportional with
-    // regard to window size. Currently, we are first allocating identical
-    // number of blocks for all layers to achieve identical performance.
-    for (auto const& [windowSize, _] : windowSizeToLayers)
+    if (auto envStr = std::getenv("TRTLLM_WINDOW_SIZE_SHARES"))
     {
-        windowSizeToShare[windowSize] = 1.0f / windowSizeToLayers.size();
+        float const fraction = windowSizeSum / windowSizesTotalSum;
+        TLLM_CHECK(0.0f < fraction && fraction <= 1.0f);
+        windowSizeToShare[windowSize] = fraction;
+        std::stringstream ss(envStr);
+        std::vector<float> shares;
+        float share;
+        while (ss >> share)
+        {
+            shares.push_back(share);
+            if (ss.peek() == ',')
+                ss.ignore();
+        }
+
+        TLLM_CHECK_WITH_INFO(shares.size() == windowSizeToLayers.size(),
+            "Number of shares in TRTLLM_WINDOW_SIZE_SHARES (%ld) must match number of window sizes (%ld)",
+            shares.size(), windowSizeToLayers.size());
+
+        size_t i = 0;
+        for (auto const& [windowSize, _] : windowSizeToLayers)
+        {
+            windowSizeToShare[windowSize] = shares[i++];
+        }
+    }
+    else
+    {
+        // NOTE: Righteously, blocks allocated should be proportional with
+        // regard to window size. Currently, we are first allocating identical
+        // number of blocks for all layers to achieve identical performance.
+        for (auto const& [windowSize, _] : windowSizeToLayers)
+        {
+            windowSizeToShare[windowSize] = 1.0f / windowSizeToLayers.size();
+        }
     }
 
     std::vector<SizeType32> blocksPrimary;