akashveramd
diff --git a/‎CMakeLists.txt
Lines changed: 10 additions & 1 deletion b/‎CMakeLists.txt
Lines changed: 10 additions & 1 deletion
diff --git a/‎client_example/CMakeLists.txt
Lines changed: 8 additions & 0 deletions b/‎client_example/CMakeLists.txt
Lines changed: 8 additions & 0 deletions
diff --git a/‎example/01_gemm/common.hpp
Lines changed: 1 addition & 1 deletion b/‎example/01_gemm/common.hpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎example/01_gemm/run_gemm_example.inc
Lines changed: 2 additions & 2 deletions b/‎example/01_gemm/run_gemm_example.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/15_grouped_gemm/grouped_gemm_multiple_d_splitk_xdl_fp16.cpp
Lines changed: 4 additions & 4 deletions b/‎example/15_grouped_gemm/grouped_gemm_multiple_d_splitk_xdl_fp16.cpp
Lines changed: 4 additions & 4 deletions
diff --git a/‎example/15_grouped_gemm/grouped_gemm_multiple_d_xdl_fp16.cpp
Lines changed: 4 additions & 4 deletions b/‎example/15_grouped_gemm/grouped_gemm_multiple_d_xdl_fp16.cpp
Lines changed: 4 additions & 4 deletions
diff --git a/‎example/15_grouped_gemm/grouped_gemm_xdl_fixed_nk_bias_fp16.cpp
Lines changed: 3 additions & 3 deletions b/‎example/15_grouped_gemm/grouped_gemm_xdl_fixed_nk_bias_fp16.cpp
Lines changed: 3 additions & 3 deletions
diff --git a/‎example/15_grouped_gemm/grouped_gemm_xdl_fixed_nk_fp16.cpp
Lines changed: 2 additions & 2 deletions b/‎example/15_grouped_gemm/grouped_gemm_xdl_fixed_nk_fp16.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/15_grouped_gemm/grouped_gemm_xdl_fixed_nk_fp16_fp8.cpp
Lines changed: 2 additions & 2 deletions b/‎example/15_grouped_gemm/grouped_gemm_xdl_fixed_nk_fp16_fp8.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/15_grouped_gemm/run_grouped_gemm_example.inc
Lines changed: 5 additions & 2 deletions b/‎example/15_grouped_gemm/run_grouped_gemm_example.inc
Lines changed: 5 additions & 2 deletions
diff --git a/‎example/21_gemm_layernorm/gemm_xdl_layernorm_naive_single_kernel_fp16.cpp
Lines changed: 3 additions & 3 deletions b/‎example/21_gemm_layernorm/gemm_xdl_layernorm_naive_single_kernel_fp16.cpp
Lines changed: 3 additions & 3 deletions
diff --git a/‎example/31_batched_gemm_gemm/run_batched_gemm_gemm_example.inc
Lines changed: 2 additions & 2 deletions b/‎example/31_batched_gemm_gemm/run_batched_gemm_gemm_example.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_batched_gemm_scale_softmax_gemm.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_batched_gemm_scale_softmax_gemm.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_batched_gemm_scale_softmax_gemm_permute.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_batched_gemm_scale_softmax_gemm_permute.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_batched_gemm_scale_softmax_gemm_permute_wmma.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_batched_gemm_scale_softmax_gemm_permute_wmma.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_cross_attention_wmma.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_cross_attention_wmma.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_grouped_gemm_scale_softmax_gemm_permute.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_grouped_gemm_scale_softmax_gemm_permute.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_grouped_query_attention_forward_wmma.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_grouped_query_attention_forward_wmma.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_multi_query_attention_forward_wmma.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_multi_query_attention_forward_wmma.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/32_batched_gemm_scale_softmax_gemm/run_self_attention_wmma.inc
Lines changed: 2 additions & 2 deletions b/‎example/32_batched_gemm_scale_softmax_gemm/run_self_attention_wmma.inc
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/35_splitK_gemm/run_splitK_gemm_example.inc
Lines changed: 5 additions & 2 deletions b/‎example/35_splitK_gemm/run_splitK_gemm_example.inc
Lines changed: 5 additions & 2 deletions
diff --git a/‎example/37_batched_gemm_add_add_relu_gemm_add/batched_gemm_add_add_relu_gemm_add_xdl_fp16.cpp
Lines changed: 1 addition & 1 deletion b/‎example/37_batched_gemm_add_add_relu_gemm_add/batched_gemm_add_add_relu_gemm_add_xdl_fp16.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎example/38_grouped_conv_bwd_data_multiple_d/common.hpp
Lines changed: 2 additions & 2 deletions b/‎example/38_grouped_conv_bwd_data_multiple_d/common.hpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/47_gemm_bias_softmax_gemm_permute/gemm_bias_softmax_gemm_permute_xdl.cpp
Lines changed: 2 additions & 2 deletions b/‎example/47_gemm_bias_softmax_gemm_permute/gemm_bias_softmax_gemm_permute_xdl.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎example/59_grouped_gemm_multi_ABD/grouped_gemm_multi_abd_xdl_fixed_nk_bias_bf16_i8.cpp
Lines changed: 4 additions & 4 deletions b/‎example/59_grouped_gemm_multi_ABD/grouped_gemm_multi_abd_xdl_fixed_nk_bias_bf16_i8.cpp
Lines changed: 4 additions & 4 deletions
@@ -185,13 +185,22 @@ if (SUPPORTED_GPU_TARGETS MATCHES "gfx9")
     add_definitions(-DCK_USE_XDL)
 endif()
 if (SUPPORTED_GPU_TARGETS MATCHES "gfx94")
-    message("Enabling FP8 gemms in ckProfiler")
+    message("Enabling FP8 gemms on native architectures")
     add_definitions(-DCK_USE_GFX94)
 endif()
 if (SUPPORTED_GPU_TARGETS MATCHES "gfx11" OR SUPPORTED_GPU_TARGETS MATCHES "gfx12")
     message("Enabling WMMA instances")
     add_definitions(-DCK_USE_WMMA)
 endif()
+if (SUPPORTED_GPU_TARGETS MATCHES "gfx12")
+    add_definitions(-DCK_USE_OCP_FP8)
+    set(CK_USE_OCP_FP8 "ON")
+endif()
+if (SUPPORTED_GPU_TARGETS MATCHES "gfx90a" OR SUPPORTED_GPU_TARGETS MATCHES "gfx94")
+    add_definitions(-DCK_USE_FNUZ_FP8)
+    set(CK_USE_FNUZ_FP8 "ON")
+endif()
+
 option(CK_USE_FP8_ON_UNSUPPORTED_ARCH "Enable FP8 GEMM instances on older architectures" OFF)
 if(CK_USE_FP8_ON_UNSUPPORTED_ARCH AND (SUPPORTED_GPU_TARGETS MATCHES "gfx90a" OR SUPPORTED_GPU_TARGETS MATCHES "gfx908"))
     add_definitions(-DCK_USE_FP8_ON_UNSUPPORTED_ARCH)
 
@@ -56,6 +56,14 @@ if (GPU_TARGETS)
         add_definitions(-DCK_USE_WMMA)
         set(CK_USE_WMMA "ON")
     endif()
+    if (GPU_TARGETS MATCHES "gfx12")
+        add_definitions(-DCK_USE_OCP_FP8)
+        set(CK_USE_OCP_FP8 "ON")
+    endif()
+    if (GPU_TARGETS MATCHES "gfx90a" OR GPU_TARGETS MATCHES "gfx94")
+        add_definitions(-DCK_USE_FNUZ_FP8)
+        set(CK_USE_FNUZ_FP8 "ON")
+    endif()
 else()
     add_definitions(-DCK_USE_WMMA -DCK_USE_XDL)
     set(CK_USE_XDL "ON")
 
@@ -76,7 +76,7 @@ struct ProblemSizeSplitK final
 struct ExecutionConfig final
 {
     // 0 - no verification, 1 - CPU, 2 - GPU, 3 - CPU + GPU
-    int do_verification = 3;
+    int do_verification = 1;
     int init_method     = 2;
     bool time_kernel    = false;
 };
 
@@ -143,8 +143,8 @@ bool run_gemm(const ProblemType& problem_size, const ExecutionConfig& config)
     switch(config.init_method)
     {
     case 0:
-        ck::utils::FillConstant<ADataType>{static_cast<ADataType>(1.f)}(a_m_k);
-        ck::utils::FillConstant<BDataType>{static_cast<BDataType>(1.f)}(b_k_n);
+        ck::utils::FillConstant<ADataType>{ck::type_convert<ADataType>(1.f)}(a_m_k);
+        ck::utils::FillConstant<BDataType>{ck::type_convert<BDataType>(1.f)}(b_k_n);
         break;
     case 1:
         ck::utils::FillUniformDistributionIntegerValue<ADataType>{-5.f, 5.f}(a_m_k);
 
@@ -186,15 +186,15 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
             for(int j = 0; j < NumDMatrices; ++j)
             {
-                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<ADataType>{0.0, 1.0});
+                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<DDataType>{0.0, 1.0});
             }
             break;
         default:
-            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
             for(int j = 0; j < NumDMatrices; ++j)
             {
-                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
+                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<DDataType, 0>{});
             }
         }
     }
 
@@ -190,15 +190,15 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
             for(int j = 0; j < NumDs; ++j)
             {
-                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<ADataType>{0.0, 1.0});
+                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<DDataType>{0.0, 1.0});
             }
             break;
         default:
-            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
             for(int j = 0; j < NumDs; ++j)
             {
-                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
+                d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<DDataType, 0>{});
             }
         }
     }
 
@@ -167,11 +167,11 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
             break;
         default:
-            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
         }
 
-        d0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+        d0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<D0DataType, 1>{});
     }
 
     using GroupedGemmKernelArgument = ck::tensor_operation::device::GroupedGemmKernelArgument<1>;
 
@@ -157,8 +157,8 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
             break;
         default:
-            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
         }
     }
 
 
@@ -158,8 +158,8 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
             break;
         default:
-            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
         }
     }
 
 
@@ -1,3 +1,6 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once
 
 struct ProblemSize final
@@ -124,8 +127,8 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
             break;
         default:
-            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+            b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
         }
     }
 
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 #include <iostream>
 #include <numeric>
@@ -175,8 +175,8 @@ int main(int argc, char* argv[])
         b_k_n.GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
         break;
     default:
-        a_m_k.GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-        b_k_n.GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+        a_m_k.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+        b_k_n.GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
     }
 
     c0_n_bias.GenerateTensorValue(GeneratorTensor_2<C0DataType>{-5, 5});
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 #pragma once
 
@@ -150,7 +150,7 @@ bool run_batched_gemm_gemm_example(int argc, char* argv[])
         break;
     default:
         a_g_m_k.GenerateTensorValue(GeneratorTensor_1<ADataType>{1});
-        b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+        b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<B0DataType, 1>{});
         b1_g_n_o.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -157,7 +157,7 @@ int run(int argc, char* argv[])
         break;
     default:
         a_g_m_k.GenerateTensorValue(GeneratorTensor_1<ADataType>{1});
-        b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+        b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<B0DataType, 1>{});
         b1_g_n_o.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -118,7 +118,7 @@ int run(int argc, char* argv[])
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -153,7 +153,7 @@ int run(int argc, char* argv[])
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_2<B1DataType>{-2, 2});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -178,7 +178,7 @@ int run(int argc, char* argv[])
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_2<B1DataType>{-2, 2});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -152,7 +152,7 @@ int run(int argc, char* argv[])
             break;
         default:
             a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_1<ADataType>{1});
-            b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Sequential<B0DataType, 1>{});
             b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
         }
 
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -156,7 +156,7 @@ int run(int argc, char* argv[])
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_2<B1DataType>{-2, 2});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -156,7 +156,7 @@ int run(int argc, char* argv[])
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_2<B1DataType>{-2, 2});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 int run(int argc, char* argv[])
 {
@@ -173,7 +173,7 @@ int run(int argc, char* argv[])
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_2<B1DataType>{-2, 2});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
     }
 
@@ -1,3 +1,6 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
+
 #pragma once
 
 struct ProblemSize final
@@ -66,8 +69,8 @@ bool run_splitK_gemm(const ProblemSize& problem_size, const ExecutionConfig& con
         b_k_n.GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});
         break;
     default:
-        a_m_k.GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-        b_k_n.GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+        a_m_k.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});
+        b_k_n.GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});
     }
 
     DeviceMem a_m_k_device_buf(sizeof(ADataType) * a_m_k.mDesc.GetElementSpaceSize());
 
@@ -377,7 +377,7 @@ int main(int argc, char* argv[])
         break;
     default:
         a0_g_m_k.GenerateTensorValue(GeneratorTensor_1<A0DataType>{1});
-        b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+        b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<B0DataType, 1>{});
         d00_g_m_n.GenerateTensorValue(GeneratorTensor_1<D00DataType>{1});
         d01_g_m_n.GenerateTensorValue(GeneratorTensor_1<D01DataType>{1});
         b1_g_n_o.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 #pragma once
 
@@ -41,7 +41,7 @@ struct ExecutionConfig final
 {
     bool do_verification = true;
     int init_method      = 1;
-    bool time_kernel     = true;
+    bool time_kernel     = false;
 };
 
 #define DefaultConvParams                                                                \
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 #include <iostream>
 #include <vector>
@@ -248,7 +248,7 @@ int main(int argc, char* argv[])
         d0_gs_ms_ns.GenerateTensorValue(GeneratorTensor_1<D0DataType>{1});
         break;
     default:
-        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});
+        a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});
         b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});
         b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});
         d0_gs_ms_ns.GenerateTensorValue(GeneratorTensor_1<D0DataType>{1});
 
@@ -1,5 +1,5 @@
 // SPDX-License-Identifier: MIT
-// Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+// Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
 
 #include <iostream>
 #include <numeric>
@@ -194,9 +194,9 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co
             b1_tensors[i].GenerateTensorValue(GeneratorTensor_3<B1DataType>{-0.5, 0.5});
             break;
         default:
-            a0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});
-            b0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
-            b1_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});
+            a0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<A0DataType, 0>{});
+            b0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<B0DataType, 1>{});
+            b1_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<B1DataType, 1>{});
         }
 
         d0_tensors[i].GenerateTensorValue(GeneratorTensor_3<D0DataType>{-0.5, 0.5});
Original file line number	Diff line number	Diff line change
`@@ -76,7 +76,7 @@ struct ProblemSizeSplitK final`
`76`	`76`	`struct ExecutionConfig final`
`77`	`77`	`{`
`78`	`78`	`// 0 - no verification, 1 - CPU, 2 - GPU, 3 - CPU + GPU`
`79`		`- int do_verification = 3;`
	`79`	`+ int do_verification = 1;`
`80`	`80`	`int init_method = 2;`
`81`	`81`	`bool time_kernel = false;`
`82`	`82`	`};`
Original file line number	Diff line number	Diff line change
`@@ -186,15 +186,15 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co`
`186`	`186`	`b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});`
`187`	`187`	`for(int j = 0; j < NumDMatrices; ++j)`
`188`	`188`	`{`
`189`		`- d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<ADataType>{0.0, 1.0});`
	`189`	`+ d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<DDataType>{0.0, 1.0});`
`190`	`190`	`}`
`191`	`191`	`break;`
`192`	`192`	`default:`
`193`		`- a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
`194`		`- b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`193`	`+ a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});`
	`194`	`+ b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});`
`195`	`195`	`for(int j = 0; j < NumDMatrices; ++j)`
`196`	`196`	`{`
`197`		`- d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
	`197`	`+ d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<DDataType, 0>{});`
`198`	`198`	`}`
`199`	`199`	`}`
`200`	`200`	`}`
Original file line number	Diff line number	Diff line change
`@@ -190,15 +190,15 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co`
`190`	`190`	`b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});`
`191`	`191`	`for(int j = 0; j < NumDs; ++j)`
`192`	`192`	`{`
`193`		`- d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<ADataType>{0.0, 1.0});`
	`193`	`+ d_tensors[i][j].GenerateTensorValue(GeneratorTensor_3<DDataType>{0.0, 1.0});`
`194`	`194`	`}`
`195`	`195`	`break;`
`196`	`196`	`default:`
`197`		`- a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
`198`		`- b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`197`	`+ a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});`
	`198`	`+ b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});`
`199`	`199`	`for(int j = 0; j < NumDs; ++j)`
`200`	`200`	`{`
`201`		`- d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
	`201`	`+ d_tensors[i][j].GenerateTensorValue(GeneratorTensor_Sequential<DDataType, 0>{});`
`202`	`202`	`}`
`203`	`203`	`}`
`204`	`204`	`}`
Original file line number	Diff line number	Diff line change
`@@ -167,11 +167,11 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co`
`167`	`167`	`b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});`
`168`	`168`	`break;`
`169`	`169`	`default:`
`170`		`- a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
`171`		`- b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`170`	`+ a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});`
	`171`	`+ b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});`
`172`	`172`	`}`
`173`	`173`
`174`		`- d0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`174`	`+ d0_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<D0DataType, 1>{});`
`175`	`175`	`}`
`176`	`176`
`177`	`177`	`using GroupedGemmKernelArgument = ck::tensor_operation::device::GroupedGemmKernelArgument<1>;`
Original file line number	Diff line number	Diff line change
`@@ -157,8 +157,8 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co`
`157`	`157`	`b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});`
`158`	`158`	`break;`
`159`	`159`	`default:`
`160`		`- a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
`161`		`- b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`160`	`+ a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});`
	`161`	`+ b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});`
`162`	`162`	`}`
`163`	`163`	`}`
`164`	`164`
Original file line number	Diff line number	Diff line change
`@@ -158,8 +158,8 @@ bool run_grouped_gemm(const ProblemSize& problem_size, const ExecutionConfig& co`
`158`	`158`	`b_tensors[i].GenerateTensorValue(GeneratorTensor_3<BDataType>{-0.5, 0.5});`
`159`	`159`	`break;`
`160`	`160`	`default:`
`161`		`- a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<0>{});`
`162`		`- b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`161`	`+ a_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 0>{});`
	`162`	`+ b_tensors[i].GenerateTensorValue(GeneratorTensor_Sequential<BDataType, 1>{});`
`163`	`163`	`}`
`164`	`164`	`}`
`165`	`165`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`// SPDX-License-Identifier: MIT`
`2`		`-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.`
	`2`	`+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.`
`3`	`3`
`4`	`4`	`int run(int argc, char* argv[])`
`5`	`5`	`{`
`@@ -157,7 +157,7 @@ int run(int argc, char* argv[])`
`157`	`157`	`break;`
`158`	`158`	`default:`
`159`	`159`	`a_g_m_k.GenerateTensorValue(GeneratorTensor_1<ADataType>{1});`
`160`		`- b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<1>{});`
	`160`	`+ b0_g_k_n.GenerateTensorValue(GeneratorTensor_Sequential<B0DataType, 1>{});`
`161`	`161`	`b1_g_n_o.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});`
`162`	`162`	`}`
`163`	`163`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`// SPDX-License-Identifier: MIT`
`2`		`-// Copyright (c) 2018-2022, Advanced Micro Devices, Inc. All rights reserved.`
	`2`	`+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.`
`3`	`3`
`4`	`4`	`int run(int argc, char* argv[])`
`5`	`5`	`{`
`@@ -178,7 +178,7 @@ int run(int argc, char* argv[])`
`178`	`178`	`b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_2<B1DataType>{-2, 2});`
`179`	`179`	`break;`
`180`	`180`	`default:`
`181`		`- a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<2>{});`
	`181`	`+ a_gs_ms_ks.GenerateTensorValue(GeneratorTensor_Sequential<ADataType, 2>{});`
`182`	`182`	`b0_gs_ns_ks.GenerateTensorValue(GeneratorTensor_Diagonal<B0DataType>{});`
`183`	`183`	`b1_gs_os_ns.GenerateTensorValue(GeneratorTensor_Diagonal<B1DataType>{});`
`184`	`184`	`}`