Performance drop on RX 9070XT with BERT Large

# Issue with Bert Large RX 9070XT
While running benchmarks with the [MLPerf BERT reference implementation](https://github.com/mlcommons/inference/tree/master/language/bert), I noticed unusual behavior on the RX 9070XT. Compared to the other GPUs I tested (RX 6700XT, RX 7900XT, and RX 7900XTX) the RX 9070XT delivered significantly lower performance, which was unexpected. Interestingly, this issue does not appear when running the ResNet50 model. After looking deeper into the problem, I found that the kernels running on the RX 9070XT were entirely different. Using rocprofv3, I was able to extract detailed information about them.

**Note:** Both of the tests were run on the same configuration, same system and docker image, the only difference is the GPU that was used.

## Performance Results:

<img width="1837" height="950" alt="Image" src="https://github.com/user-attachments/assets/29a14455-021f-4bd1-a26b-df8de9e3d01a" />

As it can be seen from the charts, the RX 9070XT is underperforming.
## Kernels executed

I used rocprofv3 and modified reference implementation to extract information when only one same query is used and go these kernels:

## RX 9070XT

Name | Calls | TotalDurationNs | AverageNs | Percentage | MinNs | MaxNs | StdDev
-- | -- | -- | -- | -- | -- | -- | --
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 144 | 86617125 | 601507.8 | 88.31 | 241639 | 1613674 | 423386.2
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x16_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 24 | 3420908 | 142537.8 | 3.49 | 126240 | 165520 | 10683.07
Cijk_Ailk_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 24 | 2769751 | 115406.3 | 2.82 | 92040 | 142479 | 9815.69
__amd_rocclr_copyBuffer | 498 | 1658630 | 3330.582 | 1.69 | 2920 | 8800 | 380.0441
void at::native::reduce_kernel<512, 1,   at::native::ReduceOp<bool, at::native::func_wrapper_t<bool,   at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>,   unsigned int, bool, 4, 4> >(at::native::ReduceOp<bool,   at::native::func_wrapper_t<bool,   at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>,   unsigned int, bool, 4, 4>) | 25 | 593076 | 23723.04 | 0.6047 | 11880 | 28078 | 2646.711
void   at::native::elementwise_kernel_manual_unroll<128, 4,   at::native::gpu_kernel_impl_nocast<at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#7}::operator()() const::{lambda(bool, float,   float)#1}>(at::TensorIteratorBase&, at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#7}::operator()() const::{lambda(bool, float, float)#1}   const&)::{lambda(int, bool)#1}>(int,   at::native::gpu_kernel_impl_nocast<at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#7}::operator()() const::{lambda(bool, float,   float)#1}>(at::TensorIteratorBase&, at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#7}::operator()() const::{lambda(bool, float, float)#1}   const&)::{lambda(int, bool)#1}) | 24 | 487437 | 20309.88 | 0.497 | 19520 | 24920 | 1447.94
void   at::native::elementwise_kernel_manual_unroll<128, 4,   at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float>   >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float>   const&)::{lambda(int, bool)#1}>(int,   at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float>   >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float>   const&)::{lambda(int, bool)#1}) | 24 | 481516 | 20063.17 | 0.4909 | 19080 | 31440 | 2589.656
void (anonymous   namespace)::softmax_warp_forward<float, float, float, 9, false,   false>(float*, float const*, int, int, int, bool const*, int, bool) | 24 | 471998 | 19666.58 | 0.4812 | 18879 | 24080 | 1297.626
void at::native::(anonymous   namespace)::vectorized_layer_norm_kernel<float, float>(int, float,   float const*, float const*, float const*, float*, float*, float*) | 49 | 305479 | 6234.265 | 0.3115 | 4920 | 34840 | 4191.964
void   at::native::vectorized_elementwise_kernel<4, at::native::(anonymous   namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul> >(int, at::native::(anonymous   namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul>) | 24 | 254200 | 10591.67 | 0.2592 | 10080 | 12680 | 476.652
void   at::native::vectorized_elementwise_kernel<4,   at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>   >(int, at::native::CUDAFunctor_add<float>, std::array<char*,   3ul>) | 50 | 225920 | 4518.4 | 0.2303 | 3000 | 59920 | 7998.432
void   at::native::vectorized_elementwise_kernel<4,   at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&,   at::native::GeluType)::{lambda()#2}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul> >(int,   at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&,   at::native::GeluType)::{lambda()#2}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul>) | 24 | 224197 | 9341.542 | 0.2286 | 9080 | 12000 | 574.8704
void   at::native::elementwise_kernel_manual_unroll<128, 4,   at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()()   const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int, bool)#1}) | 26 | 159959 | 6152.269 | 0.1631 | 3240 | 7160 | 842.0253
void   at::native::vectorized_elementwise_kernel<4,   at::native::AUnaryFunctor<float, float, float,   at::native::binary_internal::MulFunctor<float> >,   std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float,   float, float, at::native::binary_internal::MulFunctor<float> >,   std::array<char*, 2ul>) | 48 | 149200 | 3108.333 | 0.1521 | 2600 | 4160 | 369.2853
void at::native::(anonymous   namespace)::indexSelectLargeIndex<float, long, unsigned int, 2, 2, -2,   true>(at::cuda::detail::TensorInfo<float, unsigned int>,   at::cuda::detail::TensorInfo<float const, unsigned int>,   at::cuda::detail::TensorInfo<long const, unsigned int>, int, int,   unsigned int, unsigned int, long) | 3 | 125278 | 41759.33 | 0.1277 | 32238 | 49840 | 8888.996
void   at::native::vectorized_elementwise_kernel<4,   at::native::FillFunctor<float>, std::array<char*, 1ul> >(int,   at::native::FillFunctor<float>, std::array<char*, 1ul>) | 24 | 40000 | 1666.667 | 0.0408 | 1520 | 2080 | 106.5942
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT16x16x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT2_2_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 1 | 31080 | 31080 | 0.0317 | 31080 | 31080 | 0.00E+00
__amd_rocclr_fillBufferAligned | 1 | 23840 | 23840 | 0.0243 | 23840 | 23840 | 0.00E+00
void   at::native::elementwise_kernel<128, 4,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()()   const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int)#2}>(int,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()()   const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int)#2}) | 1 | 13240 | 13240 | 0.0135 | 13240 | 13240 | 0.00E+00
void   at::native::vectorized_elementwise_kernel<4,   at::native::AUnaryFunctor<long, long, bool, at::native::(anonymous   namespace)::CompareEqFunctor<long> >, std::array<char*, 2ul>   >(int, at::native::AUnaryFunctor<long, long, bool,   at::native::(anonymous namespace)::CompareEqFunctor<long> >,   std::array<char*, 2ul>) | 1 | 8560 | 8560 | 8.73E-03 | 8560 | 8560 | 0.00E+00
void   at::native::elementwise_kernel<512, 1,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()()   const::{lambda(bool)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool)#1}   const&)::{lambda(int)#1}>(int,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()()   const::{lambda(bool)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool)#1}   const&)::{lambda(int)#1}) | 1 | 6720 | 6720 | 6.85E-03 | 6720 | 6720 | 0.00E+00
void   at::native::vectorized_elementwise_kernel<4,   at::native::CUDAFunctorOnOther_add<float>, std::array<char*, 2ul>   >(int, at::native::CUDAFunctorOnOther_add<float>,   std::array<char*, 2ul>) | 1 | 3960 | 3960 | 4.04E-03 | 3960 | 3960 | 0.00E+00
void   at::native::vectorized_elementwise_kernel<4, at::native::(anonymous   namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar   const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()()   const::{lambda(float, bool)#1}, std::array<char*, 3ul> >(int,   at::native::(anonymous   namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar   const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()()   const::{lambda(float, bool)#1}, std::array<char*, 3ul>) | 1 | 3840 | 3840 | 3.92E-03 | 3840 | 3840 | 0.00E+00
void at::native::(anonymous   namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous   namespace)::OpaqueType<4u>, unsigned int, 3, 128,   1>(at::native::(anonymous namespace)::OpaqueType<4u>*,   at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous   namespace)::OpaqueType<4u>, unsigned int, 128, 1>,   at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>,   int, unsigned int) | 1 | 3800 | 3800 | 3.87E-03 | 3800 | 3800 | 0.00E+00


## RX6700XT


Name | Calls | TotalDurationNs | AverageNs | Percentage | MinNs | MaxNs | StdDev
-- | -- | -- | -- | -- | -- | -- | --
Cijk_Alik_Bljk_SB_MT128x128x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM1 | 96 | 14262131 | 148563.9 | 27.55 | 133881 | 822685 | 70226.74
Cijk_Alik_Bljk_SB_MT128x128x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM4 | 24 | 13360646 | 556693.6 | 25.81 | 526524 | 787845 | 70001.26
Cijk_Alik_Bljk_SB_MT128x256x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS0_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_16_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM4 | 24 | 12408917 | 517038.2 | 23.97 | 468523 | 1180407 | 161467.6
__amd_rocclr_copyBuffer | 498 | 2533929 | 5088.211 | 4.89 | 2440 | 16800 | 4090.984
void   at::native::elementwise_kernel_manual_unroll<128, 4,   at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()()   const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int, bool)#1}) | 171 | 1571047 | 9187.409 | 3.03 | 2560 | 60600 | 5802.94
Cijk_Ailk_Bljk_SB_MT64x64x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG8_8_1_WGM8 | 24 | 1165610 | 48567.08 | 2.25 | 45320 | 100400 | 11114.93
Cijk_Alik_Bljk_SB_MT128x128x8_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS0_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU0_SUM0_SUS0_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_16_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_8_1_WGM4 | 24 | 1126766 | 46948.58 | 2.18 | 41120 | 88681 | 10022.86
void   at::native::elementwise_kernel_manual_unroll<128, 4,   at::native::gpu_kernel_impl_nocast<at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool, float,   float)#1}>(at::TensorIteratorBase&, at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool, float, float)#1}   const&)::{lambda(int, bool)#1}>(int,   at::native::gpu_kernel_impl_nocast<at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool, float,   float)#1}>(at::TensorIteratorBase&, at::native::(anonymous   namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool, float, float)#1}   const&)::{lambda(int, bool)#1}) | 24 | 919483 | 38311.79 | 1.78 | 34880 | 47040 | 4217.463
void   at::native::elementwise_kernel_manual_unroll<128, 4,   at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float>   >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float>   const&)::{lambda(int, bool)#1}>(int,   at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add<float>   >(at::TensorIteratorBase&, at::native::CUDAFunctor_add<float>   const&)::{lambda(int, bool)#1}) | 24 | 829804 | 34575.17 | 1.6 | 31320 | 58120 | 7020.896
void at::native::reduce_kernel<512, 1,   at::native::ReduceOp<bool, at::native::func_wrapper_t<bool,   at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>,   unsigned int, bool, 4, 4> >(at::native::ReduceOp<bool,   at::native::func_wrapper_t<bool,   at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()()   const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>,   unsigned int, bool, 4, 4>) | 25 | 809046 | 32361.84 | 1.56 | 8200 | 43241 | 5713.865
void (anonymous   namespace)::softmax_warp_forward<float, float, float, 9, false,   false>(float*, float const*, int, int, int, bool const*, int, bool) | 24 | 663165 | 27631.88 | 1.28 | 23840 | 55160 | 6767.382
void at::native::(anonymous   namespace)::vectorized_layer_norm_kernel<float, float>(int, float,   float const*, float const*, float const*, float*, float*, float*) | 49 | 505724 | 10320.9 | 0.9769 | 7000 | 21760 | 4849.586
void   at::native::vectorized_elementwise_kernel<4,   at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&,   at::native::GeluType)::{lambda()#2}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul> >(int,   at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&,   at::native::GeluType)::{lambda()#2}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul>) | 24 | 385800 | 16075 | 0.7452 | 13600 | 25000 | 3778.057
void   at::native::vectorized_elementwise_kernel<4, at::native::(anonymous   namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul> >(int, at::native::(anonymous   namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()()   const::{lambda()#2}::operator()() const::{lambda(float)#1},   std::array<char*, 2ul>) | 24 | 325723 | 13571.79 | 0.6292 | 11200 | 21560 | 3633.185
void   at::native::vectorized_elementwise_kernel<4,   at::native::CUDAFunctor_add<float>, std::array<char*, 3ul>   >(int, at::native::CUDAFunctor_add<float>, std::array<char*,   3ul>) | 50 | 320284 | 6405.68 | 0.6187 | 5000 | 27600 | 3856.004
void   at::native::vectorized_elementwise_kernel<4,   at::native::AUnaryFunctor<float, float, float,   at::native::binary_internal::MulFunctor<float> >,   std::array<char*, 2ul> >(int, at::native::AUnaryFunctor<float,   float, float, at::native::binary_internal::MulFunctor<float> >,   std::array<char*, 2ul>) | 48 | 227400 | 4737.5 | 0.4393 | 4080 | 9080 | 845.3892
__amd_rocclr_fillBufferAligned | 1 | 123961 | 123961 | 0.2394 | 123961 | 123961 | 0.00E+00
void at::native::(anonymous   namespace)::indexSelectLargeIndex<float, long, unsigned int, 2, 2, -2,   true>(at::cuda::detail::TensorInfo<float, unsigned int>,   at::cuda::detail::TensorInfo<float const, unsigned int>,   at::cuda::detail::TensorInfo<long const, unsigned int>, int, int,   unsigned int, unsigned int, long) | 3 | 113121 | 37707 | 0.2185 | 13080 | 83841 | 39983.66
void   at::native::vectorized_elementwise_kernel<4,   at::native::FillFunctor<float>, std::array<char*, 1ul> >(int,   at::native::FillFunctor<float>, std::array<char*, 1ul>) | 24 | 53680 | 2236.667 | 0.1037 | 1160 | 11680 | 2807.565
Cijk_Alik_Bljk_SB_MT16x16x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS0_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA1_GLVWB1_GRCGA1_GRCGB1_GRPM1_GRVW1_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW1_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT2_2_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW1_VWB1_VFLRP0_WSGRA0_WSGRB0_WS32_WG8_8_1_WGM1 | 1 | 25600 | 25600 | 0.0494 | 25600 | 25600 | 0.00E+00
void   at::native::vectorized_elementwise_kernel<4,   at::native::CUDAFunctorOnOther_add<float>, std::array<char*, 2ul>   >(int, at::native::CUDAFunctorOnOther_add<float>,   std::array<char*, 2ul>) | 1 | 10840 | 10840 | 0.0209 | 10840 | 10840 | 0.00E+00
void   at::native::elementwise_kernel<128, 4,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()()   const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int)#2}>(int,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()()   const::{lambda(float)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#7}::operator()() const::{lambda(float)#1}   const&)::{lambda(int)#2}) | 1 | 10440 | 10440 | 0.0202 | 10440 | 10440 | 0.00E+00
void   at::native::elementwise_kernel<512, 1,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()()   const::{lambda(bool)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool)#1}   const&)::{lambda(int)#1}>(int,   at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()()   const::{lambda(bool)#1}>(at::TensorIteratorBase&,   at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()()   const::{lambda()#11}::operator()() const::{lambda(bool)#1}   const&)::{lambda(int)#1}) | 1 | 5680 | 5680 | 0.011 | 5680 | 5680 | 0.00E+00
void   at::native::vectorized_elementwise_kernel<4,   at::native::AUnaryFunctor<long, long, bool, at::native::(anonymous   namespace)::CompareEqFunctor<long> >, std::array<char*, 2ul>   >(int, at::native::AUnaryFunctor<long, long, bool,   at::native::(anonymous namespace)::CompareEqFunctor<long> >,   std::array<char*, 2ul>) | 1 | 5160 | 5160 | 9.97E-03 | 5160 | 5160 | 0.00E+00
void at::native::(anonymous   namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous   namespace)::OpaqueType<4u>, unsigned int, 3, 128,   1>(at::native::(anonymous namespace)::OpaqueType<4u>*,   at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous   namespace)::OpaqueType<4u>, unsigned int, 128, 1>,   at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>,   int, unsigned int) | 1 | 3640 | 3640 | 7.03E-03 | 3640 | 3640 | 0.00E+00
void   at::native::vectorized_elementwise_kernel<4, at::native::(anonymous   namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar   const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()()   const::{lambda(float, bool)#1}, std::array<char*, 3ul> >(int,   at::native::(anonymous   namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar   const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()()   const::{lambda(float, bool)#1}, std::array<char*, 3ul>) | 1 | 2240 | 2240 | 4.33E-03 | 2240 | 2240 | 0.00E+00



## Highest Impact Kernel

The first kernel appears to be the main contributors to the poor BERT performance on RX 9070XT:

### RX 9070XT

Name | Calls | TotalDurationNs | AverageNs | Percentage | MinNs | MaxNs | StdDev
-- | -- | -- | -- | -- | -- | -- | --
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 144 | 86617125 | 601507.8 | 88.31 | 241639 | 1613674 | 423386.2
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x16_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 24 | 3420908 | 142537.8 | 3.49 | 126240 | 165520 | 10683.07
Cijk_Ailk_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1 | 24 | 2769751 | 115406.3 | 2.82 | 92040 | 142479 | 9815.69



### RX 6700XT

Name | Calls | TotalDurationNs | AverageNs | Percentage | MinNs | MaxNs | StdDev
-- | -- | -- | -- | -- | -- | -- | --
Cijk_Alik_Bljk_SB_MT128x128x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM1 | 96 | 14262131 | 148563.9 | 27.55 | 133881 | 822685 | 70226.74
Cijk_Alik_Bljk_SB_MT128x128x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM4 | 24 | 13360646 | 556693.6 | 25.81 | 526524 | 787845 | 70001.26
Cijk_Alik_Bljk_SB_MT128x256x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS0_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_16_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM4 | 24 | 12408917 | 517038.2 | 23.97 | 468523 | 1180407 | 161467.6

---

As shown, for the RX 9070XT the catalog of tuned kernels selects the 8×8×8 tile with the bias-add variant as the highest-ranked for the given descriptor settings, whereas for the RX 6700XT the 128×128×16 tile is chosen, which delivers significantly higher performance.

## Kernel Trace Files
[bert-single-stream-1_kernel_trace_rx6700xt.csv](https://github.com/user-attachments/files/22364537/bert-single-stream-1_kernel_trace_rx6700xt.csv)

[bert-single-stream-1_kernel_trace_rx9070xt.csv](https://github.com/user-attachments/files/22364559/bert-single-stream-1_kernel_trace_rx9070xt.csv)

## System Information
- ROCm Ubuntu 24.04 Docker image rocm/dev-ubuntu-24.04:6.4.1-complete
- MLPerf Inference BERT Reference Implementation 

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Performance drop on RX 9070XT with BERT Large #2644

Issue with Bert Large RX 9070XT

Performance Results:

Kernels executed

RX 9070XT

RX6700XT

Highest Impact Kernel

RX 9070XT

RX 6700XT

Kernel Trace Files

System Information

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Name	Calls	TotalDurationNs	AverageNs	Percentage	MinNs	MaxNs	StdDev
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1	144	86617125	601507.8	88.31	241639	1613674	423386.2
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x16_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1	24	3420908	142537.8	3.49	126240	165520	10683.07
Cijk_Ailk_Bljk_SB_Bias_HAS_SAV_UserArgs_MT8x8x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT1_1_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1	24	2769751	115406.3	2.82	92040	142479	9815.69
__amd_rocclr_copyBuffer	498	1658630	3330.582	1.69	2920	8800	380.0441
void at::native::reduce_kernel<512, 1, at::native::ReduceOp<bool, at::native::func_wrapper_t<bool, at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>, unsigned int, bool, 4, 4> >(at::native::ReduceOp<bool, at::native::func_wrapper_t<bool, at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>, unsigned int, bool, 4, 4>)	25	593076	23723.04	0.6047	11880	28078	2646.711
void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(bool, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(bool, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(bool, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(bool, float, float)#1} const&)::{lambda(int, bool)#1})	24	487437	20309.88	0.497	19520	24920	1447.94
void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add >(at::TensorIteratorBase&, at::native::CUDAFunctor_add const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add >(at::TensorIteratorBase&, at::native::CUDAFunctor_add const&)::{lambda(int, bool)#1})	24	481516	20063.17	0.4909	19080	31440	2589.656
void (anonymous namespace)::softmax_warp_forward<float, float, float, 9, false, false>(float, float const, int, int, int, bool const*, int, bool)	24	471998	19666.58	0.4812	18879	24080	1297.626
void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const, float const, float const, float, float, float)	49	305479	6234.265	0.3115	4920	34840	4191.964
void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul> >(int, at::native::(anonymous namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul>)	24	254200	10591.67	0.2592	10080	12680	476.652
void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add, std::array<char, 3ul> >(int, at::native::CUDAFunctor_add, std::array<char, 3ul>)	50	225920	4518.4	0.2303	3000	59920	7998.432
void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul>)	24	224197	9341.542	0.2286	9080	12000	574.8704
void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})	26	159959	6152.269	0.1631	3240	7160	842.0253
void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor >, std::array<char, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor >, std::array<char, 2ul>)	48	149200	3108.333	0.1521	2600	4160	369.2853
void at::native::(anonymous namespace)::indexSelectLargeIndex<float, long, unsigned int, 2, 2, -2, true>(at::cuda::detail::TensorInfo<float, unsigned int>, at::cuda::detail::TensorInfo<float const, unsigned int>, at::cuda::detail::TensorInfo<long const, unsigned int>, int, int, unsigned int, unsigned int, long)	3	125278	41759.33	0.1277	32238	49840	8888.996
void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor, std::array<char, 1ul> >(int, at::native::FillFunctor, std::array<char, 1ul>)	24	40000	1666.667	0.0408	1520	2080	106.5942
Cijk_Alik_Bljk_SB_Bias_HAS_SAV_UserArgs_MT16x16x8_SN_LDSB0_AFC1_AFEM1_AFEM1_ASEM1_CLR0_CADS0_DTVA0_DTVB0_EPS1_FDSI0_GRPM1_GRVWA1_GRVWB1_GSUAMB_GLS0_ISA1201_IU1_K1_LBSPPA0_LBSPPB0_LBSPPM0_LPA0_LPB0_LPM0_LRVW1_LWPMn1_MIAV0_MO40_NTn1_NTA0_NTB0_NTC0_NTD0_NTM0_NEPBS0_NLCA1_NLCB1_ONLL1_PGR1_PLR0_PKA0_SIA1_SS0_SPO0_SRVW0_SSO0_SVW1_SK0_SKXCCM0_TT2_2_TLDS0_ULSGRO0_USL1_UIOFGRO0_USFGROn1_VSn1_VWA1_VWB1_WSGRA0_WSGRB0_WS64_WG8_8_1	1	31080	31080	0.0317	31080	31080	0.00E+00
__amd_rocclr_fillBufferAligned	1	23840	23840	0.0243	23840	23840	0.00E+00
void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#2}>(int, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#2})	1	13240	13240	0.0135	13240	13240	0.00E+00
void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<long, long, bool, at::native::(anonymous namespace)::CompareEqFunctor >, std::array<char, 2ul> >(int, at::native::AUnaryFunctor<long, long, bool, at::native::(anonymous namespace)::CompareEqFunctor >, std::array<char, 2ul>)	1	8560	8560	8.73E-03	8560	8560	0.00E+00
void at::native::elementwise_kernel<512, 1, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1} const&)::{lambda(int)#1})	1	6720	6720	6.85E-03	6720	6720	0.00E+00
void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnOther_add, std::array<char, 2ul> >(int, at::native::CUDAFunctorOnOther_add, std::array<char, 2ul>)	1	3960	3960	4.04E-03	3960	3960	0.00E+00
void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(float, bool)#1}, std::array<char, 3ul> >(int, at::native::(anonymous namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(float, bool)#1}, std::array<char, 3ul>)	1	3840	3840	3.92E-03	3840	3840	0.00E+00
void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 3, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)	1	3800	3800	3.87E-03	3800	3800	0.00E+00

Name	Calls	TotalDurationNs	AverageNs	Percentage	MinNs	MaxNs	StdDev
Cijk_Alik_Bljk_SB_MT128x128x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM1	96	14262131	148563.9	27.55	133881	822685	70226.74
Cijk_Alik_Bljk_SB_MT128x128x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM4	24	13360646	556693.6	25.81	526524	787845	70001.26
Cijk_Alik_Bljk_SB_MT128x256x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS0_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_16_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_16_1_WGM4	24	12408917	517038.2	23.97	468523	1180407	161467.6
__amd_rocclr_copyBuffer	498	2533929	5088.211	4.89	2440	16800	4090.984
void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int, bool)#1})	171	1571047	9187.409	3.03	2560	60600	5802.94
Cijk_Ailk_Bljk_SB_MT64x64x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_8_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG8_8_1_WGM8	24	1165610	48567.08	2.25	45320	100400	11114.93
Cijk_Alik_Bljk_SB_MT128x128x8_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS3_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS0_ELFLR0_EMLL0_FSSC10_FL0_GLVWA4_GLVWB4_GRCGA1_GRCGB1_GRPM1_GRVW4_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW4_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU0_SUM0_SUS0_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT8_16_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW4_VWB4_VFLRP0_WSGRA0_WSGRB0_WS32_WG16_8_1_WGM4	24	1126766	46948.58	2.18	41120	88681	10022.86
void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool, float, float)#1} const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool, float, float)#1}>(at::TensorIteratorBase&, at::native::(anonymous namespace)::where_kernel_impl(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool, float, float)#1} const&)::{lambda(int, bool)#1})	24	919483	38311.79	1.78	34880	47040	4217.463
void at::native::elementwise_kernel_manual_unroll<128, 4, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add >(at::TensorIteratorBase&, at::native::CUDAFunctor_add const&)::{lambda(int, bool)#1}>(int, at::native::gpu_kernel_impl_nocast<at::native::CUDAFunctor_add >(at::TensorIteratorBase&, at::native::CUDAFunctor_add const&)::{lambda(int, bool)#1})	24	829804	34575.17	1.6	31320	58120	7020.896
void at::native::reduce_kernel<512, 1, at::native::ReduceOp<bool, at::native::func_wrapper_t<bool, at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>, unsigned int, bool, 4, 4> >(at::native::ReduceOp<bool, at::native::func_wrapper_t<bool, at::native::and_kernel_cuda(at::TensorIterator&)::{lambda()#1}::operator()() const::{lambda()#12}::operator()() const::{lambda(bool, bool)#1}>, unsigned int, bool, 4, 4>)	25	809046	32361.84	1.56	8200	43241	5713.865
void (anonymous namespace)::softmax_warp_forward<float, float, float, 9, false, false>(float, float const, int, int, int, bool const*, int, bool)	24	663165	27631.88	1.28	23840	55160	6767.382
void at::native::(anonymous namespace)::vectorized_layer_norm_kernel<float, float>(int, float, float const, float const, float const, float, float, float)	49	505724	10320.9	0.9769	7000	21760	4849.586
void at::native::vectorized_elementwise_kernel<4, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul> >(int, at::native::GeluCUDAKernelImpl(at::TensorIteratorBase&, at::native::GeluType)::{lambda()#2}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul>)	24	385800	16075	0.7452	13600	25000	3778.057
void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul> >(int, at::native::(anonymous namespace)::isneginf_kernel_impl(at::TensorIteratorBase&)::{lambda()#1}::operator()() const::{lambda()#2}::operator()() const::{lambda(float)#1}, std::array<char, 2ul>)	24	325723	13571.79	0.6292	11200	21560	3633.185
void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctor_add, std::array<char, 3ul> >(int, at::native::CUDAFunctor_add, std::array<char, 3ul>)	50	320284	6405.68	0.6187	5000	27600	3856.004
void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor >, std::array<char, 2ul> >(int, at::native::AUnaryFunctor<float, float, float, at::native::binary_internal::MulFunctor >, std::array<char, 2ul>)	48	227400	4737.5	0.4393	4080	9080	845.3892
__amd_rocclr_fillBufferAligned	1	123961	123961	0.2394	123961	123961	0.00E+00
void at::native::(anonymous namespace)::indexSelectLargeIndex<float, long, unsigned int, 2, 2, -2, true>(at::cuda::detail::TensorInfo<float, unsigned int>, at::cuda::detail::TensorInfo<float const, unsigned int>, at::cuda::detail::TensorInfo<long const, unsigned int>, int, int, unsigned int, unsigned int, long)	3	113121	37707	0.2185	13080	83841	39983.66
void at::native::vectorized_elementwise_kernel<4, at::native::FillFunctor, std::array<char, 1ul> >(int, at::native::FillFunctor, std::array<char, 1ul>)	24	53680	2236.667	0.1037	1160	11680	2807.565
Cijk_Alik_Bljk_SB_MT16x16x16_SN_1LDSB0_APM1_ABV0_ACED0_AF0EM1_AF1EM1_AMAS0_ASE_ASGT_ASLT_ASM_ASAE01_ASCE01_ASEM1_AAC0_BL1_BS1_CLR0_DTLA0_DTLB0_DTVA0_DTVB0_DVO0_ETSP_EPS1_ELFLR0_EMLL0_FSSC10_FL0_GLVWA1_GLVWB1_GRCGA1_GRCGB1_GRPM1_GRVW1_GSU1_GSUASB_GLS0_ISA1030_IU1_K1_KLA_LBSPPA0_LBSPPB0_LPA0_LPB0_LDL1_LRVW1_LWPMn1_LDW0_FMA_MIAV0_MDA2_MO40_MMFGLC_MKFGSU256_NTA0_NTB0_NTC0_NTD0_NEPBS0_NLCA1_NLCB1_ONLL1_OPLV0_PK0_PAP0_PGR1_PLR1_PKA0_SIA1_SLW1_SS0_SU32_SUM3_SUS128_SCIUI1_SPO0_SRVW0_SSO0_SVW4_SNLL0_TSGRA0_TSGRB0_TT2_2_TLDS0_UMLDSA0_UMLDSB0_U64SL1_USFGROn1_VAW1_VSn1_VW1_VWB1_VFLRP0_WSGRA0_WSGRB0_WS32_WG8_8_1_WGM1	1	25600	25600	0.0494	25600	25600	0.00E+00
void at::native::vectorized_elementwise_kernel<4, at::native::CUDAFunctorOnOther_add, std::array<char, 2ul> >(int, at::native::CUDAFunctorOnOther_add, std::array<char, 2ul>)	1	10840	10840	0.0209	10840	10840	0.00E+00
void at::native::elementwise_kernel<128, 4, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#2}>(int, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#7}::operator()() const::{lambda(float)#1} const&)::{lambda(int)#2})	1	10440	10440	0.0202	10440	10440	0.00E+00
void at::native::elementwise_kernel<512, 1, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1} const&)::{lambda(int)#1}>(int, at::native::gpu_kernel_impl<at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1}>(at::TensorIteratorBase&, at::native::direct_copy_kernel_cuda(at::TensorIteratorBase&)::{lambda()#3}::operator()() const::{lambda()#11}::operator()() const::{lambda(bool)#1} const&)::{lambda(int)#1})	1	5680	5680	0.011	5680	5680	0.00E+00
void at::native::vectorized_elementwise_kernel<4, at::native::AUnaryFunctor<long, long, bool, at::native::(anonymous namespace)::CompareEqFunctor >, std::array<char, 2ul> >(int, at::native::AUnaryFunctor<long, long, bool, at::native::(anonymous namespace)::CompareEqFunctor >, std::array<char, 2ul>)	1	5160	5160	9.97E-03	5160	5160	0.00E+00
void at::native::(anonymous namespace)::CatArrayBatchedCopy_contig<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 3, 128, 1>(at::native::(anonymous namespace)::OpaqueType<4u>*, at::native::(anonymous namespace)::CatArrInputTensorMetadata<at::native::(anonymous namespace)::OpaqueType<4u>, unsigned int, 128, 1>, at::native::(anonymous namespace)::TensorSizeStride<unsigned int, 4u>, int, unsigned int)	1	3640	3640	7.03E-03	3640	3640	0.00E+00
void at::native::vectorized_elementwise_kernel<4, at::native::(anonymous namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(float, bool)#1}, std::array<char, 3ul> >(int, at::native::(anonymous namespace)::masked_fill_kernel(at::TensorIterator&, c10::Scalar const&)::{lambda()#1}::operator()() const::{lambda()#7}::operator()() const::{lambda(float, bool)#1}, std::array<char, 3ul>)	1	2240	2240	4.33E-03	2240	2240	0.00E+00

Performance drop on RX 9070XT with BERT Large #2644

Description

Issue with Bert Large RX 9070XT

Performance Results:

Kernels executed

RX 9070XT

RX6700XT

Highest Impact Kernel

RX 9070XT

RX 6700XT

Kernel Trace Files

System Information

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions