@@ -33,15 +33,15 @@ static void dtrmm_kernel_4x8( BLASLONG n, FLOAT *alpha ,FLOAT *a, FLOAT *b, FLOA
33
33
" vfmadd231pd %%ymm0 , %%ymm1 , %%ymm4 \n\t"
34
34
" vfmadd231pd %%ymm0 , %%ymm2 , %%ymm8 \n\t"
35
35
36
- " vpermpd $0xb1 , %%ymm0 , %%ymm0 \n\t"
36
+ " vpermilpd $0x05 , %%ymm0 , %%ymm0 \n\t"
37
37
" vfmadd231pd %%ymm0 , %%ymm1 , %%ymm5 \n\t"
38
38
" vfmadd231pd %%ymm0 , %%ymm2 , %%ymm9 \n\t"
39
39
40
40
" vpermpd $0x1b , %%ymm0 , %%ymm0 \n\t"
41
41
" vfmadd231pd %%ymm0 , %%ymm1 , %%ymm6 \n\t"
42
42
" vfmadd231pd %%ymm0 , %%ymm2 , %%ymm10 \n\t"
43
43
44
- " vpermpd $0xb1 , %%ymm0 , %%ymm0 \n\t"
44
+ " vpermilpd $0x05 , %%ymm0 , %%ymm0 \n\t"
45
45
" vfmadd231pd %%ymm0 , %%ymm1 , %%ymm7 \n\t"
46
46
" vfmadd231pd %%ymm0 , %%ymm2 , %%ymm11 \n\t"
47
47
@@ -62,18 +62,16 @@ static void dtrmm_kernel_4x8( BLASLONG n, FLOAT *alpha ,FLOAT *a, FLOAT *b, FLOA
62
62
" vmulpd %%ymm0 , %%ymm10, %%ymm10 \n\t"
63
63
" vmulpd %%ymm0 , %%ymm11, %%ymm11 \n\t"
64
64
65
- " vpermpd $0xb1 , %%ymm5 , %%ymm5 \n\t"
66
- " vpermpd $0xb1 , %%ymm7 , %%ymm7 \n\t"
65
+ " vpermilpd $0x05 , %%ymm5 , %%ymm5 \n\t"
66
+ " vpermilpd $0x05 , %%ymm7 , %%ymm7 \n\t"
67
67
68
68
" vblendpd $0x0a , %%ymm5 , %%ymm4 , %%ymm0 \n\t"
69
69
" vblendpd $0x05 , %%ymm5 , %%ymm4 , %%ymm1 \n\t"
70
70
" vblendpd $0x0a , %%ymm7 , %%ymm6 , %%ymm2 \n\t"
71
71
" vblendpd $0x05 , %%ymm7 , %%ymm6 , %%ymm3 \n\t"
72
72
73
- " vpermpd $0x1b , %%ymm2 , %%ymm2 \n\t"
74
- " vpermpd $0x1b , %%ymm3 , %%ymm3 \n\t"
75
- " vpermpd $0xb1 , %%ymm2 , %%ymm2 \n\t"
76
- " vpermpd $0xb1 , %%ymm3 , %%ymm3 \n\t"
73
+ " vperm2f128 $0x01 , %%ymm2 , %%ymm2 , %%ymm2 \n\t"
74
+ " vperm2f128 $0x01 , %%ymm3 , %%ymm3 , %%ymm3 \n\t"
77
75
78
76
" vblendpd $0x03 , %%ymm0 , %%ymm2 , %%ymm4 \n\t"
79
77
" vblendpd $0x03 , %%ymm1 , %%ymm3 , %%ymm5 \n\t"
@@ -85,18 +83,16 @@ static void dtrmm_kernel_4x8( BLASLONG n, FLOAT *alpha ,FLOAT *a, FLOAT *b, FLOA
85
83
" vmovups %%ymm6 , (%7) \n\t"
86
84
" vmovups %%ymm7 , (%8) \n\t"
87
85
88
- " vpermpd $0xb1 , %%ymm9 , %%ymm9 \n\t"
89
- " vpermpd $0xb1 , %%ymm11, %%ymm11 \n\t"
86
+ " vpermilpd $0x05 , %%ymm9 , %%ymm9 \n\t"
87
+ " vpermilpd $0x05 , %%ymm11, %%ymm11 \n\t"
90
88
91
89
" vblendpd $0x0a , %%ymm9 , %%ymm8 , %%ymm0 \n\t"
92
90
" vblendpd $0x05 , %%ymm9 , %%ymm8 , %%ymm1 \n\t"
93
91
" vblendpd $0x0a , %%ymm11, %%ymm10, %%ymm2 \n\t"
94
92
" vblendpd $0x05 , %%ymm11, %%ymm10, %%ymm3 \n\t"
95
93
96
- " vpermpd $0x1b , %%ymm2 , %%ymm2 \n\t"
97
- " vpermpd $0x1b , %%ymm3 , %%ymm3 \n\t"
98
- " vpermpd $0xb1 , %%ymm2 , %%ymm2 \n\t"
99
- " vpermpd $0xb1 , %%ymm3 , %%ymm3 \n\t"
94
+ " vperm2f128 $0x01 , %%ymm2 , %%ymm2 , %%ymm2 \n\t"
95
+ " vperm2f128 $0x01 , %%ymm3 , %%ymm3 , %%ymm3 \n\t"
100
96
101
97
" vblendpd $0x03 , %%ymm0 , %%ymm2 , %%ymm4 \n\t"
102
98
" vblendpd $0x03 , %%ymm1 , %%ymm3 , %%ymm5 \n\t"
0 commit comments