diff --git a/pkg/vectorize/length/avx512.s b/pkg/vectorize/length/avx512.s index ecab3f25c61e67efc0b1179e84a19b80e42f9e58..a6d64489ffb4f01c2c6e5e769b04c1935c6fe551 100644 --- a/pkg/vectorize/length/avx512.s +++ b/pkg/vectorize/length/avx512.s @@ -15,39 +15,39 @@ blockloop: VMOVDQU (AX), Y0 VPMOVZXDQ Y0, Z0 VMOVDQU64 Z0, (CX) - VMOVDQU 16(AX), Y0 - VPMOVZXDQ Y0, Z0 - VMOVDQU64 Z0, 32(CX) VMOVDQU 32(AX), Y0 VPMOVZXDQ Y0, Z0 VMOVDQU64 Z0, 64(CX) - VMOVDQU 48(AX), Y0 - VPMOVZXDQ Y0, Z0 - VMOVDQU64 Z0, 96(CX) VMOVDQU 64(AX), Y0 VPMOVZXDQ Y0, Z0 VMOVDQU64 Z0, 128(CX) - VMOVDQU 80(AX), Y0 - VPMOVZXDQ Y0, Z0 - VMOVDQU64 Z0, 160(CX) VMOVDQU 96(AX), Y0 VPMOVZXDQ Y0, Z0 VMOVDQU64 Z0, 192(CX) - VMOVDQU 112(AX), Y0 - VPMOVZXDQ Y0, Z0 - VMOVDQU64 Z0, 224(CX) VMOVDQU 128(AX), Y0 VPMOVZXDQ Y0, Z0 VMOVDQU64 Z0, 256(CX) - VMOVDQU 144(AX), Y0 - VPMOVZXDQ Y0, Z0 - VMOVDQU64 Z0, 288(CX) VMOVDQU 160(AX), Y0 VPMOVZXDQ Y0, Z0 VMOVDQU64 Z0, 320(CX) - VMOVDQU 176(AX), Y0 + VMOVDQU 192(AX), Y0 + VPMOVZXDQ Y0, Z0 + VMOVDQU64 Z0, 384(CX) + VMOVDQU 224(AX), Y0 + VPMOVZXDQ Y0, Z0 + VMOVDQU64 Z0, 448(CX) + VMOVDQU 256(AX), Y0 + VPMOVZXDQ Y0, Z0 + VMOVDQU64 Z0, 512(CX) + VMOVDQU 288(AX), Y0 + VPMOVZXDQ Y0, Z0 + VMOVDQU64 Z0, 576(CX) + VMOVDQU 320(AX), Y0 + VPMOVZXDQ Y0, Z0 + VMOVDQU64 Z0, 640(CX) + VMOVDQU 352(AX), Y0 VPMOVZXDQ Y0, Z0 - VMOVDQU64 Z0, 352(CX) + VMOVDQU64 Z0, 704(CX) ADDQ $0x00000180, AX ADDQ $0x00000300, CX SUBQ $0x00000060, DX