__mm256_srl_epi64() returns different results on LDC when -mattr=+avx2 is on #143

apbryan · 2024-08-13T02:24:02Z

The following code fails on my machine when compiling (ldc) with -mattr=+avx2

unittest                                                                                                                     
{                                                                                                                            
    import inteli.avx2intrin;                                                                                                
    import std.stdio;                                                                                                        
                                                                                                                             
    long4 start = [0xffff_ffff_0000_0000,                                                                                    
                    0xffff_ffff_0000_0000,                                                                                   
                    0xffff_ffff_0000_0000,                                                                                   
                    0xffff_ffff_0000_0000];                                                                                  
    int4 shift = [32,0,0,0];                                                                                                 
    long4 res = _mm256_srl_epi64(start, shift);                                                                              
    long4 expected = [0x0000_0000_ffff_ffff,                                                                                 
                      0x0000_0000_ffff_ffff,                                                                                 
                      0x0000_0000_ffff_ffff,                                                                                 
                      0x0000_0000_ffff_ffff];                                                                                
    writefln!"%(0x%08x %)"(res.array);                                                                                       
    assert(res.array == expected.array);                                                                                     
}

When NOT building with -mattr=+avx2:

alex@compy  xxhash-d/trunk dub test --compiler=ldc2 --force -v                                                        22:14:30 24-08-12
Note: Failed to determine version of package xxhash-d at .. Assuming ~master.
Scanning local packages...
  Found dependency intel-intrinsics 1.11.19
             Generating test runner configuration 'xxhash-d-test-library' for 'library' (library).
Get module name from path: /home/alex/programming/xxhash-d/trunk/source/xxhash.d
Get module name from path: /home/alex/programming/xxhash-d/trunk/source/xxhash3.d
Configuring dependent xxhash-d, deps:"intel-intrinsics"
  Configuring dependent intel-intrinsics, deps:
    Starting Performing "unittest" build using ldc2 for x86_64.
    Building intel-intrinsics 1.11.19: building configuration [library]
ldc2 -d-debug -g -w --oq -od=/home/alex/.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/obj -d-version=Have_intel_intrinsics -I../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/avx2intrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/avxintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/bmi2intrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/emmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/internals.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/math.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/mmx.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/nmmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/package.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/pmmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/shaintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/smmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/tmmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/types.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/xmmintrin.d -lib -of/home/alex/.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/libintel-intrinsics.a -vcolumns
Copying target from /home/alex/.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/libintel-intrinsics.a to /home/alex/.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics
    Building xxhash-d ~master: building configuration [xxhash-d-test-library]
ldc2 -d-debug -g -unittest -w --oq -od=/home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-ivhtjaULboegsICHPTxUEQ/obj -d-version=Have_xxhash_d -d-version=Have_intel_intrinsics -Isource/ -I../../../.dub/cache/xxhash-d/~master/code/xxhash-d-test-library-unittest-_BNJh3iyL7ewM_mTcxPsSQ -I../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source ../../../.dub/cache/xxhash-d/~master/code/xxhash-d-test-library-unittest-_BNJh3iyL7ewM_mTcxPsSQ/dub_test_root.d source/xxhash.d source/xxhash3.d -preview=in -preview=dip1000 -preview=dip1008 -c -of/home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-ivhtjaULboegsICHPTxUEQ/xxhash-d-test-library.o -vcolumns
     Linking xxhash-d-test-library
ldc2 -of/home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-ivhtjaULboegsICHPTxUEQ/xxhash-d-test-library /home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-ivhtjaULboegsICHPTxUEQ/xxhash-d-test-library.o ../../../.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/libintel-intrinsics.a -L--no-as-needed -g
Copying target from /home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-ivhtjaULboegsICHPTxUEQ/xxhash-d-test-library to /home/alex/programming/xxhash-d/trunk
     Running xxhash-d-test-library 
0xffffffff 0xffffffff 0xffffffff 0xffffffff
1 modules passed unittests

When building with -mattr=+avx2:

alex@compy  xxhash-d/trunk dub test --compiler=ldc2 --force -v                                                        22:17:35 24-08-12
Note: Failed to determine version of package xxhash-d at .. Assuming ~master.
Scanning local packages...
  Found dependency intel-intrinsics 1.11.19
             Generating test runner configuration 'xxhash-d-test-library' for 'library' (library).
Get module name from path: /home/alex/programming/xxhash-d/trunk/source/xxhash.d
Get module name from path: /home/alex/programming/xxhash-d/trunk/source/xxhash3.d
Configuring dependent xxhash-d, deps:"intel-intrinsics"
  Configuring dependent intel-intrinsics, deps:
    Starting Performing "unittest" build using ldc2 for x86_64.
    Building intel-intrinsics 1.11.19: building configuration [library]
ldc2 -d-debug -g -w --oq -od=/home/alex/.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/obj -d-version=Have_intel_intrinsics -I../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/avx2intrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/avxintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/bmi2intrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/emmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/internals.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/math.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/mmx.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/nmmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/package.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/pmmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/shaintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/smmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/tmmintrin.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/types.d ../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source/inteli/xmmintrin.d -lib -of/home/alex/.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/libintel-intrinsics.a -vcolumns
Copying target from /home/alex/.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/libintel-intrinsics.a to /home/alex/.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics
    Building xxhash-d ~master: building configuration [xxhash-d-test-library]
ldc2 -d-debug -g -unittest -w --oq -od=/home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-IwBIdhnKYnjHStNI3AjrCg/obj -d-version=Have_xxhash_d -d-version=Have_intel_intrinsics -Isource/ -I../../../.dub/cache/xxhash-d/~master/code/xxhash-d-test-library-unittest-_BNJh3iyL7ewM_mTcxPsSQ -I../../../.dub/packages/intel-intrinsics/1.11.19/intel-intrinsics/source ../../../.dub/cache/xxhash-d/~master/code/xxhash-d-test-library-unittest-_BNJh3iyL7ewM_mTcxPsSQ/dub_test_root.d source/xxhash.d source/xxhash3.d -preview=in -preview=dip1000 -preview=dip1008 mattr=+avx2 -c -of/home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-IwBIdhnKYnjHStNI3AjrCg/xxhash-d-test-library.o -vcolumns
     Linking xxhash-d-test-library
ldc2 -of/home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-IwBIdhnKYnjHStNI3AjrCg/xxhash-d-test-library /home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-IwBIdhnKYnjHStNI3AjrCg/xxhash-d-test-library.o ../../../.dub/cache/intel-intrinsics/1.11.19/build/library-unittest-pN-lT8bZKhbU81suGMOpGA/libintel-intrinsics.a -L--no-as-needed -g
Copying target from /home/alex/.dub/cache/xxhash-d/~master/build/xxhash-d-test-library-unittest-IwBIdhnKYnjHStNI3AjrCg/xxhash-d-test-library to /home/alex/programming/xxhash-d/trunk
     Running xxhash-d-test-library 
0x00000000 0x00000000 0xffffffff00000000 0xffffffff00000000
core.exception.AssertError@source/xxhash3.d(1340): Assertion failure
----------------
??:? _d_assert [0x7efd3b3f0792]
source/xxhash3.d:1340 [0x556289fc256d]
source/xxhash3.d [0x556289fe1caf]
??:? [0x7efd3b413445]
??:? [0x7efd3b43153a]
??:? int rt.sections_elf_shared.DSO.opApply(scope int delegate(ref rt.sections_elf_shared.DSO)) [0x7efd3b4325c8]
??:? int rt.minfo.moduleinfos_apply(scope int delegate(immutable(object.ModuleInfo*))) [0x7efd3b4314cb]
??:? int object.ModuleInfo.opApply(scope int delegate(object.ModuleInfo*)) [0x7efd3b41f17e]
??:? runModuleUnitTests [0x7efd3b4132f4]
??:? void rt.dmain2._d_run_main2(char[][], ulong, extern (C) int function(char[][])*).runAll() [0x7efd3b427b4a]
??:? _d_run_main2 [0x7efd3b427995]
??:? _d_run_main [0x7efd3b4277ed]
/usr/lib/ldc/x86_64-linux-gnu/include/d/core/internal/entrypoint.d:42 [0x556289fe2451]
??:? [0x7efd3ab67249]
??:? __libc_start_main [0x7efd3ab67304]
??:? [0x556289fb7420]
1/1 modules FAILED unittests
Error Program exited with code 1

CPU information:

alex@compy  xxhash-d/trunk lscpu                                                                                      22:21:08 24-08-12
Architecture:             x86_64
  CPU op-mode(s):         32-bit, 64-bit
  Address sizes:          48 bits physical, 48 bits virtual
  Byte Order:             Little Endian
CPU(s):                   24
  On-line CPU(s) list:    0-23
Vendor ID:                AuthenticAMD
  Model name:             AMD Ryzen 9 7900X 12-Core Processor
    CPU family:           25
    Model:                97
    Thread(s) per core:   2
    Core(s) per socket:   12
    Socket(s):            1
    Stepping:             2
    Frequency boost:      enabled
    CPU(s) scaling MHz:   52%
    CPU max MHz:          5732.7139
    CPU min MHz:          3000.0000
    BogoMIPS:             9382.49
    Flags:                fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall n
                          x mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good amd_lbr_v2 nopl nonstop_tsc cpuid extd_apicid aperfm
                          perf rapl pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand lah
                          f_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt tce topoext per
                          fctr_core perfctr_nb bpext perfctr_llc mwaitx cpb cat_l3 cdp_l3 hw_pstate ssbd mba perfmon_v2 ibrs ibpb stibp 
                          ibrs_enhanced vmmcall fsgsbase bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a avx512f avx512dq rdseed adx smap avx
                          512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc
                           cqm_mbm_total cqm_mbm_local avx512_bf16 clzero irperf xsaveerptr rdpru wbnoinvd cppc arat npt lbrv svm_lock n
                          rip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif x2av
                          ic v_spec_ctrl avx512vbmi umip pku ospke avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg avx512_vp
                          opcntdq rdpid overflow_recov succor smca fsrm flush_l1d amd_lbr_pmc_freeze
Virtualization features:  
  Virtualization:         AMD-V
Caches (sum of all):      
  L1d:                    384 KiB (12 instances)
  L1i:                    384 KiB (12 instances)
  L2:                     12 MiB (12 instances)
  L3:                     64 MiB (2 instances)
NUMA:                     
  NUMA node(s):           1
  NUMA node0 CPU(s):      0-23
Vulnerabilities:          
  Gather data sampling:   Not affected
  Itlb multihit:          Not affected
  L1tf:                   Not affected
  Mds:                    Not affected
  Meltdown:               Not affected
  Mmio stale data:        Not affected
  Reg file data sampling: Not affected
  Retbleed:               Not affected
  Spec rstack overflow:   Mitigation; safe RET, no microcode
  Spec store bypass:      Mitigation; Speculative Store Bypass disabled via prctl
  Spectre v1:             Mitigation; usercopy/swapgs barriers and __user pointer sanitization
  Spectre v2:             Mitigation; Enhanced / Automatic IBRS; IBPB conditional; STIBP always-on; RSB filling; PBRSB-eIBRS Not affecte
                          d; BHI Not affected
  Srbds:                  Not affected
  Tsx async abort:        Not affected

If _mm256_srli_epi64() was implemented I would just use that instead :)

The text was updated successfully, but these errors were encountered:

p0nce · 2024-08-13T12:56:56Z

Hello, your unittest seems to pass here, what's your LDC version? (EDIT: and OS?)

p0nce · 2024-08-13T13:56:36Z

1.11.20 now implements _mm256_srli_epi64, please dub upgrade

I think you got trapped by an old LDC promoting your int 32 into a int4 equal to [32, 32, 32, 32], that instruction is a trap because of this, it would then asks a shift of (32 << 32) + 32 bits. That's why we advise to use _mm256_srli_epi64 instead of _mm256_srl_epi64

THAT SAID, it seems newer LDC prevent such implicit conversions. As said, I don't repro your unittest, which is odd.

apbryan · 2024-08-13T22:48:52Z

Thanks for responding and implementing _mm256_srli_epi64()!

Looking at the output more, I realized while my application was being compiled with -mattr=+avx2, intel-intrinsics was not. After changing:

dependency "intel-intrinsics" version="~>1.0"

to

dependency "intel-intrinsics" version="~>1.0" {                                                                             
    dflags "-mattr=+avx2" "-O3"                                                                                             
}

and also replacing _mm256_srl_epi64() with _mm256_srli_epi64(), my unittest now passes; though it does not pass when intel-intrinsics is not built with -mattr=+avx2

This is reproducible by me on debian 12 bookworm with both the repo version of LDC v1.30.0 and a freshly compiled v1.39.0

p0nce · 2024-08-14T08:36:07Z

I still can't repro on Windows or godbolt, I'm going to left it here.
Probably you should be able to comment __builtin_ia32_psrlq128 in _mm_srl_epi64 to get it to work, let me know.

Probably need your LLVM version with ldc2 --version too.

apbryan · 2025-01-21T04:32:02Z

Sorry for taking so long to reply. Best I can tell is that the fallback implementation of _mm256_srli_epi64() (when -mattr=+avx2 is not passed in) is incorrect:

alex@compy  programming/intel-intinsics-bug tree                                                             23:26:31 25-01-20
.
├── dub.sdl
├── dub.selections.json
├── intel-intinsics-bug
└── source
    └── app.d

2 directories, 4 files



alex@compy  programming/intel-intinsics-bug cat dub.sdl                                                      23:26:50 25-01-20
name "intel-intinsics-bug"
description "A minimal D application."
authors "alex"
copyright "Copyright © 2025, alex"
license "MPL-2.0"

dflags "-mattr=+avx2" "--enable-cross-module-inlining" platform="ldc"

dependency "intel-intrinsics" version="~>1.0" {
    //dflags "-mattr=+avx2" // unittest works when this line is uncommented
}



alex@compy  programming/intel-intinsics-bug cat source/app.d                                                 23:27:29 25-01-20
import std.stdio;

void main()
{
	writeln("Edit source/app.d to start your project.");
}

unittest
{
    import inteli.avx2intrin;
    import std.stdio;

    long4 start = [0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000];
    long4 res = _mm256_srli_epi64(start, 32);
    long4 expected = [0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff];
    writefln!("start:\n%(0x%08x %)")(start.array);
    writefln!"after shift of 32 bits\n%(0x%08x %)"(res.array);
    assert(res.array == expected.array);
}


alex@compy  programming/intel-intinsics-bug dub test --compiler=ldc2 --verbose                               23:27:37 25-01-20
Note: Failed to determine version of package intel-intinsics-bug at .. Assuming ~master.
Scanning local packages...
  Found dependency intel-intrinsics 1.11.23
             No source files found in configuration 'library'. Falling back to default configuration for test runner.
Configuring dependent intel-intinsics-bug, deps:"intel-intrinsics"
  Configuring dependent intel-intrinsics, deps:
    Starting Performing "unittest" build using ldc2 for x86_64.
  Up-to-date intel-intrinsics 1.11.23: target for configuration [library] is up to date.
Using existing build in /home/alex/.dub/cache/intel-intrinsics/1.11.23/build/library-unittest-6sIo7rx9_n0i96XgOdHAhQ.
Copying target from /home/alex/.dub/cache/intel-intrinsics/1.11.23/build/library-unittest-6sIo7rx9_n0i96XgOdHAhQ/libintel-intrinsics.a to /home/alex/.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics
  Up-to-date intel-intinsics-bug ~master: target for configuration [application] is up to date.
Using existing build in /home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-WSQPQ1vsKCcc6rRAdGhMyg.
Copying target from /home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-WSQPQ1vsKCcc6rRAdGhMyg/intel-intinsics-bug to /home/alex/programming/intel-intinsics-bug
    Finished To force a rebuild of up-to-date targets, run again with --force
     Running intel-intinsics-bug 
start:
0xffffffff00000000 0xffffffff00000000 0xffffffff00000000 0xffffffff00000000
after shift of 32 bits
0xffffffff 0xffffffff 0xffffffff00000000 0xffffffff00000000
core.exception.AssertError@source/app.d(24): Assertion failure
----------------
??:? _d_assert [0x7fcd6afb4792]
source/app.d:24 [0x55ac9929d644]
??:? [0x7fcd6afd7445]
??:? [0x7fcd6aff553a]
??:? int rt.sections_elf_shared.DSO.opApply(scope int delegate(ref rt.sections_elf_shared.DSO)) [0x7fcd6aff65c8]
??:? int rt.minfo.moduleinfos_apply(scope int delegate(immutable(object.ModuleInfo*))) [0x7fcd6aff54cb]
??:? int object.ModuleInfo.opApply(scope int delegate(object.ModuleInfo*)) [0x7fcd6afe317e]
??:? runModuleUnitTests [0x7fcd6afd72f4]
??:? void rt.dmain2._d_run_main2(char[][], ulong, extern (C) int function(char[][])*).runAll() [0x7fcd6afebb4a]
??:? _d_run_main2 [0x7fcd6afeb995]
??:? _d_run_main [0x7fcd6afeb7ed]
/usr/lib/ldc/x86_64-linux-gnu/include/d/core/internal/entrypoint.d:42 [0x55ac9929d6f1]
??:? [0x7fcd6a767249]
??:? __libc_start_main [0x7fcd6a767304]
??:? [0x55ac9929d3a0]
1/1 modules FAILED unittests
Error Program exited with code 1



alex@compy  programming/intel-intinsics-bug ldc2 --version                                                   23:29:28 25-01-20
LDC - the LLVM D compiler (1.30.0):
  based on DMD v2.100.1 and LLVM 14.0.6
  built with LDC - the LLVM D compiler (1.30.0)
  Default target: x86_64-pc-linux-gnu
  Host CPU: znver3
  http://dlang.org - http://wiki.dlang.org/LDC

  Registered Targets:
    aarch64    - AArch64 (little endian)
    aarch64_32 - AArch64 (little endian ILP32)
    aarch64_be - AArch64 (big endian)
    amdgcn     - AMD GCN GPUs
    arm        - ARM
    arm64      - ARM64 (little endian)
    arm64_32   - ARM64 (little endian ILP32)
    armeb      - ARM (big endian)
    avr        - Atmel AVR Microcontroller
    bpf        - BPF (host endian)
    bpfeb      - BPF (big endian)
    bpfel      - BPF (little endian)
    hexagon    - Hexagon
    lanai      - Lanai
    m68k       - Motorola 68000 family
    mips       - MIPS (32-bit big endian)
    mips64     - MIPS (64-bit big endian)
    mips64el   - MIPS (64-bit little endian)
    mipsel     - MIPS (32-bit little endian)
    msp430     - MSP430 [experimental]
    nvptx      - NVIDIA PTX 32-bit
    nvptx64    - NVIDIA PTX 64-bit
    ppc32      - PowerPC 32
    ppc32le    - PowerPC 32 LE
    ppc64      - PowerPC 64
    ppc64le    - PowerPC 64 LE
    r600       - AMD GPUs HD2XXX-HD6XXX
    riscv32    - 32-bit RISC-V
    riscv64    - 64-bit RISC-V
    sparc      - Sparc
    sparcel    - Sparc LE
    sparcv9    - Sparc V9
    systemz    - SystemZ
    thumb      - Thumb
    thumbeb    - Thumb (big endian)
    ve         - VE
    wasm32     - WebAssembly 32-bit
    wasm64     - WebAssembly 64-bit
    x86        - 32-bit X86: Pentium-Pro and above
    x86-64     - 64-bit X86: EM64T and AMD64
    xcore      - XCore

p0nce · 2025-01-21T20:16:59Z

Your compiler is a LDC 1.30 with LLVM 14.0.6

I can only get a LDC 1.30 with LLVM 14.0.3

How do you explain that you have a LDC based upon LLVM 14.0.6? When the official Linux x86_64 build here of LDC 1.30 is LLVM 14.0.3, see here https://github.com/ldc-developers/ldc/releases/tag/v1.30.0

No luck reproducing that either in Linux or Windows.
It seems your distro build a LDC with a LLVM reg?

LDC - the LLVM D compiler (1.30.0):
  based on DMD v2.100.1 and LLVM 14.0.3
  built with LDC - the LLVM D compiler (1.30.0)
  Default target: x86_64-unknown-linux-gnu
  Host CPU: haswell
  http://dlang.org - http://wiki.dlang.org/LDC

apbryan · 2025-01-21T20:52:57Z

I am using the version of LDC shipped by debian 12. I will try to reproduce later tonight with the upstream LDC 1.40 release

apbryan · 2025-01-21T22:23:57Z

Here is me reproducing the issue with LDC 1.40:

alex@compy  programming/intel-intinsics-bug cat dub.sdl                                                      17:18:13 25-01-21
name "intel-intinsics-bug"
description "A minimal D application."
authors "alex"
copyright "Copyright © 2025, alex"
license "MPL-2.0"

dflags "-mattr=+avx2" "--enable-cross-module-inlining" platform="ldc"

dependency "intel-intrinsics" version="~>1.0" {
    //dflags "-mattr=+avx2" // unittest works when this line is uncommented
}




alex@compy  programming/intel-intinsics-bug cat source/app.d                                                 17:18:15 25-01-21
import std.stdio;

void main()
{
	writeln("Edit source/app.d to start your project.");
}

unittest
{
    import inteli.avx2intrin;
    import std.stdio;

    long4 start = [0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000];
    long4 res = _mm256_srli_epi64(start, 32);
    long4 expected = [0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff];
    writefln!("start:\n%(0x%08x %)")(start.array);
    writefln!"after shift of 32 bits\n%(0x%08x %)"(res.array);
    assert(res.array == expected.array);
}






alex@compy  programming/intel-intinsics-bug source ~/dlang/ldc-1.40.0/activate                               17:18:25 25-01-21


(ldc-1.40.0)alex@compy  programming/intel-intinsics-bug dub test --force                                     17:18:32 25-01-21
             No source files found in configuration 'library'. Falling back to default configuration for test runner.
    Starting Performing "unittest" build using ldc2 for x86_64.
    Building intel-intrinsics 1.11.23: building configuration [library]
    Building intel-intinsics-bug ~master: building configuration [application]
     Linking intel-intinsics-bug
     Running intel-intinsics-bug 
start:
0xffffffff00000000 0xffffffff00000000 0xffffffff00000000 0xffffffff00000000
after shift of 32 bits
0xffffffff 0xffffffff 0xffffffff00000000 0xffffffff00000000
core.exception.AssertError@source/app.d(24): Assertion failure
----------------
??:? [0x561f2e289d2e]
??:? [0x561f2e289992]
??:? [0x561f2e2b075e]
??:? [0x561f2e29184c]
??:? [0x561f2e288a82]
source/app.d:24 [0x561f2e24cc1e]
??:? [0x561f2e289c47]
??:? [0x561f2e296f66]
??:? [0x561f2e297498]
??:? [0x561f2e296f0b]
??:? [0x561f2e28e3ce]
??:? [0x561f2e289af3]
??:? [0x561f2e2914fa]
??:? [0x561f2e291427]
??:? [0x561f2e29127c]
/home/alex/dlang/ldc-1.40.0/bin/../import/core/internal/entrypoint.d:42 [0x561f2e24ccc1]
??:? [0x7f7117ba4249]
??:? __libc_start_main [0x7f7117ba4304]
??:? [0x561f2e24c980]
1/1 modules FAILED unittests
Error Program exited with code 1





(ldc-1.40.0)alex@compy  programming/intel-intinsics-bug ldc2 --version                                       17:18:42 25-01-21
LDC - the LLVM D compiler (1.40.0):
  based on DMD v2.110.0 and LLVM 19.1.3
  built with LDC - the LLVM D compiler (1.40.0)
  Default target: x86_64-unknown-linux-gnu
  Host CPU: znver4
  http://dlang.org - http://wiki.dlang.org/LDC


  Registered Targets:
    aarch64     - AArch64 (little endian)
    aarch64_32  - AArch64 (little endian ILP32)
    aarch64_be  - AArch64 (big endian)
    amdgcn      - AMD GCN GPUs
    arm         - ARM
    arm64       - ARM64 (little endian)
    arm64_32    - ARM64 (little endian ILP32)
    armeb       - ARM (big endian)
    avr         - Atmel AVR Microcontroller
    bpf         - BPF (host endian)
    bpfeb       - BPF (big endian)
    bpfel       - BPF (little endian)
    hexagon     - Hexagon
    lanai       - Lanai
    loongarch32 - 32-bit LoongArch
    loongarch64 - 64-bit LoongArch
    mips        - MIPS (32-bit big endian)
    mips64      - MIPS (64-bit big endian)
    mips64el    - MIPS (64-bit little endian)
    mipsel      - MIPS (32-bit little endian)
    msp430      - MSP430 [experimental]
    nvptx       - NVIDIA PTX 32-bit
    nvptx64     - NVIDIA PTX 64-bit
    ppc32       - PowerPC 32
    ppc32le     - PowerPC 32 LE
    ppc64       - PowerPC 64
    ppc64le     - PowerPC 64 LE
    r600        - AMD GPUs HD2XXX-HD6XXX
    riscv32     - 32-bit RISC-V
    riscv64     - 64-bit RISC-V
    sparc       - Sparc
    sparcel     - Sparc LE
    sparcv9     - Sparc V9
    spirv       - SPIR-V Logical
    spirv32     - SPIR-V 32-bit
    spirv64     - SPIR-V 64-bit
    systemz     - SystemZ
    thumb       - Thumb
    thumbeb     - Thumb (big endian)
    ve          - VE
    wasm32      - WebAssembly 32-bit
    wasm64      - WebAssembly 64-bit
    x86         - 32-bit X86: Pentium-Pro and above
    x86-64      - 64-bit X86: EM64T and AMD64
    xcore       - XCore
    xtensa      - Xtensa 32


(ldc-1.40.0)alex@compy  programming/intel-intinsics-bug which ldc2                                           17:21:39 25-01-21
/home/alex/dlang/ldc-1.40.0/bin/ldc2
(ldc-1.40.0)alex@compy  programming/intel-intinsics-bug echo $LIBRARY_PATH                                   17:22:40 25-01-21
/home/alex/dlang/ldc-1.40.0/lib
(ldc-1.40.0)alex@compy  programming/intel-intinsics-bug echo $LD_LIBRARY_PATH                                17:22:55 25-01-21
/home/alex/dlang/ldc-1.40.0/lib

apbryan · 2025-01-21T22:35:59Z

verbose dub's output with ldc 1.40:

(ldc-1.40.0)alex@compy  programming/intel-intinsics-bug dub test --force --verbose                           17:34:55 25-01-21
Note: Failed to determine version of package intel-intinsics-bug at .. Assuming ~master.
Scanning local packages...
  Found dependency intel-intrinsics 1.11.23
             No source files found in configuration 'library'. Falling back to default configuration for test runner.
Configuring dependent intel-intinsics-bug, deps:"intel-intrinsics"
  Configuring dependent intel-intrinsics, deps:
    Starting Performing "unittest" build using ldc2 for x86_64.
    Building intel-intrinsics 1.11.23: building configuration [library]
ldc2 -d-debug -g -w --oq -od=/home/alex/.dub/cache/intel-intrinsics/1.11.23/build/library-unittest-V2cdX_9eeZD5YC8ul_QHVg/obj -d-version=Have_intel_intrinsics -I../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/avx2intrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/avxintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/bmi2intrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/emmintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/internals.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/math.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/mmx.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/nmmintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/package.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/pmmintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/shaintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/smmintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/tmmintrin.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/types.d ../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source/inteli/xmmintrin.d -lib -of/home/alex/.dub/cache/intel-intrinsics/1.11.23/build/library-unittest-V2cdX_9eeZD5YC8ul_QHVg/libintel-intrinsics.a -vcolumns
Copying target from /home/alex/.dub/cache/intel-intrinsics/1.11.23/build/library-unittest-V2cdX_9eeZD5YC8ul_QHVg/libintel-intrinsics.a to /home/alex/.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics
    Building intel-intinsics-bug ~master: building configuration [application]
ldc2 -d-debug -g -unittest -w --oq -od=/home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-MH7-3zsybTVgBONuOy5jfg/obj -d-version=Have_intel_intinsics_bug -d-version=Have_intel_intrinsics -Isource/ -I../../.dub/packages/intel-intrinsics/1.11.23/intel-intrinsics/source source/app.d -mattr=+avx2 --enable-cross-module-inlining -c -of/home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-MH7-3zsybTVgBONuOy5jfg/intel-intinsics-bug.o -vcolumns
     Linking intel-intinsics-bug
ldc2 -of/home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-MH7-3zsybTVgBONuOy5jfg/intel-intinsics-bug /home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-MH7-3zsybTVgBONuOy5jfg/intel-intinsics-bug.o ../../.dub/cache/intel-intrinsics/1.11.23/build/library-unittest-V2cdX_9eeZD5YC8ul_QHVg/libintel-intrinsics.a -L--no-as-needed -g
Copying target from /home/alex/.dub/cache/intel-intinsics-bug/~master/build/application-unittest-MH7-3zsybTVgBONuOy5jfg/intel-intinsics-bug to /home/alex/programming/intel-intinsics-bug
     Running intel-intinsics-bug 
start:
0xffffffff00000000 0xffffffff00000000 0xffffffff00000000 0xffffffff00000000
after shift of 32 bits
0xffffffff 0xffffffff 0xffffffff00000000 0xffffffff00000000
core.exception.AssertError@source/app.d(24): Assertion failure
----------------
??:? [0x5620269d3d2e]
??:? [0x5620269d3992]
??:? [0x5620269fa75e]
??:? [0x5620269db84c]
??:? [0x5620269d2a82]
source/app.d:24 [0x562026996c1e]
??:? [0x5620269d3c47]
??:? [0x5620269e0f66]
??:? [0x5620269e1498]
??:? [0x5620269e0f0b]
??:? [0x5620269d83ce]
??:? [0x5620269d3af3]
??:? [0x5620269db4fa]
??:? [0x5620269db427]
??:? [0x5620269db27c]
/home/alex/dlang/ldc-1.40.0/bin/../import/core/internal/entrypoint.d:42 [0x562026996cc1]
??:? [0x7fc9900e1249]
??:? __libc_start_main [0x7fc9900e1304]
??:? [0x562026996980]
1/1 modules FAILED unittests
Error Program exited with code 1

p0nce · 2025-01-21T23:11:30Z

Reproduced something, thanks! Sounds related to what you said indeed.

dub.sdl

name "intel-intinsics-bug"
authors "alex"
dflags "-mattr=+avx2" "--enable-cross-module-inlining" platform="ldc"
dependency "intel-intrinsics" version="~>1.0"

source/main.d

import std.stdio;

void main()
{
    import inteli.avx2intrin;
    import std.stdio;

    long4 start = [0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000,
                    0xffff_ffff_0000_0000];
    long4 res = _mm256_srli_epi64(start, 32);
    long4 expected = [0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff,
                      0x0000_0000_ffff_ffff];
    writefln!("start:\n%(0x%08x %)")(start.array);
    writefln!"after shift of 32 bits\n%(0x%08x %)"(res.array);
    assert(res.array == expected.array);
}

To reproduce:

LDC 1.24 or LDC 1.28 + dub -f

start:
0xffffffff00000000 0xffffffff00000000 0xffffffff00000000 0xffffffff00000000
after shift of 32 bits
0xffffffff 0xffffffff 0xffffffff00000000 0xffffffff00000000

LDC 1.24 or 1.28 + dub -f --combined =>no issue

After LDC 1.30 the result changes :)

LDC 1.30 or LDC 1.36 or LDC 1.40 + dub -f

start:
0xffffffff00000000 0xffffffff00000000 0xffffffff00000000 0xffffffff00000000
after shift of 32 bits
0xffffffff00000000 0xffffffff00000000 0xffffffff00000000 0xffffffff00000000

LDC 1.30 or 1.36 or LDC 1.40 + dub -f --combined =>no issue

Workarounds:

--combined
problem start with +avx feature not necessarily +avx2

Reproduced with:
Windows + DUB version 1.35.1

p0nce · 2025-01-22T00:00:18Z

is a codegen issue, need reduced test case but that one necessitate two dub package it seems
point of use and definition of the intrinsic mustn't be in same translation unit
(EDIT: to be clear, it is likely to be a LLVM bug)

p0nce added the bug label Aug 13, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

__mm256_srl_epi64() returns different results on LDC when -mattr=+avx2 is on #143

__mm256_srl_epi64() returns different results on LDC when -mattr=+avx2 is on #143

apbryan commented Aug 13, 2024

p0nce commented Aug 13, 2024 •

edited

Loading

p0nce commented Aug 13, 2024 •

edited

Loading

apbryan commented Aug 13, 2024

p0nce commented Aug 14, 2024

apbryan commented Jan 21, 2025

p0nce commented Jan 21, 2025 •

edited

Loading

apbryan commented Jan 21, 2025

apbryan commented Jan 21, 2025

apbryan commented Jan 21, 2025

p0nce commented Jan 21, 2025

p0nce commented Jan 22, 2025 •

edited

Loading

__mm256_srl_epi64() returns different results on LDC when -mattr=+avx2 is on #143

__mm256_srl_epi64() returns different results on LDC when -mattr=+avx2 is on #143

Comments

apbryan commented Aug 13, 2024

p0nce commented Aug 13, 2024 • edited Loading

p0nce commented Aug 13, 2024 • edited Loading

apbryan commented Aug 13, 2024

p0nce commented Aug 14, 2024

apbryan commented Jan 21, 2025

p0nce commented Jan 21, 2025 • edited Loading

apbryan commented Jan 21, 2025

apbryan commented Jan 21, 2025

apbryan commented Jan 21, 2025

p0nce commented Jan 21, 2025

p0nce commented Jan 22, 2025 • edited Loading

p0nce commented Aug 13, 2024 •

edited

Loading

p0nce commented Aug 13, 2024 •

edited

Loading

p0nce commented Jan 21, 2025 •

edited

Loading

p0nce commented Jan 22, 2025 •

edited

Loading