feat: accelerate f16 distance #2885

eddyxu · 2024-09-15T00:54:31Z

Ran command

Env:

Ubuntu 24.04 / Macos 15
AWS VMs or Apple M2 Max macbook pro
GCC-13 (Ubuntu), clang 18 (ubuntu / mac). GCC is not installed on Mac by default
RUSTFLAGS=""
Rustc 1.81

CC={clang|gcc} cargo bench --bench l2/cosine/dot [--features fp16kernels]  -- "half::binary16::f16, auto-vectorization"

CPU	CC	L2(f16)	Dot (f16)	Cosine (f16)	branch + feature
AMD Zen3		867.81 ms	701.42 ms	1.3697	`main`
AMD Zen3	gcc 13	887.41 ms	905.89 m	920.16 ms	`main` + `fp16kernels`
AMD Zen3	clang 18	119.64 ms	118.90 ms	121.82 ms	`main` + `fp16kernels`
AMD Zen3	gcc 13	887.04 ms	878.89 ms	915.79 ms	`lei/f16_bench`
AMD Zen3	clang 18	120.78 ms	113.93 ms	120.68 ms	`lei/f16_bench`
Skylake	clang	1.5729 s			`main`
Skylake	gcc	1.4302 s	1.4184 s	1.4276 s	`main` + `fp16kernels`
Skylake	clang	290.73 ms	260.39 ms	287.47 ms	`main` + `fp16kernels`
Skylake	gcc	1.4337 s	1.4161 s	1.4273 s	`lei/f16_bench`
Skylake	clang	578.46 ms	582.08 ms	888.80 ms	`lei/f16_bench`
Sapphire Rapis		1.4047 s	1.1850 s	2.3802 s	`main`
Shappire Rapis	gcc	1.2236 s	616.14 ms	1.5293 s	`main` + `fp16kernels`
Shappire Rapis	clang	308.18 ms	283.11 ms	293.49 ms	`main` + `fp16kernels`
Shappire Rapis	gcc	887.84 ms	857.94 ms	897.96 ms	`lei/f16_bench`
Shappire Rapis	clang	274.20 ms	276.86 ms	314.43 ms	`lei/f16_bench`
Graviton 3 (m7g.xlarge)		2.9608 s	2.7640 s	4.7155 s	`main`
Graviton 3	gcc	234.97 ms	218.71 ms	230.73 ms	`main` + `fp16kernel`
Graviton 3	clang	209.75 ms	209.26 ms	239.20 ms	`main` + `fp16kernel`
Graviton 3	gcc	129.63 ms	120.84 ms	230.57 ms	`lei/f16_bench`
Graviton 3	clang	130.93 ms	118.42 ms	235.08 ms	`lei/f16_bench`
Apple M2 Max	clang	85.693 ms	64.815 ms	87.479 ms	`main` + `fp16kernels`
Apple M2 Max	clang	416.78 ms	345.76 ms	691.80 ms	`main`
Apple M2 Max	clang	64.450 ms ms	63.911 ms	109.16 ms	`lei/f16_bench`

Conclusion:

We need to use clang

chebbyChefNEQ · 2024-09-16T15:45:09Z

rust/lance-linalg/src/simd/f16.c

+#if defined(__aarch64__)
+    // on aarch64 with fp16, this is 2x faster.
+    FP16 sub = x[i] - y[i];
+#else
+    float sub = x[i] - y[i];
+#endif
+    // Use float32 as the accumulator to avoid overflow.
+    sum += sub * sub;


should we just have simd/genric, simd/x86 and simd/aarch64?

As 3 different functions?

see #2885

eddyxu and others added 2 commits September 14, 2024 15:58

always enable f16 kernel on mac arm64

e3c97b1

l2 f16

651135f

github-actions bot added the enhancement New feature or request label Sep 15, 2024

eddyxu added the WIP work in progress label Sep 15, 2024

enable all

dff7c10

eddyxu force-pushed the lei/f16_bench branch from 54c7009 to dff7c10 Compare September 15, 2024 03:54

eddyxu added 2 commits September 15, 2024 05:18

set float16 in clang

ac76fa3

use f32 accumulat on non arch

7ef541b

eddyxu mentioned this pull request Sep 16, 2024

chore: change default compiler to clang #2887

Merged

chebbyChefNEQ reviewed Sep 16, 2024

View reviewed changes

eddyxu added a commit that referenced this pull request Sep 18, 2024

chore: change default compiler to clang (#2887)

739545f

see #2885

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: accelerate f16 distance #2885

feat: accelerate f16 distance #2885

eddyxu commented Sep 15, 2024 •

edited

Loading

chebbyChefNEQ Sep 16, 2024

eddyxu Sep 16, 2024

feat: accelerate f16 distance #2885

Are you sure you want to change the base?

feat: accelerate f16 distance #2885

Conversation

eddyxu commented Sep 15, 2024 • edited Loading

Conclusion:

chebbyChefNEQ Sep 16, 2024

Choose a reason for hiding this comment

eddyxu Sep 16, 2024

Choose a reason for hiding this comment

eddyxu commented Sep 15, 2024 •

edited

Loading