embedding forward optimization for rocm #5120

JaxChen29 · 2025-11-12T13:12:11Z

optimization on embedding forward for rocm:

apply vec4 on embedding vbe forward kernel instead of vec2
use preload to optimize vbe forward kernel
As there are 64 threads in rocm, optimize subwarp in embedding forward v2 kernel when embedding dim is from 32 to 64.

JaxChen29 and others added 4 commits October 28, 2025 08:55

add subwarp opt for rocm warp64 on fwd v2 kernel

d2efaa4

apply Vec4T on vbe forward

bce492c

added rocm guard on wg size change on v2 fwd

f76eb7a

optimize vbe forward with preload

8093b95

pytorch-bot bot added the module: rocm label Nov 12, 2025

meta-cla bot added the cla signed label Nov 12, 2025

JaxChen29 marked this pull request as draft November 12, 2025 13:13

JaxChen29 marked this pull request as ready for review November 12, 2025 14:53

Provide feedback