Skip to content

Conversation

lshpku
Copy link

@lshpku lshpku commented Sep 17, 2025

PR types

Bug fixes

PR changes

Models

Description

修复 FusedRMSLinear backward 里的一处计算逻辑错误

因为 compute_fp8_linear 函数的 out 没有累加语义,是直接覆盖的,因此 h_grad 不能原地传入,应该在外面进行累加

收敛性验证

使用单机冷启进行验证,统计 loss 和全局梯度方差(检验是否梯度爆炸,一般应小于10)在 200 步内的变化:

图片 3

其实好像修不修没区别…… loss几乎一样,全局梯度方差则是修了之后稍微大一点,因为把之前丢掉的一部分梯度加回来了,但是并没有影响到 loss 收敛

总之,说明被覆盖的这部分 h_grad 可能不是那么重要,但是逻辑上确实应该改

Copy link

paddle-bot bot commented Sep 17, 2025

Thanks for your contribution!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant