InternEvo目前使用的并行计算loss方法改编自Apex。如需要加速计算loss,可将并行计算loss方法改为Flash-Attention的并行计算方法,需要注意的是,这可能会出现loss不收敛的情况。
具体修改代码可见InternEvo-parallel-loss
InternEvo目前使用的并行计算loss方法改编自Apex。如需要加速计算loss,可将并行计算loss方法改为Flash-Attention的并行计算方法,需要注意的是,这可能会出现loss不收敛的情况。
具体修改代码可见InternEvo-parallel-loss