是否有更高效的大模型训练方法 #2335

yhcc · 2023-01-05T06:20:19Z

yhcc
Jan 5, 2023

我使用colossalai训练了一个70层的GPT模型，使用了tp=4，pp=6，fp16，加每一层checkpoint，在24张A100上进行训练，测试下来，按照PaLM（https://arxiv.org/pdf/2204.02311.pdf ）4.1节中的效率计算方式，colossalai的硬件利用率只能达到26%左右。然而过去的几个大模型的效率大概如下
GLM-130 26%~30%
GPT3 21.3%
Gopher 32.5%
Turing 30.2%
BLOOM 35.6%
OPT 36.7%
PaLM 46.2%
其中和我们具备可比性的应该是BLOOM和OPT（他们使用的也是GPT架构，同时也是A100 80G），但是可以看出在效率上显著低于两者。考虑到我目前还没有上dp并行，按道理应该上了dp之后会比26%更低。对于这个效率问题你们有什么建议吗？

Answered by feifeibear

Jan 6, 2023

你report这些数据【然而过去的几个大模型的效率大概如下】都是自己测的么？

View full answer

kurisusnowdeng · 2023-01-05T08:33:17Z

kurisusnowdeng
Jan 5, 2023
Maintainer

改成4路tp+6路fsdp试试呢

4 replies

yhcc Jan 5, 2023
Author

tp+fsdp的方式有办法scale到130B这么大的模型么？
另外，FYI，我目前使用的方案是参考https://github.com/hpcaitech/ColossalAI-Examples/tree/main/language/gpt 这个实现，应该是老版的pipeline解决方案

feifeibear Jan 5, 2023

https://github.com/hpcaitech/ColossalAI/blob/main/examples/language/gpt/README.md
用最新的，我们会把CAI-Example archive了

yhcc Jan 5, 2023
Author

这个支持zero3么？

feifeibear Jan 6, 2023

Gemini是cpu策略就是zero-offload

binmakeswell · 2023-01-05T12:02:38Z

binmakeswell
Jan 5, 2023
Maintainer

过去的几个大模型的效率大概如下
GLM-130 26%~30%
GPT3 21.3%
Gopher 32.5%
Turing 30.2%
BLOOM 35.6%
OPT 36.7%
PaLM 46.2%
请问这些数字是怎么来的呢？也是您相同配置实机测试的吗？
batch、混合并行策略等调优了吗？

0 replies

binmakeswell · 2023-01-05T12:05:12Z

binmakeswell
Jan 5, 2023
Maintainer

https://github.com/hpcaitech/GPT-Demo
这里是一个在175B验证过的旧版API

0 replies

feifeibear · 2023-01-06T02:07:12Z

feifeibear
Jan 6, 2023

你report这些数据【然而过去的几个大模型的效率大概如下】都是自己测的么？

17 replies

feifeibear Jan 6, 2023

所以你现在有两个可以跑GPT3的预备版本了对吧？
一个是gpt gemini的example，一个是https://github.com/hpcaitech/ColossalAI-Examples/tree/main/language/gpt

yhcc Jan 6, 2023
Author

ColossalAI的fsdp叫gemini gemini+tp方案，你测一下tp=2和tp=1的性能。你的问题是gemini+tp和tp+pp并行的tflops差异正常么？因为你的硬件配置我也不了解，既然实验结果这样，那就是正常的。如果硬要分析原因，我猜测pp通信量小，你机器之间连接带宽又小（我猜），所以跨机器用pp会有提升

是的，带宽不是很大，机器间的带宽大概是在200G（机器内部gpu之间是通过nvlink链接）。仅从原理上来说的话，感觉是如果带宽不足的话，zero的这种方式应该会有比较大的延迟。这个问题上你们肯定是比较专业了，tp=1和tp=2我现在测试一下。

feifeibear Jan 6, 2023

200Gbps么？机器间用的什么网络？

yhcc Jan 6, 2023
Author

是的，用IB网络

feifeibear Jan 6, 2023

我修改了一下bsz和cpu重新测试了一下，效率确实提高了非常多

单机（超参数为，tp=4，model_type=gpt2_24b，sharedinit=True，distplan=clossalai）

bsz placement TFLOPs
1 cuda 52.475
4 cpu 20.63
8 cpu 31.449
32 cpu 75.9
40 cpu 82.8
48 cpu CUDA error: an illegal memory access was encountered
双机（超参数为，tp=4，model_type=gpt2_24b，sharedinit=True，distplan=clossalai）

bsz placement TFLOPs
2 cuda 18.456
8 cpu 31.449
40 cpu 71.3
48 cpu CUDA error: an illegal memory access was encountered

看你这个数据，用了多机性能也没有明显下降。我觉得机器间带宽没有想象的那么严重吧。你就用这两个方案，搜索一下各种参数，选择一个性能最好的不就可以了么

yhcc · 2023-01-06T10:06:10Z

yhcc
Jan 6, 2023
Author

所以你现在有两个可以跑GPT3的预备版本了对吧？一个是gpt gemini的example，一个是https://github.com/hpcaitech/ColossalAI-Examples/tree/main/language/gpt

是的，目前是有这两个版本。由于过去的大模型采用pp+tp的居多，所以目前对pp+tp这个方案测试实验跑得比较多。

12 replies

feifeibear Jan 6, 2023

你要是想发论文，倒是可以排列组合一下：）

yhcc Jan 6, 2023
Author

倒不是为了发论文，而且从发论文的角度，花资源排列组合这个也没啥意义吧。是为了找到一种效率更高的实践，特别是因为有论文提到过他们这样做了，我猜他们应该也有过对比，所以选定了这个技术方案，那总归值得试一试吧。

feifeibear Jan 6, 2023

系统设计就是一个tradeoff，所有人实现肯定都不是理论最优的，都是现实和理想妥协的产物。我建议你如果真的有具体需求的话，先make it work，再追求极致性能。如果训练一个GPT3，找一个能work的训练框架只是一小部分，数据收集清洗，save/load checkpoint，超参数选择，集群资源管理，有很多更重要的问题摆在你面前。

yhcc Jan 6, 2023
Author

你提到的这些任务我们都有相应的人在解决，只是我在负责把model的性能提升上来。

yhcc Jan 6, 2023
Author

btw，从make it work的角度，colossalai确实领先deepspeed+megatron太多了，并不需要花费太多时间就能够scale出一个非常大的模型，不管是写代码层面还是启动层面体验都非常优秀。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

是否有更高效的大模型训练方法 #2335

{{title}}

Replies: 5 comments 33 replies

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

Select a reply

是否有更高效的大模型训练方法 #2335

Replies: 5 comments · 33 replies

kurisusnowdeng Jan 5, 2023 Maintainer

yhcc Jan 5, 2023 Author

yhcc Jan 5, 2023 Author

binmakeswell Jan 5, 2023 Maintainer

binmakeswell Jan 5, 2023 Maintainer

yhcc Jan 6, 2023 Author

yhcc Jan 6, 2023 Author

yhcc Jan 6, 2023 Author

yhcc Jan 6, 2023 Author

yhcc Jan 6, 2023 Author

yhcc Jan 6, 2023 Author

Replies: 5 comments 33 replies

kurisusnowdeng
Jan 5, 2023
Maintainer

yhcc Jan 5, 2023
Author

yhcc Jan 5, 2023
Author

binmakeswell
Jan 5, 2023
Maintainer

binmakeswell
Jan 5, 2023
Maintainer

yhcc Jan 6, 2023
Author

yhcc Jan 6, 2023
Author

yhcc
Jan 6, 2023
Author

yhcc Jan 6, 2023
Author

yhcc Jan 6, 2023
Author

yhcc Jan 6, 2023
Author