New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

LLM相关7--如何构建一个专业大模型 #75

Open

winterpi opened this issue Apr 18, 2024 · 0 comments

Owner

winterpi commented Apr 18, 2024 •

edited

Loading

构建专业大模型的需求

现有的大模型都是通用大模型，什么都会一些，但涉及到具体领域可能就显得不那么专业；
但特定领域，如法律、医疗、数学、化学、心理学等领域有很多特定知识，通用大模型涵盖的不多，就衍生出构建专业大模型的需求；

粗浅解释：预训练 VS 微调

提到构建专业大模型，就会有人说预训练（Pre-training）或微调（fine-tuning）；
两者的对比，粗浅的了解可以看看下图：预训练需要的数据量很大（如图书馆里的书籍），而微调需要的数据量小一些（个人家里的藏书）

专业解释：构建专业大模型的基本过程

下图以医疗领域的大模型为例，说明了构建专业大模型的几个步骤

预训练（Pre-training）阶段

在基座模型的基础上，经过海量的领域内资料进行预训练，得到领域适配的大模型；
预训练的目标：是基于提供的文本来预测下一个词语，使得输出更适合特定领域；

有监督微调（Supervised Fine-Tuning, SFT）阶段

这里的训练数据大都是人工标注过的数据集，所以成为有监督的学习；
数据结构可以简单理解为<input, output>格式；

人类对齐RLHF阶段

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）；
RLHF的目标：将语言模型的输出与人类的偏好、价值观进行对齐；
RLHF分为以下两步

创建Reward Model奖励模型

在有监督微调模型基础上创建一个reward model（RM）模型；
可以设立 good output，以及 bad output，且这些 output 都是人工标注好的；

RL 微调

强化学习微调的两种方式：PPO(Proximal Policy Optimization)近端策略优化算法，DPO(Direct Preference Optimization)直接偏好优化算法；
目的：引导优化后的大模型生成更符合人类偏好的内容；

References:

聊聊大模型微调训练全流程的思考

winterpi changed the title ~~LLM相关--如何构建一个专业大模型~~ LLM相关7--如何构建一个专业大模型

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment