Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

LLM相关7--如何构建一个专业大模型 #75

Open
winterpi opened this issue Apr 18, 2024 · 0 comments
Open

LLM相关7--如何构建一个专业大模型 #75

winterpi opened this issue Apr 18, 2024 · 0 comments

Comments

@winterpi
Copy link
Owner

winterpi commented Apr 18, 2024

构建专业大模型的需求

  • 现有的大模型都是通用大模型,什么都会一些,但涉及到具体领域可能就显得不那么专业;
  • 但特定领域,如法律、医疗、数学、化学、心理学等领域有很多特定知识,通用大模型涵盖的不多,就衍生出构建专业大模型的需求;

粗浅解释:预训练 VS 微调

  • 提到构建专业大模型,就会有人说预训练(Pre-training)或微调(fine-tuning);
  • 两者的对比,粗浅的了解可以看看下图:预训练需要的数据量很大(如图书馆里的书籍),而微调需要的数据量小一些(个人家里的藏书)

专业解释:构建专业大模型的基本过程

  • 下图以医疗领域的大模型为例,说明了构建专业大模型的几个步骤
    图片3

预训练(Pre-training)阶段

  • 在基座模型的基础上,经过海量的领域内资料进行预训练,得到领域适配的大模型;
  • 预训练的目标:是基于提供的文本来预测下一个词语,使得输出更适合特定领域;

有监督微调(Supervised Fine-Tuning, SFT)阶段

  • 这里的训练数据大都是人工标注过的数据集,所以成为有监督的学习;
  • 数据结构可以简单理解为<input, output>格式;

人类对齐RLHF阶段

  • 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF);
  • RLHF的目标:将语言模型的输出与人类的偏好、价值观进行对齐;
  • RLHF分为以下两步
创建Reward Model奖励模型
  • 在有监督微调模型基础上创建一个reward model(RM)模型;
  • 可以设立 good output,以及 bad output,且这些 output 都是人工标注好的;
RL 微调
  • 强化学习微调的两种方式:PPO(Proximal Policy Optimization)近端策略优化算法,DPO(Direct Preference Optimization)直接偏好优化算法;
  • 目的:引导优化后的大模型生成更符合人类偏好的内容;

References:

  1. 聊聊大模型微调训练全流程的思考
@winterpi winterpi changed the title LLM相关--如何构建一个专业大模型 LLM相关7--如何构建一个专业大模型 Apr 18, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant