ChatPiPxiu v1-开发计划讨论：资料调研+通用最小实现+领域/任务适配？ #1

catqaq · 2023-04-18T02:03:33Z

目前我们正在启动V1版本的开发，整体的开发计划如下，主要包括了文档和代码两类任务，数据的部分我们暂时将其分散到了各个子任务中。

V1版本：资料调研+通用最小实现+领域/任务适配

1.1 文档分支
文档分支主要负责项目文档的建设，包括通用技术文档和项目相关文档。

dev_for_docs：文档分支，主要负责资料调研（算力有限，有调查才有训练权）：

【P0】开源ChatGPT调研：持续更新，doing
【P0】训练技术调研：持续更新，doing
【P0】数据调研：doing
【P1】部署技术调研：TODO
【P2】基础模型调研：目前以LLaMA和GLM为主，doing
【P3】技术解读/教程：doing
1.2 代码分支
代码分支，负责具体的开发工作，包括数据处理、算法开发、算法评测等，分成通用最小实现和领域/任务适应两种，具体的：

dev_for_chatmini：通用最小实现分支，尽可能支持不同的基础模型和训练方式，提供可比较的实现。

【P0】ChatGPT最小复现：完整的RLHF复现SFT-RM-PPO，doing
【P0】适配不同的基座模型
适配不同的PEFT算法
【P2】探索新的训练方式
【P3】探索知识迁移：比如蒸馏
dev_for_chatzhihu：知乎及问答领域适配，主要想解决一些知乎使用过程中的痛点，比如问题冗余、回答太多等等。

【P0】收集知乎数据收集及处理
SFT数据
RLHF数据：答案打分
摘要数据：答案/观点汇总、摘要
【P0】基于知乎数据做SFT
【P1】基于知乎数据做RLHF
【P2】输出知乎LoRA
【P3】和知乎热榜聊天的demo
dev_for_chatzhangsan：法律领域适配，张三犯了什么罪？

【P0】法律领域数据收集及处理
法律条文解释
【P1】罪名判定：张三犯了什么罪？
更多领域，敬请期待！

ChatPiXiu-Eat every ChatGPT - Output your own chatbot!

欢迎讨论和建议~

luweigen · 2023-04-21T09:53:42Z

对代码生成最感兴趣。企业用ChatGPT泄漏代码太敏感，极度需要能内部部署的模型。
1、代码生成跟聊天差别很大，评测缺失，我只能最简单地做一点 https://github.com/AI-LLM/ai-llm.github.io/blob/main/Code-LLM-alternatives.md
2、适合代码、文档 retrieval 的embedding有特殊之处吗？

catqaq · 2023-04-23T14:47:56Z

@luweigen 确实，代码生成的评测可能很难搞，对错误的容忍度可能也更低

luweigen · 2023-04-24T07:52:55Z

小模型肯定是垂直化的，建议深入研究特定领域的需求。
代码生成领域的需求痛点：https://github.com/AI-LLM/ai-llm.github.io/blob/main/Code-Generation.md

yiyepiaoling0715 · 2023-06-18T03:29:08Z

>
能加入你们?

yiyepiaoling0715 · 2023-06-18T03:29:34Z

yiyepiaoling0715

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ChatPiPxiu v1-开发计划讨论：资料调研+通用最小实现+领域/任务适配？ #1

ChatPiPxiu v1-开发计划讨论：资料调研+通用最小实现+领域/任务适配？ #1

catqaq commented Apr 18, 2023

luweigen commented Apr 21, 2023

catqaq commented Apr 23, 2023

luweigen commented Apr 24, 2023 •

edited

Loading

yiyepiaoling0715 commented Jun 18, 2023

yiyepiaoling0715 commented Jun 18, 2023

ChatPiPxiu v1-开发计划讨论：资料调研+通用最小实现+领域/任务适配？ #1

ChatPiPxiu v1-开发计划讨论：资料调研+通用最小实现+领域/任务适配？ #1

Comments

catqaq commented Apr 18, 2023

luweigen commented Apr 21, 2023

catqaq commented Apr 23, 2023

luweigen commented Apr 24, 2023 • edited Loading

yiyepiaoling0715 commented Jun 18, 2023

yiyepiaoling0715 commented Jun 18, 2023

luweigen commented Apr 24, 2023 •

edited

Loading