本项目是由之江实验室发布的大模型训练数据处理工具包,包含大模型训练所需要的数据采集与处理工具,可解决大模型训练过程中各类垂直领域数据准备难题,旨在帮助大模型研究人员提高数据准备效率,降低数据集构建成本。
当前版本已发布的数据处理工具包包括:
基于学科分类的垂域数据集采集工具
(Subject_Classifier)基于大模型提示与搜索的网页数据采集工具
(One_Click_Crawler)自研的集成OCR工具
(DataPrep4LLM_Algos)ES数据库管理工具
(Easy_ES)
如果您在研究中使用了该工具包,请按照以下格式引用:
@misc{ZJ2024DataProcessesToolkit,
author = {Zhejiang Lab},
title = {Data Processing Toolkit for LLMs},
year = {2024},
howpublished = {\url{https://github.com/zhejianglab/Data-Processing-Toolkit-for-LLMs}},
note = {Accessed: 2024-09-14}
}
如果您使用这些工具包发表了研究成果,请告知我们,我们会维护一个相关出版物的列表,以促进研究人员更好的沟通。
如果您在使用工具包时有任何问题,请通过电子邮件与我们联系,邮箱地址为Zhejiang Lab。
© 2024 之江实验室智能装备研究中心