Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feat: Implement self-instruct and evolve-instruct synthetic data generation pipeline #720

Closed
wants to merge 34 commits into from
Closed
Show file tree
Hide file tree
Changes from 5 commits
Commits
Show all changes
34 commits
Select commit Hold shift + click to select a range
24cff2c
add nemotron model
Wendong-Fan Jun 19, 2024
d5b307e
fix
Wendong-Fan Jun 19, 2024
737da4b
error handing
Wendong-Fan Jun 19, 2024
c3e1b9c
update pytest yml
Wendong-Fan Jun 19, 2024
e29d473
Implement self-instruct synthetic data generation pipeline
andrei3131 Jul 11, 2024
cd2c68d
adding evolve
Hither1 Jul 12, 2024
f2702de
debug evolve
Hither1 Jul 15, 2024
25edfc6
seed instruction files
Hither1 Jul 15, 2024
30169ca
add ipy notebook
Hither1 Jul 15, 2024
ea984a1
Enable configuring spec with list of seed instructions instead of pat…
andrei3131 Jul 16, 2024
7d5c58c
local
Jul 16, 2024
c99f061
local
Jul 16, 2024
6a62295
start jupyter notebook for self-instruct generation
andrei3131 Jul 16, 2024
7089b81
nemotron critic
Jul 17, 2024
e45b970
local
Jul 17, 2024
245377f
Merge branch 'synth_data_self_instruct' of https://github.com/camel-a…
Jul 17, 2024
4f3c7bb
Merge branch 'master' into role_play_nemotron_critic
andrei3131 Jul 17, 2024
137c45f
Merge branch 'role_play_nemotron_critic' into synth_data_self_instruct
andrei3131 Jul 17, 2024
5b0306d
fixed some issues with evolve instruct
Jul 17, 2024
a304d39
fixed some issues with evolve instruct
Jul 17, 2024
6794527
fixed some issues with evolve instruct
Jul 17, 2024
ecd4feb
fixed some issues with evolve instruct
Jul 17, 2024
78741e0
start to imple multi-agent system
Jul 18, 2024
5fa3358
Add Nvidia Nemtron for synthetic data evaluation
andrei3131 Jul 19, 2024
28f9750
Merge branch 'synth_data_self_instruct' of https://github.com/camel-a…
andrei3131 Jul 19, 2024
7fd3a5c
clean up
andrei3131 Jul 19, 2024
da057e2
deepseek math and coding
Jul 19, 2024
96f4cfa
move to subpackage of camel
Jul 19, 2024
8240a19
math and coder
Jul 21, 2024
9ea9ea3
math and coder
Jul 21, 2024
a36da80
add base instruct spec
Jul 21, 2024
734534e
fix coder
Jul 24, 2024
d98edff
fix coder
Jul 24, 2024
fe55e1a
fix according to reviews
Jul 25, 2024
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
81 changes: 81 additions & 0 deletions implementations/camel_demo_instruct.ipynb
Original file line number Diff line number Diff line change
@@ -0,0 +1,81 @@
{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"provenance": []
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"language_info": {
"name": "python"
}
},
"cells": [
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"id": "aueniP_sY05P"
},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"source": [],
"metadata": {
"id": "IXs4owuKZVbA"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"Self-Instruct"
],
"metadata": {
"id": "TsZhgFXSZdqo"
}
},
{
"cell_type": "code",
"source": [],
"metadata": {
"id": "F-STu9EgZVlg"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "code",
"source": [],
"metadata": {
"id": "SIVGqB_3ZVn3"
},
"execution_count": null,
"outputs": []
},
{
"cell_type": "markdown",
"source": [
"Evolve-Instruct"
],
"metadata": {
"id": "tLQ0C6E_ZeUU"
}
},
{
"cell_type": "code",
"source": [],
"metadata": {
"id": "KcYTp6OQZVqJ"
},
"execution_count": null,
"outputs": []
}
]
}
3 changes: 3 additions & 0 deletions implementations/data/evolve/article_base_instruction.jsonl
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
{"idx": 1, "Skill": "article", "Difficulty": 7, "Instruction": "보도 시점\n2023. 9. 4.(월) 12:00\n배포\n2023. 9. 4.(월) 10:00\n\n2023년 귀속 상반기분 근로장려금 신청 안내\n- 근로소득만 있는 146만 명 대상, 9.15.까지 신청, 12월 말 지급 -\n□ (신청대상) 국세청(청장 김창기)은 저소득 가구의 근로를 장려하고 경제적 자립을 적극적으로 지원하기 위해 9월 1일부터 15일까지 2023년 귀속 상반기분 근로소득에 대한 근로장려금 신청을 받습니다.\n ○ 2023년도 상반기에 근로소득만 있는 146만 명이 신청 대상이며, 신청한 장려금은 지급요건을 심사하여 올해 12월 말에 지급할 예정입니다.\n□ (개선사항) 고령자·중증장애인을 대상으로 하는 자동신청이 최초 적용되어 지난 3월 사전 동의한 11만 명은 별도의 절차 없이 신청이 완료되며, 신규 자동신청 동의 대상자 52만 명에게 사전 동의를 안내하겠습니다.\n ○ 또한, 노인 일자리에 참여하는 고령자가 세무서 방문 없이 가까운 노인 일자리 기관인 지자체·시니어클럽 등에서도 장려금 신청 안내를 받을 수 있습니다.\n ○ 빠르고 정확한 상담 편의를 제공하기 위해 「장려금 전용 상담센터」 상담 인력을 지난해 같은 기간보다 28명 증원한 207명으로 운영합니다.\n ○ 국세청 발신번호(‘1544-9944’, ‘1566-3636’)가 아님에도 장려금 관련 단어가 포함된 광고성 문자(스팸 문자)는 실시간으로 수신이 차단됩니다.\n□ (신청방법) 세무서 방문 없이 홈택스(PC,모바일)를 통해 근로장려금을 쉽고 빠르게 신청할 수 있으며, 자동응답전화(ARS 1544-9944)를 통해서도 간편하게 신청할 수 있습니다.\n ○ 문의 사항은 장려금 전용 상담센터(1566-3636)에서 상담해드립니다.\n□ (유의사항) 국세청 직원은 장려금 신청과 관련하여 일체의 금품이나 금융정보(계좌비밀번호 등)를 절대 요구하지 않으며, 근로장려금 신청을 사칭한 전자금융범죄(보이스피싱, 스미싱 등)에 주의하시길 당부드립니다.\n===\n상기 보도자료를 기반으로 신문기사를 작성하라."}
{"idx": 2, "Skill": "article", "Difficulty": 7, "Instruction": "보도자료\n\n \n\n \n보도시점\n\n2023. 9. 8.(금) 즉시보도\n\n \n \n\n정부는 새만금잼버리 비상대피 후 소요비용을 추석 전 보전 완료할 예정입니다.\n\n - 관계부처 협의를 거쳐 재원보전 방안 확정\n\n - 여가부, 행안부, 교육부 등이 합동으로 지자체·대학 등의 선지출 비용 보전 예정\n\n \n \n\n□ 정부는 새만금잼버리 비상대피 후 지자체 등이 선지출한 비용에 대한 보전을 추석 전 완료할 예정입니다.\n\n \n\n□ 정부는 지난 8월 8일 태풍에 대비하여 8개 시·도와 함께 새만금잼버리 대원들을 수도권 등으로 비상대피 시켰으며, 8개 시·도에서 체험활동 등을 진행하였습니다.\n\n ○ 이에 따른 비용은 지자체 등이 지자체 예비비 등을 통해 선지출하고 추후 국가 차원에서 재원 보전할 예정임을 안내한 바 있습니다.\n\n \n\n□ 정부는 관계부처 협의를 거쳐 재원보전 방안을 확정하였습니다.\n\n ○ 지자체, 대학교 등이 지출한 잼버리 참가자의 숙박비, 식비 등은 여가부, 교육부, 행안부가 합동으로 보전하기로 하였습니다.\n\n ○ 이와 관련한 소요 재원은 국가 예비비, 특별교부세 등을 활용할 예정입니다.\n\n ○ 행안부는 현재 지자체를 통해 지출액을 집계하고 있으며, 이를 통해 보전금액을 확정할 예정입니다.\n\n \n\n□ 정부는 지자체 등 지출액에 대한 정확한 집계 등 관련 절차를 신속하게 진행하여, 추석 전 재원 보전이 차질없이 완료될 수 있도록 하겠습니다.\n===\n상기 보도자료를 기반으로 신문기사를 작성하라."}
{"idx": 3, "Skill": "article", "Difficulty": 7, "Instruction": "신한투자증권, 청년 동행 프로젝트 외화 RP 특판 개시\n뉴스 제공신한투자증권 (코스피 055550)\n2023-09-14 11:34\n신한투자증권 Logo\n가\n서울--(뉴스와이어) 2023년 09월 14일 -- 신한투자증권(대표이사 김상태)은 20·30세대 고객을 대상으로 세전 연 5.8%의 우대수익률을 주는 ‘청년 동행 프로젝트 외화 RP 특판’을 9월 15일부터 내년 1월 5일까지 개시한다고 14일 밝혔다.\n\n이번 ‘청년 동행 프로젝트 외화 RP 특판’(총 상품 한도 200억원)의 가입 대상은 만 19세~39세의 청년층(1984년 1월 1일 출생자부터 2003년 12월 31일 출생자까지)이다. USD(미국 달러)로 매매 가능한 수시형 RP이며, 인당 최대 10만달러까지 매수가 가능하다. 또한 해당 특판 시작 전일인 2023년 9월 14일까지 외화 RP 잔고가 한 번도 없었던 신한투자증권 고객이면 누구나 신한알파 앱을 통해 매수가 가능하다.\n\n외화 RP(환매조건부매매)란 증권사가 보유하고 있는 외화 혹은 원화 표시 채권을 투자자에게 일정 기간 후 미리 약정한 가격으로 환매할 것을 조건으로 판매하는 금융 상품이다. 보유 중인 외화의 단기 운용 수단으로 주로 활용된다.\n\n이번 이벤트는 취약계층을 지원해 고객, 사회와 함께하겠다는 신한금융그룹(회장 진옥동) ‘동행 프로젝트’의 일환이다. 신한투자증권은 20·30세대에 특화된 금융 상품 출시를 통해 청년층의 자산증대 지원에 기여하겠다며, 더불어 해외주식에 관심이 많은 고객에게 외화자산 예수금 운용에 도움을 드리고자 이벤트를 기획했다고 밝혔다.\n\n상품에 대한 자세한 사항은 신한투자증권 MTS 신한알파 앱을 통해 확인할 수 있으며, 모든 금융 상품은 투자원금 손실 가능성이 있음에 유의해야 한다.\n\n웹사이트: https://www.shinhansec.com/\n\n연락처\n\n신한투자증권\n홍보실\n김용준 선임\n02-3772-4697\n===\n상기 보도자료를 기반으로 신문기사를 작성하라."}
Loading
Loading