You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
contribution : 적은 데이터셋으로 벤치마크 개선. reasoning 관련 분석 많이 함
Details
motivation
Data
reasoning data distilation
Result
위와 같은 데이터 구성
(1) format: 답변 포맷만 맞출 수 있는 수준으로 구성한 것. 9개의 데이터셋 별로 50개의 sampling을 함. CoT / direct 둘다 + LLaVA-pretrain에서 2K
(2) direct data: (1) + 답변이 바로 나오는 193K를 Full로 넣은 것
(3) CoT data : (1) + CoT 193K를 넣은 것 + 추가로 GLLaVA-align / QA
(4) CoT SFT : (1) + direct + CoT 둘다 넣은 것 + 추가로 GLLaVA-align / QA
CAN REASONING BE IMPLICITLY LEARNT FROM DIRECT PREDICTION? -- (1)과 (2) 비교
-> direct answer만 넣고 학습한 경우 CoT infererence를 할 경우에 개선이 미미하거나 오히려 떨어지는 경우도 있었음(mathvista -1.7)
HOW EFFECTIVE IS COT REASONING DATA?
-- (3) chartQA나 Mathvista같이 계산이 많이 들어가는 벤치마크에서 성능이 올랐고, 의외로 TextVQA, DocVQA, InfoVQA 같은 Text-heavy한 벤치마크에서도 성능이 오르는걸 볼 수 있음.
-- (4) CoT와 Direct 모두 학습을 했을 때 가장 평균 성능이 좋았다. 다만 TextVQA, DocVQA, AI2D는 direct 성능이 더 좋았다. fact extraction 위주로 뽑는 벤치마크여서 그런 것 같다고 추정.
ABLATION TESTS ON DATA COMPOSITION
수학 쪽 data ablation. text only sft는 별로 효과가 없어서 제거했다고 함
science 쪽 ablation. 둘다 같이 쓰면 서로 좋았다.
Comparsion of GPT4o / Cambrian
ScienceQA는 closed set 이 성능이 좋네. train data 문제일수도..
DPO Result
외에 BoN등 내용이 더 많은데 나중에 정리 ㅜㅜ
The text was updated successfully, but these errors were encountered:
paper
TL;DR
Details
Data
Result
위와 같은 데이터 구성
CAN REASONING BE IMPLICITLY LEARNT FROM DIRECT PREDICTION? -- (1)과 (2) 비교
-> direct answer만 넣고 학습한 경우 CoT infererence를 할 경우에 개선이 미미하거나 오히려 떨어지는 경우도 있었음(mathvista -1.7)
HOW EFFECTIVE IS COT REASONING DATA?
-- (3) chartQA나 Mathvista같이 계산이 많이 들어가는 벤치마크에서 성능이 올랐고, 의외로 TextVQA, DocVQA, InfoVQA 같은 Text-heavy한 벤치마크에서도 성능이 오르는걸 볼 수 있음.
-- (4) CoT와 Direct 모두 학습을 했을 때 가장 평균 성능이 좋았다. 다만 TextVQA, DocVQA, AI2D는 direct 성능이 더 좋았다. fact extraction 위주로 뽑는 벤치마크여서 그런 것 같다고 추정.
ABLATION TESTS ON DATA COMPOSITION
수학 쪽 data ablation. text only sft는 별로 효과가 없어서 제거했다고 함
science 쪽 ablation. 둘다 같이 쓰면 서로 좋았다.
Comparsion of GPT4o / Cambrian
ScienceQA는 closed set 이 성능이 좋네. train data 문제일수도..
DPO Result
외에 BoN등 내용이 더 많은데 나중에 정리 ㅜㅜ
The text was updated successfully, but these errors were encountered: