Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[184] Improve Vision Language Model Chain-of-thought Reasoning #203

Open
long8v opened this issue Oct 29, 2024 · 0 comments
Open

[184] Improve Vision Language Model Chain-of-thought Reasoning #203

long8v opened this issue Oct 29, 2024 · 0 comments

Comments

@long8v
Copy link
Owner

long8v commented Oct 29, 2024

image

paper

TL;DR

  • I read this because.. : reasoning ability in VLM
  • task : VLM
  • problem : VLM instruction data 대부분이 단문이다
  • idea : GPT4-o를 가지고 CoT 데이터를 만들자
  • architecture : LLaVA-NeXT
  • objective : CE loss -> DPO loss
  • baseline : LLaVA-NeXT, GPT4o, Cambrian, (data) RLAIF
  • data : ShareGPT4-o Reasoning(아직 공개 안함)
  • evaluation : A-OKVQA, DocVQA, ChartQA, AI2D, ScienceQA, ...
  • result : 모든 벤치에서 골고루 높은 성능.
  • contribution : 적은 데이터셋으로 벤치마크 개선. reasoning 관련 분석 많이 함

Details

  • motivation
image

Data

  • reasoning data distilation
image image image image

Result

image

위와 같은 데이터 구성

  • (1) format: 답변 포맷만 맞출 수 있는 수준으로 구성한 것. 9개의 데이터셋 별로 50개의 sampling을 함. CoT / direct 둘다 + LLaVA-pretrain에서 2K
  • (2) direct data: (1) + 답변이 바로 나오는 193K를 Full로 넣은 것
  • (3) CoT data : (1) + CoT 193K를 넣은 것 + 추가로 GLLaVA-align / QA
  • (4) CoT SFT : (1) + direct + CoT 둘다 넣은 것 + 추가로 GLLaVA-align / QA
image

CAN REASONING BE IMPLICITLY LEARNT FROM DIRECT PREDICTION? -- (1)과 (2) 비교
-> direct answer만 넣고 학습한 경우 CoT infererence를 할 경우에 개선이 미미하거나 오히려 떨어지는 경우도 있었음(mathvista -1.7)

HOW EFFECTIVE IS COT REASONING DATA?
-- (3) chartQA나 Mathvista같이 계산이 많이 들어가는 벤치마크에서 성능이 올랐고, 의외로 TextVQA, DocVQA, InfoVQA 같은 Text-heavy한 벤치마크에서도 성능이 오르는걸 볼 수 있음.
-- (4) CoT와 Direct 모두 학습을 했을 때 가장 평균 성능이 좋았다. 다만 TextVQA, DocVQA, AI2D는 direct 성능이 더 좋았다. fact extraction 위주로 뽑는 벤치마크여서 그런 것 같다고 추정.

ABLATION TESTS ON DATA COMPOSITION
image

수학 쪽 data ablation. text only sft는 별로 효과가 없어서 제거했다고 함

image

science 쪽 ablation. 둘다 같이 쓰면 서로 좋았다.

Comparsion of GPT4o / Cambrian
image

ScienceQA는 closed set 이 성능이 좋네. train data 문제일수도..

DPO Result

image image image

외에 BoN등 내용이 더 많은데 나중에 정리 ㅜㅜ

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant