[184] Improve Vision Language Model Chain-of-thought Reasoning #203

long8v · 2024-10-29T05:55:33Z

paper

TL;DR

I read this because.. : reasoning ability in VLM
task : VLM
problem : VLM instruction data 대부분이 단문이다
idea : GPT4-o를 가지고 CoT 데이터를 만들자
architecture : LLaVA-NeXT
objective : CE loss -> DPO loss
baseline : LLaVA-NeXT, GPT4o, Cambrian, (data) RLAIF
data : ShareGPT4-o Reasoning(아직 공개 안함)
evaluation : A-OKVQA, DocVQA, ChartQA, AI2D, ScienceQA, ...
result : 모든 벤치에서 골고루 높은 성능.
contribution : 적은 데이터셋으로 벤치마크 개선. reasoning 관련 분석 많이 함

Details

motivation

Data

reasoning data distilation

Result

위와 같은 데이터 구성

(1) format: 답변 포맷만 맞출 수 있는 수준으로 구성한 것. 9개의 데이터셋 별로 50개의 sampling을 함. CoT / direct 둘다 + LLaVA-pretrain에서 2K
(2) direct data: (1) + 답변이 바로 나오는 193K를 Full로 넣은 것
(3) CoT data : (1) + CoT 193K를 넣은 것 + 추가로 GLLaVA-align / QA
(4) CoT SFT : (1) + direct + CoT 둘다 넣은 것 + 추가로 GLLaVA-align / QA

CAN REASONING BE IMPLICITLY LEARNT FROM DIRECT PREDICTION? -- (1)과 (2) 비교
-> direct answer만 넣고 학습한 경우 CoT infererence를 할 경우에 개선이 미미하거나 오히려 떨어지는 경우도 있었음(mathvista -1.7)

HOW EFFECTIVE IS COT REASONING DATA?
-- (3) chartQA나 Mathvista같이 계산이 많이 들어가는 벤치마크에서 성능이 올랐고, 의외로 TextVQA, DocVQA, InfoVQA 같은 Text-heavy한 벤치마크에서도 성능이 오르는걸 볼 수 있음.
-- (4) CoT와 Direct 모두 학습을 했을 때 가장 평균 성능이 좋았다. 다만 TextVQA, DocVQA, AI2D는 direct 성능이 더 좋았다. fact extraction 위주로 뽑는 벤치마크여서 그런 것 같다고 추정.

ABLATION TESTS ON DATA COMPOSITION

수학 쪽 data ablation. text only sft는 별로 효과가 없어서 제거했다고 함

science 쪽 ablation. 둘다 같이 쓰면 서로 좋았다.

Comparsion of GPT4o / Cambrian

ScienceQA는 closed set 이 성능이 좋네. train data 문제일수도..

DPO Result

외에 BoN등 내용이 더 많은데 나중에 정리 ㅜㅜ

long8v added CMU MLLM 2024Q3 labels Oct 29, 2024

long8v mentioned this issue Dec 2, 2024

[188] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step #207

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[184] Improve Vision Language Model Chain-of-thought Reasoning #203

[184] Improve Vision Language Model Chain-of-thought Reasoning #203

long8v commented Oct 29, 2024 •

edited

Loading

[184] Improve Vision Language Model Chain-of-thought Reasoning #203

[184] Improve Vision Language Model Chain-of-thought Reasoning #203

Comments

long8v commented Oct 29, 2024 • edited Loading

TL;DR

Details

Data

Result

DPO Result

long8v commented Oct 29, 2024 •

edited

Loading