[182] Calibrated Self-Rewarding Vision Language Models #201

long8v · 2024-10-10T03:15:49Z

paper

TL;DR

I read this because.. : VLM self-rewarding
task : LVLM
problem : LVLM이 object hallucination이 심한데 이는 text token에 너무 attention이 실려있기 때문
idea : self rewarding + CLIPScore로 image relevance 두개 잘 합쳐서 이미지에 dependant 하도록 reward 주도록 하자
architecture : LLaVA 1.5 7B / 13B
objective : DPO loss
baseline : LLaVA, RLHF-V, VLfeedback, ...
data : iteration 돌면서 생성. seed는 llava-instruction 150K 데이터 중 랜덤으로 뽑은 subset 13K
evaluation : VLM bench(MME, SEED, LLaVA_w, MMBench, ...), VQA(SQA, VisWiz, GQA), Hall-bench(POPE, CHAIR)
result : VLM bench, VQA, hall-bench 모두 개선
contribution :
etc. :

Details

Preliminary

LARGE LANGUAGE MODELS CAN SELF-IMPROVE https://arxiv.org/abs/2210.11610

Proposed

VLM으로 샘플들 생성하고 (beam search decoding) 각 문장별로 reward를 매기고 이 reward의 합으로 전체 시퀀스의 점수를 매김.
good / bad response를 뽑고 이걸로 DPO 학습
학습된 VLM으로 다시 샘플등 생성하고 ... 이렇게 세번 반복

Reward

Text score + image score의 합

$\lambda$는 하이퍼파라미터. 0.9로 셋팅

text score

$x$ : prompt
$r_i$ : ith response token
$s$ : sentence
$R_t$ : LVLM의 text decoder 부분.

재밌는건 문장만 들어가고 이미지는 안들어가고, 이전 문장도 안들어감. 논문에서는 instruction following score라고 표현

image score

CLIPScore.

Result

comparsion with other vlms

iterative 하면서 결과

ablations

long8v added NeurIPS 25min RL MLLM 2024Q2 labels Oct 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[182] Calibrated Self-Rewarding Vision Language Models #201

[182] Calibrated Self-Rewarding Vision Language Models #201

long8v commented Oct 10, 2024

[182] Calibrated Self-Rewarding Vision Language Models #201

[182] Calibrated Self-Rewarding Vision Language Models #201

Comments

long8v commented Oct 10, 2024

TL;DR

Details

Preliminary

Proposed

Reward

Result

ablations