You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
VLM으로 샘플들 생성하고 (beam search decoding) 각 문장별로 reward를 매기고 이 reward의 합으로 전체 시퀀스의 점수를 매김.
good / bad response를 뽑고 이걸로 DPO 학습
학습된 VLM으로 다시 샘플등 생성하고 ... 이렇게 세번 반복
paper
TL;DR
Details
Preliminary
LARGE LANGUAGE MODELS CAN SELF-IMPROVE https://arxiv.org/abs/2210.11610
Proposed
VLM으로 샘플들 생성하고 (beam search decoding) 각 문장별로 reward를 매기고 이 reward의 합으로 전체 시퀀스의 점수를 매김.
good / bad response를 뽑고 이걸로 DPO 학습
학습된 VLM으로 다시 샘플등 생성하고 ... 이렇게 세번 반복
Reward
Text score + image score의 합
재밌는건 문장만 들어가고 이미지는 안들어가고, 이전 문장도 안들어감. 논문에서는 instruction following score라고 표현
CLIPScore.
Result
ablations
The text was updated successfully, but these errors were encountered: