You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
data : 처음으로 틀린 step이 저장되어 있는 374K pair 데이터(proposed), AQuA
evaluation : MATH, GSM8K, AIME, Odyssey-MATH
result : DPO보다 나은 성능. GPT-4-1106, Claude-3-Opus, Gemini-1.5-Pro를 이겼다고 함.
contribution : data 공개. 이런 류가 많은것 같은데 이게 처음인지는 모르겠음
etc. :
Details
Performance
motivation
이 논문에서 말하는 SFT의 단점은 desirable output 뿐 아니라 undesirable output에 대한 likelihood도 높인다는 점임 -> prone to hallucination
이를 해결하기 위해 undesriable supervision을 주는게 RLHF인데 DPO의 경우 long sequence output에 대해 효과가 좋지 않다고 함. (finegrained process supervision이 없어서라고 표현)
Step-DPO
전체 시퀀스가 아니라 틀린 step에 대해서 win -- lose margin을 최대화하도록
$s_i$ : i번째 reasoning step
$x$ : prompt
$k$ : 최초로 틀린 step
In-distribtuion data construction
아래와 같이 만드는게 목표
파이프라인
error collection
problems x 와 gt answer $\hat{y}$를 모음.
reference model $\pi_{ref}$를 가지고 step-wise CoT preifx로 실행해서 step으로 나눔
final answer y가 gt answer가 다른 것들을 모음.
step localization
reasoning step $y=s_1, s_2, ... , s_n$에서 처음으로 틀린 $k$를 찾음. (manually or gpt-4를 통해)
틀린 step k의 에러를 $s_{lose}$로 선정
rectification
맞는 ressoning step $s_{1~{k-1}}$을 주어주고 여러번 reference model에 infer해서 여러개 구함
이중에 final answer가 gt와 맞는 걸 $s_{win}$으로 선정함.
이때 정답이 맞더라도 과정이 틀릴 수 있는데 이는 manually or gpt-4로 정제함 (그림에서는 생략되어 있음)
Result
전체 374K를 모았고, 이중 299K가 SFT 데이터로 쓰였고 나머지 75K는 Step-DPO로 쓰임
SFT는 3 or 2 에폭
Step-DPO는 8 or 4 에폭 돌림
SFT dataset에 추가적으로 AQuA 데이터 셋 사용함
Ablation
DPO vs Step-DPO
in-distribution vs out-distribution
사용하는 데이터가 우리가 학습한 모델의 inference 결과인게 중요하다고 함
The text was updated successfully, but these errors were encountered:
paper, code/data
TL;DR
Details
Performance
motivation
이 논문에서 말하는 SFT의 단점은 desirable output 뿐 아니라 undesirable output에 대한 likelihood도 높인다는 점임 -> prone to hallucination
이를 해결하기 위해 undesriable supervision을 주는게 RLHF인데 DPO의 경우 long sequence output에 대해 효과가 좋지 않다고 함. (finegrained process supervision이 없어서라고 표현)
Step-DPO
전체 시퀀스가 아니라 틀린 step에 대해서 win -- lose margin을 최대화하도록
In-distribtuion data construction
아래와 같이 만드는게 목표
파이프라인
error collection$\hat{y}$ 를 모음.$\pi_{ref}$ 를 가지고 step-wise CoT preifx로 실행해서 step으로 나눔
problems x 와 gt answer
reference model
final answer y가 gt answer가 다른 것들을 모음.
step localization$y=s_1, s_2, ... , s_n$ 에서 처음으로 틀린 $k$ 를 찾음. (manually or gpt-4를 통해)$s_{lose}$ 로 선정
reasoning step
틀린 step k의 에러를
rectification$s_{1~{k-1}}$ 을 주어주고 여러번 reference model에 infer해서 여러개 구함
맞는 ressoning step
이중에 final answer가 gt와 맞는 걸$s_{win}$ 으로 선정함.
이때 정답이 맞더라도 과정이 틀릴 수 있는데 이는 manually or gpt-4로 정제함 (그림에서는 생략되어 있음)
Result
Ablation
DPO vs Step-DPO
in-distribution vs out-distribution
사용하는 데이터가 우리가 학습한 모델의 inference 결과인게 중요하다고 함
The text was updated successfully, but these errors were encountered: