We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
paper, code
LLM의 sparse reward가 문제다
특히 sequence 길이가 길어질 때 더더욱 stability가 떨어진다.
LLM 문제를 일종의 sequential한 decision making이라고 볼 수 있고 finite-state(문장은 언제나 끝나니까..) MDP 문제로 표현할 수 있다.
우리의 목표는 아래의 discounted reward를 최대화하는 action을 찾는 것이라고 볼 수 있다.
우리가 하는 것은 마지막 토큰 선택에 대한 reward를 아는 것이다.
여기서 $\alpha_i$는 reward model이 마지막 토큰에서 reward를 예측할 때의 마지막 레이어의 attention map의 head 평균이다. (마지막 token row를 인덱싱해서 벡터)
time step t의 reward에 대해서 attention map으로 나누어져서 벡터로 만들면 이게 ABC
The text was updated successfully, but these errors were encountered:
No branches or pull requests
paper, code
TL;DR
Details
motivation
LLM의 sparse reward가 문제다
특히 sequence 길이가 길어질 때 더더욱 stability가 떨어진다.
preliminary
proposed ABC
LLM 문제를 일종의 sequential한 decision making이라고 볼 수 있고
finite-state(문장은 언제나 끝나니까..) MDP 문제로 표현할 수 있다.
우리의 목표는 아래의 discounted reward를 최대화하는 action을 찾는 것이라고 볼 수 있다.
우리가 하는 것은 마지막 토큰 선택에 대한 reward를 아는 것이다.
여기서$\alpha_i$ 는 reward model이 마지막 토큰에서 reward를 예측할 때의 마지막 레이어의 attention map의 head 평균이다. (마지막 token row를 인덱싱해서 벡터)
time step t의 reward에 대해서 attention map으로 나누어져서 벡터로 만들면 이게 ABC
result
Limitation
reward model tokenizer == action model tokenize 여야지 현재가능
ABC 방법이 RM에 더 오버피팅된 것일 수도 있는데 fully 탐색하지 않았다.
모든 reward가 positive다. DeepLIFT 같은걸로 Negative도 해보자
The text was updated successfully, but these errors were encountered: