You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Sentence bert 논문에서 Supervised STS의 경우 NLI task로 선행학습 후 STS 학습을 했을 때 성능이 더 좋았다는 실험결과가 있다. 우리 모델의 경우는 어떨까?
[실험방법]
주어진 train 데이터의 binary-label을 활용해서 cross entropy를 이용한 분류 학습을 시킨 다음 STS task를 실험해 보자.
train.csv에서 binary-label을 가져오는 dataset을 새로 만들고, 이를 통해 NLI_loader를 만든다. model에서는 klue/roberta-large를 사용해 Sentence Bert로 u,v,|u-v|를 concat한 후 linear을 통해 binary label을 예측하였다.
loss로는 CrossEntropyLoss를 사용하였고 10 epoch로 NLI 선행학습을 하였다.
실험을 통해 나온 vaild_loss와 train_loss는 다음과 같다. 보라색으로 표시된 것이 NLI를 적용한 모델이고 파란색으로 표시된 것이 NLI를 적용하지 않은 모델이다.
실험 결과를 정리하면
1. valid_loss는 두 모델 다 STS task중 유의미한 학습을 하지 못하였다. 다만 NLI를 적용한 모델의 경우 시작 valid-loss가 0.4정도 낮았다.
2. train_loss의 경우 NLI를 적용한 모델이 0.5정도 낮게 나왔다. 다만 시작 시점의 train_loss는 NLI를 적용한 모델이 더 높았다.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
[아이디어]
Sentence bert 논문에서 Supervised STS의 경우 NLI task로 선행학습 후 STS 학습을 했을 때 성능이 더 좋았다는 실험결과가 있다. 우리 모델의 경우는 어떨까?
[실험방법]
주어진 train 데이터의 binary-label을 활용해서 cross entropy를 이용한 분류 학습을 시킨 다음 STS task를 실험해 보자.
train.csv에서 binary-label을 가져오는 dataset을 새로 만들고, 이를 통해 NLI_loader를 만든다. model에서는 klue/roberta-large를 사용해 Sentence Bert로 u,v,|u-v|를 concat한 후 linear을 통해 binary label을 예측하였다.
loss로는 CrossEntropyLoss를 사용하였고 10 epoch로 NLI 선행학습을 하였다.
[실험결과]
실험을 통해 나온 vaild_loss와 train_loss는 다음과 같다. 보라색으로 표시된 것이 NLI를 적용한 모델이고 파란색으로 표시된 것이 NLI를 적용하지 않은 모델이다.
실험 결과를 정리하면
다른 모델에서도 Binary label을 통한 사전학습을 수행해볼 가치가 있을 것이다.
Beta Was this translation helpful? Give feedback.
All reactions