NLI를 통한 사전학습 후 결과 공유합니다. #11

risolate · 2022-10-27T02:31:18Z

risolate
Oct 27, 2022
Maintainer

[아이디어]

Sentence bert 논문에서 Supervised STS의 경우 NLI task로 선행학습 후 STS 학습을 했을 때 성능이 더 좋았다는 실험결과가 있다. 우리 모델의 경우는 어떨까?

[실험방법]

주어진 train 데이터의 binary-label을 활용해서 cross entropy를 이용한 분류 학습을 시킨 다음 STS task를 실험해 보자.

train.csv에서 binary-label을 가져오는 dataset을 새로 만들고, 이를 통해 NLI_loader를 만든다. model에서는 klue/roberta-large를 사용해 Sentence Bert로 u,v,|u-v|를 concat한 후 linear을 통해 binary label을 예측하였다.

loss로는 CrossEntropyLoss를 사용하였고 10 epoch로 NLI 선행학습을 하였다.

pbar = tqdm(range(10))
    
    for epoch in pbar:
        for iter, data in enumerate(tqdm(NLI_loader)):
                s1, s2, label = data
                s1 = s1.to(device)
                s2 = s2.to(device)
                label = label.type(torch.LongTensor)
                label = label.to(device)
                
                logits = NLI_model(s1, s2)
                loss = criterion(logits.squeeze(-1), label)

                optimizer.zero_grad()
                loss.backward()
                optimizer.step()

[실험결과]

실험을 통해 나온 vaild_loss와 train_loss는 다음과 같다. 보라색으로 표시된 것이 NLI를 적용한 모델이고 파란색으로 표시된 것이 NLI를 적용하지 않은 모델이다.

실험 결과를 정리하면

1. valid_loss는 두 모델 다 STS task중 유의미한 학습을 하지 못하였다. 다만 NLI를 적용한 모델의 경우 시작 valid-loss가 0.4정도 낮았다. 
2. train_loss의 경우 NLI를 적용한 모델이 0.5정도 낮게 나왔다. 다만 시작 시점의 train_loss는 NLI를 적용한 모델이 더 높았다.

다른 모델에서도 Binary label을 통한 사전학습을 수행해볼 가치가 있을 것이다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NLI를 통한 사전학습 후 결과 공유합니다. #11

{{title}}

Replies: 0 comments

Select a reply

NLI를 통한 사전학습 후 결과 공유합니다. #11

risolate Oct 27, 2022 Maintainer

Replies: 0 comments

risolate
Oct 27, 2022
Maintainer