Pearson vs Spearman correlation #52
intrandom5
started this conversation in
Ideas
Replies: 1 comment
-
아, 물론 SimCSE 제출 결과는 0.89점 나왔습니다...ㅠ |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
Pearson Correlation Coefficient
위 그래프에서 맨 오른쪽 그래프와 같이 두 변수 사이에 선형적인 관계가 없을 경우 Pearson Correlation은 0점을 낸다.
Spearman Correlation Coefficient
Comparison of Pearson and Spearman coefficients
STS 모델 결과 지표
라벨과 모델의 예측 점수를 scatter 해보면 위와 같은 결과가 나타난다. 맨 왼쪽 그림은 지금 실험 중인 SimCSE 모델의 결과, 가운데는 그냥 STS만 학습했을 떄의 결과, 오른쪽은 두 지표가 일치할 때 어떻게 그래프가 나타나야하는지를 확인하기 위해 그려둔 그래프이다.
https://stages.ai/competitions/209/discussion/talk/post/1647에서 말하듯이, Correlation 점수 확인도 좋지만, 위와 같이 scatter plot을 확인하고 어떤 모델의 성능이 더 좋은지 눈으로 직접 확인할 필요가 있다.
일단 위의 두 그래프의 pearson과 spearman 상관관계 점수를 계산해 보겠다.
그냥 STS 모델의 경우, Pearson correlation은 0.901, Spearman correlation은 그보다 낮은 0.899가 나왔다.
그러나 SimCSE 모델의 경우, Pearson correlation은 0.921, Spearman correlation은 더 높은 0.924가 나왔다.
내가 보기에는 SimCSE Model의 산점도가 좀 더 중앙에 밀집해 있는 것으로 보이는데, Spearman correlation도 SimCSE 모델의 점수가 더 높게 나왔으므로, Pearson Correlation보다 Spearman Correlation의 점수가 더 신뢰성있다고 보여진다.
물론 정확한 성능은 당연히 더 자세한 분석이 필요하겠지만, Pearson보다 Spearman correlation을 사용해야 하는 이유로는 충분한 듯 하다.
참고한 링크 :
https://towardsdatascience.com/clearly-explained-pearson-v-s-spearman-correlation-coefficient-ada2f473b8
https://velog.io/@xuio/NLP-%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-STS%EC%97%90-%EB%8C%80%ED%95%9C-%EB%AA%A8%EB%8D%B8%EA%B3%BC-%EB%9D%BC%EB%B2%A8%EC%9D%98-Pearson-Correlation%EC%9D%80-%ED%9A%A8%EA%B3%BC%EC%A0%81%EC%9D%B4%EC%A7%80-%EB%AA%BB%ED%95%9C%EA%B0%80-Task-Oriented-Intrinsic-Evaluation-of-Semantic-Textual-Similarity
Beta Was this translation helpful? Give feedback.
All reactions