Skip to content

DKTC (Dataset of Korean Threatening Conversations) 데이터를 활용한 다중분류 프로젝트

Notifications You must be signed in to change notification settings

okchang95/DLTHON_NLP_DKTC

 
 

Repository files navigation

DLTHON_NLP_DKTC 다중분류 프로젝트: 한국어 위협 대화 데이터셋 활용

[ 발표 PDF ]

DLTHON_NLP 기간: 2024년 1월 10일부터 1월 12일

팀명: 바른말 고운말

DKTC (Dataset of Korean Threatening Conversations)을 활용한 다중 분류 프로젝트를 진행하였습니다.
이 프로젝트에서 저희 팀은 머신러닝과 딥러닝 모델을 활용하여 주어진 DKTC dataset(한국어 위협 대화 데이터셋)의 4가지 클래스 분류를 수행하였습니다.

클래스명 샘플 수
기타 괴롭힘 대화 1094
갈취 대화 981
직장 내 괴롭힘 대화 979
협박 대화 896

DKTC 데이터셋은 멀티턴 대화 형식으로 구성되어 있습니다.

image

사용된 모델은 다음과 같습니다.

분야 사용된 모델
머신러닝 SGD Classifier, LinearSVC, VotingClassifier, MultinomialNB, LogisticRegression, ComplementNB, DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier, LGBMClassifier, XGBClassifier
딥러닝 LSTM, Bidirectional LSTM, Simple RNN, GRU
트랜스포머 BERT, GPT-3.5

결과

Team Name Accuracy Score
바른말 고운말 simpleRNN 0.3
바른말 고운말 aug_simpleRNN 0.345
바른말 고운말 LSTM 0.54
바른말 고운말 GRU 0.56
바른말 고운말 bi_LSTM 0.5675
바른말 고운말 aug_GRU 0.6275
바른말 고운말 aug+LSTM 0.6825
바른말 고운말 aug_LSTM 0.7325
바른말 고운말 aug_bi_LSTM 0.755
바른말 고운말_ML2 0.81
바른말 고운말_MLensemble 0.81
바른말 고운말 ML 0.815
바른말 고운말 aug_ML2 0.815
바른말 고운말 aug_ensemble 0.8175
바른말 고운말 aug_ML 0.82
바른말 고운말 gpt3.5-ft 0.865
바른말 고운말 klue/bert-base 0.9
바른말 고운말 bert augment 0.9125
바른말 고운말 0.915
바른말 고운말 kobigbird 0.915
바른말 고운말 bert ensemble 0.92
바른말 고운말 kykim/bert-kor-base 0.9225

About

DKTC (Dataset of Korean Threatening Conversations) 데이터를 활용한 다중분류 프로젝트

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%