뉴스와 소셜 데이터 기반 이슈 분석 및 시각화
전이학습을 통한 대중적 관심분야 분석 및 통계 : 뉴스와 소셜 데이터를 중심으로
- python 3.9
- CUDA 11.2
- pytorch 1.7
- openjdk-8-jdk
- 각 모델 설정값 참고
├── anaconda3
├── dataset
│ ├── chabeul
│ │ ├── chabeul_2021_01_04.xlsx
│ │ ├── *.xlsx
│ ├── chungdae
│ ├── imdeacha
│ ├── tanso
├── model
│ ├── description
│ │ ├── models
│ │ │ ├── chabeul
│ │ │ │ ├── config.json
│ │ │ │ ├── pytorch_model.bin
│ │ │ │ ├── special_tokens_map.json
│ │ │ │ ├── tokenizer_config.json
│ │ │ │ ├── tokenizer.json
│ │ │ │ ├── training_args.bin
│ │ │ ├── chungdae
│ │ │ ├── imdeacha
│ │ │ ├── tanso
│ │ ├── src
│ │ │ ├── example
│ │ │ ├── description.py
│ │ │ ├── train.py
│ │ │ ├── utils.py
│ ├── issuemulticlassification
│ │ ├── dataset
│ │ │ ├── issue_test_set.csv
│ │ │ ├── issue_train_set.csv
│ │ ├── models
│ │ │ ├── issue_classification.pt
│ │ ├── src
│ │ │ ├── evaluation.py
│ │ │ ├── utils.py
│ ├── keyword
│ ├── nsi
│ ├── sentimental
├── result
│ ├── 임대차3법
│ │ ├── keywords_뉴스.xlsx
│ │ ├── keywords_블로그.xlsx
│ │ ├── keywords_커뮤니티.xlsx
│ │ ├── keywords_트위터.xlsx
│ │ ├── nsi_뉴스.xlsx
│ │ ├── sentimental_binary_블로그.xlsx
│ │ ├── sentimental_binary_커뮤니티.xlsx
│ │ ├── sentimental_binary_트위터.xlsx
│ │ ├── wordcloud_뉴스.png
│ │ ├── wordcloud_블로그.png
│ │ ├── wordcloud_커뮤니티.png
│ │ ├── wordcloud_트위터.png
│ ├── 중대재해처벌법
│ ├── 차별금지법
│ ├── 탄소중립
│ ├── 발표자료.pdf
└── README.md
- description
- attention 기반 transformer text generation model
- 문장 독해 및 생성 모델
- issue classification
- Fine tuning in terms of specific task on Pre-training of Deep Bidirectional Transformers
- KoBERT 기반 이슈 분류 모델
- keyword extraction
- Attention 기반 Transformer sentence embedding model
- n-gram 및 max-sum-similarity를 이용한 키워드 추출 모델
- nsi
- KoBERT 기반 경제, 사회 흐름 및 이슈 해석 모델
- sentimental classification
- 트위터,커뮤니티,블로그 데이터 감성분석 모델
- description
- 실행 : python model/description/description.py
- predict : 실행 후 원하는 항목 수동 입력
- 원하는 항목을 물음 형태로 제시
- ex) 임대차 3법이란?
- 생성 모델이므로 매 실행마다 유사한 의미를 가지나 결과가 다를 수 있음
- issue classification
- 실행 : python model/issuemulticlassification/evaluation.py
- predict : interative한 입력을 하고싶었으나, 적절한 데이터셋을 구하지 못해 csv 파일로 입력
- 결과물 : result 폴더의 keyword.xlsx 참고
- keyword extraction
- 실행 : python model/keyword/main.py
- predict : interative한 입력을 하고싶었으나, 적절한 데이터셋을 구하지 못해 csv 파일로 입력
- 결과물 : result 폴더의 keyword.xlsx 참고
- nsi
- 실행 : python model/nsi/main.py
- predict : 일주일 이상의 데이터가 입력으로 들어와야 유의미한 지표 도출가능
- 결과물 : result 폴더의 nsi_뉴스.xlsx 참고
- sentimental classification
- 실행 : python model/sentimental/main.py
- predict : 직접 입력하여 확인하거나, csv 파일로 입력
- 결과물 : result 폴더의 sentimental_binary_*.xlsx 참고
conda 환경 아래 base 변수에 필요한 패키지 설치해두었습니다.
자세한 사항은 발표자료를 참고해주세요.