본 프로젝트는 머신러닝 분석 1000시간 교육과정의 학습내용을 종합하여 최종 결과물을 구현하는 팀 프로젝트입니다. Built by. 고영빈,박소희, 송이레, 이상아
- 기획 의도
- 주제 정의
- 댓글 데이터 분석을 위한 자연어 처리
- 주 52시간 근무제 - 웹 댓글 데이터 분석을 통한 체감도 조사 [
감성분석
>>실효성평가
]
-
데이터 스키마
컬럼명 속성 site 사이트명 title 기사 제목 article_time 기사 작성일 press 언론사 total_comments 기사 총 댓글 수 nickname 댓글 닉네임 date 댓글 작성일 contents 댓글 내용 recomm 댓글 추천 수 unrecomm 댓글 비추천 수
형태소 분석 목적
- Web에서 사용하는 단어들을 분석 가능한 형태로 얻기 위해
형태소 분석기 선택
- 형태소 분석기 종류 mecab, okt, kkma, hanannum > mecab 선택
- mecab 선택 이유 : 정확도, 속도면 에서 가장 빠름 (약 180만개의 댓글 분석에 속도를 중요시 하였음.)
긍/부정 사전 제작 이유
- 커뮤니티 데이터 셋의 각 댓글에 긍/부정을 라벨링한 뒤, 포털 데이터셋의 댓글을 분류하기 위해
4.사전 평가
NLP 흐름 설명 시 보았던 자연어를 컴퓨터가 인식 가능한 수치로 바꿔주는 과정
RNN / BERT 두가지 모델 사용
- 모델 평가
LSTM | BERT | |
---|---|---|
Test Accuracy | 0.9066 | 0.8695 |
Total Time | 16' 21' | 50' 48' |
Labeling Result |
- 정책의 실효성을 평가하기 위한 프로세스 수립
- 실효성 지표 선정
- 평가 모델 생성
- 적용 및 분석
- 결과
- 가정
- 임금
본 프로젝트에서 궁금하신 사항(소스코드 및 개발과정 등)이 있으신 분은 아래 E-mail or homepage를 통해 contact 바랍니다.
데이터 / 임베딩 : [email protected]
모델링 : [email protected]
감성사전 / 시각화 : [email protected]