Wanted 프리온보딩 AI/ML 코스에서 수행한 프로젝트 / 과제들을 정리합니다.
- 선발 과제 :
Tokenizer
,Tf-idf Vectorizer
구현
- 기업 과제1 :
문자열 매칭
알고리즘 구현
- 기업 과제2 : 유튜브
데이터 분석
및인기도 지표
개발
- 기업 과제3 :
KLUE - STS
성능 개선
- 기업 과제4 : 스포츠 기사
요약문 생성
및평가 지표
개발
- 일일 과제 :
Pytorch
를 활용한NLP
모델링
huggingface
에서 pretrainedtokenizer
,bert
를 불러와 구조 확인layer
마다embedding
추출 및cosine-similarity
측정
Bert
에binary-classifier
를 연결해 nsmc 데이터로fine-tuning
fine-tuning
:free
,unfreeze
방법
Custom Dataset
,Custom collate_fn
구현- 훈련(train), 검증(valid)
Dataloader
구성
helper.py
모듈의Class
,function
를 importaccuracy()
함수 구현하여 모델의 예측 정확도 확인
Skip-gram
방식의word2vec
구현하기Corpus
: tokenized ko-wikipediastop-words
: https://www.ranks.nl/stopwords/korean
Negative Sampling
구현하기word2vec
학습 및gensim
으로 결과 확인
WordPiece Tokenizer
학습 및 결과 확인
Transformers
논문 구현- 참고 : https://nlp.seas.harvard.edu/2018/04/03/attention.html
Tensorboard
사용하기Graph
,Metrics
,Text
시각화