Skip to content

Xây dựng chương trình xây dựng bộ stopwords tiếng việt dựa trên IDF sử dụng scikit-learn

Notifications You must be signed in to change notification settings

ltkk/vietnamese-stopwords

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Danh sách stopwords tiếng việt

Xây dựng danh sách stopword từ hơn 500k bài viết của wiki

Dữ liệu

  • Dữ liệu Wiki dump tiếng việt gồm hơn 500.000 bài viết(15/01/2019) viwiki-latest-pages-articles.xml.bz2
  • Bạn có thể download bộ dữ liệu này tại đây
https://dumps.wikimedia.org/viwiki/latest/

Xây dựng bộ stopwords

  • Thực hiện tính toán IDF cho tất cả các từ trong tập dữ liệu
  • Xuất ra các từ có IDF <= threshold(mình đang để là 3). Trong bộ dữ liệu này (minIDF, maxIDF) = (1.0086982995413565, 13.504312537543813)
  • Bạn có thể sửa thông số threshold này cho phù hợp với bài toán của mình

Sử dụng dữ liệu của bạn

  • Sử dụng file make_stopwords.py

About

Xây dựng chương trình xây dựng bộ stopwords tiếng việt dựa trên IDF sử dụng scikit-learn

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages