Skip to content

Latest commit

 

History

History
4 lines (4 loc) · 474 Bytes

README.md

File metadata and controls

4 lines (4 loc) · 474 Bytes

Spam-filtering

用两种手段实现的基于朴素贝叶斯算法的中文垃圾短信过滤。 其中main.py中直接调用sklearn库实现。而在my_classfication是基于朴素贝叶斯原理自己手撸的代码实现。通过这次实现使得自己对于朴素贝叶斯算法有了更深的理解和体会。 整个过程分为数据预处理+训练。数据预处理包括分词,去除无意义词等部分。训练则是根据句子的词频矩阵进行的。