#Bayesian Filtering -- using web crawlers for learning with big data
本项目使用朴素贝叶斯分类器对用户输入的电影剧情进行分类,以爬虫从豆瓣以及百度百科获取大量数据对分类器进行训练。
##Tech Spec ###步骤概述 Step 1. 使用爬虫在豆瓣电影中爬取电影的Title Step 2. 访问百科相应网页,应用HTML DOM抽取其中段落 Step 3. 使用贝叶斯分类器进行学习和训练
###步骤细节
- 使用网络爬虫对豆瓣电影中爱情类,科幻类,以及悬疑类电影的Title进行爬取(Ex. Link: http://movie.douban.com/tag/爱情) 三种类型的电影各爬取1000个条目,结果分别存储在一个TXT文件中 Result: 获得3个movieTitleList.txt
- 对于每个电影的Title,作为URL成分访问百科的网页,通过 HTML DOM 获取相应电影百科页面的所有文字内容 Result: 获得每部电影百科页面所有文字内容,我们称此为一个article
- 对于每类,把1000部电影的article append到一起,存入一个TXT Result: 获得3个分类的result.txt (romanticResult.txt, scienceResult.txt和suspenseResult.txt)
- 对result.txt进行中文分词处理,分词结果存储在resultToken Result: 获得3个分类的resultToken.txt (romanticResultToken.txt, scienceResultToken.txt和suspenseResultToken.txt)
- 使用三个resultToken.txt对贝叶斯分类器进行训练 Result:生成3个分类的catTable