情感分析就是根据文本推测出这段文本所蕴含的感情:积极或者是消极的,实际上情感不只是有积极或者消极,人还会有生气、开心、悲伤等各种情绪,但是计算机不同于人,理论上只要有足够多各种情绪标注的文本的话,可以识别出各种情绪的文本。但是由于获取情感标注的文本比较少,一般只有积极和消极两种文本。
- 删除缺失值
- 文本去重 - 删除6386条评论
- 机械压缩去词
- 删除4字以下的评论 - 删除84条评论
- 用snownlp对评论进行标注 - 好评1205条,差评325条 - 共1530条评论
- jieba分词
- 使用哈工大停用词文件去除停用词
- 将句子转换为词向量: CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺序和频率。同理,Tf-idf就是将频率换成Tf权值。