Skip to content

yifan0401/toutiao_news_classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

taobao_comment_sentiment_analysis

项目背景介绍

情感分析就是根据文本推测出这段文本所蕴含的感情:积极或者是消极的,实际上情感不只是有积极或者消极,人还会有生气、开心、悲伤等各种情绪,但是计算机不同于人,理论上只要有足够多各种情绪标注的文本的话,可以识别出各种情绪的文本。但是由于获取情感标注的文本比较少,一般只有积极和消极两种文本。

实验流程:

1. 评论获取:利用python抓取淘宝耳圈评论2000条,并存入csv文件。

2. 数据预处理:

  • 删除缺失值
  • 文本去重 - 删除6386条评论
  • 机械压缩去词
  • 删除4字以下的评论 - 删除84条评论
  • 用snownlp对评论进行标注 - 好评1205条,差评325条 - 共1530条评论
  • jieba分词
  • 使用哈工大停用词文件去除停用词

3. 建模与诊断

  • 将句子转换为词向量: CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺序和频率。同理,Tf-idf就是将频率换成Tf权值。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages