related book: Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Instagram, GitHub, and More
相关内容: 社交网络媒体数据的爬取、数据分析、数据挖掘、数据可视化和专家系统推荐项目
厦门大学信息学院软件工程系《社交网络技术与应用》相关课程
基本项目具体要求
爬取社交媒体数据(共2分)
(丁香园疫情数据/核辐射数据集)数据爬取(按照小组选定的具体省市地址获取信息开始到现在的所有时序数据,请添加具体实现步骤、运行结果和相关截图)(1分)
可自行选定社交媒体网站,例如豆瓣,微博,知乎,百度百科(国内)+ Facebook ,Twitter(国外)等等,爬取小组选定分析主题相关的社交媒体文本评论数据(要求至少爬取10万条数据,请添加具体实现步骤、运行结果和相关截图)(1分)
数据预处理与存储(共10分)
(丁香园疫情数据/核辐射数据集)数据去重(根据实际需要进行数据去重处理,请添加具体实现步骤、运行结果和相关截图,若无重复数据也需要处理后通过运行结果和截图说明);(1分)
(丁香园疫情数据/核辐射数据集)数据清洗(根据实际需要进行相应的空值和异常值处理,请添加具体实现步骤、运行结果和相关截图)。(2分,其中空值处理1分,异常值处理1分)
(丁香园疫情数据/核辐射数据集)特征工程(根据实际需要进行相应的特征选择和降维处理,请添加具体实现步骤、运行结果和相关截图)。(2分,其中特征选择1分,降维处理1分)
社交媒体文本评论数据处理
数据去重(去除重复的数据,请添加具体实现步骤、运行结果和相关截图);(1分)
数据清洗(对所有文本数据进行中文分词、去停用词、处理重复词,请添加具体实现步骤、运行结果和相关截图)。(2分,其中中文分词/去停用词1分,处理重复词1分)
数据存储
(丁香园疫情数据/核辐射数据集)将处理后的数据存储进数据库设计好的表里(请添加具体实现步骤、运行结果和相关截图,请描述清楚表格的结构设计);(1分)
将处理前的文本数据存储成文件,在数据库设计表格存储文本文件位置,处理后的文本数据存储进数据库设计好的表里(请添加具体实现步骤、运行结果和相关截图,请描述清楚表格的结构设计)。(1分)
实现(丁香园疫情数据/核辐射数据集)数据的分析与可视化(共12分)
针对三种数值型属性请画图表分析每列数据发展趋势与变化(请添加具体实现步骤、运行结果和相关截图);(3分,其中每种属性分析1分)
请用相关地图动态展示该省/市从开始到数据集结束时间点的发展趋势和变化(请描述清楚发展的分级依据和定义,请用颜色区分的发展趋势,并添加具体实现步骤、运行结果和相关截图);(2分,其中分级定义1分,地图动态展示1分)
对相关数据进行分类,画出结果图(请根据地图任务中的分级定义作为标签进行分类);(3分,其中分类算法选择依据1分,分类算法实现1分,分类结果可视化1分)
请在网站前端实现一个数据分析页面,将所有图表和分析结果可视化在网站页面上。(请注意分析你们的结果,请添加具体实现步骤、运行结果和相关截图)。(4分,其中前端页面实现1分,分类结果分析1分,基于数值型属性的发展趋势与变化结果分析1分,地图动态发展趋势分析1分)
实现社交媒体评论的分析与可视化(共16分)
对社交媒体文本评论数据进行词频统计,并基于词的重要性进行排序,提取重要性最高的前50个关键词,画出数据集的词云图(请描述清楚词的重要性定义和计算公式,请用字体、颜色、大小等可视化词的重要性,请添加具体实现步骤、运行结果和相关截图);(4分,其中词的重要性定义1分,词的重要性统计与排序1分,词的重要性可视化即词云图实现1分)
对社交媒体数据进行聚类,画出结果图(请添加具体实现步骤、运行结果和相关截图)(4分,其中聚类算法选择依据1分,聚类算法实现1分,聚类结果可视化1分)
对评论数据进行情感分析,画出结果图(请添加具体实现步骤、运行结果和相关截图);(4分,词性标注1分,情感分析算法选择依据1分,情感分析实现1分,结果可视化1分)
请在网站前端实现一个社交媒体数据分析页面,将上述所有的结果有序可视化在网站页面上(请注意分析你们的结果,请添加具体实现步骤、运行结果和相关截图)。(4分,其中前端实现1分,词云图结果分析1分,聚类结果分析1分,情感分析结果1分)
拟添加的项目:
1. 社交关系图绘制
2. 爬取技术相关添加(分布式?Splash? Schapy?)
3. 聚类、分类的对比挖掘和判断
文件夹结构说明:
1. webSpyder 爬取数据的爬虫程序包,可以当做库调用
2. filestore 提供数据存储的包
3. Pic jupyter notebook统一的图片存储来源
4. Data 爬取的数据集(sql或者csv格式表示)
5. result-picture 聚类、词云相关效果图展示
6. results 数据集的结果,包括建模结果
7. htmlFiles 前端显示的界面网站
8. intro.json 用户配置的文件