Skip to content

procedure2012/fangfangDiary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

FangfangDiary

I use a few simple text mining techniques to analyses Fangfang' Diary. The code is ugly but it successfully finished its task! (゚∀゚)

Here, I only give a simple result. For details, please check my blog. My friend gives a more straight view of the result here.

Summary

I extract a abstract of the whole diary and every single day using gensim. If you don't want to read the whole diary, you can find the abstracts here.

LDA Topics

I also used gensim to construct an LDA model and calculated the topic distribution on all media and Fangfang's diary.

Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7
传播 特朗普 医院 小区 公司 防控 复工
流感 媒体 方舱医院 宿舍 经济 物资 复产
疾病 美国 志愿者 工厂 捐赠 亿元
研究 台湾 意大利 下跌 人民 发行
传人 政治 患者 确诊 美元 总书记
动物 文章 收治 日本 汽车 抗击
专家 批评 病人 投资者 打赢 有序
症状 领导人 社区 乘客 指数 群众 通告
冠状病毒 中共 护士 伊朗 亿美元 阻击战 指挥部
传染 中国政府 床位 邮轮 增长 湖北 开学
李文亮 危机 医疗队 死亡 上涨 党中央 券商
科学家 西方 妈妈 韩国 月份 保卫战 防控
传染病 总统 该国 影响 万元 温州
华南海鲜市场 指责 发热 入境 美联储 保障 万亿元
感染者 评论 电话 周日 预期 捐款 证监会
实验室 驱逐 医护人员 钻石公主号 生产 工作 重点
疫苗 外国 院长 穿上 市场 一线 加快
死亡率 世界 孩子 东京 供应链 指导组 中证报
医生 政府 母亲 新增 经济学家 众志成城
新型冠状病毒 中国外交部 家里 花园 国债 慈善 融资
蝙蝠 习近平 门诊 病毒检测 跌幅 干部 证券时报
野生动物 言论 记者 周六 收益率 工作者 申报
海鲜 写道 病区 阅读 收入 支援 监狱
传染性 人权 父母 大邱 制造业 上证
肺炎 权力 病房 累计 分析师 同舟共济 新增
确认 外交 周四 产品 部署 管理
检测 体制 穿 奥运会 关税 力量 绿码
流行病学 民主 定点医院 回国 涨幅 考察 企业
公共卫生 反对 同事 周三 股市 胜则 贷款
中国病毒 放缓 基金会 降准

Here is the topic distribution on all media and Fangfang's Diary.

topic1 topic2 topic3 topic4 topic5 topic6 topic7
人民网 14.0% 3.0% 27.4% 0.2% 17.4% 36.5% 1.5%
新华网 6.2% 3.7% 27.5% 1.6% 17.8% 37.9% 5.2%
环球网 8.1% 12.6% 24.7% 1.6% 19.8% 21.0% 12.0%
观察者网 4.4% 13.5% 20.2% 1.3% 27.3% 23.9% 9.1%
文汇网 2.4% 16.1% 43.1% 0.9% 11.1% 18.7% 7.7%
中国日报 2.1% 4.7% 40.1% 1.4% 10.6% 36.0% 5.0%
卫星通讯社 35.2% 11.0% 2.2% 11.4% 8.0% 11.1% 20.2%
BBC 16.8% 23.6% 6.2% 11.5% 4.3% 2.4% 35.1%
德国之声 19.9% 29.5% 5.8% 10.7% 2.2% 1.6% 30.1%
华尔街日报 14.3% 7.0% 1.4% 61.6% 9.6% 0.7% 5.2%
纽约时报 23.2% 22.3% 8.6% 9.0% 0.5% 1.1% 35.4%
方方日记 0.06% 11.7% 69.4% 0.3% 2.1% 0.4% 15.9%

Doc2Vec

To find the similar documents. I used dov2vec. The following is the result.

相似 文本
德国之声 武汉日记:长歌当哭 文汇网 专访六六:我拒绝的,和我想写的
纽约时报 方方的武汉日记和一场政治风暴 新华网 武汉民警一线抗疫日记:为他们平安,我们愿逆行而上
环球网 疫情下的武汉人:珍惜“梗朋友”,不爱“阴倒搞” 德国之声 长平观察:李文亮微博—“中国哭墙”下的抗议
德国之声 还要有多少李文亮才会让哨声嘹亮? 环球网 原创条漫“自述”武汉 宛若“人在画中游”
德国之声 武汉日记:元宵节 德国之声 武汉日记:度日如年
纽约时报 “吹哨者”李文亮之死引众怒,中国网民发起反抗 德国之声 暴力防疫引众怒 网友:回到红卫兵时代

About

Text mining for Fangfang's diary

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published