I use a few simple text mining techniques to analyses Fangfang' Diary. The code is ugly but it successfully finished its task! (゚∀゚)
Here, I only give a simple result. For details, please check my blog. My friend gives a more straight view of the result here.
I extract a abstract of the whole diary and every single day using gensim. If you don't want to read the whole diary, you can find the abstracts here.
I also used gensim to construct an LDA model and calculated the topic distribution on all media and Fangfang's diary.
Topic1 | Topic2 | Topic3 | Topic4 | Topic5 | Topic6 | Topic7 |
---|---|---|---|---|---|---|
传播 | 特朗普 | 医院 | 小区 | 公司 | 防控 | 复工 |
流感 | 媒体 | 方舱医院 | 宿舍 | 经济 | 物资 | 复产 |
疾病 | 美国 | 志愿者 | 村 | 工厂 | 捐赠 | 亿元 |
研究 | 台湾 | 去 | 意大利 | 下跌 | 人民 | 发行 |
传人 | 政治 | 患者 | 确诊 | 美元 | 总书记 | 无 |
动物 | 文章 | 收治 | 日本 | 汽车 | 抗击 | 码 |
专家 | 批评 | 病人 | 号 | 投资者 | 打赢 | 有序 |
症状 | 领导人 | 社区 | 乘客 | 指数 | 群众 | 通告 |
冠状病毒 | 中共 | 护士 | 伊朗 | 亿美元 | 阻击战 | 指挥部 |
传染 | 中国政府 | 床位 | 邮轮 | 增长 | 湖北 | 开学 |
李文亮 | 危机 | 医疗队 | 死亡 | 上涨 | 党中央 | 券商 |
科学家 | 西方 | 妈妈 | 韩国 | 月份 | 保卫战 | 防控 |
传染病 | 总统 | 吃 | 该国 | 影响 | 万元 | 温州 |
华南海鲜市场 | 指责 | 发热 | 入境 | 美联储 | 保障 | 万亿元 |
感染者 | 评论 | 电话 | 周日 | 预期 | 捐款 | 证监会 |
实验室 | 驱逐 | 医护人员 | 钻石公主号 | 生产 | 工作 | 重点 |
疫苗 | 外国 | 院长 | 穿上 | 市场 | 一线 | 加快 |
死亡率 | 世界 | 孩子 | 东京 | 供应链 | 指导组 | 中证报 |
医生 | 政府 | 母亲 | 新增 | 经济学家 | 众志成城 | 债 |
新型冠状病毒 | 中国外交部 | 家里 | 花园 | 国债 | 慈善 | 融资 |
蝙蝠 | 习近平 | 门诊 | 病毒检测 | 跌幅 | 干部 | 证券时报 |
野生动物 | 言论 | 记者 | 周六 | 收益率 | 工作者 | 申报 |
海鲜 | 写道 | 病区 | 阅读 | 收入 | 支援 | 监狱 |
传染性 | 人权 | 父母 | 大邱 | 制造业 | 胜 | 上证 |
肺炎 | 权力 | 病房 | 累计 | 分析师 | 同舟共济 | 新增 |
确认 | 外交 | 张 | 周四 | 产品 | 部署 | 管理 |
检测 | 体制 | 穿 | 奥运会 | 关税 | 力量 | 绿码 |
流行病学 | 民主 | 定点医院 | 回国 | 涨幅 | 考察 | 企业 |
公共卫生 | 反对 | 同事 | 周三 | 股市 | 胜则 | 贷款 |
戴 | 中国病毒 | 没 | 街 | 放缓 | 基金会 | 降准 |
Here is the topic distribution on all media and Fangfang's Diary.
topic1 | topic2 | topic3 | topic4 | topic5 | topic6 | topic7 | |
---|---|---|---|---|---|---|---|
人民网 | 14.0% | 3.0% | 27.4% | 0.2% | 17.4% | 36.5% | 1.5% |
新华网 | 6.2% | 3.7% | 27.5% | 1.6% | 17.8% | 37.9% | 5.2% |
环球网 | 8.1% | 12.6% | 24.7% | 1.6% | 19.8% | 21.0% | 12.0% |
观察者网 | 4.4% | 13.5% | 20.2% | 1.3% | 27.3% | 23.9% | 9.1% |
文汇网 | 2.4% | 16.1% | 43.1% | 0.9% | 11.1% | 18.7% | 7.7% |
中国日报 | 2.1% | 4.7% | 40.1% | 1.4% | 10.6% | 36.0% | 5.0% |
卫星通讯社 | 35.2% | 11.0% | 2.2% | 11.4% | 8.0% | 11.1% | 20.2% |
BBC | 16.8% | 23.6% | 6.2% | 11.5% | 4.3% | 2.4% | 35.1% |
德国之声 | 19.9% | 29.5% | 5.8% | 10.7% | 2.2% | 1.6% | 30.1% |
华尔街日报 | 14.3% | 7.0% | 1.4% | 61.6% | 9.6% | 0.7% | 5.2% |
纽约时报 | 23.2% | 22.3% | 8.6% | 9.0% | 0.5% | 1.1% | 35.4% |
方方日记 | 0.06% | 11.7% | 69.4% | 0.3% | 2.1% | 0.4% | 15.9% |
To find the similar documents. I used dov2vec. The following is the result.