- 安装python
- git clone https://github.com/changwu/gov_spider.git
- cd gov_spider
- pip install -r requirements.txt
- python start.py
wjbfb.txt 文件按行存储文章解析结果,每行对应一个文章页。
- 将wjbfb.txt文件的数据导成单个文件
python export.py
- 制作语料库
python make_corpus.py
- glove向量计算
# cal.py中列出了计算相似度和距离的例子,可以修改源文件。
python cal.py