Skip to content

Latest commit

 

History

History
9 lines (6 loc) · 476 Bytes

README.md

File metadata and controls

9 lines (6 loc) · 476 Bytes

doc2vec-

使用doc2vec生成句子,段落或者文章的向量,以便查找其之间的相似性

1.清洗数据集生成训练数据 如果需要获取文章的向量,需要将所有的文章利用解霸或者其他分词工具逐个进行分词,然后将分词后的结果存入文件(注意,一篇文章占一行),给出的文件中有训练数 Ĵ据集的例子,名字叫做tempTrain.txt

2.使用给出的代码训练即可,代码有注释