From e87060b2316ce02162edd89ab2354ff033e01e2b Mon Sep 17 00:00:00 2001 From: qaz Date: Sat, 13 Jun 2020 06:38:35 +0800 Subject: [PATCH] first commit --- .gitattributes | 1 + README.md | 11 +++++++++++ ...4\272\272\346\225\264\347\220\206\357\274\211.txt" | 3 +++ ...0\257\215\345\205\270\350\257\264\346\230\216.txt" | 10 ++++++++++ 4 files changed, 25 insertions(+) create mode 100644 .gitattributes create mode 100644 README.md create mode 100644 "\350\257\215\345\205\270360\344\270\207\357\274\210\344\270\252\344\272\272\346\225\264\347\220\206\357\274\211.txt" create mode 100644 "\350\257\215\345\205\270\350\257\264\346\230\216.txt" diff --git a/.gitattributes b/.gitattributes new file mode 100644 index 0000000..9ab6fbc --- /dev/null +++ b/.gitattributes @@ -0,0 +1 @@ +词典360万(个人整理).txt filter=lfs diff=lfs merge=lfs -text diff --git a/README.md b/README.md new file mode 100644 index 0000000..5695690 --- /dev/null +++ b/README.md @@ -0,0 +1,11 @@ +作者:刘邵博 版本:v1 +此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 +词典结构为:词语\t词性\t词频。 +词频是用ansj分词对270G新闻语料进行分词统计词频获得。 +本人感觉需要特别说明的是词典整理过程中存在部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb + 1、词性nw表示本身不知道是什么词性。 + 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。 + +官网:http://www.nlpcn.org + +********************************************************************************************************* \ No newline at end of file diff --git "a/\350\257\215\345\205\270360\344\270\207\357\274\210\344\270\252\344\272\272\346\225\264\347\220\206\357\274\211.txt" "b/\350\257\215\345\205\270360\344\270\207\357\274\210\344\270\252\344\272\272\346\225\264\347\220\206\357\274\211.txt" new file mode 100644 index 0000000..cfd3539 --- /dev/null +++ "b/\350\257\215\345\205\270360\344\270\207\357\274\210\344\270\252\344\272\272\346\225\264\347\220\206\357\274\211.txt" @@ -0,0 +1,3 @@ +version https://git-lfs.github.com/spec/v1 +oid sha256:23b4674f59c2bb6d92b1d37bb09a0f0921ec039c8a49641615e8dc9052c24a0c +size 68095301 diff --git "a/\350\257\215\345\205\270\350\257\264\346\230\216.txt" "b/\350\257\215\345\205\270\350\257\264\346\230\216.txt" new file mode 100644 index 0000000..0552462 --- /dev/null +++ "b/\350\257\215\345\205\270\350\257\264\346\230\216.txt" @@ -0,0 +1,10 @@ +ߣ۲ 汾v1 +˴ʵΪۺ϶౾ʵϵһʵ䣬ʵ乲дʻ3669216ʻ㡣 +ʵṹΪ\t\tƵ +Ƶansjִʶ270GϽзִͳƴƵá +˸оҪر˵Ǵʵдڲִʻ޷ȷʲôԣԴԽرעnwcomb + 1nwʾ֪ʲôԡ + 2combʾͨansjnlpֱִ֮ʡ + +http://www.nlpcn.org +********************************************************************************************************* \ No newline at end of file