Skip to content

Latest commit

 

History

History
37 lines (24 loc) · 929 Bytes

cnn_train&data_generation.md

File metadata and controls

37 lines (24 loc) · 929 Bytes

数据来源

汉字

3900个常用汉字,其中包括一个空格

最常用字 较常用字 最不常用字 总数
总数 1000 1000 1900
训练集 2000*1000(62M) 1500*1000(47M) 1000*1900() 5400000
测试集 200*1000(6.2M) 150*1000(4.7M) 100*1900(5.9M) 540000

标点符号

总数 训练集 测试集
29 29*2000 29*100
58000 2900

数字字母

总数 训练集 测试集
62 62*2000 62*100
124000 6200

总数据

训练集:5400000+58000+124000= 5582000

测试集:540000+2900+6200 = 549100

数据存放

  • 38服务器 290端口

  • /usr/local/src/data/stage3/all_3991