Skip to content

Files

Latest commit

eefe42e · Jun 12, 2019

History

History
This branch is 1 commit ahead of, 82 commits behind InsaneLife/dssm:master.

data

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
Jun 12, 2019
May 5, 2019

数据来自天池大数据比赛,是OPPO手机搜索排序query-title语义匹配的问题。

数据格式: 数据分4列,\t分隔。

字段 说明 数据示例
prefix 用户输入(query前缀) 刘德
query_prediction 根据当前前缀,预测的用户完整需求查询词,最多10条;预测的查询词可能是前缀本身,数字为统计概率 {“刘德华”: “0.5”, “刘德华的歌”: “0.3”, …}
title 文章标题 刘德华
tag 文章内容标签 百科
label 是否点击 0或1

为了应用来训练DSSM demo,将prefix和title作为正样,prefix和query_prediction(除title以外)作为负样本。

下载链接:链接: https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码: 7p3n

本数据仅限用于个人实验,如数据版权问题,请联系[email protected] 下架。

下载解压到data文件夹即可,注意修改config.py中配置:file_train, file_vali。