Skip to content

jackychancjcjcj/Competition_notebook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 

Repository files navigation

目录

Last update

比赛

结构化比赛

2019年厦门国际银行数创金融杯

赛题链接
https://m.dcjingsai.com/cmptDetail.html?id=319
赛题任务
信用风险是金融监管机构重点关注的风险,关乎金融系统运行的稳定。在实际业务开展和模型构建过程中,面临着高维稀疏特征以及样本不平衡等各种问题,如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力,是各家金融机构积极探索的方向。本次竞赛提供实际业务场景中的信贷数据作为建模的对象,希望能借此展现各参赛选手数据挖掘的实战能力。本次赛题给出20个非匿名的业务字段以及84个匿名字段,在极不平衡的样本数据中,预测客户是否会出现信用违约行为。
赛题难点
①数据的高维稀疏性导致数据的可利用性降低,给模型学习能力的提升带来了困难;②数据的极度不平衡,导致模型极其容易出现过拟合问题;③匿名字段的处理:如何理解并使用匿名字段中潜在的业务意义;④新旧数据探索:如何衡量新旧数据的差异,如何把握特征的新旧差异,以及如何构建合适的验证策略;
方案参考
冠军方案
第二名开源
第六名开源
top开源

2020年厦门国际银行数创金融杯

赛题链接
赛题任务
随着科技发展,银行陆续打造了线上线下、丰富多样的客户触点,来满足客户日常业务办理、渠道交易等客户需求。面对着大量的客户,银行需要更全面、准确地洞察客户需求。在实际业务开展过程中,需要发掘客户流失情况,对客户的资金变动情况预判;提前/及时针对客户进行营销,减少银行资金流失。本次竞赛提供实际业务场景中的客户行为和资产信息为建模对象,一方面希望能借此展现各参赛选手的数据挖掘实战能力,另一方面需要选手在复赛中结合建模的结果提出相应的营销解决方案,充分体现数据分析的价值。
赛题难点
方案参考
top1方案
top2方案
top5开源
top8开源
top15开源
baseline

安泰杯-跨境电商智能算法大赛

赛题链接
https://tianchi.aliyun.com/competition/entrance/231718/information
赛题任务
今天许多中国互联网公司都在响应习近平主席一带一路的号召积极开拓海外市场。在我们开拓海外市场时往往会遭遇到用户习惯与国内不同造成国内的优秀策略难以在海外奏效等问题。即使成功开拓了某一国的市场,当需要进一步向更多国家扩张时,也会遇到不同国家的用户心智不统一的问题。
AliExpress是中国最大出口B2C电商平台,2010 年平台成立至今已过 8 年,高速发展,日趋成熟。我们覆盖全球 230 个国家和地区,支持世界 18 种语言站点,22 个行业囊括日常消费类目,商品备受海外消费者欢迎;海外装机量超过 6亿,入围全球应用榜单 TOP 10;目前的主要交易市场为俄、美、西、巴、法等国。
对于AliExpress来说,目前某些国家的用户群体比较成熟。这些成熟国家的用户在AliExpress尽享买买买之乐的同时,为我们沉淀了大量的该国用户的行为数据。这些沉淀下来的用户数据被我们挖掘利用后形成我们的推荐算法,用来更好的服务于该国用户。
但是还有一些待成熟国家的用户在AliExpress上的行为比较稀疏,对于这些国家用户的推荐算法如果单纯不加区分的使用全网用户的行为数据,可能会忽略这些国家用户的一些独特的心智;而如果只使用这些国家的用户的行为数据,由于数据过于稀疏,不具备统计意义,会难以训练出正确的模型。于是怎样利用已成熟国家的稠密用户数据和待成熟国家的稀疏用户数据训练出对于待成熟国家用户的正确模型对于我们更好的服务待成熟国家用户具有非常重要的意义。
本次比赛给出若干日内来自成熟国家的部分用户的行为数据,以及来自待成熟国家的A部分用户的行为数据,以及待成熟国家的B部分用户的行为数据去除每个用户的最后一条购买数据,让参赛人预测B部分用户的最后一条行为数据。
赛题难点
怎样利用已成熟国家A的稠密用户数据和待成熟国家B的稀疏用户数据,训练出的正确模型对于国家B的用户有很大价值。
方案参考
冠军方案
itemCF+SVD

2019CCF-BDCI-乘用车销量预测

赛题链接
https://www.datafountain.cn/competitions/352
赛题任务
近几年来,国内汽车市场由增量市场逐步进入存量市场阶段,2018年整体市场销量首次同比下降。 在市场整体趋势逐步改变的环境下,消费者购车决策的过程也正在从线下向线上转移,我们希望能在销量数据自身趋势规律的基础上,找到消费者在互联网上的行为数据与销量之间的相关性,为汽车行业带来更准确有效的销量趋势预测。
本赛题需要参赛队伍根据给出的60款车型在22个细分市场(省份)的销量连续24个月(从2016年1月至2018年12月)的销量数据,建立销量预测模型;基于该模型预测同一款车型和相同细分市场在接下来一个季度连续4个月份的销量;除销量数据外,还提供同时期的用户互联网行为统计数据,包括:各细分市场每个车型名称的互联网搜索量数据;主流汽车垂直媒体用户活跃数据等。参赛队伍可同时使用这些非销量数据用于建模。
赛题难点
时序特征处理,构造方法多种多样
方案参考
鱼佬baseline
冠军方案
第三名方案

2019CCF-离散制造过程中典型工件的质量符合率预测

赛题链接
https://www.datafountain.cn/competitions/351/
赛题任务
在高端制造领域,随着数字化转型的深入推进,越来越多的数据可以被用来分析和学习,进而实现制造过程中重要决策和控制环节的智能化,例如生产质量管理。由于在实际生产中,同一组工艺参数设定下生产的工件会出现多种质检结果,所以我们针对各组工艺参数定义其质检标准符合率,即为该组工艺参数生产的工件的质检结果分别符合优、良、合格与不合格四类指标的比率。相比预测各个工件的质检结果,预测该质检标准符合率会更具有实际意义。
赛题难点
匿名数据怎么做特征,预测重要特征的缺失值
方案参考
冠军方案 可以学习的点:用预测的方法补充重要特征缺失值?同时加上重要特征的stacking(巨tm过拟合)。以及标准的特征增加方法(nunique、std之类的)

2019DCIC-消费者人群画像-信用智能评分

赛题链接
https://www.datafountain.cn/competitions/337
赛题任务
随着社会信用体系建设的深入推进, 社会信用标准建设飞速发展,相关的标准相继发布,包括信用服务标准、信用数据釆集和服务标准、信用修复标准、城市信用标准、行业信用标准等在内的多层次标准体系亟待出台,社会信用标准体系有望快速推进。社会各行业信用服务机构深度参与广告、政务、涉金融、共享单车、旅游、重大投资项目、教育、环保以及社会信用体系建设,社会信用体系建设是个系统工程,通讯运营商作为社会企业中不可缺少的部分同样需要打造企业信用评分体系,助推整个社会的信用体系升级。同时国家也鼓励推进第三方信用服务机构与政府数据交换,以增强政府公共信用信息中心的核心竞争力。
传统的信用评分主要以客户消费能力等少数的维度来衡量,难以全面、客观、及时的反映客户的信用。中国移动作为通信运营商拥有海量、广泛、高质量、高时效的数据,如何基于丰富的大数据对客户进行智能评分是中国移动和新大陆科技集团目前攻关的难题。运营商信用智能评分体系的建立不仅能完善社会信用体系,同时中国移动内部也提供了丰富的应用价值,包括全球通客户服务品质的提升、客户欠费额度的信用控制、根据信用等级享受各类业务优惠等,希望通过本次建模比赛,征集优秀的模型体系,准确评估用户信用分值。
赛题难点
关于此次赛题,数据上来说可挖掘潜力并不是那么大,因此各个队伍能挖掘到的特征基本都很相似。于是只能拼数据,拼模型,拼骚操作了。
方案参考
冠军方案1
冠军方案2 学习的点:分段式的stacking(纵向,训练的时候分层的用不同的损失函数)
冠军答辩
冠军开源
top2开源 学习的点:看下多个模型stacking的代码
top2开源2
top5方案
top10开源

2017腾讯广告算法大赛

赛题链接
已失效
赛题任务
第一届腾讯社交广告高校算法大赛以“移动App广告转化率预估“为主题,首次开放腾讯在社交和数字广告领域的“实战类”数据,以高度模拟真实业务的赛题方式呈现,并直指数字广告中的核心关键问题:转化预估,面向高校学生征集最智慧的算法解决方案,引领广告生态业界的核心技术方向。
赛题难点
数据线上线下分布不一致:1、某些app和用户的记录比较少;2、数据的时效性要求较高。这对于特征工程会是一个比较大的要求,在比赛中有许多的特征会使得线上的成绩下降,比如各种差分的特征。
方案参考
top10方案
top14开源
top20开源
top23开源

2018腾讯广告算法大赛

赛题链接
已失效
赛题任务
本次算法大赛的题目源于腾讯社交广告业务中的一个真实的广告产品——相似人群拓展(Lookalike)。该产品的目的是基于广告主提供的目标人群,从海量的人群中找出和目标人群相似的其他人群。在实际广告业务应用场景中,Lookalike 能基于广告主已有的消费者,找出和已有消费者相似的潜在消费者,以此有效帮助广告主挖掘新客、拓展业务。目前,腾讯社交广告 Lookalike 相似人群拓展产品以广告主提供的第一方数据及广告投放效果数据(即后文提到的种子包人群)为基础,结合腾讯丰富的数据标签能力,透过深度神经网络挖掘,实现了可在线实时为多个广告主同时拓展具有相似特征的高质潜客的能力。
赛题难点
方案参考
top3开源
top6方案
top7开源
top9方案+开源
top10开源
top11方案+开源

2019腾讯广告算法大赛

赛题链接
已失效
赛题任务
第一个子任务就是用广告的定向时段等设置来用预估未来的触发请求数和曝光分数分布情况,它也可拆分两个更小的目标,一是用定向时段素材尺寸这些来召回历史匹配的请求数据,这部分主要是业务规则的匹配,瓶颈主要在于 运行的效率和复杂业务规则的适配及可扩展问题(实际业务中的定向维度远比 初赛中使用的定向维度复杂的多,不同广告位的业务匹配逻辑也更加复杂), 二是用历史请求数据预估未来的请求数据,这更像是一个时间序列建模问题, 即用历史的变化趋势预估未来。
第二个子任务是预估广告的相对竞争水平以及基于此的胜出比例,它的前 提是触发的请求和竞价队列已知(这是第一个子任务的预估结果)。此时,我们如果使用当天已知的触发请求和竞价队列去抽取特征建模预估当天的曝光 (即使用所谓”穿越“特征),这里得到的评估结果必然是高估的(和实际业务效果对比),因为这实际上是基于第一个子任务预估百分百准确的前提。 但这 不妨碍基于此去做特征构建和模型算法的调研选择(基于同样假设的评估结果 横向比较)。 而经调研优选得到的最优的特征和模型,同样可以结合第一个子 任务的结果重新进行评估(相同的特征计算方式和模型从未来数据迁移到历史 数据),最终得到真实的模型整体预估效果。 综上,大家已经可以看出,初赛是完整的业务问题抽象, 而复赛数据其实 就是第二个子任务的抽象。
赛题难点
特征缺失:广告中的图像、宣传文字等许多用户直观感受到的特征未提供;新广告冷启动问题,历史统计特征不存在。
方案参考
冠军方案学习的点:处理数据泄露问题
top5方案

2019DCIC-混凝土泵车砼活塞故障预警

赛题链接
https://www.datafountain.cn/competitions/336
赛题任务
本赛题由中科云谷科技有限公司提供某类混凝土泵车砼活塞故障有关的数据,包括工作时间、发动机转速、油温、压力等多类工况数据,以及对应情况下,在未来完成给定工作量(混凝土泵送方量)的过程中,活塞是否故障的标识信息。希望参赛者利用大数据分析、机器学习、深度学习等方法,提取合适的特征、建立合适的故障预测模型,再根据测试数据预测该活塞在未来给定工作量内(泵送方量),是否会发生故障。
赛题难点
工业互联网领域与互联网和金融领域的有所不同,一般而言,工业互联网领域,当设备发生故障的时候才会产生一个黑样本,而在互联网领域,也许是一个用户的点击行为就是一样样本。普遍而言,工业上数据量不足,以及正负样本失衡市一个天然存在的问题。
方案参考
冠军方案
冠军开源
top2开源

2018中国高校计算机大赛-快手活跃用户预测

赛题链接
https://www.kesci.com/home/competition/5ab8c36a8643e33f5138cba4/content/0
赛题任务
本次大赛基于脱敏和采样后的数据信息,预测未来一段时间活跃的用户。参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
赛题难点
方案参考
冠军方案
冠军开源
top4开源
top6开源
top13开源
top15开源
top20开源

2018消费金融场景下的用户购买预测

赛题链接
https://www.datafountain.cn/competitions/287
赛题任务
利用招商银行客户的个人属性、信用卡消费数据,以及部分客户在掌上生活APP上的一个月的操作行为日志,设计合理的特征工程与模型算法方案,预测客户在未来一周内(4月1日-7日),是否会购买掌上生活APP上的优惠券(包括饭票、影票等)。考虑到客户隐私,客户的个人属性数据与信用卡消费数据,采用脱敏并标准化处理为V1,V2,…,V30数值型属性。客户在APP上的行为日志,一些字段也进行了相应加密。
赛题难点
方案参考
冠军开源

2018Kaggle-HomeCredit

赛题链接
https://www.kaggle.com/c/home-credit-default-risk/overview
赛题任务
Many people struggle to get loans due to insufficient or non-existent credit histories. And, unfortunately, this population is often taken advantage of by untrustworthy lenders.
Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data--including telco and transactional information--to predict their clients' repayment abilities.
While Home Credit is currently using various statistical and machine learning methods to make these predictions, they're challenging Kagglers to help them unlock the full potential of their data. Doing so will ensure that clients capable of repayment are not rejected and that loans are given with a principal, maturity, and repayment calendar that will empower their clients to be successful.
赛题难点
方案参考
top2开源
top4开源
top8开源
top10开源
top17开源
baseline开源

2017全国社会保险大数据应用创新大赛

赛题链接
https://tianchi.aliyun.com/competition/entrance/231607/information
赛题任务
“精准社保”的赛题为“基本医疗保险医疗服务智能监控”,由参赛队完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,以进一步丰富现行医保智能监控的医保规则和医学规则,提高医保智能监控的针对性和有效性。违规行为举例如下:
(1)为了获得不当利益,部分人员从各种途径收集医疗保险参保人员的社保卡,通过社保卡到医院进行虚假诊疗,套取医保基金。
(2)在门诊特殊疾病的诊疗中,部分人员通过编造病历、诊疗过程,套取医保基金。
在本次比赛中,将上述两种违规人员统称为涉嫌造假人员。选手需要基于给定的训练集数据得到模型,然后使用模型判定测试集中的人员是否为涉嫌造假人员。
赛题难点
方案参考
https://tianchi.aliyun.com/competition/entrance/231607/forum

2019津南数字制造算法挑战赛-赛场一:原料企业工艺优化

赛题链接
https://tianchi.aliyun.com/competition/entrance/231695/introduction
赛题任务
异烟酸用作医药中间体,主要用于制抗结核病药物异烟肼,也用于合成酰胺、酰肼、酯类等衍生物。烟酰胺生产过程包含水解脱色、结晶甩滤等过程。每个步骤会受到温度、时间、压强等各方面因素的影响,造成异烟酸收率的不稳定。为保证产品质量和提高生产效率,需要调整和优化生产过程中的参数。然而,根据传统经验的人工调整工艺参数费时费力。近年来,人工智能在工艺参数优化以及视频检测等领域取得了突飞猛进的成果。AI技术的发展有望助力原料药制造企业实现工艺生产革新,规范生产操作过程,从而达到提高产品的收率的目标。
本次大赛要求选手以异烟酸生产过程中的各参数,包括各主要步骤的时间、温度、压强等参数为基础,设计精确智能的优秀算法,提升异烟酸的收率。
方案参考
baseline开源 交叉特征怎么做模板
top1开源 交叉特征怎么做模板
top2方案
top2开源 根据训练模型metric不同来区分模型?
top3开源
top6开源
top17开源
赛题难点

  • 变量脱敏,特征不好构建;
  • 数据量整体较小,特征扩维太大容易炸,模型的可操作性不大,还是重在特征的扩维以及特征选择的方法;
  • 人工标注的错误数据相对较多;
  • 实验中的偶然因素比较多,如数据中存在较多批次的样本,所有工序步骤包括时间都相同,得到的异烟酸的收率是不同的,如何学习到这一部分或者说如何增强模型的稳定性;

2018年甜橙金融杯大数据建模大赛-识别交易风险

赛题链接
https://js.dclab.run/v2/cmptDetail.html?id=265
赛题任务
随着互联网+这一概念的不断发展,电商、出行、外卖等行业近些年也持续发展壮大,越来越多的商家进入这一市场。为了在激烈的竞争中拉取新用户,培养用户的消费习惯,各种类型的营销活动和补贴活动也是层出不穷。在为正常用户带来福利的同时,也催生了一批专注于营销活动的“羊毛党”。目前,羊毛党的行为越发专业化,团伙化和地域化,同套利黑产团伙的斗争,是一场永无止境的攻防战。机器学习模型是风控系统中实时识别和对抗黑产攻击的有效手段。面对黑产攻击手段快速多变,黑样本数据标签缺失等问题,目前除了LR,RF等耳熟能详的机器学习模型,基于RNN的深度学习模型,无监督学习模型等技术也被应用到同黑产的对抗中。通过训练学习用户在消费过程中的关联操作、交易详单信息,来识别交易风险。
赛题难点
方案参考
top6开源
top9开源
top10方案
baseline开源

2018OGeek算法挑战赛-实时搜索场景下搜索结果ctr预估

赛题链接
https://tianchi.aliyun.com/competition/entrance/231688/introduction
赛题任务
在搜索业务下有一个场景叫实时搜索(Instance Search),就是在用户不断输入过程中,实时返回查询结果。此次赛题来自OPPO手机搜索排序优化的一个子场景,并做了相应的简化,意在解决query-title语义匹配的问题。简化后,本次题目内容主要为一个实时搜索场景下query-title的ctr预估问题。基于百万最新真实用户搜索数据的实时搜索场景下搜索结果ctr预估。给定用户输入prefix(用户输入,查询词前缀)以及文章标题、文章类型等数据,预测用户是否点击。文章资源类别非全网资源,属部分垂直领域内容。
赛题难点
方案参考
冠军方案
top2方案
top2开源
top3方案1
top3方案2
top3方案3
优胜奖方案
baseline开源 做ctr时候把特征做成click/count的形式

2018CCF-面向电信行业存量用户的智能套餐个性化匹配模型

赛题链接
https://www.datafountain.cn/competitions/311
赛题任务
电信产业作为国家基础产业之一,覆盖广、用户多,在支撑国家建设和发展方面尤为重要。随着互联网技术的快速发展和普及,用户消耗的流量也成井喷态势,近年来,电信运营商推出大量的电信套餐用以满足用户的差异化需求,面对种类繁多的套餐,如何选择最合适的一款对于运营商和用户来说都至关重要,尤其是在电信市场增速放缓,存量用户争夺愈发激烈的大背景下。针对电信套餐的个性化推荐问题,通过数据挖掘技术构建了基于用户消费行为的电信套餐个性化推荐模型,根据用户业务行为画像结果,分析出用户消费习惯及偏好,匹配用户最合适的套餐,提升用户感知,带动用户需求,从而达到用户价值提升的目标。
套餐的个性化推荐,能够在信息过载的环境中帮助用户发现合适套餐,也能将合适套餐信息推送给用户。解决的问题有两个:信息过载问题和用户无目的搜索问题。各种套餐满足了用户有明确目的时的主动查找需求,而个性化推荐能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容。
此题利用已有的用户属性(如个人基本信息、用户画像信息等)、终端属性(如终端品牌等)、业务属性、消费习惯及偏好匹配用户最合适的套餐,对用户进行推送,完成后续个性化服务。
赛题难点
方案参考
冠军开源
top2开源
top4开源
top6开源

2016CCF-大数据精准营销中搜狗用户画像挖掘

赛题链接
https://www.datafountain.cn/competitions/239
赛题任务
"物以类聚,人以群分"这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。在现代数字广告投放系统中,以物拟人,以物窥人,才是比任何大数据都要更大的前提。如何把广告投放给需要的人,是大数据在精准营销中最核心的问题,如何越来越精确的挖掘人群属性,也一直是技术上的天花板。对于企业主来说,了解自身产品的受众有助于进行产品定位,并设计营销解决方案。本题目以精准广告中一个具体问题为例,希望发掘到数据挖掘的优秀人才。
本题目提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,要求参赛人员通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。
赛题难点
方案参考
冠军开源
top3开源
top5开源

2019JDATA-用户对品类下店铺的购买预测

赛题链接
https://jdata.jd.com/html/detail.html?id=8
赛题任务
京东零售集团坚持“以信赖为基础、以客户为中心的价值创造”这一经营理念,在不同的消费场景和连接终端上,在正确的时间、正确的地点为3亿多活跃用户提供最适合的产品和服务。目前,京东零售集团第三方平台签约商家超过21万个,实现了全品类覆盖,为维持商家生态繁荣、多样和有序,全面满足消费者一站式购物需求,需要对用户购买行为进行更精准地分析和预测。基于此,本赛题提供来自用户、商家、商品等多方面数据信息,包括商家和商品自身的内容信息、评论信息以及用户与之丰富的互动行为。参赛队伍需要通过数据挖掘技术和机器学习算法,构建用户购买商家中相关品类的预测模型,输出用户和店铺、品类的匹配结果,为精准营销提供高质量的目标群体。同时,希望参赛队伍通过本次比赛,挖掘数据背后潜在的意义,为电商生态平台的商家、用户提供多方共赢的智能解决方案。
赛题难点
本次比赛分为A,B榜,但是两个榜都是采用同一套数据集。通过EDA分析可知,数据集存在很多噪声,例如加购数据存在大量缺失,浏览数据也存在两天的缺失,2月份数据受春节影响流量异常。如何建模尽可能达到最大的预测准确性。我们将本次比赛的难点归纳为如下几点。
(1)本次比赛的label需要自己构建, 如何建模使我们能在给定的数据集上达到尽可能大的预测准确性,是本次比赛考虑的关键点之一。
(2)对于训练集不同时间段的选取对最终结果都很造成一定的影响,如何选用时间段,让训练集分布和测试集分布类似,也是本次比赛的关键之一。
(3)如何刻画每个时间段的时序特点,使其能够捕捉数据集的趋势性,周期性,循环性。
(4)给来的数据集存在太多影响因素,比如加购数据缺失,浏览数据部分缺失,春节流量异常,节后效应等,所以该如何选取训练集&保证模型稳定的情况。
(5)模型预测出来是概率文件,如何确定划分正负样本的概率阈值,如何确定最优的提交结果数,也是本次比赛不可忽略的关键点之一。
方案参考
冠军开源
top2开源
top3开源
top5开源
top7开源

2020CCF-企业非法集资风险预测

赛题链接
https://www.datafountain.cn/competitions/469/datasets
赛题任务
利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。
赛题难点
方案参考
top1开源
top3开源
top11开源
top27开源

2018IJCAI-阿里妈妈搜索广告转化预测

赛题链接
https://tianchi.aliyun.com/competition/entrance/231647/introduction
赛题任务
本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据,参赛选手通过人工智能技术构建预测模型预估用户的购买意向,即给定广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等信息的条件下预测广告产生购买行为的概率(pCVR),形式化定义为:pCVR=P(conversion=1 | query, user, ad, context, shop)。
赛题难点
方案参考
top1开源
top2开源
top2方案
top3开源
top8开源-1
top8开源-2

2018智慧金融马上AI全球挑战者大赛-违约用户风险预测

赛题链接
赛题任务
马上金融平台提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否会逾期还款。
赛题难点
方案参考
top1开源

2018ATEC蚂蚁开发者大赛-支付风险识别

赛题链接
赛题任务
赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。举办方给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的支付行为样本构成的测试数据集,希望选手们通过机器学习算法和对无标签数据的挖掘在训练集上训练出性能稳定时效性好的模型,能够在测试集上对交易的风险进行精准判断。
赛题难点
方案参考
top2方案
top7开源

2020翼支付-风险用户识别大赛

赛题链接
https://js.dclab.run/v2/landingpage/orange-cup.html
赛题任务
赛题难点
方案参考
top1方案
top1开源
top2开源
top3开源
top10开源

天池零基础入门金融风控-贷款违约预测

赛题链接
https://tianchi.aliyun.com/competition/entrance/531830/introduction
赛题任务
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题
赛题难点
方案参考
top1方案
top2方案
top6方案+开源
top11开源

2020年讯飞开发者大赛-温室温度预测

赛题链接
http://challenge.xfyun.cn/topic/info?type=temperature
赛题任务
温室温度调控需要对温室温度进行精准的预测,本次大赛提供了中国农业大学涿州实验站的温室温度数据作为样本,参赛选手需基于提供的样本构建模型,预测温室温度变化情况。
赛题难点
方案参考
top3方案+开源
top4开源

2020第四届工业大数据创新竞赛-水电站入库流量预测

赛题链接
http://www.industrial-bigdata.com/Competition
赛题任务
基于历史数据和当前观测信息,对电站未来7日入库流量进行预测(每3小时一个预测值,共56个待预测值)。初赛预测3个时段,决赛预测5个时段。
赛题难点
方案参考
top1开源

2018科大讯飞AI营销算法大赛-营销广告点击率预估

赛题链接
https://js.dclab.run/v2/cmptDetail.html?id=245
赛题任务
讯飞AI营销广告点击率预估,预测广告被点击的概率。
赛题难点
方案参考
top1方案+开源
top2开源
top21开源

CV

NLP

2020腾讯广告算法大赛

赛题链接
https://algo.qq.com/
赛题任务
本届算法大赛的题目来源于一个重要且有趣的问题。众所周知,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。这背后的假设是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。许多行业的实践者已经多次验证了这一假设。然而,大多数验证所采用的方式都是以人口统计学属性作为输入来产生推荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。我们认为这一赛题的“逆向思考”本身具有其研究价值和趣味性,此外也有实用价值和挑战性。例如,对于缺乏用户信息的实践者来说,基于其自有系统的数据来推断用户属性,可以帮助其在更广的人群上实现智能定向或者受众保护。与此同时,参赛者需要综合运用机器学习领域的各种技术来实现更准确的预估。
赛题难点

方案参考
冠军方案
亚军方案
季军方案
top5方案
top11开源
top12开源
top19开源

2018DC达观杯文本智能处理挑战-文本分类

赛题链接
https://js.dclab.run/v2/cmptDetail.html?id=229
赛题任务
建立模型通过长文本数据正文(article),预测文本对应的类别(class)
赛题难点

方案参考
top1方案
top2开源
top4开源
top7开源
top8开源

2017知乎看山杯-文本多分类

赛题链接
赛题任务
参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」,话题之间存在父子关系,并通过父子关系组织成一张有向无环图(DAG)。
由于涉及到用户隐私及数据安全等问题,本次比赛不提供问题、话题描述的原始文本,而是使用字符编号及切词后的词语编号来表示文本信息。同时,鉴于词向量技术在自然语言处理领域的广泛应用,比赛还提供字符级别的 embedding 向量和词语级别的 embedding 向量,这些 embedding 向量利用知乎上的海量文本语料,使用 google word2vec 训练得到。简单来说,这是一个多标签文本分类问题,基本上都是使用深度学习方法。
赛题难点
方案参考
top1开源
top2开源
top6开源
top9开源

2019DF金融信息负面及主体判定

赛题链接
https://www.datafountain.cn/competitions/353
赛题任务
该任务分为两个子任务:
给定一条金融文本和文本中出现的金融实体列表。
负面信息判定:判定该文本是否包含金融实体的负面信息。如果该文本不包含负面信息,或者包含负面信息但负面信息未涉及到金融实体,则负面信息判定结果为0。
负面主体判定:如果任务1中包含金融实体的负面信息,继续判断负面信息的主体对象是实体列表中的哪些实体。
赛题难点
方案参考
top1开源
top1开源
top1开源
top2开源
top3开源

2019第三届魔镜杯大赛-智能客服问题相似度算法设计

赛题链接
https://ai.ppdai.com/mirror/goToMirrorDetail?mirrorId=1&tabindex=2
赛题任务
智能客服聊天机器人场景中,待客户提出问题后,往往需要先计算客户提出问题与知识库问题的相似度,进而定位最相似问题,再对问题给出答案。本次比赛的题目便是问题相似度算法设计。
赛题难点
方案参考
top6开源
top12开源

2018JD-任务导向型对话系统挑战赛

赛题链接
赛题任务
智能客服聊天机器人场景中,待客户提出问题后,往往需要先计算客户提出问题与知识库问题的相似度,进而定位最相似问题,再对问题给出答案。本次比赛的题目便是问题相似度算法设计。
赛题难点
方案参考
top2开源
top3开源

2018CCL-客服领域用户意图分类评测

赛题链接
赛题任务
在客服和用户对话系统的应用过程中,用户可能会有多种意图,相应地会触发客服和客户对话系统中的多个业务类型,业务类型包括查询类、办理类和咨询类三种,每个业务类型下涉及的用户意图有多种,例如查询类下有查询账单、查询积分等,办理类下有充值手机话费、重置密码等;咨询类下有咨询宽带故障、咨询宽带续费等。因而,客服领域对话系统的一个关键任务就是正确地将用户的输入分类到相应业务类型下的具体意图(即识别出用户输入到对话系统执行某个动作之间的一个映射关系)中,从而达到识别和理解用户要表达的意图,帮助提高语言、语音导航系统的语义识别能力。
赛题难点
方案参考
top1方案

推荐

2019图灵联邦-视频点击预测大赛

赛题链接
https://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch
赛题任务
本次竞赛的目的是以用户的视频行为数据为基础,构建推荐模型,参赛队伍则需要搭建个性化推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐用户感兴趣的内容,提高用户在数据集上的点击行为。
赛题难点
方案参考
top3开源
top4开源
top6开源
top7开源
top9开源

2019智源-看山杯专家发现算法大赛

赛题链接
https://www.biendata.xyz/competition/zhihu2019/
赛题任务
知乎是中文互联网知名的综合性社区平台。知乎自 2011 年创办至今,已经成为一个拥有 2.2 亿用户,每天有数以十万计的新问题以及 UGC 内容产生的网站。其中,如何高效的将这些用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数,成为知乎最重要的课题之一。
赛题难点
方案参考
top3开源
top4开源
top6开源
top7开源

2021微信大数据挑战赛-CTR

赛题链接
https://algo.weixin.qq.com/
赛题任务
本次比赛基于脱敏和采样后的数据信息,对于给定的一定数量到访过微信视频号“热门推荐”的用户, 根据这些用户在视频号内的历史n天的行为数据,通过算法在测试集上预测出这些用户对于不同视频内容的互动行为(包括点赞、点击头像、收藏、转发等)的发生概率。 本次比赛以多个行为预测结果的加权uAUC值进行评分.比赛提供训练集用于训练模型,测试集用于评估模型效果,提交结果demo文件用于展示提交结果的格式。 所有数据文件格式都是带表头的.csv格式,不同字段列之间用英文逗号分隔。初赛与复赛的数据分布一致,数据规模不同。 初赛提供百万级训练数据,复赛提供千万级训练数据。
赛题难点
方案参考
tree开源
top1开源
top2方案
top13开源
top14开源
top21开源
top23开源
top50开源
Albert embedding
top7答辩ppt及视频

2021爱奇艺WSDM-用户留存预测

赛题链接
http://challenge.ai.iqiyi.com/detail?raceId=61600f6cef1b65639cd5eaa6
赛题任务
爱奇艺是中国和世界领先的高品质视频娱乐流媒体平台,每个月有超过5亿的用户在爱奇艺上享受娱乐服务。爱奇艺秉承“悦享品质”的品牌口号,打造涵盖影剧、综艺、动漫在内的专业正版视频内容库,和“随刻”等海量的用户原创内容,为用户提供丰富的专业视频体验。
爱奇艺手机端APP,通过深度学习等最新的AI技术,提升用户个性化的产品体验,更好地让用户享受定制化的娱乐服务。我们用“N日留存分”这一关键指标来衡量用户的满意程度。例如,如果一个用户10月1日的“7日留存分”等于3,代表这个用户接下来的7天里(10月2日~8日),有3天会访问爱奇艺APP。预测用户的留存分是个充满挑战的难题:不同用户本身的偏好、活跃度差异很大,另外用户可支配的娱乐时间、热门内容的流行趋势等其他因素,也有很强的周期性特征。
本次大赛基于爱奇艺APP脱敏和采样后的数据信息,预测用户的7日留存分。参赛队伍需要设计相应的算法进行数据分析和预测。
赛题难点
方案参考
top1开源
top3开源
参考
baseline-paddle
baseline-keras
baseline-torch

2020Kaggle-MOA

赛题链接
https://www.kaggle.com/c/lish-moa/overview
赛题任务
在连通图,麻省理工学院和哈佛大学的的Broad研究所内的项目实验室创新科技在哈佛大学(LISH) ,以及基于网络的集成蜂窝签名的NIH共同基金库(LINCS) ,目前这种挑战与目标通过改进 MoA 预测算法来推进药物开发。
药物的作用机制 (MoA) 是什么?为什么它很重要?
过去,科学家们从天然产品中提取药物或受到传统疗法的启发。非常常见的药物,例如扑热息痛,在美国称为对乙酰氨基酚,在驱动其药理活性的生物学机制被了解之前几十年就已投入临床使用。今天,随着更强大的技术的出现,药物发现已经从过去的偶然方法转变为基于对疾病潜在生物学机制的理解的更有针对性的模型。在这个新框架中,科学家们寻求确定与疾病相关的蛋白质靶标,并开发一种可以调节该蛋白质靶标的分子。作为描述给定分子生物活性的简写,科学家们分配了一个标签,称为作用机制或简称 MoA。
我们如何确定新药的 MoA?
一种方法是用药物处理人类细胞样本,然后使用算法分析细胞反应,该算法搜索与大型基因组数据库中已知模式的相似性,例如基因表达库或具有已知 MoA 的药物的细胞活力模式。在本次比赛中,您将获得一个独特的数据集,该数据集结合了基因表达和细胞活力数据。该数据基于一项新技术,该技术在 100 种不同细胞类型的池中同时测量(在同一样本中)人体细胞对药物的反应(从而解决了事先确定哪些细胞类型更适合于给予药物)。此外,您将可以访问此数据集中 5,000 多种药物的 MoA 注释。按照惯例,数据集已分为测试和训练子集。因此,您的任务是使用训练数据集开发一种算法,自动将测试集中的每个案例标记为一个或多个 MoA 类。请注意,由于药物可以有多个 MoA 注释,因此该任务在形式上是一个多标签分类问题。 如何评估解决方案的准确性?
基于 MoA 注释,将根据应用于每个药物-MoA 注释对的对数损失函数的平均值来评估解决方案的准确性。如果成功,您将帮助开发一种算法,根据化合物的细胞特征预测化合物的 MoA,从而帮助科学家推进药物发现过程。 赛题难点
方案参考
top1开源
top2开源

2021一点资讯技术编程大赛-CTR

赛题链接
https://tech.yidianzixun.com/competition/
赛题任务
本次大赛提供抽样用户过去一段时间内在一点资讯APP上的真实曝光和点击记录,以及所涉及用户和文章的基础属性,参赛者需要基于这些数据进行分析和建模。同时,大赛提供这批用户之后一段时间的曝光文章列表,参赛者最终提交给系统每个用户在之后曝光文章上的点击概率预估值(0-1之间的浮点数)。系统根据点击概率预估值和用户真实点击情况的差异,来评估预估任务的准确程度。 本次大赛提供的数据将隐去能代表用户身份的所有信息,对部分必要的敏感信息也进行了加密处理。
赛题难点
方案参考
top1开源
top3开源

2021科大讯飞AI开发者大赛-基于用户画像的商品推荐

赛题链接
http://challenge.xfyun.cn/topic/info?type=user-portrait
赛题任务
基于用户画像的产品推荐,是目前AI营销云服务广告主的一项重要能力,本次赛题选择了两款产品分别在初赛和复赛中进行用户付费行为预测,参赛选手需基于提供的样本构建模型,预测用户是否会购买相应商品。
赛题难点
方案参考
top5开源
top6开源
top3答辩

2019“合肥高新杯”心电人机智能大赛—心电异常事件预测

赛题链接
https://tianchi.aliyun.com/competition/entrance/231754/introduction
赛题任务
本次大赛要求选手以心电图异常事件预测为赛题方向,依据心电图机8导联的数据,以及病患年龄、性别等因素,用统计学、机器学习、深度学习等方式探索挖掘心电波形与心电异常事件之间的关系,构建精准预测模型。
赛题难点
方案参考
top1开源
top2方案
top2开源
top3方案
top3-2方案
top4方案
top4开源
top8开源
top13开源
top21开源
baseline
baseline-2
其他参考-1
其他参考-2

DIGIX全球算法精英大赛-基于多目标优化的视频推荐

赛题链接
https://developer.huawei.com/consumer/cn/activity/devStarAI/algo/competition.html#/preliminary/info/006/introduction
赛题任务
推荐系统大多都是基于隐式反馈来做推荐,比如用户的点击、观看时长、评论、分享等,且不同隐式反馈表达了用户不同的喜好程度。如果仅仅以单目标对推荐结果进行衡量,会存在衡量不全面的问题。如视频场景,假设某个用户打开一个视频看了开头觉得不喜欢立马关掉,如果以点击为目标则体现的是用户感兴趣,但实际情况是用户对这个视频不感兴趣。从这个例子可以看出,在视频推荐中如果仅仅以点击为目标,可能忽视了用户更深层次的隐式反馈。因此,视频推荐除了关注用户点击,还需关注用户观看时长、分享等目标,期望通过多目标能更深入地挖掘用户兴趣,做更精准的推荐。
赛题难点
方案参考
top1开源
top2开源

2020DCIC-智慧海洋建设

赛题链接
https://tianchi.aliyun.com/competition/entrance/231768/introduction
赛题任务
本赛题基于位置数据对海上目标进行智能识别和作业行为分析,要求选手通过分析渔船北斗设备位置数据,得出该船的生产作业行为,具体判断出是拖网作业、围网作业还是流刺网作业。
赛题难点
方案参考
top1开源
top3开源
top5开源
top7开源
top11开源
baseling-1

2021腾讯广告算法大赛

赛题链接
https://algo.qq.com/signup.html?rfisource=DSWX0308
赛题任务
对于给定的测试视频样本,通过算法预测出视频在呈现形式、场景、风格等三个维度上的标签,使用Global Average Precision(GAP)进行评分。
赛题难点
方案参考
top10ppt
top10答辩
top5开源
top6开源
top8开源
top10开源

2021qq浏览器算法大赛

赛题链接
https://algo.qq.com/signup.html?rfisource=DSWX0308
赛题任务
信息流场景下,短视频消费引来爆发式增长,视频的语义理解对于提升用户消费效率至关重要。视频Embedding采用稠密向量能够很好的表达出视频的语义,在推荐场景下对视频去重、相似召回、排序和多样性打散等场景都有重要的作用。本赛题从视频推荐角度出发,提供真实业务的百万量级标签数据(脱敏),以及万量级视频相似度数据(人工标注),用于训练embedding模型,最终根据embedding计算视频之间的余弦相似度,采用Spearman’s rank correlation与人工标注相似度计算相关性,并最终排名
赛题难点
方案参考
top10答辩
top1开源
top3开源
top4开源
top6开源
top11开源
top17开源

2021PetFinder

赛题链接
https://www.kaggle.com/competitions/petfinder-pawpularity-score/code
赛题任务
PetFinder.my is Malaysia’s leading animal welfare platform, featuring over 180,000 animals with 54,000 happily adopted. PetFinder collaborates closely with animal lovers, media, corporations, and global organizations to improve animal welfare.
Currently, PetFinder.my uses a basic Cuteness Meter to rank pet photos. It analyzes picture composition and other factors compared to the performance of thousands of pet profiles. While this basic tool is helpful, it's still in an experimental stage and the algorithm could be improved.
In this competition, you’ll analyze raw images and metadata to predict the “Pawpularity” of pet photos. You'll train and test your model on PetFinder.my's thousands of pet profiles. Winning versions will offer accurate recommendations that will improve animal welfare.
赛题难点
方案参考
top1方案
top2方案
top3方案
top4方案
top5方案
top6方案
trick

2021SHOPEE-price-match

赛题链接
https://www.kaggle.com/competitions/shopee-product-matching/overview
赛题任务
Do you scan online retailers in search of the best deals? You're joined by the many savvy shoppers who don't like paying extra for the same product depending on where they shop. Retail companies use a variety of methods to assure customers that their products are the cheapest. Among them is product matching, which allows a company to offer products at rates that are competitive to the same product sold by another retailer. To perform these matches automatically requires a thorough machine learning approach, which is where your data science skills could help.
Two different images of similar wares may represent the same product or two completely different items. Retailers want to avoid misrepresentations and other issues that could come from conflating two dissimilar products. Currently, a combination of deep learning and traditional machine learning analyzes image and text information to compare similarity. But major differences in images, titles, and product descriptions prevent these methods from being entirely effective.
赛题难点
方案参考
top1方案
top2方案
top3方案
top4方案
top5方案
top6方案
以往解决方案

2021H&M Personalized Fashion Recommendations

赛题链接
https://www.kaggle.com/competitions/h-and-m-personalized-fashion-recommendations/discussion?sort=votes
赛题任务
H&M Group is a family of brands and businesses with 53 online markets and approximately 4,850 stores. Our online store offers shoppers an extensive selection of products to browse through. But with too many choices, customers might not quickly find what interests them or what they are looking for, and ultimately, they might not make a purchase. To enhance the shopping experience, product recommendations are key. More importantly, helping customers make the right choices also has a positive implications for sustainability, as it reduces returns, and thereby minimizes emissions from transportation.
In this competition, H&M Group invites you to develop product recommendations based on data from previous transactions, as well as from customer and product meta data. The available meta data spans from simple data, such as garment type and customer age, to text data from product descriptions, to image data from garment images.
赛题难点
方案参考
top1方案
top2方案
top3方案
top4方案
top5方案

2021山东赛第三届数据应用创新创业大赛-心电图智能事件识别

赛题链接
https://data.sd.gov.cn/cmpt/cmptDetail.html?id=53
赛题任务
赛题难点
方案参考
top2开源

2020DIGIX全球算法精英大赛-ctr预估

赛题链接
赛题任务
方案参考
top1开源
top6开源
top7开源
top10开源
top22开源

2021年芒果TV第二届“马栏山杯”国际音视频算法大赛视频推荐

赛题链接
https://challenge.ai.mgtv.com/contest/detail/9
赛题任务
设法提高视频推荐点击率以及人均有效观看时长,是芒果TV平台的核心技术挑战之一,本赛题以芒果TV点播信息流模块的实际推荐业务场景为原型,打造了一个经典的推荐问题,并且主办方提供了丰富的特征维度以及海量的数据信息内容,希望选手设计出一套精准有效的推荐模型,以探索进一步提升视频推荐效果的技术路径。
给定点播信息流模块的候选(用户-触发视频)集合S以及候选视频集合V, 从V中生成每个(用户-触发视频) s∈S最有可能点击的N个视频,其中N=30,以及预测s∈S观看列表中每个视频的播放时长比例。
方案参考
top12开源

2017融360-用户贷款风险预测

赛题链接
https://challenge.datacastle.cn/v3/cmptDetail.html?id=176
赛题任务
融360与平台上的金融机构合作,提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否会逾期还款。
方案参考
top1开源
top7开源
数据下载
二次贷款

2018融360-特征挖掘

赛题链接
赛题任务
本题要求根据提供的用户数据(包括关联关系、危险行为、标签类型、APP),通过数据挖掘技术,组合出有显著效果的特征,并利用这些特征构建模型预测用户的逾期情况。用户是否逾期和个人信用记录、收入、所属行业等诸多个人属性强相关,另一方面人类的社会属性又决定了用户必然要同其他人建立联系。
方案参考
top1开源
top2开源
其他
拒绝推断top2
拒绝推断top2-2
拒绝推断top4
数据下载 拒绝数据下载

2018融360-多场景金融

赛题链接
赛题任务
在实际金融场景中,我们常常会上线一些新产品,但对于新产品来说,建模样本必然是不足的,那么我们想要尽快的完善新产品的模型会考虑尝试利用其他产品的样本与新产品样本的共性的部分,来加强模型的预测能力。于是多场景金融赛题应运而生。
方案参考
top1开源

2017CCF-企业经营退出风险预测

赛题链接
https://www.datafountain.cn/competitions/271
赛题任务
本次大赛从全国2000多万企业抽取部分企业(脱敏后),提供企业主体在多方面留下的行为足迹信息数据。参赛队伍需要通过数据挖掘的技术和机器学习的算法,针对企业未来是否会经营不善构建预测模型,输出风险预测概率值。
方案参考
top6开源
top9开源

2019CCF-互联网新闻情感分析

赛题链接
https://www.datafountain.cn/competitions/350
赛题任务
本赛题目标为在庞大的数据集中精准的区分文本的情感极性,情感分为正中负三类。面对浩如烟海的新闻信息,精确识别蕴藏在其中的情感倾向,对舆情有效监控、预警及疏导,对舆情生态系统的良性发展有着重要的意义。
方案参考
top1开源
top4开源
top8开源

2021CCF-爱奇艺剧本角色情感识别

赛题链接
https://www.datafountain.cn/competitions/518
赛题任务
本赛题提供一部分电影剧本作为训练集,训练集数据已由人工进行标注,参赛队伍需要对剧本场景中每句对白和动作描述中涉及到的每个角色的情感从多个维度进行分析和识别。该任务的主要难点和挑战包括:1)剧本的行文风格和通常的新闻类语料差别较大,更加口语化;2)剧本中角色情感不仅仅取决于当前的文本,对前文语义可能有深度依赖。
方案参考
top13开源
top1方案
top2方案
top3方案

2019CCF-金融信息负面及主体判定

赛题链接
https://www.datafountain.cn/competitions/353
赛题任务
该任务分为两个子任务:给定一条金融文本和文本中出现的金融实体列表,负面信息判定:判定该文本是否包含金融实体的负面信息。如果该文本不包含负面信息,或者包含负面信息但负面信息未涉及到金融实体,则负面信息判定结果为0。负面主体判定:如果任务1中包含金融实体的负面信息,继续判断负面信息的主体对象是实体列表中的哪些实体。
方案参考
top1开源
top3开源

2020CCF-面向数据安全治理的数据内容智能发现与分级分类

赛题链接
https://www.datafountain.cn/competitions/471
赛题任务
识别样本中的敏感数据,构建基于敏感数据本体的分级分类模型,判断数据所属的类别以及级别。
1.利用远程监督技术,基于小样本构建文档分类分级样本库。
2.结合当下先进的深度学习和机器学习技术,利用已构建的样本库,提取文本语义特征,构建泛化能力强且能自我学习的文档分类分级模型。
方案参考
top10开源
baseline

2022讯飞-非标准化疾病诉求的简单分诊2.0

赛题链接
https://challenge.xfyun.cn/topic/info?type=disease-claims-2022&ch=ds22-dw-zmt07
赛题任务
进行简单分诊需要一定的数据和经验知识进行支撑。本次比赛提供了部分好大夫在线的真实问诊数据,经过严格脱敏,提供给参赛者进行单分类任务。具体为:通过处理文字诉求,给出20个常见的就诊方向之一和61个疾病方向之一。
方案参考
top1方案

2022讯飞-中文语义病句识别

赛题链接
http://challenge.xfyun.cn/topic/info?type=sick-sentence-discrimination
赛题任务
中文语义病句识别是一个二分类的问题,预测句子是否是语义病句。
方案参考
top1方案

2022讯飞-CTR预估挑战赛

赛题链接
http://challenge.xfyun.cn/topic/info?type=CTR-forecast
赛题任务
广告的CTR预估需要强大的数据作为支撑,本次大赛提供了讯飞AI营销云海量的现网流量和创意数据作为训练样本,参赛选手需基于提供的样本构建模型,预测测试集的点击率,点击率的准确性将直接影响评价结果。
方案参考
top3开源

2021CCKS-中文NLP地址要素解析

赛题链接
http://sigkg.cn/ccks2021/?page_id=27
赛题任务
地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。地址文本相关性主要是衡量地址间的相似程度
方案参考
top1方案
top3开源

2021CCF-BDCI个贷违约预测

赛题链接
https://www.datafountain.cn/competitions/530
赛题任务
利用银行现有信贷行为数据进行迁移学习辅助创建目标业务风控模型来服务新场景
方案参考
top1方案
top3方案

2022微信大数据挑战赛-多模态视频分类

赛题链接
https://algo.weixin.qq.com
赛题任务
多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。 一条短视频中通常包含有三种模态信息,即文本、音频、视频, 它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。 微信产品的内容生态繁荣,创作者覆盖范围大, 导致短视频数据中普遍存在着模态缺失、相关性弱、分类标签分布不均衡等问题,是实际应用中需要着重解决的技术难点。 本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。
方案参考
top8开源
top12开源
top15开源
top16开源
top19开源
前6答辩

图比赛

2022ICDM-大规模电商图上的风险商品检测

赛题链接
https://tianchi.aliyun.com/competition/entrance/531976/introduction
赛题任务
本次比赛提供了阿里巴巴平台来源于真实场景的风险商品检测数据,需要参赛者利用大规模的异构图结构以及比例不均衡的黑白样本,利用图算法,检测出风险商品。
方案参考
top1开源
top3开源
top4方案
top5方案
top6方案
top7方案
top8开源
top9方案

2022第七届信也科技杯图算法大赛—欺诈用户风险识别

赛题链接
https://ai.ppdai.com/mirror/goToMirrorDetailSix?mirrorId=28&tabindex=3
赛题任务
本届大赛的预测任务为识别欺诈用户的节点预测任务。虽然本届大赛的图数据中有四类节点,但是预测任务只需要将欺诈用户(Class 1)从正常用户(Class 0)中区分出来;这两类节点被称为前景节点。图中另外两类用户(Class 2和 Class 3)尽管在数目上占据更大的比例,但是他们的分类与用户是否欺诈无关,因此预测任务不包含这两类节点;这两类节点被称为背景节点。与常规的结构化数据不同,图算法可以通过研究对象之间的复杂关系来提高模型预测效果。而本届大赛除了提供前景节点之间的社交关系,还提供了大量的背景节点。希望选手可以充分挖掘各类用户之间的关联和影响力,提出可拓展、高效的图神经网络模型,将隐藏在正常用户中的欺诈用户识别出来
方案参考
前11方案
baseline
graphTransformer
top2开源
gearSage

2022GAIIC-电商关键属性的图文匹配

赛题链接
https://www.heywhale.com/home/competition/620b34c41f3cf500170bd6ca
赛题任务
京东积累了电商零售场景下的海量商品的图文数据,其中商品主图和商品标题是最直观、最容易触达到用户的数据。因此,图文的一致性(即图文匹配)至关重要,要求模型根据图片和文本判断出两种模态数据传递的信息是否一致。通常,商品主图和标题包含大量的商品属性信息。在实际业务中,图片里商品的关键属性与商品标题描述的是否匹配,是影响用户体验的重要因素。本赛题要求参赛队伍利用脱敏后的京东电商平台图文数据,通过商品图片与商品标题在整体以及商品关键属性上的关联程度来判断两者是否匹配。
方案参考
top1开源
top2开源
top7开源
top8开源
top10开源
top11开源

2022KDD-风力发电预测

赛题链接
https://aistudio.baidu.com/aistudio/competition/detail/152/0/introduction
赛题任务
2022年kdd cup提供了龙源电力集团有限公司独特的空间动态风力预测数据集:SDWPF,其中包括风力涡轮机的空间分布,以及时间、天气和涡轮机内部状态等动态背景因素。然而,大多数现有的数据集和竞赛将 WPF 视为时间序列预测问题,而不知道风力涡轮机的位置和上下文信息。预测目标是134个风机各自在未来288个时刻(共2天)下的输出功率。
方案参考
答辩视频
总结开源
总结方案

2022KAGGLE-HM

赛题链接
https://www.kaggle.com/competitions/h-and-m-personalized-fashion-recommendations/overview
赛题任务
H&M是我们熟知的服饰购物平台,他拥有53个网上市场和大约4850家商店。赛题提供了2018年9月到2020年9月的用户购买记录(包括线上线下的购买记录)以及商品及用户的一些元数据,希望参赛选手预测接下来一周最有可能购买的衣物(评价指标为MAP@12)。题目描述中说明了构建优秀的推荐系统,不仅对于提高平台营收,还可以减少“退换货”等造成的物流损失。
方案参考
top10方案
总结1
总结2

2022KDD-多模态召回

赛题链接
https://tianchi.aliyun.com/competition/entrance/231786/introduction
赛题任务
今年的KDD Cup举办了多媒体召回任务(Modern E-Commerce Platform: Multimodalities Recall),任务要求参赛者根据用户的查询Query,对候选集合中的所有商品图片进行相关性排序,并找出最相关的5个商品图片。
方案参考
top1开源
top2开源
top3开源
top3方案
top8方案
top12开源

2021人工智能创新挑战赛—AI助力精准气象和海洋预测

赛题链接
https://tianchi.aliyun.com/competition/entrance/531871/information
赛题任务
本次赛题是一个时间序列预测问题。基于历史气候观测和模式模拟数据,利用T时刻过去12个月(包含T时刻)的时空序列(气象因子),构建预测ENSO的深度学习模型,预测未来1-24个月的Nino3.4指数
方案参考
top1开源
top4开源
top5开源
top12开源

2021小布助手-对话短文本语义匹配

赛题链接
https://tianchi.aliyun.com/competition/entrance/531851/introduction
赛题任务
本赛道要求参赛队伍根据脱敏后的短文本query-pair,预测它们是否属于同一语义。
方案参考
top1开源
top4开源
top4开源
top18开源
竞赛总结

About

数据竞赛笔记fork

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published