CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事,是全球大数据与人工智能领域最具影响力的活动之一。2019 CCF大数据与计算智能大赛由教育部高等学校计算机类专业教学指导委员会、国家自然科学基金委员会信息科学部及郑州市人民政府指导,中国计算机学会主办,郑州市郑东新区管理委员会、教育部易班发展中心、CCF大数据专家委员会、大洋洲计算机研究与教育协会、数联众创承办。
自2013年创办以来,大赛已成功举办六届,连续获得教育部、工信部、国家基金委等多个国家部委指导,受到北京、青岛、常熟、沈阳、郑州等多地地方政府支持,在梅宏院士、李国杰院士等百余位国内顶尖专家的参与下,共吸引了来自全球25个国家,1500余所高校及科研院所,1800余所企事业单位的60000余人参加。CCF BDCI大赛权威度高,专业性强,创新成果突出,产学研结合紧密,已经成为中国大数据及人工智能赛事旗帜。
2019年CCF BDCI大赛不忘初心,以“数据驱动,智创未来”为主题,以前沿技术与应用问题为导向,立足国际化、规模化,创造公平竞技环境,打磨赛练同擂模式,致力提升技术应用水平,为社会发现和培养高质量数据人才,推动大数据产学研生态发展。
基于OCR的身份证要素提取
光学字符识别(OCR)技术在商业银行的影像数据解析中有着广泛应用,其中一个重要领域就是身份证影像识别。 身份证影像文件包含姓名、地址等多项个人基本信息,信息准确度和权威性高,在商业银行中被广泛应用于身份认证、信息采集等领域。 然而,商业银行的影像数据来源渠道复杂,时间跨度很大,质量层次不齐,目前市面上的身份证识别模型尚不能满足银行质量参差的影像识别需求。因此,一个具备强抗噪声干扰能力的OCR模型有着极高的商业价值。 以下列举两个实际应用中的挑战: 1.图像质量参差:黑白复印件与彩色照片混杂,影像清晰度不尽相同,使得寻找具有普适性的图像处理手段和模型成为困难。 2.文字重叠:商业银行为保护客户信息时常在保存影像件时叠加水印,尤其是深色的文字水印,例如“仅供xxx使用,复印无效”,这些水印与身份证上的文字重叠,给文字识别带来困难。
设计针对商业银行身份证识别的OCR系统,识别身份证中姓名、地址、身份证号码和身份证有效日期等信息。 身份证输出结果示例(结果字符串为csv格式,字符编码为UTF-8格式): 0a1c9d6658e3417491f898a3602a0581,李岩宏,阿昌,男,1960,11,25,广西壮族自治区南宁市横县平马镇快龙村,45012719601125584X,南宁市横县公安局,2009.10.17-长期
探索对上述挑战中的任意一项设计解决方案,并验证其可行性
线下决赛嘉年华,具体赛程如下:
2019/08/17 启动仪式,发布赛题,开放报名
2019/08/17-2019/10/25 大赛初赛,可持续报名
2019/08/23 开放数据下载及作品评测
2019/10/26-2019/10/29 截止报名,复赛入围资格审核
2019/10/30-2019/11/11 大赛复赛,更换数据或调整赛题,可持续参与评测
2019/11/12-2019/11/22 作品提交截止,决赛入围资格审核
2019/11/23-2019/11/24 大赛决赛,答辩评审及颁奖典礼