Skip to content

Latest commit

 

History

History
166 lines (112 loc) · 7.13 KB

第13期组队学习计划.md

File metadata and controls

166 lines (112 loc) · 7.13 KB

Datawhale 组队学习

第十三期Datawhale组队学习计划马上就要开始啦!

本次组队学习的内容为:计算机视觉实践(街景字符编码识别),该内容来自 Datawhale与天池联合发起的 零基础入门CV - 街景字符编码识别 学习赛的第一场。

大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。


计算机视觉实践(街景字符编码识别)

开源内容:https://github.com/datawhalechina/team-learning-cv/tree/master/CharacterCodingRecognition

注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。

基本信息

  • 贡献人员:刘羽中、安晟、张强、王程伟、伊雪、姚童、马曾欧、陈信达、梁家晖、汪健麟、袁明坤、丁云培、樊亮、苏静静、林星良、路建飞
  • 学习周期:15天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
  • 学习形式:理论学习 + 练习
  • 人群定位:有python编程基础,对计算机视觉方向有兴趣,且对入门CV比赛有需求的学习者。
  • 先修内容:Python编程语言计算机视觉基础:图像处理
  • 难度系数:中

任务安排

Task01:赛题理解(2天)

学习目标

了解赛题

  • 赛题数据
  • 数据标签
  • 评测指标
  • 数据读取
  • 解题思路

Task02:数据读取与数据扩增(3天)

学习目标

  • 学习Python和Pytorch中图像读取
  • 学会扩增方法和使用Pytorch读取赛题数据

数据读取与数据扩增

  • 图像读取
    • Pillow
    • OpenCV
  • 数据扩增方法
    • 数据扩增介绍
    • 常见的数据扩增方法
    • 常用数据扩增库
  • Pytorch读取数据

Task03:字符识别模型(3天)

学习目标

  • 学习CNN基础知识和原理
  • 使用Pytorch框架构建CNN模型,并完成训练

字符识别模型

  • CNN介绍
  • CNN发展
  • Pytorch构建CNN模型

Task04:模型训练与验证(4天)

学习目标

  • 理解验证集的作用,并使用训练集和验证集完成训练
  • 学会使用Pytorch环境下的模型读取和加载,并了解调参流程

模型训练与验证

  • 构造验证集
  • 模型训练与验证
  • 模型保存与加载
  • 模型调参流程

Task05:模型集成(3天)

学习目标

  • 学习集成学习方法以及交叉验证情况下的模型集成
  • 学会使用深度学习模型的集成学习

模型集成

  • 集成学习方法介绍
  • 深度学习中的集成学习
    • Dropout
    • TTA
    • Snapshot
  • 结果后处理

论文推荐

  1. Characters as Graphs: Recognizing Online Handwritten Chinese Characters via Spatial Graph Convolutional Network
  2. ScanSSD: Scanning Single Shot Detector for Mathematical Formulas in PDF Document Images
  3. Fast Dense Residual Network: Enhancing Global Dense Feature Flow for Text Recognition
  4. Das_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019
  5. Handwritten Optical Character Recognition (OCR): A Comprehensive Systematic Literature Review (SLR)
  6. EATEN: Entity-aware Attention for Single Shot Visual Text Extraction
  7. E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text
  8. A Multitask Network for Localization and Recognition of Text in Images
  9. Efficient, Lexicon-Free OCR using Deep Learning
  10. Attention-based Extraction of Structured Information from Street View Imagery

具体规则

  • 注册 CSDN 或 Github 账户。
  • 按照任务安排进行学习,完成后写学习笔记Blog。
  • 在每次任务截止之前在群内打卡(发Blog链接),遇到问题在群内讨论。
  • 未按时打卡的同学视为自动放弃,被抱出学习群。

备注

有关Datawhale组队学习的开源内容如下:


本次组队学习的 PDF 文档可到Datawhale的知识星球下载:

Datawhale


Datawhale