第14期 Datawhale 组队学习活动马上就要开始啦!
本次组队学习的内容为:
大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。
开源内容:https://github.com/datawhalechina/joyful-pandas
注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。
- 贡献人员:耿远昊,谢文睿
- 学习周期:9天 2-3h/天
- 学习形式:理论学习 + 练习
- 人群定位:有 python 编程基础,希望从事数据分析工作的学习者,参与过Pandas教程(上)组队学习者优先。
- 先修内容:Python编程语言
- 难度系数:中
理论部分
- 理解Nullable类型与NA符号
- 掌握缺失值的填充与剔除
- 掌握常见缺失值插值方法
练习部分
- 两道缺失数据练习题
理论部分
- 掌握基本正则表达式的用法
- 理解string类型的性质
- 掌握文本类型的5类操作
- 熟悉常见字符串方法
练习部分
- 两道文本数据练习题
理论部分
- 熟悉分类类型的属性
- 掌握分类类型的排序和比较操作
练习部分
- 两道分类数据练习题
理论部分
- 掌握时间变量的类型及其创建方法
- 掌握时序索引及其属性
- 理解并掌握重采样操作
- 掌握窗口函数的用法
练习部分
- 两道时序数据练习题
- 三道综合练习题
开源内容:https://github.com/datawhalechina/team-learning-cv/tree/master/ImageProcessingFundamentals)
注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。
- 贡献人员:王程伟、张强、李芝翔
- 学习周期:15天,每天平均花费时间 2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论学习 + 练习
- 人群定位:具备一定编程基础,了解 OpenCV,有学习和梳理图像处理算法的需求,参与过图像处理(上)组队学习者优先。
- 先修内容:计算机视觉基础:图像处理(上)
- 难度系数:中
理论部分
- 掌握Harris特征点检测的原理
练习部分
- 使用OpenCV集成的Harris特征点检测器实现图像兴趣点检测
理论部分
- 掌握LBP特征描述算子原理
练习部分
- 使用OpenCV的LBP检测器完成人脸检测任务
理论部分
- 掌握Harr特征描述算子原理
练习部分
- 使用OpenCV的Harr检测器完成人脸检测任务
理论部分
- 掌握HOG特征描述算子的原理
练习部分
- 使用OpenCV预训练的HOG+SVM检测器完成行人检测任务
- 软件包及安装
- 相关文档
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/ProbabilityStatistics
注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。
- 贡献人员:张晓东、张雨、杨剑砺
- 学习周期:9天 2-3h/天
- 学习形式:理论学习 + 练习
- 人群定位:了解 python 编程语言 和 概率统计的基本概念,希望通过程序模拟的方式来熟悉概率统计知识的学习者。
- 先修内容:Python编程语言
- 难度系数:低
理论部分
- 基本概念:随机事件,样本空间等;
- 概率基础:古典概型,条件概率,贝叶斯公式;
- 随机变量及其分布特征
练习部分
- 做理论知识点的笔记;
- python实现二项分布,协方差和相关系数以及贝叶斯公式;
理论部分
- 统计量与抽样;常用统计量;
- 数据集中与离散趋势的度量;
- 分布特征,偏度与峰度;
练习部分
- 做理论知识点的笔记;
- python实现数据各维度的描述性分析;
理论部分
- 离散型分布,连续型分布,python实现及可视化;
- 假设检验步骤及两类错误解读;
- 假设检验的python实战;
练习部分
- 做理论知识点的笔记;
- python实现常见分布,python实现假设检验;
理论部分
- 单因素组间方差分析与双因素方差分析;
- 方差的相关检验,主效应和交互效应;
练习部分
- 做理论知识点的笔记;
- python实现方差分析;
开源内容:https://github.com/datawhalechina/team-learning-nlp/tree/master/IntroductionToNLP
注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。
- 贡献人员:杨开漠、雷钲仪、但扬杰、姚鑫、刘瑞航、康兵兵、Raymond
- 学习周期:16天,每天平均花费时间 2小时-5小时不等,根据个人学习接受能力强弱有所浮动
- 学习形式:视频学习+实践
- 人群定位:具备一定编程基础,有学习和梳理自然语言处理算法的需求。
- 先修内容:无
- 难度系数:中
- 理论部分
- 介绍NLP研究的对象
- 如何表示单词的含义
- Word2Vec方法的基本原理
- 视频教程
- 理论部分
- 回顾 Word2Vec模型
- 介绍 count based global matrix factorization 方法
- 介绍 GloVe 模型
- 视频教程
- 理论部分
- 回顾 word2vec 和 glove,并介绍其所存在问题
- 介绍 n-gram 思想
- 介绍 FastText 模型
- 视频教程
- 理论部分
- 回顾 Word2Vec, GloVe, fastText 模型
- 介绍contextual word representation
- 介绍 ELMO,GPT与BERT模型
- 视频教程
可以从以下作业四选一:
1. 英文词向量的探索
- 练习任务
- 完成 CS224n 配套作业
2. 中文词向量的探索
- 练习任务
- 特征词转化为 One-hot 矩阵
- 特征词转化为 tdidf 矩阵
- 利用 word2vec 进行 词向量训练
- word2vec 简单应用
- 利用 one-hot 、TF-idf、word2vec 构建句向量,然后 采用 朴素贝叶斯、条件随机场做分类
3. FastText 探索
- 练习任务
- FastText 词向量训练
- FastText 做分类
4. Bert 探索
- 练习任务
- Bert 做分类
- 注册 CSDN 或 Github 账户。
- 按照任务安排进行学习,完成后写学习笔记Blog。
- 在每次任务截止之前在群内填写问卷打卡,遇到问题在群内讨论。
- 未按时打卡的同学视为自动放弃,被抱出学习群。
有关Datawhale组队学习的开源内容如下:
本次组队学习的 PDF 文档可到Datawhale的知识星球下载: