-
Notifications
You must be signed in to change notification settings - Fork 5.9k
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
translate "Defining Data Science README"
- Loading branch information
Showing
3 changed files
with
161 additions
and
2 deletions.
There are no files selected for viewing
159 changes: 159 additions & 0 deletions
159
1-Introduction/01-defining-data-science/translations/README.zh-cn.md
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,159 @@ | ||
# 数据科学的定义 | ||
|
||
| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | | ||
|:------------------------------------------------------------------------------------------------------:| | ||
| 数据科学的定义 - _涂鸦笔记 ,作者 [@nitya](https://twitter.com/nitya)_ | | ||
|
||
--- | ||
|
||
[![Defining Data Science Video](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) | ||
|
||
## [课前小测](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0) | ||
|
||
## 什么是数据? | ||
|
||
在我们的日常生活中,我们无时无刻不被数据所包围着。你现在正在阅读的文字是数据。你智能手机中的好友通讯录是数据。你手表显示的当前时间也是数据。作为人类,我们天生就会使用数据,比如计算我们拥有多少钱或者给我们的朋友们写信。 | ||
|
||
然而,随着计算机的出现,数据变得更为重要。计算机的主要作用是进行运算,但是它们需要有数据才能运行。因此,我们需要了解计算机是如何储存和处理数据的。 | ||
|
||
随着互联网的兴起,计算机作为处理数据的主要工具,其重要性在逐渐攀升。如果你仔细想一想,其实我们现在更多的是使用计算机进行数据的处理和交流,而不仅仅是进行实际的运算。当我们给好友写一封电子邮件或者在网络上搜索信息时,我们其实是在创建、储存、传输和操作数据。 | ||
|
||
> 你还记得你上次使用计算机进行实际的运算是什么时候吗? | ||
## 什么是数据科学? | ||
|
||
在 [维基百科](https://en.wikipedia.org/wiki/Data_science)中, **数据科学** *被定义为一门利用科学的方法从结构化和非结构化数据中提取有价值的信息和见解,并将这些信息和见解广泛地应用*。 | ||
|
||
这个定义强调了数据科学的以下几个重点: | ||
|
||
* 数据科学的主要目标是从数据中**提取有价值的信息**,换句话说,是理解数据,找到一些隐藏在数据中的关系并建立**模型**。 | ||
* 数据科学使用**科学的方法**,例如概率学和统计学。实际上,当“数据科学”这个名词被首次提出时,一些人认为数据科学只是统计学的一个新噱头。如今看来,数据科学的边界更为广泛。 | ||
* 所得的有价值的信息应该被用于产生一些**可行的见解**,即可以应用于真实业务情景的见解。 | ||
* 我们应该要学会处理**结构化**和**非结构化**数据。我们将在之后课程中讨论这些不同类型的数据。 | ||
* **应用领域**是一个重要的概念,通常数据科学家至少需要在所研究的问题领域内具备一定程度的专业知识,例如:金融、医学、市场营销等。 | ||
|
||
> 数据科学的另一个重点是研究如何使用计算机收集、储存和操作数据。统计学为我们提供了数学基础,而数据科学则是使用数学概念从数据中获得可行的见解。 | ||
根据(由[Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))提供) 的观点来看,可将数据科学作为一个独立的科学分支: | ||
|
||
* **有经验积累的**, 主要依赖于观察和实验的结果 | ||
* **有理论支撑的**, 从现有的科学知识中产生的新的概念 | ||
* **可被计算的**, 根据一些计算实验发现了新的原理 | ||
* **数据驱动的**, 以发现数据中的关系和模式为基础 | ||
|
||
## 其他相关领域 | ||
|
||
由于数据无处不在,数据科学本身也是一个涉及广泛的领域,其中包含很多其他学科。 | ||
|
||
***数据库*** | ||
|
||
它主要解决的问题是**如何储存**数据,即如何以一种更快的方式将数据进行结构化处理。储存结构化数据和非结构化数据,使用不同类型的数据,[我们将在后面的课程中提到它](../../2-Working-With-Data/README.md)。 | ||
|
||
***大数据*** | ||
|
||
通常,我们需要储存并处理大量的结构相对简单的数据。通过一些特殊的方法和工具可将这些数据以分布式的方式储存到计算机集群中,对这些数据进行高效的处理。 | ||
|
||
***机器学习*** | ||
|
||
理解数据的一种方式是建立一个能够预测出期望结果的**模型**。从数据中构建模型的过程被称为**机器学习**。你可以查看我们的[初学者机器学习课程](https://aka.ms/ml-beginners),以了解更多的相关内容。 | ||
|
||
***人工智能*** | ||
|
||
人工智能(AI)是机器学习中的一个领域,它也依赖于数据,以建立一个类似人类思维过程的高复杂度的模型。人工智能通常能够将非结构化数据(例如,自然语言)转化为结构化的见解。 | ||
|
||
***数据可视化*** | ||
|
||
数量众多的数据对人类来是难以理解的,但是当我们为这些数据创建一些有效的可视化图表,我们就能够对这些数据有更多的了解,并能够从中得出一些结论。因此,了解各种各样的信息可视化的方法是非常重要的,这将是我们课程的[第三部分](../../3-Data-Visualization/README.md)将要说到的内容。相关的领域还包括**信息图表**和**人机交互**。 | ||
|
||
## 数据的类型 | ||
|
||
正如我们之前提到的,数据无处不在。我们要做的仅仅是以适当的方式捕获它!将数据分为结构化数据和非结构化数据就是一种有效的方式。前者以某种良好的结构形式表示,通常是一个或多个表格,而后者只是一些文件的集合。有时,我们也会提及半结构化数据,它也具有一些结构,但结构形式可能差异较大。 | ||
|
||
| 结构化 | 半结构化 | 非结构化 | | ||
| ------------------------- | ------------------------- | ------------ | | ||
| 人员名单以及对应的电话号码 | 带有链接的维基百科页面 | 《大英百科全书》正文 | | ||
| 过去20年中里,一栋建筑中的所有房间的每分钟的温度 | 包含论文作者、出版社和摘要的JSON格式的数据集合 | 公司文档中共享的文件 | | ||
| 所有进入到这座建筑的人员的年龄和性别数据 | 网页 | 监控摄像头拍摄的原始视频 | | ||
|
||
## 从哪里获得数据 | ||
|
||
数据有很多可能的来源,无法被逐一列举所有的可能来源!我们就说一些常见的获取数据的地方: | ||
|
||
* **结构化数据** | ||
- **物联网** (IoT),物联网中其中包括了来自不同传感器(如,温度或压力传感器)提供的有用的数据。 如果一栋写字楼配备了物联网传感器,就可以自动地控制供暖和照明,可最大程度地降低成本。 | ||
- **问卷调查**,要求用户在购买产品后或访问网站后所需完成的调查问卷。 | ||
- **行为分析**,行为分析可以帮助我们了解用户进入网站的深度,以及离开网站的主要原因。 | ||
* **非结构化数据** | ||
- **文字**是得到见解的丰富来源,像是整体**情感评分**或是关键字和语义的提取。 | ||
- **图片**或**视频**。来自道路监控摄像头的视频可被用于估计道路的交通状况,并告知人们可能的交通拥堵情况。 | ||
- 网页服务器日志可被用于了解哪些网页最常被访问,以及访问的时常。 | ||
* **半结构化数据** | ||
- **社交网络**图谱被用作用户偏好和信息传递的潜在影响的主要数据来源。 | ||
- 当我们有一个聚会上大量的照片,我们可以尝试从相互拍摄的照片中提取**群体动力**数据。 | ||
|
||
通过了解不同数据的来源,你可以尝试思考不同的场景,利用数据科学来更好地了解情况,并改进业务流程。 | ||
|
||
## 你可以用数据做什么 | ||
|
||
在数据科学中,数据主要经历以下步骤: | ||
|
||
1)数据获取 | ||
|
||
第一步是收集数据。在大部分情况下,这可能是一个比较直接的过程,比如数据从一个网页应用到数据库,但有时我们也需要用到一些特殊的技术手段。比如,来自物联网传感器的庞大数据,使用节点缓冲(如,物联网中心)在处理这些数据前收集所有的数据将是一个比较好的办法。 | ||
|
||
2)数据存储 | ||
|
||
存储数据是一件具有挑战性的事情,特别是当涉及到大数据时。在决定如何存储数据时,应当考虑未来查询数据的方式。以下是几种数据储存的方式: | ||
|
||
- 关系型数据库中,数据以表的形式进行储存,并使用一种特别的语言SQL对其中的数据进行查询。通常,表会被放到不同的组,被称为模式(schema)。在大部分情况下,我们需要将原始数据转换为适合模式的形式。 | ||
- [非关系型数据库](https://en.wikipedia.org/wiki/NoSQL)(NoSQL),例如[CosmosDB](https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum),不强制对数据使用模式,并且允许更复杂的数据,像是层级结构的JSON文档或图表数据。然而非关系型数据库不具备SQL丰富的查询功能,并且无法执行引用完整性,即数据在表中的结构以及表与表之间的关系的一些规则。 | ||
- [数据湖](https://en.wikipedia.org/wiki/Data_lake)(Data Lake)被用作储存一些大规模的原始数据集和非结构形式的数据集。数据湖通常与大数据一起使用,因为大数据中的所有数据无法放到一个单独的机器中,需要你通过服务器集群进行存储和处理。[Parquet](https://en.wikipedia.org/wiki/Apache_Parquet)是常与大数据使用的数据格式。 | ||
|
||
3)数据处理 | ||
|
||
这是数据历程中最令人兴奋的部分,需要将数据从其原始形式转换为可用于可视化/模型训练的形式。当处理文本或图像等非结构化数据时,我们可能需要使用一些人工智能的技术从数据中提取**特征**,从而将其转换为结构化形式。 | ||
|
||
4)可视化/可被人理解的见解 | ||
|
||
为了理解数据,我们通常需要对数据进行可视化。借助各种不同的可视化技术,我们可以从数据中窥见到有价值的见解。通常,数据科学家会“玩弄一下数据”,对数据进行各种观察并从中寻找数据中的各种关系。同时,我们还可以使用统计学技术来验证假设或证明不同数据之间的相关性。 | ||
|
||
5)训练预测模型 | ||
|
||
由于数据科学的最终目的是能够基于数据做出决策,因此我们可能需要使用一些[机器学习](http://github.com/microsoft/ml-for-beginners)的技术来构建预测模型。我们可以使用构建的预测模型对具有类似结构的新数据进行预测。 | ||
|
||
当然了,取决于数据的具体情况,可能会省略上述的一些步骤(例如,当我们的数据已经在数据库中时,或者当我们不需要训练模型时),或者某些步骤可能会多次重复(例如,数据的处理)。 | ||
|
||
## 数字化和数字化转型 | ||
|
||
在过去的十年中,许多企业开始意识到在商业决策中数据的重要性。为了将数据科学原理应用于实际的业务中,首先需要收集一些数据,即将业务流程转换为数据的形式。这就是**数字化**。将数据科学技术应用于这些数据上以指导决策,可以显著提高生产力(甚至进行业务调整),这就被称为**数字化转型**。 | ||
|
||
让我们考虑一个例子。假设我们有一门数据科学的课程(就像现在这个课程一样),我们以线上授课的形式,并希望利用数据科学来改进它。我们可以怎么做呢? | ||
|
||
我们可以从询问“什么是可以被数据化的?”这个问题开始。最简单的一个方法是测量每个学生完成每个模块所需的时间,以及通过每个模块结束时完成的多项选择题来衡量他们所获得的知识。通过对所有学生的平均完成时间进行统计,我们可以了解到哪些模块对学生来说最困难,以让我们可以去简化那些部分。 | ||
|
||
> 你可能会认为上述方法并不理想,因为每个模块的长度可能不同。更公平的做法是时间除以模块的长度(以字符数为单位),然后再对得到的结果进行比较。 | ||
我们可以尝试通过分析多项选择题的得分来确定哪些是学生难以理解的概念,并利用这些信息来改进我们的授课内容。为了更加有效的得到这些信息,我们需要对多项选择题有设计,使得每个题与某个特定的知识或概念相对应。 | ||
|
||
如果我们想要更加复杂的分析,我们可以将每个模块的完成时间与学生的年龄段绘制可视化图表。我们可能会发现,对于某些年龄段的学生来说,完成该模块所需的时间过长,或者学生在完成模块前就退出了。这些信息可以帮助我们为该模块适龄推荐,并减少因为错误的预期而引起的不满。 | ||
|
||
## 🚀 挑战 | ||
|
||
在这个挑战中,我们将要尝试通过查看文本来寻找与数据科学领域相关的概念。我们将下载并处理维基百科上关于数据科学的文章,然后构建一个类似下方的词云: | ||
|
||
![Word Cloud for Data Science](images/ds_wordcloud.png) | ||
|
||
访问 [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') 查看代码。你也可以运行代码,观察它是如何实时转换所有数据的。 | ||
|
||
> 如果你不知道如何在 Jupyter Notebook中运行代码, 请阅读 [这篇文章](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)。 | ||
## [课后练习](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) | ||
|
||
## 作业 | ||
|
||
* **任务 1**:修改上述代码,找出与**大数据**和**机器学习**领域相关的概念。 | ||
* **任务 2**:[思考一些数据科学的场景](assignment.md) | ||
|
||
## 鸣谢 | ||
|
||
本课程由 ♥️ [Dmitry Soshnikov](http://soshnikov.com)编写 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters