Skip to content

Latest commit

 

History

History
147 lines (74 loc) · 9.31 KB

what-is-synthetic-data-e4820ccebfcf.md

File metadata and controls

147 lines (74 loc) · 9.31 KB

什么是合成数据?

原文:towardsdatascience.com/what-is-synthetic-data-e4820ccebfcf

让数据变得有用

伪数据各种类型的实地指南:第一部分

Cassie KozyrkovTowards Data Science Cassie Kozyrkov

·发布于 Towards Data Science ·阅读时长 6 分钟·2023 年 6 月 30 日

--

合成数据,直白地说,就是虚假的数据。也就是说,这些数据实际上并不来自你感兴趣的群体。(群体是数据科学中的一个技术术语,我在这里解释了。)这是一种你打算当作来自你希望的地方/群体的数据来处理的数据。(其实并没有。)

合成数据,直白地说,就是虚假的数据。

人工数据、合成数据、虚假数据模拟数据都是同义词,每个术语的流行程度略有不同,因此它们带有不同年代的诗意内涵。如今,时髦的孩子们更喜欢使用合成数据这个流行词,也许是因为投资者需要被说服相信某种新事物已经被发明,而不是重新发现了什么。这里确实有一些略新的东西,但(在我看来)还不够新,无法使所有旧观念变得不相关。

让我们深入了解!

一些合成数字!所有图片版权归作者所有。

(注意:这篇文章中的链接将带你到同一作者的解释文中。)

无限的可能性

如果你像我一样经历了一个关于高级概率论和测度理论的研究生课程(我的治疗师和我至今仍在处理它),你会极其清楚地意识到有无限的实数。除了其他事情外,无限意味着如果你尝试列举它们,我可以像个混蛋一样 swoop in 发现一个新的,例如通过在你最大数字上加 1,取你两个最接近数字的平均值,或在小数点后最长的一系列数字的后面加一个数字。

这也意味着,如果你给我提供人类历史上所有记录过的数字列表,我仍然可以创造出一个全新的数字。哇!这就是力量。

除了为你下一次关于是否存在真正原创性的争论(呃)提供话题,我想表达什么呢?

合成数字

假设你有一个充满人类身高的数据集。在任意两个测量值之间(比如 173 厘米和 174 厘米,这个区间内会有我的身高),你可以写下无限多的数字。只需不断延长小数位数,超越我们测量工具的合理能力。超越亚原子粒子。超越常识。我仍然可以编造出很多数字,比如:173.4335524095820398502639008342984598739874944444443842397593645873649572850263894458092843956389479592489586232342349832842849687394208287645545352525353353826482384724628732648732799999992323……

生成这些愚蠢数字的规则完全超出了实用和现实的范围,因此当你要求我提供一个可能代表人类身高的数字以添加到你的数据集中时,我会如何处理你的请求?

现实世界数据

一个选择是给你一个来自真实人的实际数据。我环顾四周,发现了我的好友Heather(这是个真实的故事,她说了声你好),并为你的数据集测量她。如果你的关注人群是所有人类,她的身高会成为你数据集中一个合法的数据点,只要(这可是个大问题)我按照你为测量人群所制定的规则进行测量。

嘈杂数据

如果我用笔记本电脑(对不起,我没带卷尺去我们周末的度假地)以最接近 13 英寸的精度来测量 Heather 的身高,而你用的是毫米的米尺来测量身高,那我们会遇到问题。

当我们说数据嘈杂时,我们指的是其中存在非确定性误差,掩盖了真实答案。如果我决定用笔记本电脑来测量 Heather 的身高(或者Smoots),那正是会发生的情况。

从我这里得到的任何测量都会有随机误差,这种误差与其余数据中的误差类型不同。为了应对我们可能打开的麻烦罐子,请务必记录数据来源。(是你还是我收集的?)你可以在之后删除我的条目……只要它们没有混在你的合法数据贡献中。

在收集现实世界的数据时,出错的情况出乎意料地容易。要了解更多,请查看我的数据设计和数据收集系列:

## 数据设计的晦涩艺术

在数字时代挑战一种尴尬的新炼金术

[towardsdatascience.com ## 简单随机抽样:真的简单吗?

如何为你的数据项目创建一个抽样计划

[towardsdatascience.com

手工制作的数据

假设没有人来测量,但你还是想要另一个数据点?(你为什么会想这样做,这有什么优缺点?请参阅我下一个博客帖子!)

那么你是在说你接受合成数据。(如果你允许合成数据进入你的项目,始终记录哪些数据点是合成的以及它们是如何生成的!)

我还可以通过随意编造一个数字来提供一个身高数据点。如果我特别古怪,我甚至可能会抛出一个像*-5 + 60*sqrt(-1)*这样的复杂数来搅扰你。你说我不能?你应该这么说。如果你让我胡乱编造,你需要限制我的创造力。

没有虚数?好吧,那-100 怎么样?

哦,必须在实际人体身高范围内?那之前的 173.43355240……怎么样?

小数点位数太多因为人类测量仪器不够灵敏?好吧,173.5 厘米怎么样?

我们可以称之为手工制作的数据,因为我,一个人,通过手工制作一个对我有吸引力的例子来得出了它。

但是如果你想要多个新的身高数据点,而你告诉我理智点,并将我的选择四舍五入到最接近的毫米?

好吧,我可能会想出:173.5 厘米、182.4 厘米、175.1 厘米、190.2 厘米、180.1 厘米……

这些都是可信的人体测量数据,但它们偏高。它们可能并不能很好地代表你的目标人群。它们受到我对数据集中理想条目理解的偏见影响。而且对人类身高了解多少呢?可以做得更好。

那么,让我们在第二部分中做得更好,在那里我们将进行一次涵盖以下内容的旅程:

  • 重复数据

  • 重抽样数据

  • 自助抽样数据

  • 增强数据

  • 过度抽样数据

  • 边缘情况数据

  • 模拟数据

  • 单变量数据

  • 双变量数据

  • 多变量数据

  • 多模态数据

或者可以参考我的其他数据分类指南:

## 你能说出多少种数据类型?

连续的、离散的、分类的、序数的……继续吧!

[towardsdatascience.com ## 数据来源全解析

混淆数据、继承数据、耗尽数据以及其他“妖精”

[towardsdatascience.com

感谢阅读!如何来一门课程?

如果你在这里度过了愉快的时光,并且正在寻找一个不无聊的以领导力为导向的课程,旨在让 AI 初学者和专家都感到愉快,这里有个小东西我为你准备的:

课程链接: bit.ly/funaicourse

## 加入 Medium

阅读 Cassie Kozyrkov 的每一篇故事(以及 Medium 上成千上万其他作家的故事)。您的会员费用直接支持…

kozyrkov.medium.com

附注:你曾尝试过在 Medium 上多次点击“鼓掌”按钮看看会发生什么吗? ❤️

喜欢作者吗?与 Cassie Kozyrkov 联系

让我们成为朋友吧!你可以在 TwitterYouTubeSubstackLinkedIn 找到我。想让我在你的活动中演讲?使用 这个表单 与我联系。

所有图片版权归作者所有。