Skip to content

Latest commit

 

History

History
121 lines (61 loc) · 11 KB

4-important-statistical-ideas-you-should-understand-in-a-data-driven-world-3a9d59ee4a85.md

File metadata and controls

121 lines (61 loc) · 11 KB

数据驱动世界中你应该理解的 4 个重要统计理念

原文:towardsdatascience.com/4-important-statistical-ideas-you-should-understand-in-a-data-driven-world-3a9d59ee4a85

你不必成为统计学专家才能在现代世界中立足,但有一些基本的理念你应该理解。

Murtaza AliTowards Data Science Murtaza Ali

·发布于 Towards Data Science ·阅读时间 8 分钟·2023 年 7 月 2 日

--

Anne Nygård 提供的照片,来源于 Unsplash

避免现实是没有意义的。数据科学,更广泛地说,数据驱动的结构,是我们当前所构建的社会的核心。

当计算机科学热潮在 2000 年代初首次出现时,许多人注意到计算机科学将成为各个领域的核心部分。这一预言得到了验证。各行各业的公司——医疗、工程、金融等——开始聘请软件工程师进行各种形式的工作。这些领域的学生也开始学习编码。

我认为数据科学的兴起更进一步。借助计算机科学,人们可以仅仅通过雇佣软件工程师来应对挑战。业务经理或销售专家不一定需要了解这些工程师的工作内容。

但数据科学更广泛且包罗万象。由于它是一个领域的混合体 [1],它的理念即使对于那些可能不是日常数据科学家的人员也很相关。

在这篇文章中,我将对每个人都应该理解的四个重要统计理念进行高层次的概述,无论你的官方职位是什么。无论你是项目经理、招聘人员,还是 CEO,对这些概念的某种程度的熟悉肯定会对你的工作有所帮助。此外,在工作之外,对这些概念的熟悉将使你具备在现代社会中导航所必需的数据素养。

让我们开始吧。

只是一个大而糟糕的样本

在本科时期,我上过的一门数据科学课程有大量学生——近 2000 人。这门课程《数据科学基础》是校园中最受欢迎的课程之一,因为它旨在使各个部门的学生都能接触到。课程并没有立即进入高级数学和编程,而是专注于可能影响各个领域学生的高层次思想。

在我们早期的一次讲座中,教授说了一句话,至今仍让我记忆犹新,每当我处理任何即使仅仅是相关的数据时,它都会回到我的脑海中。她在讨论随机抽样,这是一个宽泛的术语,涉及以能够代表整个总体的方式选择研究总体的一个子集。这个理念是,研究这个子集应该使人能够对整个总体得出结论。

她指出,拥有一个好的样本至关重要,因为再多的数学手段和复杂技术也无法弥补一个实际上不具代表性的子集。她提到,许多人认为,如果初始样本不好,那么一个合理的解决方案是坚持相同的方法,但收集更大的样本。

“那你就会得到一个非常大、非常糟糕的样本,” 她对着充满大学生的巨大讲堂说道。

理解这一基础点——及其更广泛的影响——将使你能够理解许多人视为理所当然的许多社会政治现象。为什么总统民调经常不准确?是什么使得看似强大的机器学习模型在现实世界中失败?为什么一些公司生产的产品从未问世?

经常,答案隐藏在样本中。

“误差”并不意味着“错误”

这个话题在大多数涉及数据或统计的课程中都是隐含的,但我这里的讨论受到了阿尔贝托·开罗在他那本出色的《图表如何说谎》一书中强调这一点的启发。

开罗的书的前提是概述数据可视化如何被用来误导人们,无论是无意还是恶意。在其中一章中,开罗阐述了在数据中可视化不确定性所面临的挑战,以及这本身如何导致误导性的数据可视化。

他从统计中的误差概念开始讨论。他提到一个关键点:虽然在标准英语中,“误差”与“错误”是同义的,但在统计领域中情况完全不同。

统计误差的概念与不确定性有关。测量和模型中几乎总是会存在某种形式的误差。这与前面提到的样本有关。由于你没有描述的总体的每一个数据点,你将不可避免地面临不确定性。如果你对未来的数据点做出预测,这种情况会更加明显,因为它们尚不存在。

减少和解决不确定性是统计学和数据科学的关键部分,但超出了本文的范围。在这里,你需要理解的主要一点是,仅仅因为一个统计结果带有不确定性,并不意味着它是错误的。实际上,这很可能是一个指示,说明产生结果的人知道他们在做什么(你应该对没有任何不确定性参考的统计声明持怀疑态度)。

学习如何正确解读不确定性的统计声明[2],而不是将其视为错误。这是一个至关重要的区别。

你不能总是“为此建立一个模型”

在普通大众中,似乎存在一种观念,认为人工智能是一种神奇的工具,能够完成任何事情。随着自动驾驶汽车和逼真的虚拟助手的出现,但数据素养没有相应提升,这种思维方式的发展并不令人意外。

不幸的是,这完全是错误的。人工智能不是魔法。它严重依赖于良好的数据,如果基础数据质量较差,它的结果实际上可能会非常误导。

我曾有一位同事被分配到一个项目,她的任务是为特定目标构建一个机器学习模型。这个模型旨在根据历史数据将未来事件分类到特定类别中。

只有一个问题:她没有任何数据。项目中的其他人(显然不熟悉数据科学)不断坚持她应该继续建立模型,即使她没有数据,因为机器学习非常强大,这应该是可以实现的。他们没有意识到他们的要求根本不可行。

是的,机器学习确实很强大,是的,我们在做更酷、更好的任务方面也在不断进步。然而,就目前的情况而言,它并不是一切问题的魔法解决方案。你最好记住这一点。

数字确实会撒谎

人们像撒花一样随意使用“数字不会撒谎”这个短语。

哦,要是他们知道就好了。数字实际上是会撒谎的。很多。在某些情况下,撒谎的频率甚至超过了讲真话。但它们不是因为原始形式下的错误而撒谎;它们撒谎是因为普通人不知道如何解读它们。

有无数的例子说明数字如何被扭曲、操控、改变和转换,以支持某个论点。为了说明这一点,我将介绍一个例子:在做出笼统声明时未考虑基础人口分布。

这本身有点模糊,所以让我们看一个例子。考虑以下情况,通常会问医学学生:

假设某种疾病在一个人群中每 1000 人中就有 1 人受到影响。有一个测试可以检查一个人是否有这种疾病。该测试不会产生假阴性(即,任何患有该疾病的人都会测试为阳性),但假阳性率为 5%(即使一个人没有这种疾病,也有 5%的机会测试为阳性)。假设从人群中随机选择的一个人进行了测试并测试为阳性。他们实际上有这种疾病的可能性是多少?

乍看之下,许多人给出的合理答案是 95%。有些人甚至可能会怀疑仅使用假阳性率来做出这个判断是否在数学上准确,但他们可能仍会猜测答案接近这个数字。

不幸的是,正确答案不是 95%或接近它。这个随机选择的人实际上患有这种疾病的概率大约是 2%。

大多数人离正确答案如此之远的原因是,尽管他们关注了较低的假阳性率,但他们没有考虑到人群中该疾病的实际流行率:人群中只有 1/1000(即 0.1%)的人实际上患有这种疾病。因此,这 5%的假阳性率实际上会影响许多人,因为一开始就有这么少的人患有这种疾病。换句话说,有很多很多的机会成为假阳性。

这个问题的正式数学原理超出了这篇文章的范围,但如果你有兴趣,可以在这里查看详细解释 [3]。也就是说,你不需要深入数学就能理解要点:可以想象,利用上述情景吓唬一个人,使他们相信自己比实际情况更容易感染这种疾病。仅凭数字往往会被误用和/或误解,以促进错误的信念。

保持警惕。

最终想法和总结

这是这篇文章的一些重要要点小抄:

  1. 大样本≠好样本。确保准确代表人群需要的不仅仅是数量。

  2. 在统计学中,“错误”并不意味着“错误”。 它与不确定性有关,而不确定性是统计工作中不可避免的元素。

  3. 机器学习和人工智能不是魔法。它们严重依赖于基础数据的质量。

  4. 数字可能会产生误导。当有人提出统计声明时,尤其是在非学术(即新闻)背景下,仔细审查它,然后再接受结论。

你不需要成为统计学专家来应对这个数据驱动的世界,但理解一些基础概念和知道要避免的陷阱对你是有益的。我希望这篇文章能帮助你迈出第一步。

下次见。

想在 Python 编程中脱颖而出? 点击这里获取独家、免费的简单易读指南。想在 Medium 上阅读无限故事?通过下面的推荐链接注册!

[## Murtaza Ali - Medium

阅读 Murtaza Ali 在 Medium 上的文章。他是华盛顿大学的博士生。对人机交互感兴趣…

murtaza5152-ali.medium.com](https://murtaza5152-ali.medium.com/?source=post_page-----3a9d59ee4a85--------------------------------)

参考文献

[1] towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78

[2] bookdown.org/jgscott/DSGI/statistical-uncertainty.html

[3] courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/