我们需要多少数据？在机器学习与安全考虑之间的平衡

原文：towardsdatascience.com/how-much-data-do-we-need-balancing-machine-learning-with-security-considerations-a26911f211f6?source=collection_archive---------13-----------------------#2023-12-15

Stephanie Kirmer

·

关注发表在 Towards Data Science ·7 分钟阅读·2023 年 12 月 15 日

--

对于数据科学家来说，数据多了也不会嫌多。但当我们从更广泛的组织背景来看时，必须平衡我们的目标与其他考虑因素。

图片来源：特尔纳瓦大学在 Unsplash

数据科学 vs 安全/IT：一场世纪之战

数据获取和保持是我们数据科学家大量心理精力的焦点。如果你问数据科学家“我们能解决这个问题吗？”我们大多数人会首先问“你有数据吗？”接着是“你有多少数据？”我们想要收集数据，因为这是我们想要进行的大多数工作的前提，以便产生有价值的模型和有益的结果。我们喜欢深入挖掘这些数据，了解其中真正的内容和含义，找出数据是如何生成或收集的，并从中得出可以推广的结论。

然而，深入审视数据隐私会将我们的习惯和选择置于不同的背景中。数据科学家的直觉和欲望往往与数据隐私和安全的需求相冲突。任何曾为获得数据库或数据仓库的访问权以构建模型而努力的人都能感同身受。感觉像是有过于谨慎的障碍阻碍我们完成工作。毕竟，我们拥有数据的理由不是为了从中学习和建模吗？即使是最优秀的我们，有时也会妖魔化那些以隐私和安全为主要目标的组织部分，这些目标与我们希望在数据湖中畅游的愿望相冲突。

实际上，数据科学家并不总是英雄，IT 和安全团队也并非反派。我们都在为重要目标而努力，并且在追求过程中可能都会有一点隧道视野。了解这两个角色的视角有助于理解存在的紧张关系和竞争利益。

数据科学角度

从数据科学的角度来看，拥有大量数据通常是实现工作目标所必需的。要构建一个通用的模型，你需要拥有很多很多样本数据，以应对生产中的各种情况。数十万或数百万个案例并不是一个离谱的数量。然而，要真正做到这一点，数据科学家必须花费大量时间和精力来审问这些数据。拥有大量数据是很棒的，但如果你不知道它真正代表什么及其来源，那么有效的数据科学工作将会非常艰难。

安全角度

从安全优先的角度来看，我们必须承认，数据量越大——特别是如果有多个存储系统或处理过程影响数据——数据泄露的风险就越大。本质上，数据越多，某些数据丢失或被不当访问的可能性就越大。此外，更多人访问数据意味着更多的泄露或数据丢失的机会，因为人类是技术领域中最大的风险因素。我们是链条中的薄弱环节。

这都意味着什么？我认为这要求我们找到一个中间地带。一方面，数据越多，实际上我们深入理解它的可能性就越小，或者说即使有时间和工具，我们也可能无法做到。如果我们无差别地囤积所有数据，实际上我们会处于一个连数据都无法理解的境地，同时处于最高的泄露风险中。如果我们什么都不存储，或者存储不足，我们就会让数据科学所提供的巨大价值无法获得。

所以，我们需要找出这种中间地带的位置。数据工程和数据保留的最佳实践确实存在，但我们也必须做出很多临时决定。围绕数据保留和使用的原则对于在这些情况下指导我们是非常重要的。

制度性考虑

说到数据管理，我应该提到——我最近开始了一个新角色！我是 DataGrail 的首席高级机器学习工程师，这是一家提供一整套 B2B 服务的公司，帮助公司保护和管理客户数据。这自然将数据存储和隐私的问题摆在了我面前，并让我思考了自己在不同成熟度公司的职业经历以及他们如何处理数据。

对于一家公司来说，成为数据囤积者是非常容易的。你开始时数据不足，完全无法掌控局面，只能在收集关于交易、业务活动等数据的过程中来帮助决策和制定策略。虽然你可能还没有做机器学习，但你能看到未来的潜力，并希望做好准备。收集和存储数据似乎不仅合理而且至关重要！于是，你建立了数据系统，并开始填充这些表格或主题。

然而，这种做法是不可持续的——至少不是永久的。几年之后，你可能会拥有大量的数据。也许你需要扩展到像 Snowflake 或 AWS 这样的云存储提供商，以跟上并以你需要的速度访问所有这些数据。你当然在使用这些数据！也许你已经开始了一个机器学习项目，或者仅仅是高级分析和商业智能，但如果做得好，这对你业务的有效性有着巨大的影响。即便如此，你还需要开始考虑基础设施的成本，更不用说可能还需要招聘数据工程人员来帮助管理这些数据。

不幸的是，你也开始获得你无法很好掌控的数据。文档可能已经过时了，如果曾经存在过的话，而那些帮助构建原始系统的员工可能已经离职。这张表格是什么意思？那一列的来源是什么？不可解释的数据几乎没有任何价值，因为你无法从不理解的数据中有效地学习。

现在你有决定要做。你打算如何战略性地规划你数据系统的未来？你可能需要关注数据架构，以防止成本飙升，但数据保留呢？你是否保留所有数据？如果不是，你会删减哪些数据，何时删减？不过，请记住，如果你的业务需要有效的机器学习和/或分析功能来支持决策和产品，那么保留相当大体量的数据是一个不可妥协的要求。 “把所有数据都丢掉，避免这些无谓的麻烦”并不是一个选项。

与此同时，你需要考虑适用于这些数据的监管和法律框架。如果一个客户要求你删除所有关于他们的数据（某些司法管辖区允许这样做），你会怎么做？许多组织在已经为时已晚之前不会认真对待这一点。如果你想掌控全局，而你又不是从第一天开始做这件事，你将面临将数据架构调整到符合这些数据所受监管要求的艰巨任务。

关于法规的附言

近年来数据安全法规的增长增加了我描述的商业场景的挑战。在某些方面，这也是我们自己造成的——近年来众多的数据泄露、松散的安全措施以及各种公司的不透明同意政策导致了公众对更好保护措施的需求，政府也填补了这一空白。看来，品牌信任和安全性本身并不足以激励许多企业在数据保护方面采取更严格的措施。如果法律对于确保我们的个人数据和敏感记录得到认真保护是必要的，那么我个人是完全支持的。

然而，作为一个数据科学家，我必须承认我在这篇文章开始时提到的紧张感。我希望拥有所有的数据，并且希望能够不受限制地挖掘这些数据，因为这是我有效完成工作的方式。但是，我同时也是一个消费者和公民，我希望我的数据得到细致的保护。我知道机器学习的承诺和力量依赖于数据的可用性，但当你考虑到这些数据涉及到你自己及你的习惯时，感觉自然会变得不那么清晰。我发现这个角色比“安全”角色更容易体现，因为我不是经过专业训练的数据安全专家，但我不需要成为专家就能对作为消费者的偏好有强烈的感觉。

我的建议是，我们要时刻保持对消费者/安全的关注，同时也要保持对数据科学家的关注。我们必须在为机器学习积累数据和为了客户隐私及数据安全而限制数据保留之间保持平衡。对于“我们应该保留多少数据？”这个问题没有银弹式的答案，因此唯一的选择是在我们做出有关数据存储的每个决定时都要兼顾这两方面的利益。

我将在假期期间暂时中断专栏，并将于 1 月中旬带来下一篇文章。

查看我更多的作品请访问 www.stephaniekirmer.com。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

how-much-data-do-we-need-balancing-machine-learning-with-security-considerations-a26911f211f6.md

how-much-data-do-we-need-balancing-machine-learning-with-security-considerations-a26911f211f6.md

我们需要多少数据？在机器学习与安全考虑之间的平衡

数据科学 vs 安全/IT：一场世纪之战

制度性考虑

关于法规的附言

Files

how-much-data-do-we-need-balancing-machine-learning-with-security-considerations-a26911f211f6.md

Latest commit

History

how-much-data-do-we-need-balancing-machine-learning-with-security-considerations-a26911f211f6.md

File metadata and controls

我们需要多少数据？在机器学习与安全考虑之间的平衡

数据科学 vs 安全/IT：一场世纪之战

制度性考虑

关于法规的附言