Skip to content

Latest commit

 

History

History
101 lines (51 loc) · 11.9 KB

crossing-the-bridge-a-comparison-of-data-science-in-academia-and-industry-f9c4cb3fda92.md

File metadata and controls

101 lines (51 loc) · 11.9 KB

跨越桥梁:学术界与工业界数据科学的比较

原文:towardsdatascience.com/crossing-the-bridge-a-comparison-of-data-science-in-academia-and-industry-f9c4cb3fda92

博士生对学术数据科学与工业数据科学之间惊人相似性的探索

Nazlı AlagözTowards Data Science Nazlı Alagöz

·发表于Towards Data Science ·阅读时长 8 分钟·2023 年 5 月 29 日

--

照片由Campaign Creators拍摄,刊登在Unsplash上。

作为一名决定离开学术界进入工业界的在读博士生,我花了大量时间探索我的学术经验如何转化为工业环境中的应用。最初,这两个领域似乎处于光谱的两端。然而,在经过大量研究和与许多从学术界转向工业界的人士的讨论后,我发现两者之间的相似之处比我预期的要多。在这篇博客文章中,我将分享关于学术数据科学与工业数据科学之间的差异和共性。

我应当指出,由于缺乏第一手的行业经验,我对行业和学术界的比较依赖于那些已经经历过这一过程的人的见解。此外,我是一名定量营销领域的博士候选人,因此对经济学和商业领域的学术研究更为熟悉。因此,当我进行比较时,我将行业实践与这些领域的学术研究过程进行对比。

对于那些不熟悉学术研究过程以及数据科学在这一背景下应用的人,我将数据科学定义为通过科学方法和算法从数据中提取洞察的过程。例如,我主要使用因果推断和机器学习方法来回答我论文项目中的研究问题。接下来,我将概述定量营销领域的学术研究。

在学术界,我们需要找到值得回答的相关问题(例如,付费墙如何影响收入,某些活动如何影响销售)。然后,我们收集回答这些问题所需的数据(例如,通过与在线报纸合作、网页抓取、使用 API 或采购数据)。一旦获得数据,我们可以开始准备数据以进行分析,并使用数据来检验我们的假设。当我们有了一些初步结果时,我们通过演示和撰写论文来沟通这些结果以获取反馈。我们更新分析、演示和论文,以解决收到的反馈。这一过程(即,获取反馈,解决反馈)会重复进行,直到我们达到一个通过科学标准的高质量项目/论文。

现在我们理解了数据科学如何支撑学术研究过程,让我们探讨一些在比较学术界与工业界的数据科学时值得讨论的关键方面。

目标与影响定义

数据科学在学术界和工业界的目标虽然都很重要,但焦点不同,因此影响的定义也有所不同。在学术界,主要目标往往是知识的进步。学者们旨在填补当前理解中的空白,挑战现有理论,或开发新的框架、方法或工具。这里的影响主要通过对学术界的影响来衡量,如引用、领域的进展和对教学与学习的贡献。

在工业界,数据科学的目标通常更直接地与业务目标相关,如改善运营、优化产品或服务,以及辅助战略决策。影响通常通过可衡量的结果来评估,如提升用户体验、增加收入、节省成本或其他与业务相关的关键绩效指标。这并不意味着工业界的工作纯粹是交易性的。许多工业项目也有助于更广泛的社会目标,如改善医疗保健、推进可持续实践或增强数据隐私和安全。

在这两个领域中,终极目标是创造价值,但价值的定义和衡量方式可能会有所不同。认识到这些差异可以帮助我们欣赏数据科学在学术界和工业界的独特贡献。

Dan Dimmock 拍摄,来源于 Unsplash

研究问题的制定与数据获取

在学术界,研究问题的创建和数据收集的任务通常是学者角色的内在组成部分。发展和回答问题的动力来自于知识的空白、现有知识的不足以及为我们的集体理解提供新见解的潜力。这个过程可能非常繁琐和耗时,因为它可能涉及广泛的文献综述、实验、调查或实地工作。

相比之下,在行业环境中,研究问题和数据的来源通常呈现不同的形式。问题通常来源于特定的业务需求,以提供增强操作、产品或服务的见解。行业中的数据科学家通常使用现成的数据——这些数据是业务活动的副产品或从第三方提供商处获得的。

然而,这些并不是严格的规则,两者之间可能存在相当大的差异。在学术界和行业中,提出有意义的问题并理解数据的质量和适用性是数据科学家至关重要的技能。

项目的时间表和范围

学术和行业项目都有其独特的时间表和范围,这些都与它们的具体目标相符。学术研究通常遵循较长的时间表,原因在于数据收集的细致性、严格的分析(例如,稳健性检查)、同行评审和学术出版过程。作为学者,我们的目的是通过经过严格验证的结果来丰富科学知识库,这一过程自然需要时间。

然而,在行业环境中,时间表往往较短,以响应市场和业务需求的动态变化。这并不意味着质量会受到妥协。相反,行业也遵循严格的质量控制流程,以确保结果的可靠性。节奏由迅速提供可操作的见解以保持或获得竞争优势的目标驱动。这种敏捷性使公司能够迅速适应和创新,这在快速变化的商业环境中是一种优势。

批判性和科学思维

批判性和科学思维在学术界和数据科学中都非常重要。例如,假设检验是学术界科学过程的核心,也是行业数据科学因果推断轨道(例如实验)的核心。提出良好问题、验证答案和批判性地评估论点的能力在两个领域都受到重视。

沟通与合作

在两个领域中,沟通的核心技能取决于听众。在学术界,我们与同行研究人员、教授、学生或来自工业界的利益相关者沟通,而在工业界,数据科学家与包括其他数据科学家、经理、高管或客户在内的更广泛利益相关者沟通。能够将复杂的想法简化为非专业群体易于理解的内容是一个共同的要求。

有一种误解认为博士生由于其深度专业化而缺乏沟通能力,可能难以将复杂的想法用简单易懂的语言向非专业人士或商业利益相关者解释。然而,这种说法是根本不真实的。学术界的成功依赖于有效地与不同听众沟通的能力。例如,我经常需要与来自不同背景的人进行沟通,如我领域的研究人员、其他领域的研究人员、学生以及来自工业界的人。对于这些群体中的每一个或这些群体的某些组合,我的沟通方式有所不同。

照片由 Irvan Smith 拍摄,出处 Unsplash

数据处理和良好的编码实践

随着大数据的兴起,无论是学术界还是工业界的研究人员都在处理大量数据集和复杂的数据管道。尽管使用的具体工具可能有所不同,但良好的编码实践、严格的文档编写和高效的数据管理原则在工业界和学术界都是普遍适用的。在学术界,这些原则构成了可重复和开放科学的基础。因此,许多研究人员实施这些原则,以使科学更加透明、可及、协作和可重复。

项目管理

无论在学术界还是工业界,有效的项目管理和优先级排序技能都是至关重要的,尽管两者的看法有所不同。学术界认为较长的时间线会减少项目管理的重要性,实际上这种观点是一个误解。在学术界,学者们通常需要平衡多种责任,包括教学、指导和管理,同时还要处理复杂的研究项目。研究的每个阶段都需要细致的规划和高效的任务管理,强调了强大项目管理技能的必要性。

同样地,在工业界,仔细的规划、协调和执行在数据科学项目的所有阶段都至关重要。行业的快速变化、多个同时进行的项目以及对快速、可操作的见解的需求,进一步强调了有效项目管理的重要性。尽管时间线和背景有所不同,但两个领域对成功项目管理的需求都是至关重要的,这不仅确保了项目按时完成,还保证了工作质量和资源效率。

软技能

无论是你打算发表论文还是交付一个成功的商业项目,独立性、自律、有效的协作和强大的组织能力都是至关重要的。这些技能可能是我在博士阶段学到的最重要的东西之一。能够独立工作,同时又能进行协作,这一点非常重要。

对于我的项目,我需要能够独立提出想法、解决问题和完成其他任务,同时,我们需要与我的合作者(共同作者)保持一致。我认识到有效沟通的重要性,特别是当你的合作者来自不同背景和文化时。另一个有效协作的重要技能是接受、欣赏并实施反馈。这些技能在工业角色中也同样至关重要。

学习和适应能力

学术界和工业界都要求持续的学习和适应能力,以跟上不断发展的方法和技术。在学术界,就像在工业界一样,你不能忽视任何新的有用工具,否则会失去你的竞争优势。

比如,当我在做我的第一个博士项目时,我使用了一种在学术界和工业界都常用的严格统计方法。然而,许多新的研究表明,在某些情况下这种方法的表现并不好。我最终自学了这些问题出现的原因和潜在的新解决方案。

技术技能

数据科学家在学术界和工业界都必须掌握各种技术工具。像 Python 和 R 这样的语言在这两个领域的数据科学任务中都很普遍。然而,像 SQL、Spark 和 Tableau 这样的工具在工业界可能会比在学术界更频繁地使用。

结论

我对数据科学在学术界和工业界交集的探索令人开眼界,揭示了比我最初预期的更多相似之处。许多学术研究人员发现,他们的背景为进入工业界的角色提供了坚实的基础。他们的教育和技术培训使他们能够轻松掌握新方法,同时,他们在沟通、解决问题、独立研究和协作方面的经验为他们在工业界应用这些技能提供了强大的能力。

感谢你的阅读!

如果你喜欢这篇文章并希望看到更多我的文章,请考虑 关注我

免责声明:我写作是为了学习,所以你可能会发现文章或代码中有错误。如果你发现了,请告诉我。