上下文、一致性和协作对于数据科学的成功至关重要

源节点: 1882940

上下文、一致性和协作对于数据科学的成功至关重要
照片由 mohamed_hassan · Pixabay上的

 

人工智能 (AI) 和机器学习 (ML) 领域,到 2021 年底,不再是前途未卜的新生领域。 AI 和 ML 已经发展成为对更广泛的数据科学世界产生巨大影响的影响领域,这一事实 一直比 今年全年无休。

然而,随着 AI、ML 以及随后的数据科学不断扩展,可以决定或破坏数据科学团队成功的参数也是如此。 从 AI 和 ML 领域获得重要而深刻见解的机会取决于数据科学团队,而这些团队不仅仅是一个使用一台笔记本电脑操作的数据科学家。 需要获取、清理和准备分析的数据太多了——这个过程占用了数据科学家平均工作日的很大一部分时间——任何一个人都无法单独处理。 

现代数据科学项目围绕有关数据准备、先前数据科学项目以及部署必须与多个数据科学共享的数据模型的潜在方法的重要信息展开。 因此,调查数据科学团队需要数据的上下文、一致性和安全协作以确保数据科学成功的原因至关重要。 让我们快速检查这些要求中的每一个,以便我们能够更好地了解未来数据科学成功的样子。

第一部分:背景

 
我们对未来数据科学成功的检验始于上下文:没有迭代模型构建的过程 依赖于尝试失败的实验 如果没有记录、存储和提供给数据科学家的机构知识,它可以持续很长时间。 然而,由于缺乏适当的文档和存储,大量的机构知识经常丢失。

考虑一下这种常见情况:初级或公民数据科学家被拉入一个项目以提高他们的技能,但很快就会遇到困难 同步和异步协作 因为缺乏上下文。 这些临时团队成员需要上下文来更多地了解他们正在与之交互的数据、过去解决问题的人员以及以前的工作如何影响当前的项目环境。

正确记录项目以及数据模型及其工作流程的需要很容易分散数据科学家团队的注意力,更不用说一个单独操作的人了。 领导者可以考虑选择 聘请自由开发者 贡献他们的时间来保存和传播机构知识,以改进现代数据科学项目的标准审查和反馈会议。 这些会议以及软件系统、工作台和最佳实践可以简化项目相关上下文的更有效捕获,从而提高未来初级和公民数据科学家的数据可发现性。

数据科学的成功需要 简化知识管理 及其周围的环境。 没有它,新的、初级的和公民数据科学家可能会在入职和对项目的有意义贡献方面遇到困难,这反过来会导致团队重新创建项目,而不是为以前的工作做出贡献。 

第二部分:一致性

 
在金融服务、健康和生命科学以及制造业方面,机器学习和人工智能领域已经促成了根本性的变化; 但是,这些行业受到重大监管环境的影响。 这意味着在受监管的环境中进行的 AI 项目必须是可重现的,并且具有清晰的审计跟踪。 换句话说,以某种方式、形式或形式参与数据科学项目的 IT 和业务领导者需要 确保一定程度的数据一致性 当谈到他们的数据科学项目的结果时。 

可以期待可靠的一致性水平的 IT 和业务领导者在进行人工智能促进的战略转变类型时也可以更有信心。 当涉及到数据科学项目时,有很多利害攸关的事情,并且需要大量投资,因此数据科学家应该有一个基础设施,他们可以在其中以有保证的可重复性水平进行操作 从开始到结束. 这种完全可重复性转化为高层管理人员正在寻找的数据一致性,以确定数据科学项目是否足够重要并与其业务目标保持一致。

反过来,这些高级管理人员应该期望随着他们的科学团队的扩大,必要的培训集和硬件要求也会增加,以确保旧项目结果的一致性。 因此,有助于管理环境的流程和系统对于数据科学团队的扩展来说是绝对必要的。 例如,如果数据科学家正在使用笔记本电脑,而数据工程师正在运行在云 VM 上运行的不同版本的库,则该数据科学家可能会看到他们的数据模型在一台机器和另一台机器上产生不同的结果。 底线:高管应确保他们的数据合作者有一致的方式来共享完全相同的软件环境。

第三部分:合作

 
最后,我们谈到了安全协作的重要性。 随着企业继续将其运营转变为在家工作模式,组织意识到数据科学协作比面对面协作要困难得多。 尽管在单一数据科学(数据准备、研究和数据模型迭代)的帮助下,一些核心数据科学职责是可以管理的,但大多数业务主管错误地将协作搁置一旁,从而阻碍了远程生产力。

但是,如何促进项目参与者之间的有效和远程协调以及项目数据的安全性呢? 答案在于与数据科学项目有关的可共享工作文件和数据 这使它更可行 远程传播信息。 随着项目相关数据的传播变得越来越简单,信息共享变得越简单,远程数据协作就越容易。 数据科学项目的参与者可以利用基于云的工具来加强他们研究背后的安全性。 但是太多的领导者犯了不鼓励协作、降低生产力的错误。

结论

 
近年来,数据科学领域取得的巨大进步是前所未有的,坦率地说是惊人的。 数据科学的进步使全球公司能够解决以前很少(如果有的话)没有现成答案的问题,而没有 AI 和 ML 所带来的创新。 

然而,随着数据科学领域的不断成熟和发展,高层管理人员和他们监督的数据科学团队是时候摆脱一种更加临时和被动的完成工作的方式了。 数据科学家可以用来生成上下文、一致性和更大协作的资源,如软件工作台,可能对数据科学的成功至关重要。 最终,项目将需要更少的数据科学家、工程师、分析师和研究人员的努力,他们将能够更好地加速该领域的持续和惊人的成功。

 
 
娜拉·戴维斯(Nahla Davies) 是一名软件开发人员和技术作家。 在将全职工作投入到技术写作之前,除了其他有趣的事情外,她还曾在一家拥有 5,000 名体验品牌的公司担任首席程序员,该公司的客户包括三星、时代华纳、Netflix 和索尼。

资料来源:https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

时间戳记:

更多来自 掘金队