数据科学项目管理方法指南 - KDnuggets

数据科学项目管理方法指南 – KDnuggets

源节点: 2164341

数据科学项目管理方法指南
图片作者
 

数据科学项目有很多要素。 这个过程涉及到的人很多,过程中也面临很多挑战。 许多公司都看到了数据科学的需求,并且它已经在我们今天的生活中得到了应用。 然而,有些人却在如何利用数据分析以及使用哪种路径来实现这一目标方面遇到了困难。 

公司在使用数据科学时做出的最大假设是,由于他们使用编程语言,它模仿了与软件工程相同的方法。然而,这些模型的内置数据科学和软件是不同的。 

数据科学需要其独特的生命周期和方法才能取得成功。 

数据科学生命周期可以分为 7 个步骤。 

业务理解

如果您为公司生产任何产品,您的第一个问题应该是“为什么?”。 为什么我们需要这样做? 为什么它对企业很重要? 为什么? 为什么? 为什么?

数据科学团队负责构建模型并根据业务需求进行数据分析。 在数据科学生命周期的这个阶段,数据科学团队和公司高管应该确定项目的中心目标,例如研究需要预测的变量。 

这是基于什么样的数据科学项目? 它是回归或分类任务、聚类还是异常检测? 一旦您了解了对象的总体目标,您就可以继续询问原因、内容、地点、时间和方式! 提出正确的问题是一门艺术,将为数据科学团队提供项目的深入背景。 

数据挖掘

一旦您了解了项目所需的所有业务,下一步将是通过收集数据来启动项目。 数据挖掘阶段包括从符合您的项目目标的各种来源收集数据。 

在此阶段您将提出的问题是:该项目需要哪些数据? 我可以从哪里获取这些数据? 这些数据有助于实现我的目标吗? 我将在哪里存储这些数据? 

数据清理

一些数据科学家选择将数据挖掘和数据清理阶段混合在一起。 但是,最好区分各个阶段以获得更好的工作流程。 

数据清理是数据科学工作流程中最耗时的阶段。数据越大,花费的时间就越长。它通常需要数据科学家 50-80% 的时间才能完成。之所以需要这么长时间,是因为数据从来都不是干净的。您可能会处理不一致、数据缺失、标签不正确、拼写错误等的数据。 

在执行任何分析工作之前,您需要更正这些错误,以确保您计划使用的数据正确并产生准确的输出。 

数据探索

在花费大量时间和精力清理数据之后,您现在拥有可以使用的极其干净的数据。 数据探索时间! 此阶段是对总体项目目标进行集思广益。 您想要深入了解可以从数据中找到什么、隐藏的模式、创建可视化以找到进一步的见解等等。 

有了这些信息,您将能够创建一个符合您的业务目标的假设,并将其用作参考点,以确保您完成任务。 

特征工程

特征工程是从原始数据中开发和构建新的数据特征。 您获取原始数据并创建符合您的业务目标的信息功能。 特征工程阶段包括特征选择和特征构建。

特征选择是指减少特征的数量,这些特征会给数据带来更多的噪音,而不是实际有价值的信息。 拥有太多的特征可能会导致维数灾难,增加数据的复杂性,使模型无法轻松有效地学习。 

功能构建就在名称中。 这是新功能的构建。 使用您当前拥有的功能,您可以创建新功能,例如,如果您的目标集中于高级会员,您可以为您想要的年龄创建阈值。

此阶段非常重要,因为它将影响预测模型的准确性。 

预测建模

这就是乐趣的开始,您将看到是否已实现业务目标。 预测建模包括训练数据、测试数据以及使用综合统计方法来确保模型的结果对所创建的假设具有重要意义。 

根据您在“业务理解”阶段提出的所有问题,您将能够确定哪种模型适合您手头的任务。 您选择的模型可能是一个反复试验的过程,但这对于确保您创建一个能够产生准确输出的成功模型非常重要。 

构建模型后,您将需要在数据集上对其进行训练并评估其性能。 您可以使用不同的评估指标(例如 k 折交叉验证)来衡量准确性,并继续这样做,直到您对准确性值感到满意为止。 

使用测试和验证数据测试您的模型可确保准确性并确保您的模型表现良好。 向数据提供未见过的数据是了解模型如何使用之前未训练过的数据执行操作的好方法。 它使您的模型发挥作用!

数据可视化

一旦您对模型的性能感到满意,您就可以回去向公司的高管解释这一切。创建数据可视化是向非技术人员解释您的发现的好方法,也是讲述数据故事的好方法。

数据可视化是通信、统计和艺术的结合。 您可以通过多种方式以美观的方式呈现数据发现。 您可以使用诸如 Matplotlib 文档, Seaborn 教程情节图书馆。 如果您使用 Python,请阅读以下内容: 使用 Python Graph Gallery 制作惊人的可视化效果

就像你处于生命周期的末尾一样,但请记住这是一个周期。 所以你必须回到起点:业务理解。 您将需要根据最初的业务理解和目标以及创建的假设来评估模型的成功。

现在我们已经经历了数据科学的生命周期,您一定认为这看起来很简单。 这只是一步接着一步。 但我们都知道事情并不是那么简单。 为了使其尽可能简单有效,需要制定管理方法。 

数据科学项目不再仅仅由数据科学家负责——它是团队的努力。因此,标准化项目管理势在必行,您可以使用一些方法来确保这一点。让我们来看看它们。

瀑布方法论

就像瀑布一样,瀑布方法是一个连续的开发过程,贯穿项目的所有阶段。 每个阶段都需要完成才能开始下一阶段。 阶段之间没有重叠,因此不存在冲突,因此是一种有效的方法。 如果你必须重新审视之前的阶段,那就意味着团队计划得很糟糕。 

它由五个阶段组成:

  1. 岗位要求
  2. 设计
  3. SAP系统集成计划实施
  4. 验证(测试)
  5. 维护(部署)

那么什么时候应该使用瀑布方法呢? 水流如水,一切都要清清楚楚。 这意味着目标已定义,团队对技术堆栈了如指掌,项目要素也已就位,以确保流程顺利有效。 

但让我们回到现实。 数据科学项目是否像水一样容易流动? 不。它们需要大量的实验、需求变更等等。 但是,这并不意味着您不能使用瀑布方法的元素。 瀑布方法需要大量规划。 如果你计划好一切,是的,你可能仍然会遇到一两个问题,但过程中的挑战会更少,也不会那么严峻。 

敏捷方法论

敏捷方法 诞生于 2001 年初,当时 17 个人聚集在一起讨论软件开发的未来。 它建立在 4 项核心价值观和 12 条原则的基础上。

敏捷方法更符合当今的技术,因为它适用于快节奏、不断变化的技术行业。如果您是一名技术专业人士,您就会知道数据科学或软件项目的要求一直在变化。因此,采用正确的方法让您能够快速适应这些变化非常重要。

敏捷方法是一种完美的数据科学项目管理方法,因为它允许团队随着项目的发展不断审查项目的需求。高管和数据科学经理可以在开发过程中就需要做出的更改做出决定,而不是在一切完成后才做出决定。 

随着模型不断发展以反映以用户为中心的输出,这已被证明是非常有效的,从而节省了时间、金钱和精力。 

敏捷方法的一个例子是 争球。 Scrum 方法使用一个框架,该框架有助于使用一组价值观、原则和实践在团队中创建结构。 例如,使用 Scrum,数据科学项目可以将其较大的项目分解为一系列较小的项目。 这些小型项目中的每一个都将被称为冲刺,并包含冲刺计划,以定义目标、要求、责任等。 

混合方法论

为什么不一起使用两种不同的方法呢? 这称为混合方法,其中使用两种或多种方法来创建对业务完全独特的方法。 公司可以对所有类型的项目使用混合方法,但是,其背后的原因取决于产品交付。 

例如,如果客户需要产品,但对基于敏捷方法中使用冲刺的生产时间框架不满意。所以看来公司需要做更多的规划,对吗?什么方法有很多规划?是的,没错,瀑布。该公司可以采用瀑布式方法来专门满足客户的需求。 

一些公司可能对将敏捷方法与非敏捷方法(例如瀑布方法)相结合抱有复杂的情绪。这两种方法可以共存,但是,公司有责任确保一种简单的方法有意义、衡量混合方法的成功并提供生产力。 

研究和开发

有些人可能认为这是一种方法论,但是,我相信这是数据科学项目过程的重要基础。 就像瀑布方法一样,计划和准备尽可能多的信息没有什么坏处。

但这不是我在这里谈论的。 是的,在开始一个项目之前研究一切是很棒的。 但确保有效项目管理的一个好方法是将您的项目视为研发项目。 它是数据科学团队协作的有效工具。

在运行和操作你的数据科学项目之前,你需要先走路,就像它是一篇研究论文一样。 一些数据科学项目的截止日期很严格,这使得这个过程变得困难,但是,匆忙完成最终产品总是会带来进一步的挑战。 您希望构建一个有效且成功的模型来满足您的初始数据科学生命周期阶段:业务理解。 

数据科学项目的研究和开发为创新敞开了大门,增加了创造力,并且不限制团队接受可能更伟大的东西!

尽管有不同的方法可供选择,但最终还是取决于企业的运营。 有些方法在一家公司流行,但对于另一家公司来说可能不是最好的方法。 

每个人可能有不同的工作方式,因此最好的方法是创建一种适合每个人的方法。 

想要了解如何自动化数据科学工作流程,请阅读以下内容: 数据科学工作流程中的自动化.
 
 
妮莎·艾莉亚 是 KDnuggets 的数据科学家、自由技术作家和社区经理。 她对提供数据科学职业建议或教程以及围绕数据科学的理论知识特别感兴趣。 她还希望探索人工智能是/可以有益于人类长寿的不同方式。 一个敏锐的学习者,寻求拓宽她的技术知识和写作技巧,同时帮助指导他人。
 

时间戳记:

更多来自 掘金队