宣布 AWS 对 Jupyter 的新贡献,以普及生成式 AI 和扩展 ML 工作负载 | 亚马逊网络服务

宣布 AWS 对 Jupyter 的新贡献,以普及生成式 AI 和扩展 ML 工作负载 | 亚马逊网络服务

源节点: 2092834

Project Jupyter 是一个多利益相关者的开源项目,它为数据科学、机器学习 (ML) 和计算科学构建应用程序、开放标准和工具。 Jupyter Notebook 于 2011 年首次发布,现已成为全球学术、研究和工业领域数百万用户使用的事实上的标准工具。 Jupyter 使用户能够以交互方式处理代码和数据,并构建和共享计算叙述,以提供完整且可重现的工作记录。

鉴于 Jupyter 对数据科学家和 ML 开发人员的重要性,AWS 是 Project Jupyter 的积极赞助商和贡献者。 我们的目标是在开源社区中工作,帮助 Jupyter 成为数据科学和 ML 的最佳笔记本平台。 AWS 通过 NumFOCUS 基金会成为 Jupyter 项目的白金赞助商,我很自豪和荣幸地领导一个由 AWS 工程师组成的专门团队,他们为 Jupyter 的软件做出贡献并参与 Jupyter 的社区和治理。 我们对 Jupyter 的开源贡献包括 JupyterLab、Jupyter Server 和 Jupyter Notebook 子项目。 我们也是 Jupyter 安全、多元化、公平和包容 (DEI) 工作组的成员。 在进行这些开源贡献的同时,我们的 AWS 产品团队正在努力将 Jupyter 与 Amazon SageMaker 等产品集成。

今天在 JupyterCon 上,我们很高兴地宣布为 Jupyter 用户提供几款新工具,以改善他们的体验并提高开发效率。 所有这些工具都是开源的,可以在任何运行 Jupyter 的地方使用。

为 Jupyter 引入两个生成式 AI 扩展

生成式 AI 可以显着提高数据科学家和开发人员编写代码时的工作效率。 今天,我们宣布推出两个 Jupyter 扩展,它们通过聊天 UI、IPython 魔术命令和自动完成功能为 Jupyter 用户带来生成式 AI。 这些扩展使您能够使用 JupyterLab 和 Jupyter notebooks 中的生成 AI 模型执行广泛的开发任务。

Jupyter AI,一个将生成人工智能引入 Jupyter 笔记本的开源项目

利用 ChatGPT、AI21 的 Jurassic-2 和(即将推出的)Amazon Titan 等大型语言模型的强大功能, 木星人工智能 是一个为 Jupyter notebooks 带来生成式 AI 功能的开源项目。 例如,使用大型语言模型,Jupyter AI 可以帮助程序员生成、调试和解释他们的源代码。 Jupyter AI 还可以回答有关本地文件的问题,并根据简单的自然语言提示生成整个笔记本。 Jupyter AI 提供可在任何笔记本或 IPython shell 中使用的神奇命令,以及 JupyterLab 中友好的聊天 UI。 这两种体验都适用于来自各种模型提供商的数十种模型。 JupyterLab 用户可以选择任何文本或笔记本单元格,输入自然语言提示以通过选择执行任务,然后在他们选择的任何位置插入 AI 生成的响应。 Jupyter AI 与 Jupyter 的 MIME 类型系统集成,使您可以处理 Jupyter 支持的任何类型(文本、图像等)的输入和输出。 Jupyter AI 还提供了允许第三方配置自己模型的集成点。 Jupyter AI 是 Project Jupyter 的官方开源项目。

Amazon CodeWhisperer Jupyter 扩展

自动完成是开发人员的基础,生成式 AI 可以显着增强代码建议体验。 这就是为什么我们宣布全面推出 亚马逊 CodeWhisperer 早在 2023 年。CodeWhisperer 是一个 AI 编码伴侣,它使用底层的基础模型从根本上提高开发人员的生产力。 这是通过基于开发人员的自然语言评论和集成开发环境 (IDE) 中的先前代码实时生成代码建议来实现的。

今天,我们很高兴地宣布,JupyterLab 用户可以免费安装和使用 CodeWhisperer 扩展,在 JupyterLab 和 亚马逊SageMaker Studio. 使用 CodeWhisperer,您可以用自然语言编写评论,用英语概述特定任务,例如“使用 CSV 文件创建熊猫数据框”。 基于这些信息,CodeWhisperer 直接在笔记本中推荐一个或多个可以完成任务的代码片段。 您可以快速轻松地接受置顶建议、查看更多建议或继续编写您自己的代码。

在预览期间,CodeWhisperer 证明它在生成代码以加速编码任务方面非常出色,帮助开发人员完成任务的速度平均提高了 57%。 此外,使用 CodeWhisperer 的开发人员成功完成编码任务的可能性比不使用的开发人员高 27%。 这是开发人员生产力的巨大飞跃。 CodeWhisperer 还包括一个内置的参考跟踪器,用于检测代码建议是否类似于开源训练数据,并可以标记此类建议。

引入新的 Jupyter 扩展以大规模构建、训练和部署机器学习

我们在 AWS 的使命是使各行各业对 ML 的访问民主化。 为了实现这个目标,从2017年开始,我们推出了 Amazon SageMaker笔记本实例— 运行 Jupyter 的完全托管计算实例,包括所有流行的数据科学和 ML 包。 2019 年,我们通过推出 SageMaker Studio 实现了重大飞跃,这是一个构建在 JupyterLab 之上的 ML IDE,使您能够从单个应用程序构建、训练、调整、调试、部署和监控模型。 数以万计的客户正在使用 Studio 为各种规模的数据科学团队提供支持。 2021 年,我们通过推出 Amazon SageMaker Studio 实验室—免费的笔记本服务,同样基于 JupyterLab,包括免费计算和持久存储。

今天,我们很高兴地宣布推出三项新功能,以帮助您更快地扩展 ML 开发。

笔记本调度

2022 年,我们发布了一项新功能,使我们的客户能够 在 SageMaker Studio 和 Studio Lab 中将笔记本作为计划作业运行. 得益于此功能,我们的许多客户不必手动设置复杂的云基础设施来扩展他们的 ML 工作流程,从而节省了时间。

我们很高兴地宣布笔记本调度工具现已推出 一个开源的 Jupyter 扩展 允许 JupyterLab 用户在 JupyterLab 运行的任何地方在 SageMaker 上运行和安排笔记本。 用户可以选择笔记本并通过简单而强大的用户界面将其自动化为在生产环境中运行的作业。 选择笔记本后,该工具会拍摄整个笔记本的快照,将其依赖项打包到容器中,构建基础设施,按照用户设置的时间表将笔记本作为自动化作业运行,并在作业完成后取消配置基础设施。 这将笔记本投入生产所需的时间从数周缩短至数小时。

SageMaker 开源分发

数据科学家和开发人员希望快速开始开发 ML 应用程序,安装所有必要软件包的相互兼容版本可能很复杂。 为了消除手动工作并提高生产力,我们很高兴地宣布 一个新的开源发行版 其中包括最流行的 ML、数据科学和数据可视化包。 该发行版包括 PyTorch、TensorFlow 和 Keras 等深度学习框架; 流行的 Python 包,如 NumPy、scikit-learn 和 pandas; 以及像 JupyterLab 和 Jupyter Notebook 这样的 IDE。 该发行版使用 SemVer 进行版本控制,并将定期发布。 该容器可通过 Amazon ECR 公共图库,其源代码可在 GitHub 上获得。 这为企业提供了包和构建过程的透明度,从而使他们更容易复制、定制或重新认证分发。 基础镜像自带 pip 和 Conda/Mamba,因此数据科学家可以快速安装额外的包来满足他们的特定需求。

Amazon CodeGuru Jupyter 扩展

亚马逊CodeGuru Security 现在支持在 JupyterLab 和 SageMaker Studio 中进行安全和代码质量扫描。 这一新功能可帮助笔记本电脑用户检测安全漏洞,例如笔记本电脑单元内的注入缺陷、数据泄露、弱加密或加密缺失。 您还可以检测许多影响计算笔记本的可读性、可再现性和正确性的常见问题,例如 ML 库 API 的滥用、无效的运行顺序和不确定性。 当笔记本中发现漏洞或质量问题时,CodeGuru 会生成建议,使您能够根据 AWS 安全最佳实践修复这些问题。

结论

我们很高兴看到 Jupyter 社区将如何使用这些工具来扩展开发、提高生产力并利用生成式 AI 来转变他们的行业。 查看以下资源以了解有关 AWS 上的 Jupyter 以及如何安装和开始使用这些新工具的更多信息:


关于作者

布赖恩·格兰杰 是 Python 项目的领导者,Jupyter 项目的联合创始人,并且是许多其他专注于 Python 数据科学的开源项目的积极贡献者。 2016 年,他与人共同创建了用于 Python 统计可视化的 Altair 包。 他是 NumFOCUS 基金会的顾问委员会成员、加州理工大学创新与创业中心的教员,以及 AWS 的高级首席技术专家。

时间戳记:

更多来自 AWS机器学习