作者插图| 来源: 平面图标
您是否积累了很多录音,但没有精力开始聆听和转录? 当我还是一名学生时,我记得我每天都必须努力听好几个小时的录音课程,而且我的大部分时间都花在了抄写上。 此外,这不是我的母语,我必须将每个句子拖到谷歌翻译中才能将其转换为意大利语。
现在,手动转录和翻译只是一种记忆。 著名的ChatGPT研究公司OpenAI推出了用于语音转文本对话的Whisper API! 只需几行 Python 代码,您就可以调用这个强大的语音识别模型,抛开杂念,专注于其他活动,例如进行数据科学项目实践和改进您的作品集。 让我们开始吧!
Whisper是OpenAI开发的基于神经网络的模型,用于解决语音转文本任务。 它属于 GPT-3 系列,因其能够以非常高的准确度将音频转录为文本而变得非常受欢迎。
它不限制处理英语,但其能力扩展到 50 多种语言。 如果您有兴趣了解您的语言是否包含在内,请检查 相关信息。 此外,它可以将任何语言的音频翻译成英语。
与其他 OpenAI 产品一样,有一个 API 可以访问这些语音识别服务,从而允许开发人员和数据科学家将 Whisper 集成到他们的平台和应用程序中。
作者的 GIF
在继续之前,您需要执行几个步骤才能访问 Whisper API。 首先,登录 OpenAI API 网站。 如果您还没有该帐户,则需要创建它。 输入后,单击您的用户名,然后按“查看 API 密钥”选项。 然后,单击“创建新 API 密钥”按钮并将新创建的 API 密钥复制到您的 Python 代码中。
首先,我们来下载 Kevin Stratvert 的 YouTube 视频,Kevin Stratvert 是一位非常受欢迎的 YouTuber,通过学习 Power BI、视频编辑和 AI 产品等工具,帮助来自世界各地的学生掌握技术并提高技能。 例如,假设我们要转录视频“3 Mind-blowing AI Tools”。
我们可以使用 pytube 库直接下载该视频。 要安装它,您需要以下命令行:
pip install pytube3
pip install openai
我们还安装了 openai 库,因为稍后将在本教程中使用它。 安装完所有 python 库后,我们只需将视频的 URL 传递给 Youtube 对象即可。 之后,我们获得最高分辨率的视频流,然后下载视频。
from pytube import YouTube video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert" yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()
下载文件后,就可以开始有趣的部分了!
import openai API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')
设置好参数并打开音频文件后,我们就可以转录音频并将其保存为Txt文件。
response = openai.Audio.transcribe( api_key=API_KEY, model=model_id, file=audio_file, language='en'
)
transcription_text = response.text
print(transcription_text)
输出:
Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....
正如预期的那样,输出非常准确。 就连标点符号都如此精确,让我印象深刻!
这次,我们会将音频从意大利语翻译成英语。 和以前一样,我们下载音频文件。 在我的示例中,我使用 这个youtube视频 意大利著名 YouTuber Piero Savastano 的作品,他以非常简单有趣的方式教授机器学习。 您只需复制之前的代码并仅更改 URL 即可。 下载后,我们像以前一样打开音频文件:
audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')
然后,我们可以从意大利语开始生成英语翻译。
response = openai.Audio.translate( api_key=API_KEY, model=model_id, file=audio_file
)
translation_text = response.text
print(translation_text)
输出:
We also see some graphs in a statistical style, so we should also understand how to read them. One is the box plot, which allows to see the distribution in terms of median, first quarter and third quarter. Now I'm going to tell you what it means. We always take the data from the data frame. X is the season. On Y we put the count of the bikes that are rented. And then I want to distinguish these box plots based on whether it is a holiday day or not. This graph comes out. How do you read this? Here on the X there is the season, coded in numerical terms. In blue we have the non-holiday days, in orange the holidays. And here is the count of the bikes. What are these rectangles? Take this box here. I'm turning it around with the mouse....
就是这样! 我希望本教程能够帮助您开始使用 Whisper API。 在本案例研究中,它应用于 YouTube 视频,但您也可以尝试播客、Zoom 通话和会议。 我发现转录和翻译后获得的输出非常令人印象深刻! 这个人工智能工具现在肯定可以帮助很多人。 唯一的限制是它只能翻译成英文文本,反之亦然,但我相信 OpenAI 很快就会提供它。 谢谢阅读! 祝你今天过得愉快!
尤金妮娅·阿内罗 现为意大利帕多瓦大学信息工程系研究员。 她的研究项目专注于结合异常检测的持续学习。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图爱流。 Web3 数据智能。 知识放大。 访问这里。
- 与 Adryenn Ashley 一起铸造未来。 访问这里。
- 使用 PREIPO® 买卖 PRE-IPO 公司的股票。 访问这里。
- Sumber: https://www.kdnuggets.com/2023/06/openai-whisper-api-transcription-translation.html?utm_source=rss&utm_medium=rss&utm_campaign=openais-whisper-api-for-transcription-and-translation
- :具有
- :是
- :不是
- :在哪里
- $UP
- 10
- 11
- 15%
- 17
- 50
- 7
- 8
- 9
- a
- 对,能力--
- ACCESS
- 账号管理
- 积累
- 精准的
- 活动
- 后
- AI
- 所有类型
- 允许
- 允许
- 还
- 时刻
- am
- an
- 和
- 异常检测
- 任何
- API
- 应用的
- 应用
- 保健
- 国家 / 地区
- 围绕
- 人造的
- 人工智能
- AS
- At
- 音频
- 作者
- 自动
- 远离
- 基于
- BE
- 成为
- before
- 属于
- 蓝色
- 盒子
- 但是
- 按键
- by
- 呼叫
- 呼叫
- CAN
- 案件
- 案例研究
- 更改
- ChatGPT
- 查
- 点击
- 码
- 编码
- 结合
- 购买的订单均
- 公司
- 一台
- 会议
- 兑换
- 饼干
- 创建信息图
- 目前
- data
- 数据科学
- 天
- 一年中的
- 问题类型
- 检测
- 发达
- 开发
- 不同
- 直接
- 消失
- 区分
- 分配
- do
- 不会
- 不
- 别
- 下载
- 能源
- 工程师
- 英语
- 进入
- 甚至
- 所有的
- 每天
- 每个人
- 例子
- 预期
- 事实
- 家庭
- 著名
- 同伴
- 少数
- 文件
- (名字)
- 专注焦点
- 重点
- 以下
- 针对
- 发现
- FRAME
- 止
- 开玩笑
- 滑稽
- 进一步
- 此外
- 生成
- 得到
- 越来越
- GIF
- 给
- Go
- 去
- 谷歌
- 谷歌翻译
- 图形
- 图表
- 民政事务总署
- 处理
- 有
- 帮助
- 帮助
- 帮助
- 这里
- 相关信息
- 高
- 最高
- 近期亮点
- 假日生活
- 假期
- 抱有希望
- HOURS
- 创新中心
- How To
- HTTPS
- i
- if
- 进口
- 改善
- 改善
- in
- 包括
- 难以置信
- 信息
- 安装
- 安装
- 例
- 说明
- 整合
- 房源搜索
- 有兴趣
- 成
- IT
- 意大利语
- 意大利
- 它的
- 只是
- 掘金队
- 键
- 知道
- 语言
- 语言
- 后来
- 推出
- 学习
- 教训
- 杠杆作用
- 库
- 自学资料库
- 喜欢
- 极限
- Line
- 线
- 听力
- 日志
- 看
- 占地
- 机
- 机器学习
- 使
- 制作
- 手册
- 主
- 手段
- 内存
- 介意
- 模型
- 更多
- 最先进的
- my
- 本地人
- 需求
- 网络
- 神经
- 神经网络
- 全新
- 不错
- 现在
- 对象
- 获得
- of
- 折扣
- on
- 一旦
- 一
- 仅由
- 打开
- OpenAI
- 开放
- 附加选项
- or
- 橘色
- 其他名称
- 输出
- 产量
- 超过
- 参数
- 通过
- 员工
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播客
- 热门
- 个人档案
- 可能
- 功率
- Power BI
- 强大
- 在练习上
- 精确的
- express
- 以前
- 核心产品
- 项目
- 项目
- 提供
- 放
- 蟒蛇
- 季
- RE
- 阅读
- 真实
- 实时的
- 承认
- 记录
- 纪念
- 研究
- 分辨率
- 响应
- 右
- 保存
- 科学
- 科学家
- 季节
- 看到
- 句子
- 特色服务
- 设置
- 应该
- 简易
- 自
- 技能
- So
- 解决
- 一些
- 是
- 歌曲
- 不久
- 来源
- 言语
- 语音识别
- 语音到文本
- 开始
- 开始
- 开始
- 统计
- 步骤
- 仍
- 流
- 流
- 奋斗
- 学生
- 学生
- 学习
- 样式
- 肯定
- 一定
- 采取
- 拍摄
- 任务
- 专业技术
- 展示
- 条款
- 比
- 谢谢
- 这
- 世界
- 其
- 他们
- 然后
- 那里。
- 博曼
- 第三
- Free Introduction
- 思想
- 次
- 至
- 今晚
- 工具
- 工具
- 翻译
- 翻译
- 真正
- 尝试
- 谈到
- 教程
- 理解
- 大学
- 网址
- 用过的
- 用户名
- 运用
- 非常
- 视频
- 视频
- 音色
- 想
- 是
- 方法..
- 方法
- we
- 什么是
- ,尤其是
- 是否
- 这
- 耳语
- 将
- 世界
- 将
- 写
- X
- 您
- 您一站式解决方案
- YouTube的
- YouTube用户
- 和风网
- 放大