AI一点通: OpenAI whisper 在线怎么调用,怎么同时输出时间信息?

OpenAI 语音转文字 whisper API提供了两个端点,即转录和翻译,这基于我们最先进的开源大型v2 Whisper模型。它们可以用来:

将音频转录成音频所在的语言。 翻译并将音频转录成英文。 文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

以下是一个Python示例:

复制代码
import requests
import openai

# 定义API端点和头信息
url = "https://api.openai.com/v1/audio/transcriptions"
headers = {
    "Authorization": "Bearer {}".format(open_ai_key)  # 用你的API密钥替换
}

# 你的音频文件位置,可以是mp3或mp4等。
FILE_PATH = "./upload-whisper.mp4"
# 定义参数
files = {
    'file': ('test.mp4', open(FILE_PATH, 'rb')),
    'model': (None, 'whisper-1'),
    'response_format': (None, 'srt')
}

response = requests.post(url, headers=headers, files=files)
print(response.text)

输出为:

复制代码
1
00:00:00,000 --> 00:00:02,600
首先,我需要你去前台报名工作。

注意,在上述代码中,我们将response_format设置为srt,该格式带有时间戳。转录输出的格式也可以是以下选项之一:json、text、srt、verbose_json 或 vtt。

阅读英文版

相关推荐
我的golang之路果然有问题1 分钟前
mac 上进行 comfyUI 等绘画的好处以及分享
人工智能·macos·ai作画·人工智能作画·comfy
jkyy20143 分钟前
AI膳食营养技术:重构健康管理,赋能企业端服务升级
大数据·人工智能·健康医疗
澳鹏Appen3 分钟前
智能体工作流:让AI自主调用工具,重塑企业自动化
人工智能·自动化·智能体
沈浩(种子思维作者)4 分钟前
量子计算真的需要量子硬件吗?谷歌量子计算机真的是未来计算方向吗?你们相信道AI还是豆包?
人工智能·python·量子计算
qianbo_insist5 分钟前
Mask R-CNN Fast-ReID 结合
人工智能·算法·cnn
人工智能AI技术9 分钟前
Agent的技术边界:哪些事Agent能做,哪些暂时做不到
人工智能
Aaron_94510 分钟前
微软 Agent Framework:构建、编排和部署 AI 代理的全面框架
人工智能·microsoft
C+++Python13 分钟前
C++分布式语音识别
c++·分布式·语音识别
沃达德软件15 分钟前
智慧监管新形态:科技赋能
大数据·数据仓库·人工智能·科技·数据库架构
程序员后来15 分钟前
400项能力上线实测:千问如何用一句话重构数字生活
人工智能·ai·重构·生活