AI一点通: OpenAI whisper 在线怎么调用,怎么同时输出时间信息?

OpenAI 语音转文字 whisper API提供了两个端点,即转录和翻译,这基于我们最先进的开源大型v2 Whisper模型。它们可以用来:

将音频转录成音频所在的语言。 翻译并将音频转录成英文。 文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

以下是一个Python示例:

复制代码
import requests
import openai

# 定义API端点和头信息
url = "https://api.openai.com/v1/audio/transcriptions"
headers = {
    "Authorization": "Bearer {}".format(open_ai_key)  # 用你的API密钥替换
}

# 你的音频文件位置,可以是mp3或mp4等。
FILE_PATH = "./upload-whisper.mp4"
# 定义参数
files = {
    'file': ('test.mp4', open(FILE_PATH, 'rb')),
    'model': (None, 'whisper-1'),
    'response_format': (None, 'srt')
}

response = requests.post(url, headers=headers, files=files)
print(response.text)

输出为:

复制代码
1
00:00:00,000 --> 00:00:02,600
首先,我需要你去前台报名工作。

注意,在上述代码中,我们将response_format设置为srt,该格式带有时间戳。转录输出的格式也可以是以下选项之一:json、text、srt、verbose_json 或 vtt。

阅读英文版

相关推荐
小程故事多_809 分钟前
极简即王道 下一代Agent架构Pi Agent Core设计逻辑深度解析
人工智能·架构·aigc
琅琊榜首202013 分钟前
AI+编程思维:高质量短剧脚本高效撰写实操指南
大数据·人工智能·深度学习
阿星AI工作室18 分钟前
宝藏skills!90个顶尖博客信源自动抓,AI每天帮我筛出20篇精华!
人工智能·算法
程序员猫哥_27 分钟前
无需编程的全栈开发平台如何实现前后端一体化生成?底层逻辑拆解
人工智能
EchoMind-Henry28 分钟前
Build 04 / 意图路由:拆解 classify_intent,用“规则+模型”榨干 Token 价值
人工智能
FeelTouch Labs42 分钟前
基于语义检索的知识型AI智能体(RAG范式)
人工智能
sali-tec1 小时前
C# 基于OpenCv的视觉工作流-章25-ORB特征点
图像处理·人工智能·opencv·算法·计算机视觉
半兽先生1 小时前
告别 AI 乱写 Vue!用 vue-skills 构建前端智能编码标准
前端·vue.js·人工智能
摇滚侠1 小时前
JWT 是 token 的一种格式,我的理解对吗?
java·人工智能·intellij-idea·spring ai·springaialibaba
xixixi777772 小时前
零样本学习 (Zero-Shot Learning, ZSL)补充
人工智能·学习·安全·ai·零样本·模型训练·训练