AI一点通: OpenAI whisper 在线怎么调用,怎么同时输出时间信息?

OpenAI 语音转文字 whisper API提供了两个端点,即转录和翻译,这基于我们最先进的开源大型v2 Whisper模型。它们可以用来:

将音频转录成音频所在的语言。 翻译并将音频转录成英文。 文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

以下是一个Python示例:

复制代码
import requests
import openai

# 定义API端点和头信息
url = "https://api.openai.com/v1/audio/transcriptions"
headers = {
    "Authorization": "Bearer {}".format(open_ai_key)  # 用你的API密钥替换
}

# 你的音频文件位置,可以是mp3或mp4等。
FILE_PATH = "./upload-whisper.mp4"
# 定义参数
files = {
    'file': ('test.mp4', open(FILE_PATH, 'rb')),
    'model': (None, 'whisper-1'),
    'response_format': (None, 'srt')
}

response = requests.post(url, headers=headers, files=files)
print(response.text)

输出为:

复制代码
1
00:00:00,000 --> 00:00:02,600
首先,我需要你去前台报名工作。

注意,在上述代码中,我们将response_format设置为srt,该格式带有时间戳。转录输出的格式也可以是以下选项之一:json、text、srt、verbose_json 或 vtt。

阅读英文版

相关推荐
火山引擎开发者社区2 小时前
技术速递|使用 GitHub Copilot CLI 构建 Emoji 列表生成器
人工智能
codefan※3 小时前
干掉“幻觉“实战:如何构建企业级知识图谱增强 RAG
人工智能·知识图谱
wukangjupingbb3 小时前
传统基于药物 SMILES 序列和蛋白质氨基酸序列的 DTI(Drug-Target Interaction)预测方法的缺陷
人工智能
沪漂阿龙3 小时前
Codex 额度重置周期变化:AI 编程免费试玩时代正在结束
人工智能
TickDB3 小时前
美股行情 API 接入避坑:REST 快照、WebSocket 推送、盘前盘后数据的边界
人工智能·python·websocket·行情数据 api
装不满的克莱因瓶3 小时前
深入理解卷积神经网络(CNN)——从原理到代码实践
人工智能·神经网络·cnn
完成大叔3 小时前
模块二,Agent知识图谱的工具链思考
人工智能
lauo4 小时前
ibbot手机发布:搭载poplang技术 + token节点经济,革新AI手机体验
人工智能·智能手机
咖啡星人k4 小时前
云端开发环境技术架构深度解析:从容器隔离到AI Agent集成
人工智能·架构
袋鼠云数栈4 小时前
从前端到基础设施,ACOS 如何打通企业全链路可观测
运维·前端·人工智能·数据治理·数据智能