AI一点通: OpenAI whisper 在线怎么调用,怎么同时输出时间信息?

OpenAI 语音转文字 whisper API提供了两个端点,即转录和翻译,这基于我们最先进的开源大型v2 Whisper模型。它们可以用来:

将音频转录成音频所在的语言。 翻译并将音频转录成英文。 文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

以下是一个Python示例:

复制代码
import requests
import openai

# 定义API端点和头信息
url = "https://api.openai.com/v1/audio/transcriptions"
headers = {
    "Authorization": "Bearer {}".format(open_ai_key)  # 用你的API密钥替换
}

# 你的音频文件位置,可以是mp3或mp4等。
FILE_PATH = "./upload-whisper.mp4"
# 定义参数
files = {
    'file': ('test.mp4', open(FILE_PATH, 'rb')),
    'model': (None, 'whisper-1'),
    'response_format': (None, 'srt')
}

response = requests.post(url, headers=headers, files=files)
print(response.text)

输出为:

复制代码
1
00:00:00,000 --> 00:00:02,600
首先,我需要你去前台报名工作。

注意,在上述代码中,我们将response_format设置为srt,该格式带有时间戳。转录输出的格式也可以是以下选项之一:json、text、srt、verbose_json 或 vtt。

阅读英文版

相关推荐
Kel1 分钟前
PydanticAI 源码深潜:类型安全依赖注入与图执行引擎的双核架构解析
人工智能·python·架构
后端开发基础免费分享1 分钟前
Claude Code 最全使用指南:CLAUDE.md、rules、skills、memory 一次讲清
人工智能·ai·claude·claudecode
亿坊电商3 分钟前
亿坊外贸商城系统-支持B2C,B2B多模式,让企业做外贸电商更简单!
人工智能·数据挖掘·外贸商城
小王毕业啦6 分钟前
2006-2023年 省级-建成区绿化覆盖率数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
十有八七6 分钟前
OpenHarness 架构说明文档
人工智能·架构
Bruce1238 分钟前
openclaw学习日常(一)openclaw在WSL中搭建
人工智能·node.js
liliangcsdn9 分钟前
如何基于sentence_transformers构建向量计算工具
数据库·人工智能·全文检索
西海天际蔚蓝12 分钟前
AI配合写的第一个demo系统页面
java·人工智能
贵慜_Derek12 分钟前
Managed Agents 里,Harness 到底升级了什么?
人工智能·算法·架构
Tadas-Gao15 分钟前
从“驯马”到“驭队”:Harness Engineering 如何重构 AI 产品化的底层逻辑
人工智能·语言模型·架构·大模型·llm·harness