AI一点通: OpenAI whisper 在线怎么调用,怎么同时输出时间信息?

OpenAI 语音转文字 whisper API提供了两个端点,即转录和翻译,这基于我们最先进的开源大型v2 Whisper模型。它们可以用来:

将音频转录成音频所在的语言。 翻译并将音频转录成英文。 文件上传目前限制为25 MB,支持以下输入文件类型:mp3、mp4、mpeg、mpga、m4a、wav 和 webm。

以下是一个Python示例:

复制代码
import requests
import openai

# 定义API端点和头信息
url = "https://api.openai.com/v1/audio/transcriptions"
headers = {
    "Authorization": "Bearer {}".format(open_ai_key)  # 用你的API密钥替换
}

# 你的音频文件位置,可以是mp3或mp4等。
FILE_PATH = "./upload-whisper.mp4"
# 定义参数
files = {
    'file': ('test.mp4', open(FILE_PATH, 'rb')),
    'model': (None, 'whisper-1'),
    'response_format': (None, 'srt')
}

response = requests.post(url, headers=headers, files=files)
print(response.text)

输出为:

复制代码
1
00:00:00,000 --> 00:00:02,600
首先,我需要你去前台报名工作。

注意,在上述代码中,我们将response_format设置为srt,该格式带有时间戳。转录输出的格式也可以是以下选项之一:json、text、srt、verbose_json 或 vtt。

阅读英文版

相关推荐
一个会的不多的人6 分钟前
人工智能基础篇:概念性名词浅谈(第二十九讲)
人工智能·制造·数字化转型
edisao11 分钟前
四。SpaceX、网络化与未来的跨越:低成本、高频次的真正威胁
大数据·开发语言·人工智能·科技·php
万行12 分钟前
差速两轮机器人位移与航向角增量计算
人工智能·python·算法·机器人
瑞华丽PLM15 分钟前
PLM系统中的BOM管理演进:从数据孤岛到全生命周期协同
大数据·人工智能·plm·国产plm·瑞华丽plm·瑞华丽
咚咚王者20 分钟前
人工智能之核心基础 机器学习 第十六章 模型优化
人工智能·机器学习
电商API_1800790524721 分钟前
1688商品详情采集API全解析:技术原理、实操指南与业务落地
大数据·前端·人工智能·网络爬虫
向上的车轮26 分钟前
麦肯锡《智能体、机器人与我们:AI时代的技能协作》
人工智能·机器人
2501_9458374335 分钟前
数字经济的 “安全基石”—— 云服务器零信任架构如何筑牢数据安全防线
人工智能
2501_9421917736 分钟前
【深度学习应用】香蕉镰刀菌症状识别与分类:基于YOLO13-C3k2-MBRConv5模型的实现与分析
人工智能·深度学习·分类
Coder_Boy_36 分钟前
基于SpringAI的在线考试系统-DDD(领域驱动设计)核心概念及落地架构全总结
java·大数据·人工智能·spring boot·架构·ddd·tdd