Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

引言

2023年,IT领域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。

Whisper是一款自动语音识别系统,可以识别来自99种不同语言的语音并将其转录为文字。

如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。

想象一下,在企业应用领域,我们能够利用Whisper将语音转化为文字,然后再借助ChatGPT来进行翻译或总结。

接下来,我们将以实际操作为出发点,逐步向您介绍如何利用AI实现音频、视频的内容总结。

前期准备

GPU

首先,我们需要解决硬件方面的问题。

虽然OpenAI提供了HTTP API来调用Whisper,但对于企业而言,将内部内容交给OpenAI始终存在一定的安全风险。

本地运行AI模型则需要大量的计算资源。

如果仅使用CPU进行计算,一个大约10分钟的语音转录任务可能需要花费4倍以上的时间。

因此,我们必须引入GPU进行计算加速。

考虑到Colab在国内无法访问,我们建议在Kaggle上运行演示。

请大家注册Kaggle账户,并完成手机号验证(Kaggle的GPU需要完成手机号验证后才能使用)。

Azure ChatGPT

ChatGPT是我们语音内容总结的核心工具。

我们建议使用Azure OpenAI服务。

您可以参考以下文章来申请:Azure OpenAI Service申请教程

kintone

kintone是我们用来存储记录的平台。我们需要创建一个名为"Reports"的应用程序(APP),并定义以下表单字段:

运行

您可以在这里找到演示代码:

GitHub - kintone-samples/SAMPLE-kintone-narrator-cn: Utilize AI to summarize video/audio content and upload it to Kintone.

点击"open in kaggle"。

请按照以下步骤操作:

1.点击Edit,进入编辑状态

2.在右侧的Notebook options中,我们需要将Acceleator选为GPU T4*2

注:

  1. 没验证手机的账户不会显示Acceleator选项。

  2. GPU P100不支持当前默认float16运算,选择该显卡的用户请将"语音转录&对齐"中的compute_type设为float32。

  3. TPU尚未测试支持。

3.找到名为"Azure OpanAI ChatGPT 总结 "和"将总结内容上传"的代码单元(cell),然后根据您自己的环境设置进行配置。

4.点击页面上方的"Run All"按钮以开始运行演示。

等待程序运行结束即可。

下面我将对会每个代码单元的功能进行简要说明,感兴趣的可以继续往下研究:

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

相关推荐
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-03-23
数据库·人工智能·经验分享·神经网络·chatgpt
智算菩萨5 小时前
GPT-5.4 Pro与Thinking模型全面研究报告
人工智能·gpt·ai·chatgpt·ai-native
咕噜企业分发小米5 小时前
AnythingLLM+GPUStack打造专属的ChatGPT+知识库
chatgpt
zzh940779 小时前
ChatGPT镜像官网实战:如何用GPT-4o解决信息过载与知识管理难题
人工智能·chatgpt
guoji778812 小时前
大模型安全与对齐技术拆解:ChatGPT与Gemini官网如何防止模型“失控”?
人工智能·chatgpt
智算菩萨13 小时前
深度剖析GPT - 5.3 - Codex:技术架构、性能表现与国内API接入全攻略
人工智能·gpt·ai·chatgpt·架构·ai编程·codex
Agent产品评测局13 小时前
2026 年企业自动化路线图:如何通过 LLM+RPA 实现全流程闭环?深度解析智能体架构与落地路径
人工智能·ai·chatgpt·架构·自动化·rpa
AI英德西牛仔14 小时前
ChatGPT和Gemini怎么导出文档
人工智能·ai·chatgpt·deepseek·ds随心转
新缸中之脑15 小时前
NotebookLM:最佳学习工具
人工智能·学习·chatgpt
guoji778815 小时前
ChatGPT镜像站提示工程技术拆解:如何让GPT-4o输出更精准的结果?
chatgpt