python音频转文字调用baidu

python音频转文字调用的是百度智能云的接口,因业务需求会涉及比较多数字,所以这里做了数字的处理,可根据自己的需求修改。

python 复制代码
from flask import Flask, request, jsonify
import requests

from flask_limiter import Limiter

app = Flask(__name__)
limiter = Limiter(app)  # 初始化限流扩展

API_KEY = ""    #百度智能云上获取
SECRET_KEY = ""

import re
from cn2an import an2cn, transform

def replace_chinese_numbers(text):
    # 使用正则表达式匹配句子中的中文数字
    chinese_numbers = re.findall(r'[零一二三四五六七八九十百千万]+', text)
    
    # 遍历匹配到的中文数字,逐一替换为阿拉伯数字
    for chinese_number in chinese_numbers:
        arabic_number = transform(chinese_number, 'cn2an')
        text = text.replace(chinese_number, arabic_number)

    return text


@app.route('/transcribe', methods=['POST'])
@limiter.limit("5 per second")  # 设置限流规则为最多同时 5 个请求
def transcribe_audio():
    audio_data = request.data
    access_token = get_access_token()
    if not access_token:
        return jsonify({"error": "Error getting access token"}), 500

    url = "https://vop.baidu.com/server_api"

    headers = {
        'Content-Type': 'audio/pcm; rate=16000',  # 设置正确的 Content-Type
        'Accept': 'application/json',
    }

    params = {
        "cuid": "your_unique_id",  # 替换为你的用户唯一标识,随便写
        "token": access_token,
    }

    response = requests.post(url, headers=headers, params=params, data=audio_data)
    if response.status_code == 200:
        try:
            result = response.json()
            if "result" in result:
                transcript = result["result"][0]
                cleaned_transcript = replace_chinese_numbers(transcript)
                print(cleaned_transcript)
                return jsonify({"transcript": cleaned_transcript})
            else:
                return jsonify({"error": "No transcription found in the response"}), 500
        except UserWarning as warning:
            # 如果出现 UserWarning 异常,返回未处理的 transcript
            warnings.warn(str(warning))
            return jsonify({"transcript": transcript})
    else:
        return jsonify({"error": "Error in transcription request"}), 500

        
def get_access_token():
    url = "https://aip.baidubce.com/oauth/2.0/token"
    params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}
    response = requests.post(url, params=params)

    if response.status_code == 200:
        access_token = response.json().get("access_token")
        return access_token
    else:
        print("Error getting access token:", response.text)
        return None

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=16258)
相关推荐
所谓伊人,在水一方3331 分钟前
【机器学习精通】第2章 | 优化算法深度解析:从梯度下降到自适应优化器
人工智能·python·算法·机器学习·信息可视化
Jackson@ML2 分钟前
2026最新版Anaconda Navigator for Mac安装使用指南
python·macos·anaconda
Storynone5 分钟前
【Day24】LeetCode:122. 买卖股票的最佳时机 II,55. 跳跃游戏,45. 跳跃游戏II,1005. K次取反后最大化的数组和
python·算法·leetcode
所谓伊人,在水一方3337 分钟前
【机器学习精通】第3章 | 正则化与泛化:防止过拟合的理论与实践
开发语言·人工智能·机器学习·信息可视化·系统架构
坚持学习前端日记8 分钟前
Agent AI 后端接口对接与大模型适配指南
前端·人工智能·python·ios
无心水9 分钟前
【java开发常见错误】5、HTTP调用避坑指南:超时、重试、并发,一个都不能少
java·开发语言·后端·http·架构师·http调用·后端开发错误
十五年专注C++开发10 分钟前
dlib: 一个跨平台的 C++ 机器学习 / 数值计算库
c++·人工智能·python·机器学习
炸膛坦客11 分钟前
单片机/C语言八股:(五)32/64 位系统中,C/C++各变量类型所占字节数
c语言·开发语言·c++
所谓伊人,在水一方33312 分钟前
【Python数据可视化精通】第11讲 | 可视化系统架构与工程实践
开发语言·python·信息可视化·数据分析·系统架构·pandas
iPadiPhone13 分钟前
Java 泛型与通配符全链路解析及面试进阶
java·开发语言·后端·面试