“智能语音指令解析“ 基于NLP与语音识别的工单关键信息提取

"智能语音指令解析" 基于NLP与语音识别的工单关键信息提取

    • [1. 背景介绍](#1. 背景介绍)
      • [1.1 场景痛点](#1.1 场景痛点)
      • [1.2 方案选型](#1.2 方案选型)
    • [2. 准备开发环境](#2. 准备开发环境)
    • [3. PaddleSpeech 语音识别快速使用](#3. PaddleSpeech 语音识别快速使用)
    • [4. PaddleNLP 信息抽取快速使用](#4. PaddleNLP 信息抽取快速使用)
    • [5. 语音工单信息抽取核心功能实现](#5. 语音工单信息抽取核心功能实现)
    • [6. 语音工单信息抽取网页应用](#6. 语音工单信息抽取网页应用)
      • [6.1 网页前端](#6.1 网页前端)
      • [6.2 网页后端](#6.2 网页后端)
      • [6.3 aistudio服务演示](#6.3 aistudio服务演示)
      • [6.4 启动服务](#6.4 启动服务)
      • [6.5 构造Post请求测试](#6.5 构造Post请求测试)
    • 服务

本文将介绍如何利用 PaddleSpeech 的语音识别技术与 PaddleNLP 的通用信息抽取技术,实现基于智能语音指令解析的关键工单信息提取。我们将通过语音交互的方式,在交通报销场景下实现智能信息抽取,以提高工作效率与质量。

1. 背景介绍

智能语音指令解析集成了语音识别(ASR)与信息抽取(IE)等技术,广泛应用于智能语音填单、语音交互、手机APP语音唤醒等场景,提高人机交互效率。其中,智能语音填单可通过口述记录信息,并利用算法解析口述内容中的关键信息,完成自动信息录入。

1.1 场景痛点

  • 电话分析:边询问边记录,容易遗漏关键信息,例如社区疫情防控信息记录。
  • 工单生成:特定场景下无法完成文字录入,如电力路线巡检工作人员在高空巡检高压电线路。
  • 信息登记:重复性工作效率低易出错,例如汽车售后客服话务员每天接听大量电话。

针对以上场景,利用PaddleSpeech的语音识别技术和PaddleNLP的信息抽取技术,可以自动识别和抽取语音中的关键信息,帮助简化记录流程,提高工作效率和质量。

1.2 方案选型

  • PaddleSpeech语音识别模型:包含多种领先国际水平的语音算法与预训练模型,提供简单易用的语音识别功能。
  • PaddleNLP通用信息抽取模型(UIE):支持实体识别、关系和事件抽取、情感分析等多种信息抽取任务,具有良好的泛化效果。

2. 准备开发环境

安装PaddleSpeech与PaddleNLP:

python 复制代码
!pip install paddlespeech
!pip install paddlenlp

下载必要数据包与示例音频,并进行初始化设置。

3. PaddleSpeech 语音识别快速使用

通过PaddleSpeech调用语音识别方法简单易行:

python 复制代码
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="ie.wav", force_yes=True)
print(result)

4. PaddleNLP 信息抽取快速使用

利用PaddleNLP提供的信息抽取能力,直接调用Taskflow API进行预测:

python 复制代码
from paddlenlp import Taskflow

schema = ["时间", "出发地", "目的地", "费用"]
ie = Taskflow("information_extraction", schema=schema, task_path="/home/aistudio/work")

ie_result = ie(result)
print(ie_result)

5. 语音工单信息抽取核心功能实现

将语音识别与信息抽取功能进行串联,实现语音工单信息抽取的核心功能模块:

python 复制代码
def audio_ie(audio_path):
    asr_result = asr(audio_file=audio_path, force_yes=True)
    ie_result = ie(asr_result)
    return ie_result

audio_ie("ie.wav")

6. 语音工单信息抽取网页应用

构建网页应用,通过前后端交互实现语音工单信息抽取的服务。

6.1 网页前端

利用Vue框架,结合js-audio-recorder库实现网页前端的录音功能。

6.2 网页后端

利用FastAPI框架搭建后端服务,核心功能为语音信息抽取函数。

6.3 aistudio服务演示

在aistudio中,通过FastAPI搭建网页应用,模拟网页调用语音工单信息提取的后端服务。

6.4 启动服务

启动FastAPI服务,提供后端服务支持。

6.5 构造Post请求测试

通过requests库构造Post请求,模拟调用语音工单信息提取的后端服务。

通过以上步骤,你可以快速上手使用PaddleSpeech与PaddleNLP实现语音工单信息提取的应用,提高工作效率与质量。

服务

🛠 博主提供一站式解决方案,让您的工作变得更加轻松、高效!以下是我们提供的服务:

  1. 代部署

    🚀 为您提供快速、稳定的部署方案。无论是您的应用程序、网站还是其他软件项目,我们都可以帮助您将其部署到适当的平台上。

  2. 课程设计选题

    📚 为您量身定制符合课程要求和学生需求的选题方案。无论是基础课程还是高级课程,我们都能够为您提供专业的建议和支持。

  3. 线上辅导

    💻 提供线上辅导服务,为您提供个性化的指导和支持,帮助您解决在学习、工作或研究中遇到的各种问题和困难。

    如有需求,请随时私信

相关推荐
zmjia1119 小时前
AI大语言模型进阶应用及模型优化、本地化部署、从0-1搭建、智能体构建技术
人工智能·语言模型·自然语言处理
sp_fyf_20249 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02
人工智能·神经网络·算法·计算机视觉·语言模型·自然语言处理·数据挖掘
新缸中之脑9 小时前
Ollama 运行视觉语言模型LLaVA
人工智能·语言模型·自然语言处理
龙的爹233311 小时前
论文 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust
人工智能·gpt·深度学习·语言模型·自然语言处理·prompt
湘大小菜鸡13 小时前
NLP进阶(一)
人工智能·自然语言处理
XiaoLiuLB13 小时前
最佳语音识别 Whisper-large-v3-turbo 上线,速度更快(本地安装 )
人工智能·whisper·语音识别
哪 吒13 小时前
吊打ChatGPT4o!大学生如何用上原版O1辅助论文写作(附论文教程)
人工智能·ai·自然语言处理·chatgpt·aigc
代码骑士13 小时前
【一起学NLP】Chapter3-使用神经网络解决问题
python·神经网络·自然语言处理
Langchain14 小时前
不可错过!CMU最新《生成式人工智能大模型》课程:从文本、图像到多模态大模型
人工智能·自然语言处理·langchain·大模型·llm·大语言模型·多模态大模型
龙的爹233315 小时前
论文翻译 | Generated Knowledge Prompting for Commonsense Reasoning
人工智能·gpt·机器学习·语言模型·自然语言处理·nlp·prompt