前言
语音识别技术简介
语音识别技术,也称为自动语音识别(Automatic Speech Recognition, ASR),是指将用户的语音输入转换为文本信息的过程。在HarmonyOS中,可以通过集成华为机器学习服务(HMS Machine Learning Service)中的语音识别服务来实现这一功能。将一段音频信息(短语音模式不超过60s,长语音模式不超过8h)转换为文本,音频信息可以为pcm音频文件或者实时语音。
语音识别技术的核心原理涵盖多个关键组件的协同工作:声学模型基于深度神经网络(DNN)实现高精度的音频特征提取;语言模型通过融合N-gram与神经网络语言模型进行语义层面的优化理解;解码器采用基于WFST的架构完成实时语音流的快速解码;同时,智能VAD端点检测技术准确判定语音的起止边界,共同构建起高效、准确的语音识别系统基础。
关于语音识别
在HarmonyOS中,语音识别有以下步骤:
1.权限申请:在应用的配置文件中添加必要的权限。
2.集成语音识别服务:使用系统提供的API集成语音识别服务。
3.配置识别参数:设置识别的语言、场景等参数。
4.启动和停止识别:根据用户的操作启动和停止语音识别。
5.处理识别结果:将识别的文本信息进行后续处理。
实现语音识别
1.引入类
首先,在使用语音识别时,将实现语音识别相关的类添加至工程,具体如下所示:
javascript
import { speechRecognizer } from '@kit.CoreSpeechKit';
import { BusinessError } from '@kit.BasicServicesKit';
2.初始化
然后调用createEngine方法,对引擎进行初始化,并创建SpeechRecognitionEngine实例。createEngine方法提供了两种调用形式,当前以其中一种作为示例,具体操作如下所示:
javascript
import { speechRecognizer } from '@kit.CoreSpeechKit';
import { BusinessError } from '@kit.BasicServicesKit';
3.实例化对象
接着在得到SpeechRecognitionEngine实例对象后,实例化RecognitionListener对象,调用setListener方法设置回调,用来接收语音识别相关的回调信息,具体操作如下所示:
javascript
let setListener: speechRecognizer.RecognitionListener = {
// 开始识别成功回调
onStart(sessionId: string, eventMessage: string) {
},
// 事件回调
onEvent(sessionId: string, eventCode: number, eventMessage: string) {
},
// 识别结果回调,包括中间结果和最终结果
onResult(sessionId: string, result: speechRecognizer.SpeechRecognitionResult) {
},
// 识别完成回调
onComplete(sessionId: string, eventMessage: string) {
},
// 错误回调,错误码通过本方法返回,返回错误码1002200002,开始识别失败,重复启动startListening方法时触发
onError(sessionId: string, errorCode: number, errorMessage: string) {
},
}
// 设置回调
asrEngine.setListener(setListener);// 创建回调对象
let setListener: speechRecognizer.RecognitionListener = {
// 开始识别成功回调
onStart(sessionId: string, eventMessage: string) {
},
// 事件回调
onEvent(sessionId: string, eventCode: number, eventMessage: string) {
},
// 识别结果回调,包括中间结果和最终结果
onResult(sessionId: string, result: speechRecognizer.SpeechRecognitionResult) {
},
// 识别完成回调
onComplete(sessionId: string, eventMessage: string) {
},
// 错误回调,错误码通过本方法返回,返回错误码1002200002,开始识别失败,重复启动startListening方法时触发
onError(sessionId: string, errorCode: number, errorMessage: string) {
},
}
// 设置回调
asrEngine.setListener(setListener);
4.设置参数
接着分别为音频文件转文字和麦克风转文字功能设置开始识别的相关参数,调用startListening方法,开始合成,具体操作如下所示:
javascript
// 开始识别
private startListeningForWriteAudio() {
// 设置开始识别的相关参数
let recognizerParams: speechRecognizer.StartParams = {
sessionId: this.sessionId,
audioInfo: { audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16 } //audioInfo参数配置请参考AudioInfo
}
// 调用开始识别方法
asrEngine.startListening(recognizerParams);
};
private startListeningForRecording() {
let audioParam: speechRecognizer.AudioInfo = { audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16 }
let extraParam: Record<string, Object> = {
"recognitionMode": 0,
"vadBegin": 2000,
"vadEnd": 3000,
"maxAudioDuration": 20000
}
let recognizerParams: speechRecognizer.StartParams = {
sessionId: this.sessionId,
audioInfo: audioParam,
extraParams: extraParam
}
asrEngine.startListening(recognizerParams);
};
5.写入音频流
传入音频流,调用writeAudio方法,开始写入音频流。读取音频文件时,开发者需预先准备一个pcm格式音频文件,具体操作如下所示:
javascript
let uint8Array: Uint8Array = new Uint8Array();
// 可以通过如下方式获取音频流:1、通过录音获取音频流;2、从音频文件中读取音频流。写入音频流,音频流长度仅支持640或1280
asrEngine.writeAudio(sessionId, uint8Array);
6.查询语言语种(可选 )
当需要查询语音识别服务支持的语种信息,可调用。listLanguages方法。listLanguages方法提供了两种调用形式,当前以其中一种作为示例,具体操作如下所示:
javascript
// 设置查询相关的参数
let languageQuery: speechRecognizer.LanguageQuery = {
sessionId: sessionId
};
// 调用listLanguages方法
asrEngine.listLanguages(languageQuery).then((res: Array<string>) => {
}).catch((err: BusinessError) => {
});
7.结束识别(可选)
接着是当需要结束识别时,可调用finish方法,具体操作如下:
javascript
// 结束识别
asrEngine.finish(sessionId);
8.取消识别(可选)
当需要取消识别时,可调用cancel方法,具体如下所示:
javascript
// 取消识别
asrEngine.cancel(sessionId);
9.释放资源(可选)
当需要释放语音识别引擎资源时,可调用shutdown方法,具体操作如下所示:
javascript
// 释放识别引擎资源
asrEngine.shutdown();
10.配置权限
需要在module.json5配置文件中添加ohos.permission.MICROPHONE权限,确保麦克风使用正常,具体操作如下所示:
javascript
//...
"requestPermissions": [
{
"name" : "ohos.permission.MICROPHONE",
"reason": "$string:reason",
"usedScene": {
"abilities": [
"EntryAbility"
],
"when":"inuse"
}
}
],
//...
自定义语音识别
除了上面基本的语音识别功能,开发者还可以根据应用的需求自定义语音识别行为,比如:
- 实时转写:在语音输入时实时显示识别结果。
- 命令识别:识别特定的语音命令并触发相应的操作。
未来展望与技术趋势
语音技术正朝着更智能、更人性化的方向快速演进。多模态融合实现了语音与视觉、手势的深度交互,情感识别技术能够基于语音智能分析用户情绪状态,个性化自适应则通过学习用户习惯不断优化识别模型,边缘计算的引入更使分布式设备能够协同完成语音处理任务,大大提升了响应效率和使用体验。
在HarmonyOS语音生态中,这些技术趋势得到了全面体现。跨设备语音协同实现了分布式设备间的无缝语音交互,隐私安全增强通过端侧处理和差分隐私技术保护用户数据,无障碍深度优化为视障、听障等特殊人群提供了定制化的语音交互方案,而全球化扩展则持续增加对各国语言和方言的识别支持,让全球用户都能享受自然流畅的语音交互体验。
结束语
通过上面关于语音识别的分享,深入解析了HarmonyOS语音识别技术的完整技术栈和最佳实践,相信大家也看到了这项技术的庐山真面目。它增强了设备的智能化水平,也给我们带来了更好的体验感。经过本文的介绍,想必大家都了解了如何在HarmonyOS应用中实现这些功能,而且在实际开发中会更好的去运用。随着技术的不断发展,语音识别操作将在HarmonyOS生态中继续扮演重要的角色,语音交互将在构建全场景智慧体验中发挥更加重要的作用,为用户带来更加丰富和便捷的体验。最后,也期待在不久的将来,基于HarmonyOS语音技术的创新应用能够深入各行各业,推动智能化社会建设迈向新的高度!