Teams Bot机器人实时语音识别的多引擎的处理

之前开发的Teams的Bot 是使用微软的实时语音识别。现在增加了一个选项,可以在Azure 和 Soniox两引擎间切换。

Azure 的实时语音识别

Azure 的实时语音识别 使用 Microsoft.CognitiveServices.Speech.Transcription 进行处理。这个质量很不错,而且可以设置每个人的语音特征(wav audio file for creating voice signatures must be 16-bit, 16 kHz sample rate, in single channel (mono) format. The recommended length for each audio sample is between 30 seconds and two minutes. )。

cs 复制代码
            byte[] fileBytes = File.ReadAllBytes(fn);
            var content = new ByteArrayContent(fileBytes);
            var client = new HttpClient();
            client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
            var response = await client.PostAsync($"https://signature.{region}.cts.speech.microsoft.com/api/v1/Signature/GenerateVoiceSignatureFromByteArray", content);

            var jsonData = await response.Content.ReadAsStringAsync();
            var result = JsonConvert.DeserializeObject<VoiceSignature>(jsonData);
            return JsonConvert.SerializeObject(result.Signature);

设置了语音特征后就可以在实时语音识别中,自动识别说话者。一切都好,唯一的一个问题就是不便宜,目前一个月的费用有几万美元。

Soniox的实时语音识别

Soniox的实时语音识别引擎,是用WebSocket的,这一点和Azure的差别很大。下面的代码就是初始化识别引擎连接。

cs 复制代码
 ClientWebSocket ws= new ClientWebSocket();
 ws.ConnectAsync(new Uri(ConversationMgr.instance.SonioxUrl), CancellationToken.None).Wait();

 // Send start request with correct field names
 var startMessage = Encoding.UTF8.GetBytes(Newtonsoft.Json.JsonConvert.SerializeObject(new
 {
     api_key = ConversationMgr.instance.SonioxKey,
     audio_format = ConversationMgr.instance.SonioxAudioFormat,
     sample_rate = int.Parse(ConversationMgr.instance.SonioxSampleRate),
     num_channels = int.Parse(ConversationMgr.instance.SonioxNumChannels),
     model = ConversationMgr.instance.SonioxModel,
     enable_speaker_diarization=true,
     language_hints = ConversationMgr.instance.SonioxLanguageHints.Replace(" ", "").Split(new string[] { "," }, StringSplitOptions.RemoveEmptyEntries)
 }));

 ws.SendAsync(new ArraySegment<byte>(startMessage), WebSocketMessageType.Text, true, CancellationToken.None).Wait();

初始化之后,当收到从机器人收到语音包后,就把包的时间发送到Soniox。

var audioChunk = new ArraySegment<byte>(item.Buff, 0, item.Buff.Length);

await ws.SendAsync(audioChunk, WebSocketMessageType.Binary, true, CancellationToken.None);

同时并行一个任务从 Soniox接受识别的结果:

result = await ws.ReceiveAsync(new ArraySegment<byte>(buffer), CancellationToken.None);

返回的结果如下

javascript 复制代码
{"tokens":[{"text":"Wh","start_ms":540,"end_ms":540,"confidence":0.999,"is_final":false,"speaker":"1"},{"text":"at","start_ms":540,"end_ms":600,"confidence":1,"is_final":false,"speaker":"1"},{"text":" is","start_ms":660,"end_ms":720,"confidence":0.998,"is_final":false,"speaker":"1"},{"text":" y","start_ms":780,"end_ms":840,"confidence":1,"is_final":false,"speaker":"1"},{"text":"our","start_ms":840,"end_ms":900,"confidence":1,"is_final":false,"speaker":"1"},{"text":" best","start_ms":960,"end_ms":1020,"confidence":1,"is_final":false,"speaker":"1"}],"final_audio_proc_ms":0,"total_audio_proc_ms":1800}

{

"tokens": [

{

"text": "Wh",

"start_ms": 540,

"end_ms": 540,

"confidence": 0.999,

"is_final": false,

"speaker": "1"

},

{

"text": "at",

"start_ms": 540,

"end_ms": 600,

"confidence": 1,

"is_final": false,

"speaker": "1"

},

{

"text": " is",

"start_ms": 660,

"end_ms": 720,

"confidence": 0.998,

"is_final": false,

"speaker": "1"

},

{

"text": " y",

"start_ms": 780,

"end_ms": 840,

"confidence": 1,

"is_final": false,

"speaker": "1"

},

{

"text": "our",

"start_ms": 840,

"end_ms": 900,

"confidence": 1,

"is_final": false,

"speaker": "1"

},

{

"text": " best",

"start_ms": 960,

"end_ms": 1020,

"confidence": 1,

"is_final": false,

"speaker": "1"

}

],

"final_audio_proc_ms": 0,

"total_audio_proc_ms": 1800

}

相关推荐
宝贝儿好1 小时前
【LLM】第二章:文本表示:词袋模型、小案例:基于文本的推荐系统(酒店推荐)
人工智能·python·深度学习·神经网络·自然语言处理·机器人·语音识别
hhh3u3u3u4 小时前
Visual C++ 6.0中文版安装包下载教程及win11安装教程
java·c语言·开发语言·c++·python·c#·vc-1
加号34 小时前
【C#】实现沃德普线光控制器通信控制(附完整源码)
开发语言·c#
才兄说4 小时前
机器人二次开发封闭环境巡检?人力成本降六成
机器人
才兄说5 小时前
机器人二次开发大型厂区巡检?0.1℃温差预警
机器人
好家伙VCC5 小时前
**发散创新:基于Python与ROS的机器人运动控制实战解析**在现代机器人系统开发中,**运动控制**是实现智能行为的核心
java·开发语言·python·机器人
瑞璐塑业peek注塑5 小时前
提供轻量化行星减速器,以PEEK精密注塑技术实现机器人规模化降本
机器人
lzhdim6 小时前
SharpCompress:跨平台的 C# 压缩与解压库
开发语言·c#
~plus~7 小时前
.NET 8 C# 委托与事件实战教程
网络·c#·.net·.net 8·委托与事件·c#进阶
beyond谚语8 小时前
接口&抽象类
c#·接口隔离原则·抽象类