语音识别质量的跟踪

背景

这个项目是用来生成结构化的电子病历的。数据的来源是医生的录音。中间有一大堆的处理,语音识别,关键字匹配,结构化处理,病历编辑......。最多的时候给上百家医院服务。

语音识别质量的跟踪

一、0225医院的训练后的情况分析:

通过0225医院的20278、46248、47146、47160、27823、47830、47879、48824、48837、48848医生的统计,发现这批医生在训练之后识别的质量有提升。具体如下:

通过曲线可以看出,在人工训练之后(图中的竖线右边的部分),Score有所提高,平均提高50分左右。

通过曲线可以看出,在训练之后(图中的竖线右边的部分),识别引擎在识别过程中耗费的时间大大降低了。识别时间的降低,可以减少报告的识别超时从而降低BlankCDA的报告数,同时也能减轻识别服务器的压力。所以,识别时间的降低对整个系统有着积极的意义。

二、其他医院的训练分析:

其他医院训练的时间比较早,当时的日志记录中还没有SR_Score的记录。需要等下次训练后,才可以进行识别质量分析。

三、当前识别质量统计:

就目前的统计数据来看,在800分(满分为1000分)以下或识别时长超过4倍的医生还有一些,但是比例不是很大。具体如下:

就统计结果来看,Score低于800的大约占1.27%

就统计结果来看,识别时间大于4的大约占5.07%

四、识别分数低于800或识别时长超过4的医生的列表:

共计46人,详见下表。

|-----------|--------|--------------|---------------------|
| HOSP_CODE | DOCTOR | AVG_SR_SCORE | PROCESSTIME/DICTLEN |
| 0011 | 561 | 813 | 5.13 |
| 0013 | 0402 | 828 | 4.80 |
| 0013 | 2213 | 819 | 4.04 |
| 0013 | 3032 | 861 | 4.05 |
| 0013 | 3170 | 805 | 5.66 |
| 0013 | 3268 | 795 | 4.37 |
| 0014 | 0004 | 742 | 6.41 |
| 0014 | 0824 | 751 | 5.56 |
| 0014 | 4401 | 816 | 4.85 |
| 0014 | 77807 | 831 | 4.30 |
| 0014 | 9596 | 860 | 4.64 |
| 0015 | 80000 | 835 | 4.33 |
| 0015 | 98400 | 821 | 5.14 |
| 0016 | 1512 | 784 | 5.56 |
| 0016 | 1710 | 805 | 4.91 |
| 0016 | 2087 | 831 | 4.68 |
| 0016 | 2156 | 855 | 4.18 |
| 0016 | 2176 | 697 | 3.17 |
| 0016 | 2462 | 860 | 4.03 |
| 0016 | 3274 | 787 | 4.27 |
| 0016 | 3323 | 852 | 4.14 |
| 0016 | 4367 | 860 | 4.02 |
| 0016 | 559 | 857 | 4.02 |
| 0066 | 0430 | 813 | 4.96 |
| 0066 | 2259 | 828 | 4.21 |
| 0066 | 2485 | 771 | 5.46 |
| 0066 | 2742 | 807 | 4.91 |
| 0066 | 2832 | 807 | 5.50 |
| 0066 | 3031 | 820 | 4.37 |
| 0066 | 3131 | 832 | 4.54 |
| 0066 | 4196 | 571 | 5.35 |
| 0066 | 5222 | 849 | 4.45 |
| 0066 | 5853 | 782 | 4.74 |
| 0066 | 6910 | 875 | 4.54 |
| 0088 | 366 | 827 | 4.23 |
| 0223 | 17355 | 858 | 4.09 |
| 0223 | 42648 | 807 | 4.86 |
| 0223 | 7790 | 815 | 5.16 |
| 0225 | 14383 | 809 | 4.17 |
| 0225 | 40922 | 836 | 4.44 |
| 0225 | 42145 | 812 | 4.46 |
| 0225 | 43724 | 621 | 3.37 |
| 0225 | 45217 | 816 | 4.32 |
| 0225 | 46268 | 793 | 4.74 |
| 0225 | 47823 | 827 | 4.29 |
| 0225 | 48848 | 865 | 4.22 |

对于特定医生的语音识别质量跟踪

5853医生的识别质量变化曲线:

6910医生的识别质量变化曲线:

5018医生的识别质量变化曲线:

1375医生的识别质量变化曲线:

相关推荐
undsky_几秒前
【RuoYi-SpringBoot3-Pro】:接入 AI 对话能力
人工智能·spring boot·后端·ai·ruoyi
网易伏羲11 分钟前
网易伏羲受邀出席2025具身智能人形机器人年度盛会,并荣获“偃师·场景应用灵智奖
人工智能·群体智能·具身智能·游戏ai·网易伏羲·网易灵动·网易有灵智能体
搬砖者(视觉算法工程师)15 分钟前
什么是无监督学习?理解人工智能中无监督学习的机制、各类算法的类型与应用
人工智能
西格电力科技21 分钟前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
TextIn智能文档云平台26 分钟前
图片转文字后怎么输入大模型处理
前端·人工智能·python
Hy行者勇哥26 分钟前
从零搭建小智 AI 音箱 MCP 开发环境:自定义智能家居控制技能实战指南
人工智能·嵌入式硬件·硬件工程·智能家居
leaf_leaves_leaf26 分钟前
强化学习奖励曲线
人工智能
数据的世界0126 分钟前
重构智慧书-第18条:实力与实干
人工智能
Rabbit_QL26 分钟前
【LLM基础教程】语言模型基础
人工智能·语言模型·自然语言处理
小程故事多_8028 分钟前
开源界核弹级输出!蚂蚁 Agentar-Scale-SQL 凭 “编排式扩展” 技术,成为 Text-to-SQL 天花板
数据库·人工智能·sql·开源·aigc·embedding