NLP之文本纠错开源大模型:兼看语音大模型总结

今天我们来看开源相关进展,看两个问题。

一个是大模型用于文本纠错开源工具,有一些模型跟数据,可以做个记录。

另外,在语音方面,也有一些语音转写或者对话的大模型,也做个技术汇总,看看有哪些模型,哪些数据,哪些tokenizer。

一、大模型用于文本纠错开源工具

先看NLP进展,中文拼写和语法纠错大模型,https://github.com/TW-NLP/ChineseErrorCorrector,支持中文拼写和语法错误纠正,并开源拼写和语法错误的增强工具。

具体功能上,支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共 14种错误。

开放模型上,大模型训练代码,给出了多个模型,有4B、7B和1.5j几个版本,如https://huggingface.co/twnlp/ChineseErrorCorrector3-4B,具体如下:

训练数据上,使用200万纠错数据进行全量训练,适用于语法纠错和拼写纠错,也开源了数据集,数据集如下:

二、语音大模型的技术总结

语音大模型进展,Awesome-SpeechLM-Survey,涵盖了50多种语音语言模型,提供丰富的模型资源,《Recent Advances in Speech Language Models: A Survey》: https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

其中重点的,可以看:

1、目前有哪些训练数据集:

2、目前对于语音的tokenizer:

3、目前主流的语音大模型:

相关推荐
半臻(火白)4 小时前
Prompt-R1:重新定义AI交互的「精准沟通」范式
人工智能
菠菠萝宝4 小时前
【AI应用探索】-10- Cursor实战:小程序&APP - 下
人工智能·小程序·kotlin·notepad++·ai编程·cursor
连线Insight4 小时前
架构调整后,蚂蚁继续死磕医疗健康“硬骨头”
人工智能
小和尚同志4 小时前
十月份 AI Coding 实践!Qoder、CC、Codex 还是 iflow?
人工智能·aigc
keke.shengfengpolang4 小时前
中专旅游管理专业职业发展指南:从入门到精通的成长路径
人工智能·旅游
大任视点4 小时前
新时代旅游职业教育系列教材编写研讨会成功举办
大数据
Danceful_YJ4 小时前
35.微调BERT
人工智能·深度学习·bert
ZPC82105 小时前
FPGA 部署ONNX
人工智能·python·算法·机器人
愿没error的x5 小时前
深度学习基础知识总结(一):深入理解卷积(Convolution)
人工智能·深度学习
罗西的思考5 小时前
【智能硬件】AI 眼镜论文笔记
人工智能