NLP之文本纠错开源大模型:兼看语音大模型总结

今天我们来看开源相关进展,看两个问题。

一个是大模型用于文本纠错开源工具,有一些模型跟数据,可以做个记录。

另外,在语音方面,也有一些语音转写或者对话的大模型,也做个技术汇总,看看有哪些模型,哪些数据,哪些tokenizer。

一、大模型用于文本纠错开源工具

先看NLP进展,中文拼写和语法纠错大模型,https://github.com/TW-NLP/ChineseErrorCorrector,支持中文拼写和语法错误纠正,并开源拼写和语法错误的增强工具。

具体功能上,支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共 14种错误。

开放模型上,大模型训练代码,给出了多个模型,有4B、7B和1.5j几个版本,如https://huggingface.co/twnlp/ChineseErrorCorrector3-4B,具体如下:

训练数据上,使用200万纠错数据进行全量训练,适用于语法纠错和拼写纠错,也开源了数据集,数据集如下:

二、语音大模型的技术总结

语音大模型进展,Awesome-SpeechLM-Survey,涵盖了50多种语音语言模型,提供丰富的模型资源,《Recent Advances in Speech Language Models: A Survey》: https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

其中重点的,可以看:

1、目前有哪些训练数据集:

2、目前对于语音的tokenizer:

3、目前主流的语音大模型:

相关推荐
新加坡内哥谈技术7 小时前
解决了“错误的问题”:对AI编程热潮的深度反思
人工智能
渡我白衣7 小时前
未来的 AI 操作系统(八)——灵知之门:当智能系统开始理解存在
人工智能·深度学习·opencv·机器学习·计算机视觉·语言模型·人机交互
武子康7 小时前
大数据-133 ClickHouse 概念与基础|为什么快?列式 + 向量化 + MergeTree 对比
大数据·后端·nosql
夕小瑶7 小时前
Dexmal 原力灵机开源 Dexbotic:具身智能的“Transformers“库来了
大数据·人工智能
飞飞是甜咖啡7 小时前
SPP-CNN解决CNN只能处理固定大小的输入图片
人工智能·神经网络·cnn
xiaoxiaode_shu7 小时前
神经网络基础
人工智能·深度学习·神经网络
想ai抽7 小时前
Flink的checkpoint interval与mini-batch什么区别?
大数据·flink·batch
字节跳动数据平台8 小时前
火山引擎推出Data Agent评测体系,并发布《2025数据智能体实践指南》
大数据
字节跳动数据平台8 小时前
火山引擎发布新产品用户研究Agent,并推出数据智能体评测体系
大数据
在未来等你8 小时前
Kafka面试精讲 Day 29:版本升级与平滑迁移
大数据·分布式·面试·kafka·消息队列