NLP之文本纠错开源大模型:兼看语音大模型总结

今天我们来看开源相关进展,看两个问题。

一个是大模型用于文本纠错开源工具,有一些模型跟数据,可以做个记录。

另外,在语音方面,也有一些语音转写或者对话的大模型,也做个技术汇总,看看有哪些模型,哪些数据,哪些tokenizer。

一、大模型用于文本纠错开源工具

先看NLP进展,中文拼写和语法纠错大模型,https://github.com/TW-NLP/ChineseErrorCorrector,支持中文拼写和语法错误纠正,并开源拼写和语法错误的增强工具。

具体功能上,支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共 14种错误。

开放模型上,大模型训练代码,给出了多个模型,有4B、7B和1.5j几个版本,如https://huggingface.co/twnlp/ChineseErrorCorrector3-4B,具体如下:

训练数据上,使用200万纠错数据进行全量训练,适用于语法纠错和拼写纠错,也开源了数据集,数据集如下:

二、语音大模型的技术总结

语音大模型进展,Awesome-SpeechLM-Survey,涵盖了50多种语音语言模型,提供丰富的模型资源,《Recent Advances in Speech Language Models: A Survey》: https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

其中重点的,可以看:

1、目前有哪些训练数据集:

2、目前对于语音的tokenizer:

3、目前主流的语音大模型:

相关推荐
可信AI Coding4 分钟前
AI产业周报|AI编程工具的代际跃迁:可信智能开发进入自主时代
ai·大模型·编程
AI帮小忙5 分钟前
Debian/Ubuntu 系linux操作系统Kali Linux 2026 里安装 Hermes Agent
人工智能
乌恩大侠8 分钟前
基站正在成为 AI 计算节点:NVIDIA Aerial 推动 RAN 架构重构
人工智能·重构·架构
qq_525513759 分钟前
第七章 指令微调学习(五)Extracting and saving responses
大模型
钓了猫的鱼儿12 分钟前
基于深度学习+AI的水下目标目标检测与预警系统(Python源码+数据集+UI可视化
人工智能·深度学习·智能手机
Ting-yu16 分钟前
Spring AI Alibaba零基础速成(6) ---- 向量化
数据库·人工智能
YUDAMENGNIUBI18 分钟前
day29_NLP概念与文本预处理
人工智能·自然语言处理
南屹川19 分钟前
【安全】代码安全审计与防护实践
人工智能
深开鸿21 分钟前
福田区全栈式鸿蒙AI数智机关入选全市首批OR示范应用项目,深开鸿筑牢政务安全底座
人工智能·openharmony·政务
进度猫21 分钟前
八款项目管理软件对比:功能、局限与适用团队
人工智能·项目管理·产品经理·甘特图·项目管理软件