NLP之文本纠错开源大模型:兼看语音大模型总结

今天我们来看开源相关进展,看两个问题。

一个是大模型用于文本纠错开源工具,有一些模型跟数据,可以做个记录。

另外,在语音方面,也有一些语音转写或者对话的大模型,也做个技术汇总,看看有哪些模型,哪些数据,哪些tokenizer。

一、大模型用于文本纠错开源工具

先看NLP进展,中文拼写和语法纠错大模型,https://github.com/TW-NLP/ChineseErrorCorrector,支持中文拼写和语法错误纠正,并开源拼写和语法错误的增强工具。

具体功能上,支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共 14种错误。

开放模型上,大模型训练代码,给出了多个模型,有4B、7B和1.5j几个版本,如https://huggingface.co/twnlp/ChineseErrorCorrector3-4B,具体如下:

训练数据上,使用200万纠错数据进行全量训练,适用于语法纠错和拼写纠错,也开源了数据集,数据集如下:

二、语音大模型的技术总结

语音大模型进展,Awesome-SpeechLM-Survey,涵盖了50多种语音语言模型,提供丰富的模型资源,《Recent Advances in Speech Language Models: A Survey》: https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

其中重点的,可以看:

1、目前有哪些训练数据集:

2、目前对于语音的tokenizer:

3、目前主流的语音大模型:

相关推荐
无风听海2 分钟前
神经网络之Softmax激活函数求导过程
人工智能·深度学习·神经网络
youcans_6 分钟前
【Trae】Trae 插件实战手册(1)PyCharm 安装 Trae
人工智能·python·pycharm·ai编程·trae
说私域14 分钟前
基于开源AI智能名片链动2+1模式S2B2C商城小程序的引流爆款设计策略研究
人工智能·小程序
张较瘦_23 分钟前
[论文阅读] AI + 软件工程 | 从“事后补救”到“实时防控”,SemGuard重塑LLM代码生成质量
论文阅读·人工智能·软件工程
IT古董38 分钟前
【第五章:计算机视觉-项目实战之生成对抗网络实战】1.对抗生成网络原理-(1)对抗生成网络算法基础知识:基本思想、GAN的基本架构、应用场景、标注格式
人工智能·生成对抗网络·计算机视觉
MoRanzhi12031 小时前
0. NumPy 系列教程:科学计算与数据分析实战
人工智能·python·机器学习·数据挖掘·数据分析·numpy·概率论
金井PRATHAMA1 小时前
语义网络(Semantic Net)对人工智能中自然语言处理的深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
Gerlat小智1 小时前
【手撕机器学习 03】从“生数据”到“黄金特征”:机器学习项目中价值最高的一步
人工智能·机器学习
云澈ovo2 小时前
稀疏化神经网络:降低AI推理延迟的量化压缩技术
人工智能·深度学习·神经网络
可触的未来,发芽的智生2 小时前
新奇特:神经网络的自洁之道,学会出淤泥而不染
人工智能·python·神经网络·算法·架构