KU Leuven & TU Berlin 推出“RobBERT”,一款荷兰索塔 BERT

荷兰语是大约24万人的第一语言,也是近5万人的第二语言,是继英语和德语之后第三大日耳曼语言。来自比利时鲁汶大学和柏林工业大学的一组研究人员最近推出了基于荷兰RoBERTa的语言模型RobBERT。

谷歌的BERT(来自Transformers的B idirectional Encoder R表示)于2019年首次推出,是一种强大而流行的语言表示模型,旨在预训练来自未标记文本的深度双向表示。研究表明,在单一语言上训练的BERT模型明显优于多语言版本。

与以前使用早期的BERT实现来训练荷兰语BERT的方法不同,新研究使用了RoBERTa,这是去年夏天由Facebook AI和华盛顿大学西雅图分校的研究人员推出的BERT的改进版本。RobBERT 经过了来自 OSCAR 语料库荷兰部分的 6 亿字总计 6 GB 文本的预训练。

与SOTA相比,RobBERT在几个下游任务上进行了微调的结果

研究人员在不同环境中评估了RobBERT在多个下游任务上的表现,比较了其在荷兰书评数据集(DBRD)的情感分析中的表现,以及荷兰语特有的任务,将Europarl话语语料库中的"die"与"dat(that)"区分开来。结果表明,RobBERT在情感分析方面优于现有的基于荷兰BERT的模型,如BERTje,并在"Die/Dat"消歧任务上取得了最先进的结果。

本文确定了这项研究的可能改进和未来方向,例如训练类似的模型,改变训练数据格式和预训练任务,如句子顺序预测,以及将RobBERT应用于其他荷兰语任务。

预训练的RobBERT模型可以与Hugging Face的变压器和Facebook的Fairseq工具包一起使用。顺便说一下,RobBERT标志源于这样一个事实,即"rob"这个词在荷兰语中也是"印章"的意思。

论文RobBERT:基于荷兰RoBERTa的语言模型在arXiv上发表。模型和代码可在 GitHub 上找到。

相关推荐
薛定e的猫咪4 分钟前
【ICRA 2025】面向杂技机器人的分阶段奖励塑形:一种约束多目标强化学习方法
人工智能·深度学习·机器学习·机器人
高洁017 分钟前
产品数字孪生体与数字样机及数字化交付的应用
人工智能·深度学习·算法·数据挖掘·transformer
chatexcel10 分钟前
ChatExcel 多模态解析能力上线:AI 自动生成结构化表格实践
人工智能
CHrisFC26 分钟前
江苏硕晟LIMS pro3.0:引领实验室信息管理新高度
大数据·人工智能
LOnghas121128 分钟前
YOLO11-SPPF-LSKA实现橡胶密封圈表面缺陷检测,提升检测精度与效率
人工智能·计算机视觉·目标跟踪
bclshuai33 分钟前
深度学习算法辅助股票分析
人工智能·深度学习·算法
ai_xiaogui35 分钟前
SoVitsSvc 4.0 人声转换整合包:羽毛布版一键启动,零环境配置实现高质量 AI 歌声克隆
人工智能·机器学习·sovitssvc 4.0·羽毛布版 ai 变声器一键安装·高保真 ai 歌声转换环境部署·零基础安装 sovitssvc
weisian15136 分钟前
入门篇--知名企业-40-中国AI生态全景图:浪潮奔涌,未来已来
人工智能
syounger39 分钟前
SAP Business AI:2025年Q4发布亮点
人工智能