PubMedBERT:生物医学自然语言处理领域的特定预训练模型

今年大语言模型的快速发展导致像BERT这样的模型都可以称作"小"模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta,这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中,大语言模型并不一定就是最优的解决方案,"小"模型也有一定的用武之地,所以今天我们来介绍PubMedBERT,它使用特定领域语料库从头开始预训练BERT,这是微软研究院2022年发布在ACM的论文。

论文的主要要点如下:

对于具有大量未标记文本的特定领域,如生物医学,从头开始预训练语言模型比持续预训练通用领域语言模型效果显著。提出了生物医学语言理解与推理基准(BLURB)用于特定领域的预训练。

PubMedBERT

1、特定领域Pretraining

研究表明,从头开始的特定领域预训练大大优于通用语言模型的持续预训练,从而表明支持混合领域预训练的主流假设并不总是适用。

2、模型

使用BERT。对于掩码语言模型(MLM),全词屏蔽(WWM)强制要求整个词必须被屏蔽。

3、BLURB数据集

据作者介绍,BLUE[45]是在生物医学领域创建NLP基准的第一次尝试。但BLUE的覆盖范围有限。针对基于pubmed的生物医学应用,作者提出了生物医学语言理解与推理基准(BLURB)。

PubMedBERT使用更大的特定领域语料库(21GB)。

结果展示

在大多数生物医学NLP任务中,PubMedBERT始终优于所有其他BERT模型,并且通常具有显著的优势。

论文地址:

https://avoid.overfit.cn/post/02c09a271dd246f4b04421794d87c679

作者:Sik-Ho Tsang

相关推荐
阿里云大数据AI技术3 分钟前
Agentic风控:Flink+Fluss+大模型构建Agent全链路风险感知与实时告警
人工智能·flink
用户79457223954137 分钟前
一句话生成短视频:当 AI Skills 真正打通"创作流水线"
人工智能·github·ai编程
code 小楊9 分钟前
Hermes Agent(爱马仕智能体)全面深度测评与OpenClaw对比分析
人工智能·开源
花椒技术11 分钟前
聊聊AI协同编写【测试用例】这件事
人工智能·ai编程·测试
丷丩14 分钟前
从“失忆工具“到“智能助手“:GeoAI平台的Agent架构演进
人工智能·架构·gis·空间分析·geoai
qq_4112624227 分钟前
四博 AI 智能音箱方案:基于 ESP32-S3 打造远场拾音、多网络接入、可二次开发的 AI 语音终端
网络·人工智能·智能音箱
一叶飘零_sweeeet40 分钟前
AI Agent 深潜:六大核心模块的设计本质与 Java 实现
java·人工智能·agent
Swift社区41 分钟前
System + AI:下一代 鸿蒙App 架构
人工智能·架构·harmonyos
跨境摸鱼43 分钟前
低价模型承压阶段跨境品牌如何把重心转向复购与客单
大数据·人工智能·跨境电商·亚马逊·跨境
上海云盾-小余1 小时前
边缘节点安全赋能:CDN 联动高防抵御复合型流量攻击
人工智能·安全