PMC-LLaMA: Towards Building Open-source Language Models for Medicine

本文是LLM系列文章,针对《PMC-LLaMA: Towards Building Open-source Language Models for Medicine》的翻译。

PMC LLaMA:构建医学开源语言模型

摘要

最近,大型语言模型(LLM)在自然语言理解方面展示了非凡的能力。尽管这些模型在日常对话和问答中表现出了熟练程度,但由于缺乏特定领域的知识,它们在需要精确性的领域(如医学应用)中经常会遇到困难。在本文中,我们描述了构建一个专门为医学应用程序设计的强大的开源语言模型的过程,称为PMC LLaMA。我们的贡献有三方面:(i)我们系统地研究了将通用基础语言模型适应医学领域的过程,这包括通过整合480万篇生物医学学术论文和3万本医学教科书,以数据为中心的知识注入,以及与特定领域指令相一致的全面微调;(ii)我们为指令调整提供了一个大规模、全面的数据集。该数据集包括医学问答(QA)、推理原理和对话,共包括202M个token;(iii)我们进行了彻底的消融研究,以证明每个提议组件的有效性。在评估各种公共医疗问答基准时,我们的轻量级PMCLLaMA仅包含130亿个参数,表现出卓越的性能,甚至超过了ChatGPT。所有模型、代码和数据集都可以在https://github.com/chaoyi-wu/PMC-LLaMA找到.

引言

相关工作

问题定义

数据集构造

实验

结果

结论

在本文中,我们系统地研究了在开源大语言模型的基础上建立医学专用大语言模型,包括以数据为中心的知识注入和医学专用指令调整。因此,我们提出的PMC LLaMA是第一个开源的医学专用语言模型,它在各种医学基准测试上表现出优异的性能,超过了ChatGPT和LLaMA-2,参数要少得多。

相关推荐
Lx352几秒前
AutoML逆袭:普通开发者如何玩转大模型调参
人工智能
IT古董2 分钟前
【漫话机器学习系列】185.神经网络参数的标准初始化(Normalized Initialization of Neural Network Parameter
人工智能
嘻嘻哈哈开森4 分钟前
Java开发工程师转AI工程师
人工智能·后端
rocksun5 分钟前
Agentic AI和平台工程:如何结合
人工智能·devops
孔令飞16 分钟前
关于 LLMOPS 的一些粗浅思考
人工智能·云原生·go
Lecea_L22 分钟前
你能在K步内赚最多的钱吗?用Java解锁最大路径收益算法(含AI场景分析)
java·人工智能·算法
2501_9071368225 分钟前
OfficeAI构建本地办公生态:WPS/Word双端联动,数据自由流转
人工智能·word·wps
飞哥数智坊30 分钟前
从零构建自己的MCP Server
人工智能
是Dream呀32 分钟前
ResNeXt: 通过聚合残差变换增强深度神经网络
人工智能·算法
项目申报小狂人43 分钟前
CUDA详细安装及环境配置——环境配置指南 – CUDA+cuDNN+PyTorch 安装
人工智能·pytorch·python