生成式人工智能、大语言模型在医学教育教学中的前沿探讨

摘要

生成式人工智能与大语言模型的崛起，正在引发医学教育领域一场深刻的范式变革。自ChatGPT于2022年底公开发布以来，相关学术文献呈指数级增长，研究焦点已从早期的概念探讨迅速转向实证应用与课程整合。研究发现，LLM已渗透至医学教育的"课前-课中-课后"全周期，在教学内容生成、临床推理训练、个性化学习支持等方面展现出显著效能。然而，技术热潮背后潜藏着医学幻觉、学术诚信、批判性思维侵蚀等深层隐忧。本文提出"能力-伦理-评价"三维治理框架，主张从"技术赋能"走向"生态重构"，在拥抱技术红利的同时守护医学教育的本质价值。

一、引言：智能时代的医学教育范式之问

1.1 从技术事件到教育革命

2022年11月30日，ChatGPT的发布不仅是一个技术事件，更成为医学教育史上的分水岭。这一基于大语言模型的对话式人工智能，以其前所未有的自然语言理解与生成能力，迅速渗透至全球医学院校的教学场景。2025年初，中国开发的DeepSeek-R1以开源、免费、高效的特点进一步加速了这一进程，为中文医学教育提供了本土化的智能解决方案。

文献计量分析清晰地勾勒出这场变革的轨迹：1999年至2018年间，AI在医学教育领域的年均发文量不足20篇；2019年起开始缓慢上升；而2023-2024年间，相关文献呈现"指数级爆发"。仅2024年前四个月发表的UGME相关AI文献，就占2020-2023年总量的相当比例。这一增长曲线的陡峭程度，远超此前任何教育技术革命的扩散速度。

1.2 核心问题与研究方法

然而，学术产出的激增并不等同于对教育本质的深刻理解。当前研究面临三重追问：其一，LLM在医学教育中的真实效能如何------是昙花一现的技术噱头，还是能够实质改善学习成果的工具？其二，这一技术对医学生的临床推理能力、批判性思维究竟产生何种影响？其三，如何在制度层面构建负责任的整合框架？

本文采用叙述性综述与主题分析方法，整合Web of Science、PubMed、Scopus等数据库2020-2025年的核心文献，结合CiteSpace文献计量分析与Laurillard"对话框架"等教育理论，系统呈现LLM赋能医学教育的前沿图景。

二、发展态势：从边缘探索到主流议题

2.1 学术产出的指数级增长

根据Wang等人对Web of Science核心合集1999-2025年文献的计量分析，LLM在医学教育领域的研究经历了三个清晰的演化阶段：

截至2025年3月，相关文献已达837篇，总被引16,262次，h-index为56。这意味着有56篇论文至少被引56次，表明该领域已形成相当规模的学术影响力。

从国别分布看，美国、中国、加拿大是主要贡献国。美国在合作网络中处于中心位置，中国发文量位居前列，DeepSeek的出现进一步激活了本土研究生态。核心研究机构包括梅奥诊所、多伦多大学、卡罗林斯卡学院等，JMIR Medical Education是发表量最高的期刊。

2.2 从"能不能用"到"怎么用好"

关键词共现与突现分析揭示了研究焦点的演化轨迹。早期研究集中于"machine learning"、"natural language processing"等技术概念；2023年后，"ChatGPT"、"generative AI"、"prompt engineering"成为高频词；2024-2025年，"DeepSeek"、"open-source models"、"clinical reasoning"开始突现。

这一演化的本质是：研究议题已从"LLM能否通过医学考试"的技术验证，转向"LLM如何整合入课程体系"的教育设计。ChatGPT在USMLE三阶段考试中均通过及格线的发现，只是这场探索的起点而非终点。

BMC Medical Education发表的最新范围综述（纳入310篇文献）进一步确认了这一判断：2020-2024年间，AI在UGME中的应用已覆盖基础科学课程与临床课程，应用类型包括自主学习辅导、自我评估、模拟学习、评估生成与评分、临床能力评估、程序技能评估、预测分析等。但值得注意的是，尚无研究评估AI对医学生批判性思维或临床推理能力的影响------这一空白恰恰是当前最紧迫的研究议程。

三、应用图景：LLM赋能医学教育的多维实践

3.1 课前-课中-课后的全周期嵌入

基于Laurillard"对话框架"的分析表明，LLM在医学教育中的应用已渗透至学习全周期。Pham等人的系统综述（纳入33项研究）将LLM支持的学习活动映射至六种学习类型：

实践与探究占据主导地位，反映了LLM在临床推理训练中的核心价值------学生通过与AI"虚拟病人"的对话练习问诊技巧，或借助AI生成鉴别诊断清单来拓展临床思维。而讨论与协作的低占比则揭示了一个值得警惕的趋势：LLM可能正在将学习推向"个体化"而非"社会化"。医学教育的本质不仅是知识传递，更是专业社会化过程------这一维度在AI时代面临被削弱的风险。

3.2 教学创新：内容生成、情景模拟与个性化反馈

案例生成与课程设计：LLM能够快速生成符合特定学习目标的多选题、临床案例和任务卡。研究表明，ChatGPT生成的临床案例质量与人类专家相当。在中医教育领域，LLM已被用于生成符合辨证论治逻辑的案例，辅助CBL教学。

虚拟病人与临床推理训练：LLM驱动的"虚拟病人"可模拟真实医患对话，学生在安全环境中练习问诊、鉴别诊断和治疗决策。一项随机对照研究发现，使用ChatGPT辅助学习的医学生在短期骨科测试及外科、妇产科最终考试中均表现更优。

个性化学习支持：LLM可根据学习者的认知风格和学习进度定制内容------为视觉学习者生成3D解剖模型，为听觉学习者生成播客式讲解，为动觉学习者在虚拟手术中提供步骤级指导。语言障碍也可被LLM克服，帮助非母语医学生更好地理解专业文献。

3.3 评估革新：从标准化到生成式

传统医学教育评估面临"题目泄露"、"题库老化"、"难以评估高阶思维"等困境。LLM正在从两个方向改变这一局面：

题目生成：LLM可生成与"可信赖专业活动"(EPAs)对齐的考题，以及鼓励深度思考的"情境丰富简答题"(CR-SAQs)。研究发现，LLM生成与人类编写的题目质量相当。

答案评估：对于开放性问题，LLM可作为评分助手，提供初步评估和反馈。这在大班教学中具有显著效率价值。

然而，LLM在评估中的应用也引发了最尖锐的争议：当学生可以用AI完成作业时，我们究竟在评估谁的能力？这一问题尚无共识性答案。

四、隐忧与挑战：技术光环下的教育本质之思

4.1 医学幻觉与知识可信度

LLM的"医学幻觉"(medical hallucination)------生成看似合理实则错误或过时的信息------是在医学教育中应用的首要风险。一项针对DeepSeek等模型的基准评估发现，即使在临床决策支持任务中，模型仍可能出现事实性错误。

在医学教育场景中，这一风险的后果尤为严重。医学生尚处于知识构建阶段，可能缺乏识别AI错误的能力。如果LLM提供的错误信息被学生不加批判地接受，将直接损害知识基础的准确性。

4.2 学术诚信与人机边界

LLM使"作业代写"变得前所未有的便捷。这引发了关于学术诚信的根本性质疑：什么构成"自己的"作业？何时使用AI是可接受的，何时构成作弊？

当前各院校的政策差异巨大，从完全禁止到鼓励探索不等。Toohey等人的范围综述提出了一个框架性回应：区分"AI作为思维工具"与"AI作为答案生成器"，前者应被培养，后者应被规范。

4.3 批判性思维与认知外包

这或许是LLM对医学教育最深层的挑战。当LLM能够"代劳"信息检索、综合甚至初步推理时，学生是否会失去发展这些核心能力的机会？

Cooper和Rodman将这一困境称为"21世纪的潘多拉魔盒"。已有学者担忧，LLM可能加速"技能衰退"(skill decay)而非技能习得。如果临床推理过程被外包给AI，未来的医生是否还具备独立决策能力？

4.4 数字鸿沟与教育公平

LLM的获取并非全球均等。虽然DeepSeek等开源模型降低了门槛，但算力资源、网络基础设施、语言支持等方面的差异仍然存在。研究显示，非洲地区的相关研究几乎空白。这可能加剧而非缩小全球医学教育的差距。

五、治理路径：构建负责任的整合框架

5.1 能力框架：AI素养作为核心胜任力

应对LLM挑战的治本之策，是将"AI素养"纳入医学教育的核心胜任力框架。这包括三个层次：

基础层：理解LLM的基本原理、能力边界与局限（如"幻觉"的存在）。应用层：掌握有效提示工程(prompt engineering)技能，能够与LLM高效协作。批判层：能够评估LLM输出的质量，识别潜在错误，并在必要时质疑AI建议。

Toohey等人提出的框架建议围绕三个支柱构建整合策略：学生AI素养、教育者能力、评估设计。

5.2 伦理框架：透明度、问责与以人为本

透明度原则：LLM在医学教育中的使用应明确披露。课程中应讨论AI的"黑箱"特性及其对临床决策的影响。

问责原则：最终决策责任始终在人。学生和医生应对采纳AI建议的后果负责。

以人为本原则：LLM不应削弱医患关系中的人文维度。AI无法替代共情、信任建立和非语言沟通的训练。

5.3 评估重构：从过程监控到能力认证

LLM时代对评估提出了重构要求。单一的结果评估（如论文、作业）已不足以保证学习真实发生。可能的回应包括：

过程性评估：要求学生记录与AI协作的过程，展示提示策略、输出评估和修正过程。口试与展示：现场答辩仍是检验真实理解的有效方式。临床能力考试(OSCE)：在标准化病人互动中评估真实临床技能，AI难以替代。

六、未来展望：从"技术赋能"到"生态重构"

6.1 研究议程的优先方向

基于当前文献空白，未来研究应重点关注：

学习成果评估：LLM对批判性思维、临床推理能力的长期影响，亟需纵向研究。人机协同教学法：何种教学策略能最大化LLM的益处同时最小化风险？文化适配性：LLM在不同医疗文化背景下的表现差异与调适策略。

6.2 教育者的新角色

在LLM时代，医学教师的核心任务正在发生根本转变：从"知识传递者"转向"学习设计师"和"AI协作导师"。这要求教师发展新的专业能力------不仅要会用AI工具，更要能设计AI增强的学习体验，并引导学生批判性地使用AI。

6.3 结论：拥抱变革，守护本质

生成式AI与大语言模型正在以不可逆的方式重塑医学教育。这一变革既是机遇也是挑战。拥抱技术红利的同时，我们必须守护医学教育的核心使命------培养具备临床推理能力、人文关怀精神和终身学习能力的医师。

LLM不应被视为答案的提供者，而应被理解为思维的伙伴。在"人-机"协作的新生态中，教育者的终极任务仍然是：培养那些机器无法替代的人类能力。