柳叶刀|参考文献不存在

伪造引文:涵盖250万篇生物医学论文的核查研究

学术文献的可靠性依赖引文完整性。伪造引文(指向不存在的出版物)源于论文工厂、故意学术不端或对人工智能写作工具的不当使用;大语言模型生成的生物医学引文中,30%~69%为伪造。本研究采用自动化引文验证系统,核查了2023---2026年的250万篇生物医学论文、9,710万条带PubMed识别号的引文,在2,810篇论文中检出4,046条伪造引文。受大语言模型普及与论文工厂活动驱动,伪造率飙升12倍以上,从2023年每万篇约4条升至2026年初每万篇56.9条。伪造引文格式规范、难以检测,98.4%的涉事论文未获处理,已破坏临床指南的证据基础。本研究提出4项机构层面的整改措施以遏制伪造引文问题。

mt3315@cumc.columbia.edu

#伪造引文 #生物医学文献 #学术不端 #大语言模型幻觉 #论文工厂 #引文完整性 #自动化核查

图 2023年1月---2026年2月PubMed Central数据库中每万篇论文的季度伪造引文率

2023年全年伪造引文率稳定在每万篇约4条(蓝线);2024年中期开始,伪造率急剧上升,至2026年初达到每万篇约57条。每个数据点代表1个自然季度;空心符号代表不完整季度(2026年1月1日---2月18日),实心符号代表完整自然季度。

详细总结

思维导图

伪造引文规模(关键数据)

参考

Fabricated citations: an audit across 2·5 million biomedical papers

The Lancet, 407, 1779-1781

260509Fabricated.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

相关推荐
threelab1 小时前
Three.js 概率统计可视化 | 三维可视化 / AI 提示词
开发语言·javascript·人工智能
TG_yunshuguoji1 小时前
阿里云代理商:阿里云百炼部署的deepseek v4怎么使用?
服务器·人工智能·阿里云·云计算·ai智能体·deepseek v4
初心未改HD1 小时前
机器学习之K-Means聚类算法详解
算法·机器学习·kmeans
yugi9878381 小时前
主动噪声控制中的 FXLMS 算法研究与 MATLAB 实现
开发语言·算法·matlab
Raink老师1 小时前
【AI面试临阵磨枪-52】LLM 服务高并发、高可用设计:负载均衡、池化、扩容、容错
人工智能·ai 面试
三维重建-光栅投影1 小时前
最小二乘中的矩阵求导基础总结
线性代数·机器学习·矩阵
Raink老师1 小时前
【AI面试临阵磨枪-53】AI 应用成本优化:模型选型、Token 控制、缓存、异步、轻量降级
人工智能·ai 面试
Liangwei Lin1 小时前
LeetCode 394. 字符串解码
数据结构·算法
百家方案1 小时前
2026年AI+智慧网格全场景应用解决方案白皮书
人工智能·智慧城市·智慧网格·ai+智慧网格·智慧网格白皮书·智慧网格解决方案·智慧网格技术架构