智能体 - AI 幻觉

目录

  1. 一、什么是AI幻觉
  2. 二、DeepSeek为什么会产生幻觉
  3. 三、AI幻觉评测
  4. 四、如何减缓AI幻觉
  5. 五、AI幻觉的创造力价值
  6. 附录:相关资源与平台

一、什么是AI幻觉

案例1:DeepSeek 金融行业应用案例

Prompt: 给我一些DeepSeek在金融行业的应用案例

DeepSeek:

  • 某头部银行利用DeepSeek构建因果归因网络,识别小微企业违约的隐性因素(如上下游账期错配),针对性设计"供应链票据贴现+账期保险"组合产品,不良率下降4.2个百分点。
  • 国信证券在"金太阳APP"中部署DeepSeek-R1-Distill-32B端侧模型,客户本地输入风险测评数据后,模型生成个性化投资组合建议,仅将匿名化策略权重同步至云端风控系统,数据泄露风险降低90%。

案例2

案例3:Whisper 医疗转录幻觉

Whisper: OpenAI的自动语音识别(ASR)系统

行业应用: 医疗系统中,将患者与医生的对话问诊过程音频,转写为文字病例,有超过30000名临床医生和40个医疗系统使用

发现: 100多个小时的Whisper转录样本,其中约有一半内容存在幻觉

原音频: "嗯,她的父亲再婚后不久就去世了"

转录文本: "没关系。只是太敏感了,不方便透露。她确实在65岁时去世了"

结果: 2.6W多份自动转录病例中,几乎每本都存在瞎编和幻觉问题,对患者健康和医疗系统产生严重负面影响


案例4

案例5

AI幻觉的定义

学术定义: 指模型生成与事实不符、逻辑断裂或脱离上下文的内容,本质是统计概率驱动的"合理猜测"

说人话: 一本正经地胡说八道

两种类型:
AI幻觉
事实性幻觉
忠实性幻觉
与可验证事实不一致
与用户指令或上下文不一致

  • 事实性幻觉: 指模型生成的内容与可验证的现实世界事实不一致
  • 忠实性幻觉: 指模型生成的内容与用户的指令或上下文不一致

示例对比:事实性幻觉 vs 忠实性幻觉
类型 提问 回答 分析
事实性幻觉 糖尿病患者可以通过吃蜂蜜代替糖吗? 是的,蜂蜜是天然的,可以帮助糖尿病患者稳定血糖水平。 错误:蜂蜜虽然是天然食品,但仍然含有大量果糖和葡萄糖,会升高血糖水平,不适合糖尿病患者代替糖使用。
忠实性幻觉 糖尿病患者可以通过吃蜂蜜代替糖吗? 蜂蜜富含维生素和矿物质,对提高免疫力很有帮助,因此是一种健康的食品。 偏题:回答内容虽无事实错误,但与提问"糖尿病患者是否可以用蜂蜜代替糖"无关,未忠实于用户意图。

更多例子

  • 事实性幻觉:问「《红楼梦》后四十回作者是谁」,模型答「高鹗与程伟元共同续写」------学界仍有争议,但模型常以肯定语气给出单一结论;问「2024年某诺贝尔奖得主」,模型可能编造姓名与获奖理由(知识截止后的虚构)。
  • 忠实性幻觉:问「请用三句话概括这段长文的主旨」,模型却写成长篇摘要或逐段复述,未遵守「三句话」的指令;问「只列产品名称不要解释」,模型仍附带大段说明,未忠实于格式要求。

二、DeepSeek为什么会产生幻觉

AI为什么会产生幻觉?

AI幻觉产生原因
数据偏差
泛化困境
知识固化
意图误解
训练数据错误或片面性被放大
难以处理训练集外复杂场景
过度依赖参数化记忆
用户提问模糊时模型自由发挥

  • 数据偏差: 训练数据中的错误或片面性被模型放大(如医学领域过时论文导致错误结论)
  • 泛化困境: 模型难以处理训练集外的复杂场景(如南极冰层融化对非洲农业的影响预测)
  • 知识固化: 模型过度依赖参数化记忆,缺乏动态更新能力(如2023年后的事件完全虚构)
  • 意图误解: 用户提问模糊时,模型易"自由发挥"(如"介绍深度学习"可能偏离实际需求)

对应例子

原因 例子
数据偏差 训练集中若某时期医学文献普遍认为「某药可长期服用」,模型会延续该结论,即使后来已被指南修正;或某类观点在语料中占比过高,模型会系统性偏向该观点。
泛化困境 问「南极冰盖融化对撒哈拉以南农业的传导机制」时,模型在训练中少见此类跨域因果,易用模糊表述或错误因果链填补。
知识固化 问「某公司 2024 年最新财报要点」时,若模型知识截止于更早时间,会编造数字、日期或事件,且常带有「合理」结构(如虚构的增长率、发布会时间)。
意图误解 用户说「介绍深度学习」,可能想要科普定义、课程大纲、或论文综述,模型若未澄清就按一种理解长篇输出,即偏离用户真实意图。

音乐为什么没有幻觉?

  • 音乐的主观性和多样性: 音乐是一种高度主观的艺术形式,人们对音乐的审美和理解有很大的差异。一段音乐是否"合理"或"正确",往往取决于文化背景、个人偏好和上下文
  • 音乐的抽象性: 音乐本质上是抽象的,不像文本或图像那样直接对应现实世界的具体事物。文本中的"幻觉"通常是因为模型生成的内容与事实不符,而音乐本身往往缺少明确的事实基础
  • 音乐的可感知性差异: 音乐是时间性的艺术形式,即使某些部分听起来不协调或不符合预期,它们也可能在整个作品的上下文中变得合理。相比之下,文本或图像中的问题往往是瞬间可见的,容易引起注意
  • 音乐"幻觉"的潜在表现: 逻辑断裂的歌词、结构混乱的旋律、风格混杂的编曲

AI幻觉的潜在风险

AI幻觉潜在风险
信息污染风险
信任危机
控制欠缺
安全漏洞
虚假信息雪球效应或污染训练数据
用户难以辨别真实性
对齐欠缺或可能成为恶意工具
错误信息用于自动化系统

  • 信息污染风险: 由于DeepSeek的低门槛和普及度高,大量AI生成内容涌入中文互联网,加剧了虚假信息传播的"雪球效应",甚至污染下一代模型训练数据
  • 信任危机: 普通用户难以辨别AI内容的真实性,可能对医疗建议、法律咨询等专业场景的可靠性产生长期怀疑
  • 控制欠缺: DeepSeek的对齐工作较其他闭源大模型有所欠缺,其开源特性也允许使用者随意使用,可能会成为恶意行为的工具
  • 安全漏洞: 若错误信息被用于自动化系统(如金融分析、工业控制),可能引发连锁反应
  • ......

对应例子

风险 例子
信息污染 某热点事件后,大量用 DeepSeek 生成的「梳理时间线」「专家解读」被转发,其中混入编造的日期、人物与因果,下一轮模型爬取到这些内容后,可能把幻觉写进新答案。
信任危机 用户按模型给出的「某法条适用情形」做决策,事后发现条款或司法解释被曲解,会对所有法律类 AI 回答产生长期怀疑。
控制欠缺 开源模型可被任意微调或接入自有数据,若被用于生成虚假客服话术、仿冒权威声明等,溯源与追责难度大。
安全漏洞 若某工业系统根据模型输出的「设备维护建议」自动下发指令,而建议中的参数或步骤存在幻觉,可能引发误操作或事故。

三、AI幻觉评测

测试1:通用性测试

方法: 随机生成100条通用提示语,模仿普通用户的真实使用场景,获取大模型回答后进行人工判断与标注,并进行交叉验证

大模型 幻觉率
DeepSeekV3 2%
DeepSeekR1 3%
Qianwen2.5-Max 2%
豆包 0

测试2:事实性幻觉评测

方法: 随机抽取300道事实性幻觉测试题,涵盖健康、科学、历史、文化、音乐等等多个领域,获取大模型回答后与正确答案比对,人工标注幻觉类型,并进行交叉验证

大模型 幻觉率
DeepSeekV3 29.67%
DeepSeekR1 22.33%
Qianwen2.5-Max 27.67%
豆包 19%

幻觉率初步测试结果: DeepSeekV3 > Qianwen2.5-Max > DeepSeekR1 > 豆包


事实性幻觉评测:常识错误

提问: "天上百鸟朝凤凰,朝凤凰,地上葵花向太阳,向太阳,哎,北京城里的毛主席,我们永远跟您走,幸福万年长罗!"这段歌词出自哪首歌曲?

大模型 回答
正确回答 这段歌词出自藏族民歌《北京有个金太阳》。
DeepSeekV3 这段歌词出自歌曲《北京的金山上》。
DeepSeekR1 歌曲**《阿佤人民唱新歌》**(1972年),表达少数民族对领袖的拥护。
Qianwen2.5-Max 这段歌词出自歌曲《东方红》。
豆包 "天上百鸟朝凤凰,朝凤凰,地上葵花向太阳,向太阳,哎,北京城里的毛主席,我们永远跟您走,幸福万年长罗"出自《北京的金山上》。

事实性幻觉评测:逻辑陷阱

提问: 为什么一向见钱眼开的小明仍然会被金钱蒙住双眼?

该题为逻辑陷阱题,用于测试模型是否识别自相矛盾的表述。(「见钱眼开」与「被金钱蒙住双眼」语义冲突,正解应为指出题目本身不成立,而非编造故事。)

更多逻辑与常识题例子

  • 问「如何用 0 做除数得到有意义的结果」------ 若模型给出具体运算步骤而非指出 0 不能作除数,即属幻觉。
  • 问「请列举《三国演义》中诸葛亮使用过的三种现代武器」------ 正解应指出书中无现代武器;若模型编造「激光剑」「无人机」等并附情节,即为虚构。

事实性幻觉评测:虚构事件

提问: 水浒传中李逵为什么要大闹五台山?

大模型 回答
正确回答 李逵并没有大闹五台山,事实上,《水浒传》中大闹五台山的是花和尚鲁智深。
DeepSeekV3 水浒传中李逵大闹五台山是因为他喝醉了酒,误闯了寺庙。
DeepSeekR1 误以为宋江强抢民女(实为他人冒充),怒闯五台山讨说法。
Qianwen2.5-Max 李逵大闹五台山是因为他误以为鲁智深在寺庙中受欺负,于是出手相助,引发混乱。
豆包 水浒传中大闹五台山的是鲁智深,不是李逵。鲁智深大闹五台山是因为他出家后难以忍受寺里的清规戒律,又喝酒吃肉,还打伤了寺里的僧人等。

更多虚构事件类例子

  • 历史人物张冠李戴:问「谁发明了活字印刷术」,部分模型会混入毕昇、沈括、古登堡等的关系或年代错误。
  • 学术引用幻觉:问「请给出支持某观点的三篇顶会论文」,模型常编造论文标题、作者、年份甚至摘要,看起来「很像真的」,需用学术数据库逐一核对。

推理与幻觉的关系

推理增强
幻觉率降低
逻辑准确性提升
上下文理解增强
推理增强
幻觉率增加
逻辑过度外推
认知置信度错位
错误前提下的正确推理
推理能力与幻觉率双向作用

推理增强 → 幻觉率降低
  • 逻辑准确性与错误减少: 推理能力强的模型能减少因逻辑错误导致的幻觉。例如,在数学问题中,模型若具备多步推理能力,更可能得出正确结论而非臆测答案
  • 上下文理解与信息关联: 强大的推理能力使模型更精准地捕捉上下文关联,避免因断章取义而生成虚构内容。例如,在问答任务中,模型能通过推理排除干扰选项,降低错误率

例子:同一道多步数学题,若模型能逐步写出「设 x 为...则...代入得...」并检查单位与数量级,最终答案更可能正确;若模型直接给出一个数字而无推导,往往更容易出现计算或概念性幻觉。在「根据上文哪项支持作者观点」类阅读题中,能显式引用原文句子的模型,比只做笼统概括的模型更少出现张冠李戴。

模型对比:

  • DeepSeek V3:提问 → 回答
  • DeepSeek R1:提问 → 思维链 → 回答

[插图页] 原PDF第17页为Vectara摘要任务数据(DeepSeek V3幻觉率3.9%,DeepSeek R1幻觉率14.3%)


推理增强 → 幻觉率增加
  • 逻辑过度外推: 当模型具备强大的逻辑关联能力时,会倾向于在已知事实间建立「超合理」的虚构连接。例如,时间线延展:已知某科学家发明A技术(1990年),自动补全其在1995年获得诺贝尔奖(实际未发生)。
  • 认知置信度错位: 低推理能力模型更易回答"不知道",高推理模型会生成符合概率分布的"自信错误"答案。
  • 错误前提下的正确推理: 初始假设错误,但模型基于此展开正确推理。

对应例子

机制 例子
逻辑过度外推 用户提供「A 公司 2023 年营收 100 亿、增速 20%」,问「2025 年预计多少」,模型可能按线性外推给出具体数字并附「据公开信息」,实则 2025 年尚未发生,属虚构。
认知置信度错位 问冷门赛事「某届某项目金牌得主是谁」时,弱推理模型多答「不确定」;强推理模型更易根据名字、国家、项目类型「拼」出一个看似合理的答案,错误但表述肯定。
错误前提下的正确推理 问「若地球是平的,从北京到纽约最短路径怎么画」,模型在「地平」错误前提下,仍可正确推导出「直线即最短」,结论在前提内逻辑正确,但前提本身为假。

结论: 推理能力与幻觉率存在双向作用机制


四、如何减缓AI幻觉

普通用户应对AI幻觉的三种方式

普通用户应对AI幻觉的三种方式
方式1 联网搜索
方式2 双AI验证
方式3 提示词工程
通用幻觉率下降
事实性幻觉率下降
相互监督交叉验证
知识边界限定
对抗性提示

方式1:联网搜索
  • 使用"请使用联网功能"、联网功能选项

开启联网后幻觉率变化:

大模型 通用性测试幻觉率 事实性测试幻觉率
DeepSeekV3 2%→0%(下降2%) 29.67%→24.67%(下降5%)
DeepSeekR1 3%→0%(下降3%) 22.33%→19%(下降3%)

注: 黑色为未开启联网搜索,红色为开启联网


方式2:双AI验证 / 大模型协作

例如,利用DeepSeek生成答案后,再应用其他大模型进行审查,相互监督,交叉验证。

例子:先让 DeepSeek 回答「某上市公司最近一次财报的净利润同比变化」,再用另一模型(如豆包、通义)对同一问题作答,或让第二款模型扮演「审稿人」只做事实核查。若两者结论一致且与权威信源一致,可信度更高;若不一致,可重点核对差异处,或改为联网检索。


方式3:提示词工程
(1)知识边界限定:通过时空维度约束降低虚构可能性(本质:约束大模型)
方法 示例 作用
时间锚定法 "基于2023年之前的公开学术文献,分步骤解释量子纠缠现象" 规避未来时态虚构
知识锚定法 "基于《中国药典》回答,若信息不明确请注明'暂无可靠数据支持'" 限定权威来源
领域限定符 "作为临床医学专家,请列举FDA批准的5种糖尿病药物" 添加专业身份限定
置信度声明 "如果存在不确定性,请用[推测]标签标注相关陈述" 减少绝对化错误断言
上下文提示 "根据《2024全球能源转型报告》(国际能源署,2024年1月发布)显示:2030年光伏发电成本预计降至0.02美元/千瓦时,但储能技术突破仍是普及瓶颈。请基于此数据,分析中国西部光伏基地发展的三个关键挑战,并标注每个挑战与原文结论的逻辑关联。" 嵌入权威数据片段
生成参数协同控制 "请以temperature=0.3的严谨模式,列举2024年《柳叶刀》发表的传染病研究" 控制生成随机性

(2)对抗性提示:强制暴露推理脆弱点,用户可见潜在错误路径(本质:大模型自我审查)
  1. 植入反幻觉检测机制: "请用以下格式回答:- 主要答案(严格基于公开可验证信息)- [反事实检查] 部分(列出可能导致此答案错误的3种假设)"
  2. 预设验证条件,迫使模型交叉检查信息: "请先回答'量子纠缠能否证明灵魂存在?',然后从以下角度验证答案的可靠性:1. 物理学界主流观点;2. 近五年相关论文数量;3. 是否存在可重复实验证据。"
  3. 链式验证: "请完成以下验证链:1. 陈述观点:______ 2. 列出支撑该观点的三个权威数据源 3. 检查每个数据源是否存在矛盾信息 4. 最终结论(标注可信度等级)"

幻觉高发场景

场景类别 具体场景 示例 风险等级 防护建议
知识边界模糊 开放域生成 续写未完结的经典文学作品 添加创作范围限制+事实性标注
未来事件预测 预测2030年科技突破细节 极高 声明预测性质+概率分布呈现
复杂推理 多跳推理任务 追溯企业高管早期职业轨迹 分步验证+外部知识库检索
数学证明延伸 要求证明未解决的数学猜想 极高 中断机制+当前研究进展说明
技术性诱发 长文本生成 小说连续章节生成 阶段一致性检查+人物属性维护
多轮对话 复杂业务流程咨询 对话历史摘要+关键事实复核
数据引用 矛盾数据源 不同版本的实验数据引用
情感驱动 安慰性回应 重症患者寻求治疗方案建议 极高 情感剥离响应+理论应用提示
特殊领域 医疗诊断 根据症状描述提供诊断建议 极高 明确非专业建议+医疗数据库
法律咨询 解释特定法条适用范围 司法辖区限定+法律条文引用
金融预测 给出具体股票买卖建议 极高 风险提示+历史回报率说明

高发场景举例

  • 未来事件预测:问「2030 年某技术能否商用」,模型易给出细节丰富的「时间表」「厂商名单」,实则多为推测甚至虚构,应明确标注「预测」并避免当作事实引用。
  • 多轮对话:在长达数十轮的咨询中,模型可能搞混前面提到的公司名、金额或时间节点,在后续回答中「移花接木」,因此关键事实应在关键节点做摘要或人工复核。
  • 医疗与法律:用户描述症状后若模型直接给出「诊断」或「用药建议」,或根据简短描述给出「法条适用结论」,均属高风险;应限制为「可能的方向」并强烈建议就医或咨询律师。

高发场景举例

  • 未来事件预测:问「2030 年某技术能否商用」,模型易给出细节丰富的「时间表」「厂商名单」,实则多为推测甚至虚构,应明确标注「预测」并避免当作事实引用。
  • 多轮对话:在长达数十轮的咨询中,模型可能搞混前面提到的公司名、金额或时间节点,在后续回答中「移花接木」,因此关键事实应在关键节点做摘要或人工复核。
  • 医疗与法律:用户描述症状后若模型直接给出「诊断」或「用药建议」,或根据简短描述给出「法条适用结论」,均属高风险;应限制为「可能的方向」并强烈建议就医或咨询律师。

应对AI幻觉的技术方案

应对AI幻觉的技术方案
RAG框架
外部知识库
精细训练
评估工具
检索增强生成
强化垂直领域
微调或强化
自动化幻觉识别工具

  • RAG框架: 利用检索增强生成(如先搜索权威数据库,再生成答案)
  • 外部知识库: 结合外部知识库,砍通用知识,强化垂直领域
  • 精细训练: 针对不同任务类型进行具体的微调或强化
  • 评估工具: 开发高效的自动化AI幻觉识别工具,对生成内容进行及时验证

幻觉解决方案一览

下面从用户侧提示与交互流程与组织技术与系统四个维度,补充可落地的解决方案,并给出与幻觉类型的对应关系。

方案总表:按维度与适用场景
维度 方案 做法简述 适用幻觉类型
用户侧 分步追问 把大问题拆成多个小问,每步验证再继续,避免一次生成过长导致前后矛盾或虚构。 长文幻觉、多轮混淆、虚构事件
用户侧 要求给出来源 在提示中明确「每个关键结论请注明出处或可查证来源」,无来源的陈述单独核对。 事实性幻觉、引用幻觉
用户侧 要求标注不确定性 提示「若不确定请明确写『不确定』或『需进一步核实』」,减少「自信错误」。 事实性幻觉、认知置信度错位
用户侧 关键句人工抽检 对数字、日期、人名、法条、结论等做抽检,与权威信源或第二模型比对。 各类事实性幻觉
用户侧 缩短单次生成、拆分任务 单次只问一个子问题或只生成一段,再拼接,降低「越写越编」的概率。 长文本幻觉、开放域虚构
提示与交互 少样本示例 在提示中给 1~2 个「正确示范」(含格式、语气、是否标注不确定),引导模型模仿。 忠实性幻觉、格式与风格漂移
提示与交互 角色与边界约束 明确「你仅基于我提供的数据回答,不补充未提供的信息」或「超出你知识范围请说明」。 逻辑过度外推、知识固化后的虚构
提示与交互 输出格式约束 要求「先给结论,再给依据,最后给[存疑项]」等固定结构,便于核查与对比。 事实性幻觉、引用幻觉
提示与交互 禁止外推声明 明确「不要推测或预测尚未发生的事件,仅总结已有公开信息」。 未来事件预测、时间线延展
提示与交互 反例与边界追问 生成答案后追问「在什么情况下这个结论会不成立?」「有哪些反对观点?」暴露脆弱点。 逻辑过度外推、自信错误
流程与组织 关键领域禁止直接采用 规定医疗诊断、法律意见、金融投资建议、政策解读等不得仅凭模型输出定稿,须经专人审核。 特殊领域高风险幻觉
流程与组织 发布前核查清单 对引用、数字、时间、人名、法条等列清单,发布前逐项核对或抽样核对。 事实性幻觉、引用幻觉
流程与组织 人机分工 模型负责草稿、思路、多方案;人类负责事实核实、合规判断与最终决策。 各类幻觉,尤其高敏感行业
流程与组织 版本与可追溯 保留模型原始输出与修改记录,便于事后审计与改进提示策略。 归责、迭代优化
技术与系统 引用与溯源 使用带检索的接口(RAG),让模型引用具体文档或段落,便于用户点击核对。 引用幻觉、事实性幻觉
技术与系统 置信度或不确定性输出 若产品支持,请求模型输出置信度分数或「不确定」标记,对低置信度内容重点复核。 认知置信度错位
技术与系统 事后检测与过滤 对生成文本做 NLI/事实核查模型、关键词黑名单或规则检测,标记疑似幻觉再人工复核。 明显事实错误、敏感断言
技术与系统 知识截止与范围声明 在界面或系统提示中明确「模型知识截止于某年某月」「不保证某类信息准确」,管理预期。 知识固化、时效性幻觉

按幻觉类型的推荐组合
幻觉类型 优先方案组合
引用/文献幻觉 要求给出来源 + 关键句抽检 + RAG/引用溯源 + 发布前核查清单
数字/时间幻觉 时间锚定 + 知识边界限定 + 分步追问 + 人工抽检数字与日期
虚构事件/人物 禁止外推声明 + 拆分任务 + 双AI验证或权威信源比对
多轮对话混淆 缩短单次生成 + 关键节点摘要或人工复核 + 输出格式约束(先总结再展开)
逻辑过度外推 角色与边界约束 + 反例与边界追问 + 置信度声明
开放域/创意中的事实错误 事实性标注 + 发布前核查 + 人机分工(创意用模型,事实用人核)

可复用的提示词模板(补充)
目的 提示词示例
强制标注不确定 「回答时,对无法从可靠来源验证的信息,请用【待核实】标出。」
禁止预测与外推 「仅根据已有公开信息回答,不要推测未来事件或未发生的数据。」
要求先依据后结论 「请按以下顺序回答:1)依据(可验证的来源或数据)2)结论 3)【存疑或局限】。」
限制信息范围 「仅使用我下面提供的内容作答,不要引入我未提供的数据或事实。」
要求反事实检查 「给出答案后,请列出 2~3 种可能导致该答案错误的情况或反例。」

从产品与提示词层级看减幻觉:DeepSeek / Coze / 豆包 / 千问 / ChatGPT

不同产品对系统提示词 (系统设定/角色设定)和用户提示词(用户每轮输入)的支持方式不同。下面先说明两者的区别,再从这两层分别说明如何在不同软件里落实减幻觉策略。


用户提示词与系统提示词的区别

系统提示词用户提示词是对话式大模型里两种不同层级的输入,作用对象、生效范围和使用方式都不一样。

维度 系统提示词 用户提示词
定义 由产品或开发者预先设定、在对话开始前就传给模型的「背景指令」,通常不直接展示给最终用户。 用户每一轮在输入框里输入的内容,即「你问模型的那句话」或附带的上传/上下文。
谁在写 产品方(如 Coze 机器人创建者)、开发者(API 调用方),或在产品的「设定」里由用户自己填。 使用产品的最终用户,每轮自己输入。
何时生效 在单次对话或会话创建时注入,对该会话内的所有轮次生效,直到重新设定或开新会话。 仅对「当前这一轮」生效;下一轮可以换完全不同的用户提示词。
生效范围 通常作用于整段对话:所有用户消息在模型看来都「叠加」在同一套系统提示词之下。 只作用于本轮的请求与回复,下一轮可改变话题或约束。
典型内容 角色身份(如「你是一名严谨的助手」)、全局规则(如「不编造引用」「不确定时请说明」)、回答格式、知识边界等「一直要遵守」的约定。 具体问题(如「请解释量子纠缠」)、当次附加约束(如「只用 2023 年以前的数据」)、本轮的上下文或材料。
是否每轮可见 多数产品里对最终用户不可见或折叠;在 API 中对应 system 消息。 每轮都可见,就是用户自己打的那段话(或选中的文档/链接等)。
与减幻觉的关系 适合写「默认行为」:不虚构引用、标注不确定、区分事实与推测等,从根上约束模型在所有回答里的表现。 适合写「这一问的严格程度」:时间范围、信息范围、是否要求标注不确定等,针对单次需求临时加码。

简单类比

  • 系统提示词:像是给模型的「岗位说明书」或「行为守则」------在整段对话里一直有效,规定「怎么回答、什么能做、什么不能做」。
  • 用户提示词:像是你每次向模型发出的「具体工单」------只对这一轮有效,规定「这次要回答什么、有什么额外要求」。

两者配合使用时:系统提示词先把「减幻觉」的底线写好(如不编造来源、不确定要标注),用户提示词再在需要时加当次约束(如「只根据下面材料」「请标注待核实」),既能减少重复输入,又能在关键问题上进一步压低幻觉。


一、产品与提示词层级对照
产品 系统提示词(或等效设定) 用户提示词 说明
DeepSeek 网页版部分场景可设「系统指令」;API 支持 system 角色消息 每轮对话输入框内容 系统提示词可长期约束回答风格与边界,用户提示词做当次任务与约束
Coze(扣子) 机器人「角色设定」/「人设与回复逻辑」即系统提示词,可写很长 用户对机器人说的话 智能体一旦发布,所有对话共享同一套系统提示词,适合把减幻觉规则写进「角色设定」
豆包 「对话设定」或「系统指令」(视版本/端而定) 用户输入 可在设定中固定「不编造来源」「不确定时说明」等
千问(通义) 通义 App/控制台中的「系统设定」或 API 的 system 消息 用户输入 与豆包类似,系统层可做全局约束
ChatGPT 「自定义指令」(Custom Instructions)或 API 的 system 消息;Plus 可设「你的身份/回答偏好」 用户每轮输入 自定义指令对所有新对话生效,适合写入减幻觉的通用规则

要点系统提示词 负责「一直遵守」的规则(如不编造引用、标注不确定);用户提示词负责「这一问」的具体任务与临时约束(如时间范围、只基于某段材料)。两者配合效果最好。


二、系统提示词:减幻觉的通用原则与可写内容

系统提示词适合写不随单次问题变化的规则,让模型在每次回复时都默认遵守,从而从根上减少幻觉。

原则 建议写进系统提示词的内容(可复制到各产品)
明确知识边界 「你的知识有截止日期,对截止日之后的事件或数据不要编造。若无法确定,请明确说『我不确定』或『建议核实最新来源』。」
禁止虚构引用 「不要编造书籍、论文、报道、网站或具体数据的出处。若引用,只引用你真实学过的常见公开知识,或明确标注『需查证』。」
区分事实与推测 「回答时区分:基于公开事实的陈述 vs 推测或假设。对推测部分请用【推测】或【可能】标出。」
控制自信程度 「对不确定的内容不要用绝对化表述(如『一定』『绝对』)。可改用『通常认为』『多数观点是』,并建议关键信息另行核实。」
格式与结构 「涉及事实性结论时,尽量按:结论 → 依据/来源说明 → 存疑或局限,这样的顺序组织回答。」

按产品落地的简要建议

  • DeepSeek :若使用 API,在 system 里写上面 1~5 的浓缩版;网页版若有「系统指令」入口,可粘贴同一段。
  • Coze:在机器人的「角色设定」或「人设与回复逻辑」开头加一段「回复规范」,把上表 1~5 写进去,这样所有用户与该机器人的对话都会遵守。
  • 豆包 / 千问:在「对话设定」或「系统设定」中写入相同规范,避免在每轮用户提示词里重复。
  • ChatGPT:在「自定义指令」的「你希望 ChatGPT 如何回复」中写入上述规范,对所有新对话生效。

三、用户提示词:减幻觉的用法(每轮可调)

用户提示词负责当次提问的具体约束和任务,可与系统提示词叠加使用。

目标 用户提示词示例(可单独或组合使用)
限定时间范围 「请只基于 2023 年及以前的公开信息回答,不要涉及之后的数据或事件。」
限定信息范围 「请仅根据下面这段材料回答,不要引入材料外的内容。[粘贴材料]」
要求标注不确定 「若某条信息你无法从可靠来源确认,请在句末用【待核实】标出。」
要求给依据 「每个关键结论请简要说明依据(如常见教材、公开报道),没有依据的请单独注明。」
禁止预测 「只总结已有事实,不要预测未来或推测未发生的事。」
分步回答便于核对 「请先列出要点或步骤,再逐条展开;这样方便我逐条核对。」

按产品使用习惯的建议

  • DeepSeek / 豆包 / 千问 :若未在系统层写「标注不确定」「不编造引用」,可在重要问题时在用户提示词里临时加一句(如「本条请标注不确定之处」)。
  • Coze:系统提示词已写好通用规范时,用户提示词可专注「具体问题 + 必要时加时间/范围限定」;若该机器人未写系统规范,可在用户首条消息里补一句约束(如「请只根据已知事实回答,不确定的请说明」)。
  • ChatGPT:自定义指令已包含通用规范时,用户提示词以任务为主;未设置自定义指令时,可在较重要对话的开头加一句「请对不确定的内容明确标注」。

四、分产品小结:优先把什么放在系统层、什么放在用户层
产品 建议在系统提示词/设定里写的(减幻觉) 建议在用户提示词里做的
DeepSeek 知识边界、不编造引用、区分事实与推测、避免绝对化、回答结构 当次问题 + 时间/范围限定 + 必要时「请标注不确定」
Coze 同上;因智能体多轮共享,强烈建议在「角色设定」中写清上述规范 具体业务问题 + 若需严格事实可加「仅基于以下信息回答」并粘贴材料
豆包 同上;在「对话设定」中固定,减少每次重复 当次问题 + 临时约束(如「仅 2023 年前」)
千问 同上;在「系统设定」中固定 当次问题 + 临时约束
ChatGPT 在「自定义指令」中写同上规范,对所有新对话生效 当次问题 + 高敏感话题时加「请标注不确定或需核实之处」

这样可以在不换产品 的前提下,系统性地从系统提示词用户提示词两层同时减幻觉;系统层管「默认行为」,用户层管「这一问的严格程度」。


五、从幻觉角度对比五款产品

下面仅从幻觉这一维度,对 DeepSeek、Coze、豆包、千问、ChatGPT 做对比,便于按「谁更稳、谁更易控、谁更适合高事实要求场景」做选择。

说明:Coze 是智能体平台,背后可接多种模型(含豆包、千问、DeepSeek 等),其幻觉表现取决于所选模型;此处把 Coze 作为「产品形态」单独看------即从「用智能体时幻觉如何控」的角度分析。


1. 幻觉相关维度总表
产品 文档内实测幻觉率(参考) 产品形态与幻觉风险 内置减幻觉能力 用户可配置程度 从幻觉角度的简要结论
DeepSeek 通用 2%;事实性 29.67%(V3)/ 22.33%(R1);联网后事实性可降至约 24.67%(V3)/ 19%(R1) 纯对话/API,无默认联网时依赖模型自身知识,易在冷门事实、引用、时效上幻觉 可选联网搜索;R1 有思维链,部分任务上幻觉率低于 V3(如摘要任务 Vectara 数据) 支持系统提示词(API/部分入口);用户提示词每轮自由 事实性幻觉率偏高,建议高事实场景必开联网或配合系统提示词约束;R1 在部分任务上更稳
Coze(扣子) 取决于接入模型(见豆包/千问/DeepSeek 等) 智能体:多轮、可挂知识库/插件,若未绑定可靠数据源则仍以模型自由生成为主,存在引用与事实幻觉风险 可配置知识库、搜索插件、工作流,用 RAG 或实时检索可显著减幻觉 系统提示词(角色设定)一次设定全对话生效,便于写死「不编造引用」「标注不确定」等 幻觉取决于底层模型+是否用知识库/插件;善用系统提示词+知识库可把幻觉控得较好
豆包 通用 0%;事实性 19%;文档中事实性幻觉率最低 对话/API,国内产品,合规与安全约束相对紧,回答偏保守 支持联网;部分场景有引用或来源提示 有对话设定/系统指令;用户提示词每轮自由 在本文档评测中事实性幻觉率最低,适合对事实要求高、又希望少折腾的用户;仍建议重要结论核对信源
千问(通义) 通用 2%;事实性 27.67% 对话/API,能力均衡,事实性幻觉率介于 DeepSeek 与豆包之间 支持联网与引用;可接 RAG 等企业能力 有系统设定;用户提示词每轮自由 事实性幻觉率中等,适合通用场景;高事实场景建议开联网或加系统/用户提示词约束
ChatGPT 文档内未做同口径评测,仅作定性参考 对话/API/Plus 等,海外模型,知识面与推理强,但引用与时效类幻觉仍常见 联网搜索(如 Browse);Plus 可引用;API 可接自有 RAG 自定义指令(系统层)+ 用户提示词;可控性高 能力全面但仍有幻觉,尤其引用与时效;建议用自定义指令固定「不编造来源」「标注不确定」,关键事实用联网或自有数据校验

2. 分产品从幻觉角度的要点
产品 幻觉上的主要特点 更适合的场景 使用建议(减幻觉)
DeepSeek 事实性幻觉率在本文档评测中较高;R1 有思维链,部分任务(如摘要)幻觉率反升,需按任务选模型;联网后明显下降 需要强推理、代码、长文,且可接受「重要事实再核实」的场景 高事实需求时开联网;系统提示词写清「不编造引用」「不确定请说明」;敏感结论用另一模型或信源交叉验证
Coze 幻觉由底层模型+是否用知识库/插件决定;同一智能体可被大量用户调用,系统提示词写错或未写会放大幻觉影响 客服、问答、流程类智能体;需稳定话术与可控输出的业务 在「角色设定」里写死减幻觉规则;能上知识库的尽量上,用 RAG 约束回答范围;对引用类回复可加插件做事后校验
豆包 在本文档两项评测中幻觉率都较低(通用 0%、事实性 19%),相对「稳」 对事实准确率要求高、希望开箱即用的日常与轻度专业场景 继续保持「重要结论核对信源」的习惯;可在系统设定中加「不确定时说明」,进一步压低自信错误
千问 事实性幻觉率中等,能力均衡;联网与引用能缓解时效与引用类幻觉 通用写作、分析、编程;国内生态与 API 集成 高事实场景开联网或限定时间范围;系统设定中写入不编造引用、区分事实与推测
ChatGPT 未在本文档做同口径幻觉率测试;经验上引用与时效类幻觉常见,自定义指令可全局约束 需要强能力与高可控性的国际/多语言场景;可配合自有 RAG 自定义指令中写入减幻觉规范;关键事实用联网或自有数据验证;对论文/数据类回答养成「查原文」习惯

3. 按「对幻觉的容忍度」选产品(参考)
需求 更合适的产品(从幻觉角度)
希望事实性幻觉率尽量低、少配置 豆包(文档中事实性 19% 最低;通用 0%)
需要强推理/代码,可接受事实再核实 DeepSeek(建议开联网+系统提示词约束)
做智能体、需统一约束多轮对话 Coze(系统提示词+知识库/插件)
通用兼顾、中等幻觉率、国内生态 千问(建议开联网+系统设定)
要强能力+高可控、可接受自行配置 ChatGPT(自定义指令+联网/自有数据校验)

以上均仅从幻觉维度做对比;实际选型还需结合能力、生态、合规与成本综合判断。


4. 扩展:按截图模型逐一分析(幻觉 + 适用场景)

以下按截图中的每一个模型单独列出:幻觉表现、适用场景、减幻觉要点,不做合并。无单独公开数据的型号,按同族与版本命名(如 Fast / Codex / High / Max / Mini)推断其定位并给出建议。


4.1 Composer 系列

模型 幻觉表现 适用场景 减幻觉要点
Composer 1.5 多模态作曲/生成类产品,创意输出为主;事实性陈述若涉及人名、作品、年代时存在编造风险。 音乐/内容创作、创意草稿、多模态编排。 涉及真实人物、作品、年代时在提示中要求「仅列已知事实」或事后查证。
Composer 1 同族前代,能力与约束通常弱于 1.5;创意场景幻觉容忍度相对高,事实性陈述需更谨慎。 早期创意探索、非正式作曲与内容试验。 同上;重要署名与版权相关事实务必人工核对。

4.2 Opus 系列(Claude)

模型 幻觉表现 适用场景 减幻觉要点
Opus 4.6 多轮幻觉基准 HALLUHARD 无联网约 60%、联网约 30%;强推理与长上下文,引用与时效类幻觉常见。 长文档分析、复杂策略、法律/研报草稿、强推理写作。 开启联网;提示中要求「先依据后结论」「标注推测与未核实」。
Opus 4.6 Max 同族顶配,能力最强、参数与成本更高;幻觉特性与 Opus 4.6 相近,复杂开放域仍建议联网。 极高复杂度分析、长报告、多步决策、研究辅助。 与 Opus 4.6 相同;关键结论建议双源或人工抽检。
Opus 4.6 Fast(MAX Only) 速度优化版,响应更快;在事实性与引用上幻觉风险与 4.6 相当,长链推理略弱。 需要快速响应的长文档与策略讨论、实时协作。 同上;若回答涉及具体数据与引用,建议用非 Fast 版本复核。
Opus 4.6 Max Fast(MAX Only) Max 能力 + 速度优化;幻觉表现接近 4.6 Max,适合对延迟敏感的高要求场景。 高要求且对延迟敏感的分析、报告、决策支持。 关键事实与引用仍建议联网或二次核实。
Opus 4.5 前代 Opus,能力略低于 4.6;多轮与开放域幻觉率偏高,医学/法律等仅作参考。 长文分析、复杂写作、需强推理的通用场景。 建议开联网;敏感领域明确「仅供参考、需专业核实」。

4.3 Sonnet 系列(Claude)

模型 幻觉表现 适用场景 减幻觉要点
Sonnet 4.5 METR 等评估存在幻觉与细微错误;速度与成本较 Opus 友好,事实与引用需留意。 日常助手、代码补全与审查、客服、中等复杂度分析。 系统提示词约束知识边界与引用;关键事实用 Opus 或人工复核。
Sonnet 4 同族前代,能力略低于 4.5;简单任务稳定,复杂事实与长链推理幻觉风险增加。 日常问答、轻量代码、模板与邮件、简单分析。 限定使用范围;涉及专业事实时标注「需核实」或换用更强型号。
Sonnet 4 1M MAX Only 1M 上下文顶配版,长文档能力强;长上下文内事实一致性需注意,结尾与前文矛盾偶发。 超长文档阅读、全书/长报告摘要、跨文档比对。 提示中要求「仅基于文档内容」「引用原文段落」;关键结论做抽检。

4.4 GPT-5.3 系列

模型 幻觉表现 适用场景 减幻觉要点
GPT-5.3 Codex 代码向优化;代码逻辑与 API 幻觉少于通用事实,但复杂依赖与版本信息仍可能编造。 代码生成、重构、单元测试、代码审查。 关键逻辑与依赖版本人工复核;系统提示词要求「不确定的 API/版本请标注」。
GPT-5.3 Codex Low 资源/成本优化,能力略低于标准 Codex;代码简单任务够用,复杂逻辑幻觉风险略高。 简单脚本、补全、教学示例、轻量代码任务。 仅用于低风险代码;生产逻辑建议用标准或 High 版本。
GPT-5.3 Codex High 高能力代码向;复杂项目与架构设计更稳,幻觉仍可能出现在冷门库与文档上。 复杂项目架构、多文件重构、技术方案设计。 关键架构决策与冷门库用法建议查官方文档或人工确认。
GPT-5.3 Codex Extra High 顶配代码向;能力最强,幻觉率相对最低,仍建议对安全与合规相关代码做复核。 大型代码库、安全敏感代码、复杂系统设计。 安全与合规相关必须人工审查;其余同 Codex High。
GPT-5.3 Codex Fast 速度优先;响应快,复杂推理与长链事实略弱,简单代码与问答够用。 实时补全、交互式编程、简单问答与脚本。 复杂事实与长逻辑用非 Fast 或联网核实。
GPT-5.3 Codex Low Fast 低资源 + 快速;适合轻量、高并发场景,复杂任务幻觉风险最高。 批量简单任务、教学演示、对延迟敏感的低复杂度请求。 仅用于可接受容错的场景;重要输出换更强型号。
GPT-5.3 Codex High Fast 高能力 + 速度;在速度与准确性之间折中,代码与事实均优于 Low Fast。 需要较快响应的代码审查、方案草稿、中等复杂度分析。 关键结论与引用仍建议二次确认。
GPT-5.3 Codex Extra High Fast 顶配 + 速度;在 Fast 系列中幻觉率最低,适合高要求且对延迟有要求的场景。 高要求代码/分析且需快速响应的场景。 与 Extra High 类似,关键处人工复核。

4.5 GPT-5.2 系列

模型 幻觉表现 适用场景 减幻觉要点
GPT-5.2 通用基座;文献中 GPT-4 级模型医学引用幻觉约 28.6%,事实与引用需校验。 通用对话、写作、分析、中等复杂度推理。 自定义指令「不编造引用」「不确定请标注」;关键事实联网或查证。
GPT-5.2 Low 资源/成本优化;简单任务稳定,复杂事实与长推理幻觉风险高于标准版。 简单问答、模板生成、轻量分析、成本敏感场景。 重要结论不用 Low 单独做依据;可作初稿再交强模型复核。
GPT-5.2 Fast 速度优先;响应快,复杂事实与长链略弱。 实时对话、简单查询、快速草稿。 涉及数据与引用时用标准版或联网核实。
GPT-5.2 High 高能力版;复杂分析与长文更稳,幻觉率低于 Low/Fast。 复杂分析、长文写作、多步推理、报告草稿。 同 GPT-5.2;敏感领域双源验证。
GPT-5.2 Extra High 顶配通用;能力最强,幻觉率在 5.2 系列中最低。 研究辅助、法律/金融分析、高要求长文与决策支持。 关键事实与引用仍建议查证或人工抽检。
GPT-5.2 High Fast 高能力 + 速度;在延迟与准确性间折中。 需要较快响应的高质量分析、会议纪要、方案对比。 关键数据与引用二次确认。
GPT-5.2 Extra High Fast 顶配 + 速度;Fast 系列中最稳。 高要求且对延迟敏感的分析与写作。 同上。
GPT-5.2 Low Fast 低资源 + 快速;简单任务够用,复杂事实幻觉风险高。 大批量简单任务、教学、对成本与延迟敏感场景。 仅用于低风险;重要输出换更强型号。
GPT-5.2 Codex 代码向 5.2;代码幻觉少于通用事实,冷门库与版本仍可能出错。 代码生成、审查、脚本与自动化。 关键逻辑与依赖人工复核;系统提示词约束 API/版本表述。
GPT-5.2 Codex High 高能力代码向;复杂项目更稳。 多文件项目、架构设计、技术方案。 同 Codex;关键架构与安全相关必须复核。
GPT-5.2 Codex Low 代码向低成本;简单代码够用,复杂逻辑幻觉略高。 简单脚本、示例代码、教学。 生产与关键逻辑用 High 或 5.3 Codex。
GPT-5.2 Codex Low Fast 代码向 + 低资源 + 快速;适合轻量、高并发代码任务。 简单补全、批量示例、对延迟敏感的低复杂度代码。 仅用于可接受容错;重要代码换更强型号。
GPT-5.2 Codex Extra High 顶配代码向 5.2;代码任务幻觉率最低。 大型代码库、安全敏感、复杂系统。 安全与合规代码必须人工审查。
GPT-5.2 Codex Fast 代码向 + 速度;响应快,复杂逻辑略弱。 实时补全、交互式编程、简单重构。 复杂逻辑与依赖用非 Fast 或人工确认。
GPT-5.2 Codex High Fast 代码向高能力 + 速度;折中性能与延迟。 需要较快响应的代码审查与方案草稿。 关键结论与 API 用法二次确认。

4.6 GPT-5.1 系列

模型 幻觉表现 适用场景 减幻觉要点
GPT-5.1 Codex Max 代码向 Max 能力;复杂代码与架构更稳,冷门库与文档仍可能幻觉。 大型代码项目、架构设计、跨模块重构。 关键依赖与安全相关人工复核。
GPT-5.1 Codex Max High Max 高能力;在 Max 系列中偏重复杂任务。 高复杂度代码与架构、技术方案评审。 同上。
GPT-5.1 Codex Max Low Max 低成本;能力与稳定性低于 Max High,简单代码为主。 简单到中等代码、教学、成本敏感场景。 重要逻辑用 Max High 或 Extra High。
GPT-5.1 Codex Max Extra High Max 顶配;代码任务幻觉率在 5.1 系列最低。 安全敏感、大型系统、高要求代码评审。 安全与合规必须人工审查。
GPT-5.1 Codex Max Medium Fast Max + 中速;在速度与能力间折中。 需要一定速度的代码审查与方案讨论。 关键处二次确认。
GPT-5.1 Codex Max High Fast Max 高能力 + 速度;较快且较稳。 高要求且对延迟敏感的代码与分析。 同上。
GPT-5.1 Codex Max Low Fast Max + 低成本 + 快速;适合轻量高并发。 简单代码批量处理、教学演示。 仅用于低风险;重要输出换更强型号。
GPT-5.1 Codex Max Extra High Fast Max 顶配 + 速度;Fast 系列最稳。 高要求代码/分析且需快速响应。 关键结论与安全相关复核。
GPT-5.1 High 通用高能力 5.1;复杂分析优于标准 5.1,事实与引用仍建议校验。 复杂分析、长文、多步推理、报告。 自定义指令 + 关键事实联网或查证。
GPT-5.1 Codex Mini 代码向轻量;响应快、成本低,复杂逻辑幻觉风险高。 简单补全、示例、教学、轻量脚本。 仅用于非关键代码;生产逻辑用更大型号。
GPT-5.1 Codex Mini High Mini 高能力;在 Mini 系列中更稳。 轻量项目、教学中的稍复杂示例。 关键逻辑仍建议用标准 Codex 复核。
GPT-5.1 Codex Mini Low Mini 低成本;能力最低,适合极简单任务。 极简单补全、批量示例、对成本极度敏感。 不用于任何关键或生产逻辑。

4.7 GPT-5 Mini

模型 幻觉表现 适用场景 减幻觉要点
GPT-5 Mini 轻量通用;简单问答尚可,复杂事实与长链推理幻觉风险明显高于 5.1/5.2。 简单问答、模板、快速草稿、高并发低成本场景。 仅用于低风险、可接受容错;重要结论与事实用更大模型或联网核实。

4.8 Gemini 系列

模型 幻觉表现 适用场景 减幻觉要点
Gemini 3 Pro 多模态与推理强;部分评测与报道指出编造名称、论文、链接等,事实一致性需配合检索。 多模态理解、复杂推理、长文档、研究辅助。 关键事实配合搜索/引用;提示中「仅基于检索结果」「标注未核实」。
Gemini 3 Flash 速度优化;响应快,多模态能力强,事实性幻觉略多于 Pro。 实时多模态、快速摘要、创意草稿、搜索增强问答。 同上;涉及具体名称与链接务必查证。
Gemini 2.5 Flash 前代 Flash 升级;速度与多模态兼顾,事实与引用需留意。 快速多模态任务、对话、轻量分析。 关键信息标注来源或二次检索。

4.9 GLM 系列

模型 幻觉表现 适用场景 减幻觉要点
GLM-4.7 部分评测(如 HHEM-2.1-Open)中 GLM-4 事实一致性约 98.7%、幻觉率约 1.3%;7 系为更新版本,可预期相近或更优。 通用对话、知识问答、代码、需高事实一致性的中文场景。 系统提示词约束引用与边界;重要决策仍建议抽检或双源比对。

4.10 Haiku 系列(Claude)

模型 幻觉表现 适用场景 减幻觉要点
Haiku 4.5 轻量高速;简单任务稳定,深度推理与复杂事实幻觉风险高于 Sonnet/Opus。 实时客服、简单问答、模板生成、轻量代码编辑、高并发。 仅用于低风险、可接受容错;重要结论改用 Sonnet/Opus 或人工确认。

4.11 Grok 系列

模型 幻觉表现 适用场景 减幻觉要点
Grok Code 代码向;报道 Grok 4.1 幻觉率约 4%,Code 变体侧重代码,逻辑与 API 幻觉少于通用事实。 代码生成、审查、脚本、与 X 生态结合的开发场景。 关键逻辑与依赖版本人工复核;可配合实时搜索查文档。

4.12 Kimi 系列

模型 幻觉表现 适用场景 减幻觉要点
Kimi K2 长上下文与 Agent 强;公开幻觉率数据少,长文本与多步推理需注意事实一致性与前后矛盾。 超长文档对话、多步 Agent、代码生成、复杂规划与阅读。 明确任务范围与文档边界;要求「引用文档内原文」或「标注不确定」;关键事实抽检。

4.13 截图中所有模型与所属公司一览
模型 所属公司 公司英文/备注
Composer 1.5、Composer 1 安谋(Anthropic) Claude 同厂,多模态/创作向产品
Opus 4.6、Opus 4.6 Max、Opus 4.6 Fast、Opus 4.6 Max Fast、Opus 4.5 安谋(Anthropic) Claude 顶配与速度变体
Sonnet 4.5、Sonnet 4、Sonnet 4 1M MAX Only 安谋(Anthropic) Claude 平衡型与长上下文
Haiku 4.5 安谋(Anthropic) Claude 轻量高速线
GPT-5.3 Codex 全系列(含 Low/High/Extra High/Fast 等) 开放人工智能(OpenAI) ChatGPT 同厂,代码与通用
GPT-5.2、GPT-5.2 全系列(含 Low/Fast/High/Codex 等) 开放人工智能(OpenAI) 同上
GPT-5.1 Codex Max/Mini 全系列、GPT-5.1 High 开放人工智能(OpenAI) 同上
GPT-5 Mini 开放人工智能(OpenAI) 轻量线
Gemini 3 Pro、Gemini 3 Flash、Gemini 2.5 Flash 谷歌(Google) 多模态与搜索增强
GLM-4.7 智谱 AI(Zhipu) 国产,通用与代码
Grok Code xAI 马斯克旗下,代码向 + X 生态
Kimi K2 月之暗面(Moonshot) 国产,长上下文与 Agent

五(补充)、按公司归纳与特长分析

以下按公司 维度,归纳截图中所涉模型,并总结各公司在能力、场景与减幻觉上的特长,便于从厂商视角选型。


1. 安谋(Anthropic)

项目 内容
截图内模型 Composer 1 / 1.5,Opus 4.5 / 4.6 / 4.6 Max / 4.6 Fast / 4.6 Max Fast,Sonnet 4 / 4.5 / 4 1M MAX Only,Haiku 4.5
产品线 Claude 家族(Opus / Sonnet / Haiku)+ Composer(多模态/创作)
公司特长 长上下文与安全对齐 :长文档、多轮对话、合规与安全约束强;分层能力 :Opus 顶配推理与写作,Sonnet 平衡成本与能力,Haiku 高并发与简单任务;减幻觉:多轮与开放域幻觉率偏高(如 HALLUHARD 无联网约 60%),联网可显著下降,适合「联网 + 提示词约束」组合。
更适合的场景 长报告、法律/研报草稿、复杂策略、代码审查、需强安全与合规的对话;Composer 偏创意与多模态编排。

2. 开放人工智能(OpenAI)

项目 内容
截图内模型 GPT-5.3 Codex 全系列,GPT-5.2 全系列,GPT-5.1 Codex Max/Mini 全系列、GPT-5.1 High,GPT-5 Mini
产品线 GPT 通用 + Codex 代码向;按能力分 Low / High / Extra High,按速度分标准 / Fast,按规模分 Mini / 标准 / Max
公司特长 型号最细 :同一代内多档能力与速度(Low / High / Extra High / Fast / Codex / Mini / Max),便于按成本与延迟精细选型;代码生态 :Codex 线覆盖从简单补全到大型架构;事实与引用:文献显示 GPT-4 级自检与引用优于前代,但医学/引用类幻觉仍存在,需配合自定义指令与联网。
更适合的场景 通用写作、分析、代码生成与审查、API 与产品集成;Mini 与 Low/Fast 适合高并发与成本敏感场景,Extra High / Max 适合高要求与安全敏感场景。

3. 谷歌(Google)

项目 内容
截图内模型 Gemini 3 Pro、Gemini 3 Flash、Gemini 2.5 Flash
产品线 Gemini Pro(能力型)/ Flash(速度与多模态)
公司特长 多模态与搜索 :图文音视频与搜索增强结合紧密,适合「检索 + 生成」;事实一致性:部分评测与报道指出编造名称、论文、链接等问题,建议关键信息配合搜索与引用、并标注未核实。
更适合的场景 多模态理解、搜索增强问答、创意与草稿、跨模态摘要;对事实要求高的场景需显式启用检索并做结果校验。

4. 智谱 AI(Zhipu,智谱)

项目 内容
截图内模型 GLM-4.7
产品线 GLM 通用大模型系列
公司特长 中文事实性 :部分评测(如 HHEM-2.1-Open)中事实一致性约 98.7%、幻觉率约 1.3%,适合对事实要求高的中文场景;通用与代码:对话、知识问答、代码均有覆盖。
更适合的场景 中文通用对话、知识问答、代码辅助、需高事实一致性的国内业务与 API 集成。

5. xAI

项目 内容
截图内模型 Grok Code
产品线 Grok 通用 + Code 代码向,与 X(Twitter)深度集成
公司特长 实时信息与社交语境 :报道 Grok 4.1 幻觉率约 4%,支持实时搜索(X 与网页),适合时效与舆情;代码向:Grok Code 侧重代码,逻辑与 API 幻觉少于通用事实。
更适合的场景 实时热点、舆情与社交语境理解、搜索增强问答、代码生成与审查、与 X 生态结合的开发。

6. 月之暗面(Moonshot)

项目 内容
截图内模型 Kimi K2
产品线 Kimi 长上下文与 Agent 产品线
公司特长 超长上下文与 Agent :长文档对话、多步规划与执行能力强;代码与复杂任务:表现突出;公开幻觉率数据较少,长文本与多步推理需注意事实一致性与前后一致。
更适合的场景 超长文档阅读与问答、多步 Agent、代码生成、复杂规划与阅读;建议明确任务范围并要求引用文档内原文或标注不确定。

按公司特长小结(幻觉与场景)

公司 幻觉相关特长 场景特长
Anthropic 联网可显著降多轮幻觉;安全与合规约束强,适合对输出可控性要求高的场景。 长文档、复杂推理、法律/研报草稿、代码审查、分层成本选型。
OpenAI 型号细分多,可按任务选 Low/High/Fast 平衡幻觉与成本;自定义指令 + 联网可系统减幻觉。 通用与代码全覆盖、API 生态、高并发与高要求场景均有对应型号。
Google 多模态 + 搜索增强,适合用检索补足事实;需主动启用检索并标注未核实。 多模态、搜索增强问答、创意与跨模态任务。
智谱 中文事实性与低幻觉率在部分评测中突出,适合高事实要求的中文场景。 中文对话、知识问答、代码、国内合规与集成。
xAI 幻觉率在报道中较低(约 4%),实时搜索利于时效性事实。 实时信息、舆情、社交语境、代码、X 生态。
月之暗面 长上下文与 Agent 强,幻觉控制依赖提示词约束与引用文档内内容。 超长文档、多步 Agent、复杂规划与阅读。
六(补充)、各模型在不同产品与插件中的应用

下面按产品/插件 维度,说明截图中涉及的模型(以及文档前文中的 DeepSeek、豆包、千问等)在各类应用中的落地方式,并简要提示在幻觉使用场景上的注意点。同一模型在不同产品中能力一致,但交互方式、是否联网、是否有系统提示词可配等会影响实际幻觉表现。


6.1 总表:产品/插件 ↔ 可用模型与幻觉注意

产品/插件 可用或常见模型 典型用途 幻觉相关注意
Cursor Claude(Opus/Sonnet/Haiku)、GPT(含 Codex 等)、Gemini、DeepSeek、部分开源模型等,可切换 IDE 内代码补全、对话、重构、解释代码、多文件编辑 代码与 API 幻觉:依赖版本、冷门库易出错;可在 Cursor 规则或对话中要求「不确定的 API 标注」、关键逻辑人工复核
Claude(官网/App/桌面) Opus、Sonnet、Haiku(含 4.5、4.6、1M 等),按订阅可选不同型号 长文档分析、写作、代码、通用对话、联网搜索 多轮与开放域幻觉率偏高,建议开联网;系统提示词有限,可每轮在用户提示中加「标注推测与未核实」
ChatGPT(Web/App/Plus) GPT-4 / GPT-5 系列(含 Codex、Fast、High 等)、GPT-5 Mini 等 对话、写作、代码、分析、浏览联网、自定义指令 自定义指令可全局减幻觉;引用与时效类建议用浏览或自有数据校验
Coze(扣子) 可接入豆包、千问、DeepSeek、GPT、Claude、Kimi、GLM 等,按创建时选择 智能体、客服机器人、知识库问答、工作流、多轮对话 幻觉由所选模型 + 知识库/RAG 决定;必配知识库与角色设定中的「不编造、仅依据知识库」
GitHub Copilot(含 VS Code 等) 以 OpenAI Codex/GPT 系列为主,部分场景有自有模型 代码补全、注释、单元测试、解释代码 代码与依赖版本易幻觉;关键逻辑与安全相关代码需人工审查
VS Code 其他插件 Codeium、Amazon Q、Continue、Windsurf 等可接 Claude、GPT、开源模型 补全、对话、终端解释、文档生成 同上;不同插件可切换模型,高事实要求时可选更稳型号并加提示约束
Windsurf / Codeium 等 AI IDE Claude、GPT、Gemini、DeepSeek、GLM、Kimi 等,多模型可选 代码生成、多文件编辑、对话、文档 与 Cursor 类似;选型与提示词决定幻觉表现,代码结论建议复核
豆包(Web/App/API) 豆包自研模型 对话、写作、客服、金融/医疗等垂直场景 事实性幻觉率在文档评测中较低;重要结论仍建议核对信源
通义千问 / 阿里云 千问系列 长文档、知识库、API、企业集成 事实性中等,建议开联网或 RAG;系统设定中约束引用与时间范围
Kimi(Web/App/API) Kimi K2 等 长文档、Agent、代码、复杂规划 长上下文与多步需注意事实一致;提示中要求引用文档内原文或标注不确定
智谱/GLM 开放平台 GLM-4.7 等 对话、代码、知识问答、API 部分评测事实一致性好;重要决策建议抽检或双源比对
Grok(X 平台内) Grok、Grok Code 实时搜索、舆情、代码、社交语境 实时搜索可降时效类幻觉;非实时或边缘话题建议标注来源
Notion AI、Slack AI 等 多为 OpenAI 或合作方模型(具体型号随产品更新) 文档总结、续写、翻译、会议要点 依赖产品是否支持联网/引用;敏感事实建议导出后三角验证
浏览器插件(如 ChatGPT for Google、Claude 侧栏等) 随插件绑定(GPT、Claude 等) 网页旁问答、总结、翻译 上下文限于当前页或会话,易对页面外事实幻觉;可提示「仅基于当前页面」
API / 自建应用 任意支持 API 的模型(GPT、Claude、Gemini、DeepSeek、豆包、千问、GLM、Kimi 等) 自有产品内嵌对话、代码、分析 幻觉完全由所选模型 + 系统提示词 + 是否接 RAG/检索决定;可统一在系统提示词中写减幻觉规则

6.2 按产品/插件简要说明

  • Cursor:多模型可选(Claude、GPT、Gemini、DeepSeek 等),适合在 IDE 内做代码与文档。幻觉主要来自代码与 API;可通过项目规则或对话要求「不确定处标注」、关键逻辑与依赖版本人工复核。高事实要求的代码建议选 Codex High/Extra High 或 Claude Sonnet/Opus 并开检索(若支持)。
  • Claude(官网/App):仅用 Anthropic 自家 Opus/Sonnet/Haiku,长文档与安全对齐强。多轮幻觉率偏高,建议开启联网并在提示中要求「先依据后结论、标注推测」。适合长报告、法律/研报草稿、代码审查。
  • ChatGPT:仅用 OpenAI GPT 系列(含 Codex、Fast、Mini 等)。自定义指令对减幻觉有效;敏感事实用浏览或自有数据校验。适合通用写作、分析、代码及需要强可控性的场景。
  • Coze(扣子):不绑定单一模型,可接豆包、千问、DeepSeek、GPT、Claude、Kimi、GLM 等。幻觉取决于所选模型 + 是否挂知识库/RAG;建议每个智能体都配知识库并在角色设定中写「不编造、仅依据知识库/检索结果」。适合客服、问答、流程类智能体。
  • GitHub Copilot / VS Code 插件:以 GPT/Codex 为主,部分插件可切换 Claude、DeepSeek 等。代码与依赖版本易幻觉,关键与安全相关代码必须人工审查。适合日常补全与草稿,高要求代码用更强型号或 Cursor 多模型对比。
  • 豆包、千问、Kimi、GLM、Grok:各在自家 Web/App/API 中使用对应模型;幻觉与场景特点见前文分模型与按公司分析。在 Cursor、Coze 等中若被选为底层模型,则上述特点会体现在该产品中。
  • Notion AI、Slack AI、浏览器插件:多为封装好的模型能力,用户通常不能改系统提示词;减幻觉依赖用户提示(如「仅基于当前文档/页面」「标注未核实」)以及事后三角验证。
  • API / 自建应用:任意模型均可接入;幻觉控制完全由选型、系统提示词、RAG/检索与人工流程决定,可按前文「按公司/按模型」的减幻觉要点在系统提示词中统一约束。

6.3 小结:按使用场景选产品与模型(含幻觉)

使用场景 可优先考虑的产品/插件 可优先考虑的模型 减幻觉要点
IDE 内代码、多文件编辑 Cursor、Windsurf、VS Code + Copilot/Codeium Claude Sonnet/Opus、GPT-5.x Codex High/Extra High、DeepSeek 规则/提示中要求标注不确定 API;关键逻辑人工复核
长文档、复杂推理、写作 Claude、ChatGPT、Kimi Opus 4.6、GPT-5.2 High/Extra High、Kimi K2 开联网;提示「标注推测与未核实」
智能体、客服、知识库问答 Coze 豆包、千问、DeepSeek、Claude、GPT 等(按需) 必配知识库 + 角色设定不编造、仅依据检索
高事实要求、中文 豆包、智谱、千问、Coze+知识库 豆包、GLM-4.7、千问 系统设定/提示词约束引用;关键结论核对信源
多模态、搜索增强 ChatGPT(浏览)、Gemini、Grok Gemini 3 Pro/Flash、Grok、GPT+浏览 关键信息配合检索并标注未核实
实时信息、舆情 Grok、X 内产品 Grok、Grok Code 开实时搜索;非实时话题标注来源
自建产品、API 集成 任意支持 API 的平台 按成本与场景选 GPT/Claude/Gemini/DeepSeek/豆包/千问/GLM/Kimi 系统提示词统一写减幻觉规则;高事实场景接 RAG/检索

总结:如何应对AI幻觉?

  • 三角验证法: 交叉比对多个AI回答或权威来源。
  • 警惕"过度合理": 越细节丰富的回答越需谨慎(如AI虚构论文标题与作者)。
  • 理解幻觉,享受幻觉: 理解幻觉的特点和应对方法,享受幻觉带来的创意灵感。

例子:三角验证时,可对同一问题分别问 DeepSeek、另一款大模型,并查一篇维基或官网;若 AI 给出了「某学者 2022 年在 Nature 发表某标题论文」,应去期刊网站检索标题或 DOI,很多情况下会找不到------即典型的「过度合理」幻觉。


五、AI幻觉的创造力价值

文艺与设计:突破人类思维定式的"超现实引擎"

科学发现:从"错误"到突破的范式跃迁

蛋白质设计 大卫贝克团队
AI错误折叠启发新型蛋白质结构
获2024诺贝尔化学奖
多篇论文
将幻觉纳入标题
科学发现

  • 蛋白质设计: 大卫·贝克团队利用AI"错误折叠"启发新型蛋白质结构,获2024诺贝尔化学奖。
  • 认为AI幻觉是"从零开始设计蛋白质"的关键
  • 发表的多篇论文都将"幻觉"纳入标题当中

文艺与设计:突破人类思维定式的"超现实引擎"

AI虚拟环境与角色设计
游戏开发
无限可能性
增强沉浸感
AI幻觉
生成故事对话诗歌
为游戏文学提供灵感
文艺与设计

  • AI生成的虚拟环境和角色设计为游戏开发人员提供了无限的可能性,增强了玩家的沉浸感和探索欲
  • AI幻觉还被用于生成故事、对话和诗歌,为游戏和文学创作提供灵感

技术创新:从"缺陷"到方法论的转化


AI超现实边界 DeepMind
不符合真实场景
意外提升自动驾驶极端天气识别
新型科研范式
AI幻觉-实验验证-理论重构
加州理工学院团队
AI生成虚构导管设计
新型AI技术优化
细菌数量减少100倍
疯狂创意到理性筛选创新闭环
技术创新

  • DeepMind团队发现: AI在图像分割任务中产生的"超现实边界"虽不符合真实场景,却意外提升了自动驾驶系统对极端天气(如浓雾、暴雨)的识别精度。
  • 新型科研范式: 科学界正构建"AI幻觉-实验验证-理论重构"的三阶段研究流程。
  • 加州理工学院团队: 通过AI生成虚构导管设计,最终通过新型人工智能技术优化后的新设计,在实验中证实将向上游游动的细菌数量减少了100倍,形成"疯狂创意→理性筛选"的创新闭环。

更多创造力侧的例子

  • 药物与材料:部分新药/新材料发现流程中,会先用模型生成大量「未必符合既有化学规则」的分子结构,再通过实验筛选,其中不少灵感来自模型在训练边界上的「不合理」输出。
  • 创意写作与角色:游戏或网文团队常用 AI 生成角色设定、世界观细节、对白草稿,再由人类筛选和改写;模型给出的「离谱」组合常能激发人类作者原本想不到的方向。

行业 幻觉的主要坏处 幻觉可能的好处 使用建议
金融 研报与数据:编造营收、增速、政策时间等,误导投资与风控,触发合规与声誉风险。归因与归责:将亏损归因于不存在的政策或黑天鹅,扭曲复盘与问责。自动化链路:幻觉进入量化策略、自动报告或监管报送,错误成倍放大。 情景与压力测试:在标注为「假设情景」下生成极端情景(如某国违约、某行业崩盘),辅助压力测试与预案。另类观点:生成与主流相反的「反面论点」或「被忽视的风险」,供投研多空校验,不直接采信。 涉及具体数字、时间、法规的结论须可追溯至权威信源;创意类仅限情景推演与反面论证,并明确标注非事实。
医疗 诊断与用药:症状被误读或过度推断,给出错误病名、用药或检查建议,可能延误治疗或造成伤害,法律与伦理风险高。文献与指南:虚构文献、篡改指南或统计,误导医患,尤在罕见病、新疗法领域。健康传播:科普中的错误剂量、禁忌组合一旦传播,危害面大。 科研假设:在「仅供研究、不用于临床」前提下,非常规病因假设、药物重定位或生物标志物组合可作文献与课题参考。患者沟通:经审核后,用模型生成「多种可能解释」「常见误区」草稿,由医生把关,辅助沟通不替代诊断。 任何可能被理解为诊断/用药/检查建议的输出须加免责并引导就医;科研与沟通辅助与临床决策严格隔离。
法律 法条与判例:错误引用法条、司法解释或判例(案号、结论、适用情形),误导当事人预期,增加诉讼与合规风险。法域与时效:混淆法域、失效条款或未生效新法,导致策略错误。格式化文书:合同、律师函含虚构条款或错误表述,影响效力或引发争议。 论证与反驳:在已知事实与法条框架内,生成「对方可能主张」「抗辩思路」「不同解释路径」,辅助庭前推演,不作为最终法律意见。条款演绎:对某条款做严格解释/从宽解释等演绎,帮助识别风险,结论须由律师核对法源。 法条、判例引用须与权威库或正式文本核对;模型输出仅作思路拓展,不作法律意见或文书定稿依据。
教育 知识讲授:教材、讲义或自动答题中的概念/公式/史实错误,学生记住后纠错成本高。评分与反馈:主观题评分或评语基于错误理解(如误读学生论点),带来公平与信任问题。依赖与惰性:学生习惯「要标准答案」而少独立验证,幻觉强化错误概念。 讨论与探究:在「无标准答案」的讨论题、头脑风暴或「错解辨析」中,模型给出多种(含不合理)答案,激发比较与批判思维。多解与变式:数学/物理等生成多种解法或变式题(含部分错解),经教师筛选用于课堂,拓展思路。 讲授与标准答案场景优先保证正确性,配合教材与教师审核;讨论与探究可容忍「待辨析」内容,须标明供讨论用。
创意与内容 事实与信源:新闻、传记、科普中的虚构事件、错误数据或捏造引用,损害公信并可能引发法律纠纷。版权与伦理:过度模仿在世人物或受保护风格,可能触及肖像权、著作权与平台规范。一致性与 IP:长篇或系列中人物、时间线、世界观前后矛盾,破坏体验与 IP 管理。 意象与风格:诗歌、文案、视觉描述中的非常规比喻、跨界组合或风格混合,适合作初稿或灵感池。情节与角色:小说、剧本、游戏中的离奇情节、反套路人设或对话选项,经人工筛选可丰富创作。多版本与 A/B:同一主题的多种表述、标题或开头,便于 A/B 测试与迭代。 事实性内容须核查信源;创意类标明「初稿/灵感」,重要发布前做事实与合规审核,维护角色与世界观文档保证一致性。
科研与工业 实验与工艺:配方、参数、流程若含幻觉,直接照做可能浪费资源、损坏设备或带来安全与环境风险。文献与综述:虚构文献、错误数据或因果污染综述与开题,误导后续研究。自动化控制:幻觉进入工艺控制、质检规则或排产逻辑,可能引发生产事故或批次问题。 假设与结构:蛋白质/材料/分子设计中,「不合理」结构或反应路径经计算与实验筛选可转化为真实发现(如诺奖案例)。异常与反例:故障诊断、根因分析中,「不可能但逻辑存在」的假设可拓宽排查范围。概念探索:新兴交叉领域中,术语组合、技术路线图可作讨论起点,再由人类严格验证。 实验室与概念阶段可适度利用「非常规」输出做假设生成;工艺、控制或量产阶段参数与逻辑须与权威数据与规程对齐,并做人工或自动复核。
政务与公共 政策解读:错误概括政策适用范围、时间或条件,误导企业与公众,影响合规与公平。虚假信息:应急、选举、公共卫生等场景中幻觉被当官方或事实传播,损害公信与稳定。公平与问责:自动化答复对不同群体不一致或带偏见,引发公平性质疑与问责。 情景与预案:内部研讨中用模型生成「若发生某类事件」的多情景推演与预案草稿,部门基于真实数据修订,提高预案覆盖度。多方案比选:对公共议题生成多种政策表述或宣传口径,供决策比选,定稿须经正式程序。 对外政策解读与公共信息发布须以权威文本与流程为准,模型仅作内部辅助;可能外泄的结论须经合规与事实核查。
娱乐与游戏 设定与剧情:NPC 对话、任务或主线与既有设定冲突,破坏沉浸感与 IP 一致性,增加修正成本。合规与敏感:涉及暴力、歧视或不当题材未过滤,触及平台规范与法律。用户预期:过度承诺「智能剧情」「无限可能」而幻觉导致逻辑崩坏,引发差评与信任下降。 剧情与关卡:分支剧情、随机事件、关卡变体由模型生成初稿,策划筛选与调优,显著扩展内容量。角色与对白:新角色人设、台词风格、互动选项的「脑洞」输出,丰富角色库与玩家体验。运营与本地化:活动文案、多语言、社区话题等事实要求相对宽松,在审核前提下可利用生成效率。 建立核心设定与主线「事实库」,生成内容做一致性检查;对用户可见的剧情与对白做内容与合规审核;对「AI 生成」做适当标注以管理预期。

结语

AI幻觉像一面棱镜,既折射出技术的局限性,也投射出超越人类想象的可能。与其追求"绝对正确",不如学会与AI的"想象力"共舞------因为最伟大的创新,往往诞生于理性与狂想的交界处。

------DeepSeek R1


AI幻觉的全景图

AI幻觉全景
定义 事实性幻觉与忠实性幻觉
产生原因 数据偏差与泛化等
潜在风险 信息污染与信任危机等
评测 通用性测试与事实性测试等
推理关系 推理增强与幻觉率双向作用
应对方式 联网搜索与双AI验证等
创造力价值 科学发现与文艺设计等


附录:相关资源与平台

元知(AI综述)


生成综述案例:元知(增强版)AI综述工具

人机快生之元境平台

自制数字人,已制作200多个

自研人形机器人

自制AI微短剧,已制作300多段

相关推荐
音视频牛哥2 小时前
RTSP协议规范深度解析与SmartMediaKit的RTSP播放器工程实践
人工智能·计算机视觉·音视频·大牛直播sdk·rtsp播放器·超低延迟rtsp播放器·rtspplayer
zhangfeng11332 小时前
Warmup Scheduler深度学习训练中,在训练初期使用较低学习率进行预热(Warmup),然后再按照预定策略(如余弦退火、阶梯下降等)衰减学习率的方法
人工智能·深度学习·学习
Faker66363aaa3 小时前
城市地标建筑与车辆检测 - 基于YOLOv10n的高效目标检测模型训练与应用
人工智能·yolo·目标检测
沃达德软件3 小时前
电信诈骗预警平台功能解析
大数据·数据仓库·人工智能·深度学习·机器学习·数据库开发
Hy行者勇哥3 小时前
Seedance 全面解析:定义、使用指南、同类软件与完整攻略
人工智能·学习方法·视频
琅琊榜首20203 小时前
AI赋能内容转化:小说转短剧实操全流程(零编程基础适配)
大数据·人工智能
青铜弟弟3 小时前
基于物理的深度学习模型
人工智能·深度学习
是店小二呀3 小时前
atvoss:异构计算视觉处理与AI模型加速套件深度解析
人工智能
MaoziShan4 小时前
CMU Subword Modeling | 07 Allomorphy
人工智能·机器学习·语言模型·自然语言处理