智能体 - AI 幻觉

目录

  1. 一、什么是AI幻觉
  2. 二、DeepSeek为什么会产生幻觉
  3. 三、AI幻觉评测
  4. 四、如何减缓AI幻觉
  5. 五、AI幻觉的创造力价值
  6. 附录:相关资源与平台

一、什么是AI幻觉

案例1:DeepSeek 金融行业应用案例

Prompt: 给我一些DeepSeek在金融行业的应用案例

DeepSeek:

  • 某头部银行利用DeepSeek构建因果归因网络,识别小微企业违约的隐性因素(如上下游账期错配),针对性设计"供应链票据贴现+账期保险"组合产品,不良率下降4.2个百分点。
  • 国信证券在"金太阳APP"中部署DeepSeek-R1-Distill-32B端侧模型,客户本地输入风险测评数据后,模型生成个性化投资组合建议,仅将匿名化策略权重同步至云端风控系统,数据泄露风险降低90%。

案例2

案例3:Whisper 医疗转录幻觉

Whisper: OpenAI的自动语音识别(ASR)系统

行业应用: 医疗系统中,将患者与医生的对话问诊过程音频,转写为文字病例,有超过30000名临床医生和40个医疗系统使用

发现: 100多个小时的Whisper转录样本,其中约有一半内容存在幻觉

原音频: "嗯,她的父亲再婚后不久就去世了"

转录文本: "没关系。只是太敏感了,不方便透露。她确实在65岁时去世了"

结果: 2.6W多份自动转录病例中,几乎每本都存在瞎编和幻觉问题,对患者健康和医疗系统产生严重负面影响


案例4

案例5

AI幻觉的定义

学术定义: 指模型生成与事实不符、逻辑断裂或脱离上下文的内容,本质是统计概率驱动的"合理猜测"

说人话: 一本正经地胡说八道

两种类型:
AI幻觉
事实性幻觉
忠实性幻觉
与可验证事实不一致
与用户指令或上下文不一致

  • 事实性幻觉: 指模型生成的内容与可验证的现实世界事实不一致
  • 忠实性幻觉: 指模型生成的内容与用户的指令或上下文不一致

示例对比:事实性幻觉 vs 忠实性幻觉
类型 提问 回答 分析
事实性幻觉 糖尿病患者可以通过吃蜂蜜代替糖吗? 是的,蜂蜜是天然的,可以帮助糖尿病患者稳定血糖水平。 错误:蜂蜜虽然是天然食品,但仍然含有大量果糖和葡萄糖,会升高血糖水平,不适合糖尿病患者代替糖使用。
忠实性幻觉 糖尿病患者可以通过吃蜂蜜代替糖吗? 蜂蜜富含维生素和矿物质,对提高免疫力很有帮助,因此是一种健康的食品。 偏题:回答内容虽无事实错误,但与提问"糖尿病患者是否可以用蜂蜜代替糖"无关,未忠实于用户意图。

更多例子

  • 事实性幻觉:问「《红楼梦》后四十回作者是谁」,模型答「高鹗与程伟元共同续写」------学界仍有争议,但模型常以肯定语气给出单一结论;问「2024年某诺贝尔奖得主」,模型可能编造姓名与获奖理由(知识截止后的虚构)。
  • 忠实性幻觉:问「请用三句话概括这段长文的主旨」,模型却写成长篇摘要或逐段复述,未遵守「三句话」的指令;问「只列产品名称不要解释」,模型仍附带大段说明,未忠实于格式要求。

二、DeepSeek为什么会产生幻觉

AI为什么会产生幻觉?

AI幻觉产生原因
数据偏差
泛化困境
知识固化
意图误解
训练数据错误或片面性被放大
难以处理训练集外复杂场景
过度依赖参数化记忆
用户提问模糊时模型自由发挥

  • 数据偏差: 训练数据中的错误或片面性被模型放大(如医学领域过时论文导致错误结论)
  • 泛化困境: 模型难以处理训练集外的复杂场景(如南极冰层融化对非洲农业的影响预测)
  • 知识固化: 模型过度依赖参数化记忆,缺乏动态更新能力(如2023年后的事件完全虚构)
  • 意图误解: 用户提问模糊时,模型易"自由发挥"(如"介绍深度学习"可能偏离实际需求)

对应例子

原因 例子
数据偏差 训练集中若某时期医学文献普遍认为「某药可长期服用」,模型会延续该结论,即使后来已被指南修正;或某类观点在语料中占比过高,模型会系统性偏向该观点。
泛化困境 问「南极冰盖融化对撒哈拉以南农业的传导机制」时,模型在训练中少见此类跨域因果,易用模糊表述或错误因果链填补。
知识固化 问「某公司 2024 年最新财报要点」时,若模型知识截止于更早时间,会编造数字、日期或事件,且常带有「合理」结构(如虚构的增长率、发布会时间)。
意图误解 用户说「介绍深度学习」,可能想要科普定义、课程大纲、或论文综述,模型若未澄清就按一种理解长篇输出,即偏离用户真实意图。

音乐为什么没有幻觉?

  • 音乐的主观性和多样性: 音乐是一种高度主观的艺术形式,人们对音乐的审美和理解有很大的差异。一段音乐是否"合理"或"正确",往往取决于文化背景、个人偏好和上下文
  • 音乐的抽象性: 音乐本质上是抽象的,不像文本或图像那样直接对应现实世界的具体事物。文本中的"幻觉"通常是因为模型生成的内容与事实不符,而音乐本身往往缺少明确的事实基础
  • 音乐的可感知性差异: 音乐是时间性的艺术形式,即使某些部分听起来不协调或不符合预期,它们也可能在整个作品的上下文中变得合理。相比之下,文本或图像中的问题往往是瞬间可见的,容易引起注意
  • 音乐"幻觉"的潜在表现: 逻辑断裂的歌词、结构混乱的旋律、风格混杂的编曲

AI幻觉的潜在风险

AI幻觉潜在风险
信息污染风险
信任危机
控制欠缺
安全漏洞
虚假信息雪球效应或污染训练数据
用户难以辨别真实性
对齐欠缺或可能成为恶意工具
错误信息用于自动化系统

  • 信息污染风险: 由于DeepSeek的低门槛和普及度高,大量AI生成内容涌入中文互联网,加剧了虚假信息传播的"雪球效应",甚至污染下一代模型训练数据
  • 信任危机: 普通用户难以辨别AI内容的真实性,可能对医疗建议、法律咨询等专业场景的可靠性产生长期怀疑
  • 控制欠缺: DeepSeek的对齐工作较其他闭源大模型有所欠缺,其开源特性也允许使用者随意使用,可能会成为恶意行为的工具
  • 安全漏洞: 若错误信息被用于自动化系统(如金融分析、工业控制),可能引发连锁反应
  • ......

对应例子

风险 例子
信息污染 某热点事件后,大量用 DeepSeek 生成的「梳理时间线」「专家解读」被转发,其中混入编造的日期、人物与因果,下一轮模型爬取到这些内容后,可能把幻觉写进新答案。
信任危机 用户按模型给出的「某法条适用情形」做决策,事后发现条款或司法解释被曲解,会对所有法律类 AI 回答产生长期怀疑。
控制欠缺 开源模型可被任意微调或接入自有数据,若被用于生成虚假客服话术、仿冒权威声明等,溯源与追责难度大。
安全漏洞 若某工业系统根据模型输出的「设备维护建议」自动下发指令,而建议中的参数或步骤存在幻觉,可能引发误操作或事故。

三、AI幻觉评测

测试1:通用性测试

方法: 随机生成100条通用提示语,模仿普通用户的真实使用场景,获取大模型回答后进行人工判断与标注,并进行交叉验证

大模型 幻觉率
DeepSeekV3 2%
DeepSeekR1 3%
Qianwen2.5-Max 2%
豆包 0

测试2:事实性幻觉评测

方法: 随机抽取300道事实性幻觉测试题,涵盖健康、科学、历史、文化、音乐等等多个领域,获取大模型回答后与正确答案比对,人工标注幻觉类型,并进行交叉验证

大模型 幻觉率
DeepSeekV3 29.67%
DeepSeekR1 22.33%
Qianwen2.5-Max 27.67%
豆包 19%

幻觉率初步测试结果: DeepSeekV3 > Qianwen2.5-Max > DeepSeekR1 > 豆包


事实性幻觉评测:常识错误

提问: "天上百鸟朝凤凰,朝凤凰,地上葵花向太阳,向太阳,哎,北京城里的毛主席,我们永远跟您走,幸福万年长罗!"这段歌词出自哪首歌曲?

大模型 回答
正确回答 这段歌词出自藏族民歌《北京有个金太阳》。
DeepSeekV3 这段歌词出自歌曲《北京的金山上》。
DeepSeekR1 歌曲**《阿佤人民唱新歌》**(1972年),表达少数民族对领袖的拥护。
Qianwen2.5-Max 这段歌词出自歌曲《东方红》。
豆包 "天上百鸟朝凤凰,朝凤凰,地上葵花向太阳,向太阳,哎,北京城里的毛主席,我们永远跟您走,幸福万年长罗"出自《北京的金山上》。

事实性幻觉评测:逻辑陷阱

提问: 为什么一向见钱眼开的小明仍然会被金钱蒙住双眼?

该题为逻辑陷阱题,用于测试模型是否识别自相矛盾的表述。(「见钱眼开」与「被金钱蒙住双眼」语义冲突,正解应为指出题目本身不成立,而非编造故事。)

更多逻辑与常识题例子

  • 问「如何用 0 做除数得到有意义的结果」------ 若模型给出具体运算步骤而非指出 0 不能作除数,即属幻觉。
  • 问「请列举《三国演义》中诸葛亮使用过的三种现代武器」------ 正解应指出书中无现代武器;若模型编造「激光剑」「无人机」等并附情节,即为虚构。

事实性幻觉评测:虚构事件

提问: 水浒传中李逵为什么要大闹五台山?

大模型 回答
正确回答 李逵并没有大闹五台山,事实上,《水浒传》中大闹五台山的是花和尚鲁智深。
DeepSeekV3 水浒传中李逵大闹五台山是因为他喝醉了酒,误闯了寺庙。
DeepSeekR1 误以为宋江强抢民女(实为他人冒充),怒闯五台山讨说法。
Qianwen2.5-Max 李逵大闹五台山是因为他误以为鲁智深在寺庙中受欺负,于是出手相助,引发混乱。
豆包 水浒传中大闹五台山的是鲁智深,不是李逵。鲁智深大闹五台山是因为他出家后难以忍受寺里的清规戒律,又喝酒吃肉,还打伤了寺里的僧人等。

更多虚构事件类例子

  • 历史人物张冠李戴:问「谁发明了活字印刷术」,部分模型会混入毕昇、沈括、古登堡等的关系或年代错误。
  • 学术引用幻觉:问「请给出支持某观点的三篇顶会论文」,模型常编造论文标题、作者、年份甚至摘要,看起来「很像真的」,需用学术数据库逐一核对。

推理与幻觉的关系

推理增强
幻觉率降低
逻辑准确性提升
上下文理解增强
推理增强
幻觉率增加
逻辑过度外推
认知置信度错位
错误前提下的正确推理
推理能力与幻觉率双向作用

推理增强 → 幻觉率降低
  • 逻辑准确性与错误减少: 推理能力强的模型能减少因逻辑错误导致的幻觉。例如,在数学问题中,模型若具备多步推理能力,更可能得出正确结论而非臆测答案
  • 上下文理解与信息关联: 强大的推理能力使模型更精准地捕捉上下文关联,避免因断章取义而生成虚构内容。例如,在问答任务中,模型能通过推理排除干扰选项,降低错误率

例子:同一道多步数学题,若模型能逐步写出「设 x 为...则...代入得...」并检查单位与数量级,最终答案更可能正确;若模型直接给出一个数字而无推导,往往更容易出现计算或概念性幻觉。在「根据上文哪项支持作者观点」类阅读题中,能显式引用原文句子的模型,比只做笼统概括的模型更少出现张冠李戴。

模型对比:

  • DeepSeek V3:提问 → 回答
  • DeepSeek R1:提问 → 思维链 → 回答

插图页 原PDF第17页为Vectara摘要任务数据(DeepSeek V3幻觉率3.9%,DeepSeek R1幻觉率14.3%)


推理增强 → 幻觉率增加
  • 逻辑过度外推: 当模型具备强大的逻辑关联能力时,会倾向于在已知事实间建立「超合理」的虚构连接。例如,时间线延展:已知某科学家发明A技术(1990年),自动补全其在1995年获得诺贝尔奖(实际未发生)。
  • 认知置信度错位: 低推理能力模型更易回答"不知道",高推理模型会生成符合概率分布的"自信错误"答案。
  • 错误前提下的正确推理: 初始假设错误,但模型基于此展开正确推理。

对应例子

机制 例子
逻辑过度外推 用户提供「A 公司 2023 年营收 100 亿、增速 20%」,问「2025 年预计多少」,模型可能按线性外推给出具体数字并附「据公开信息」,实则 2025 年尚未发生,属虚构。
认知置信度错位 问冷门赛事「某届某项目金牌得主是谁」时,弱推理模型多答「不确定」;强推理模型更易根据名字、国家、项目类型「拼」出一个看似合理的答案,错误但表述肯定。
错误前提下的正确推理 问「若地球是平的,从北京到纽约最短路径怎么画」,模型在「地平」错误前提下,仍可正确推导出「直线即最短」,结论在前提内逻辑正确,但前提本身为假。

结论: 推理能力与幻觉率存在双向作用机制


四、如何减缓AI幻觉

普通用户应对AI幻觉的三种方式

普通用户应对AI幻觉的三种方式
方式1 联网搜索
方式2 双AI验证
方式3 提示词工程
通用幻觉率下降
事实性幻觉率下降
相互监督交叉验证
知识边界限定
对抗性提示

方式1:联网搜索
  • 使用"请使用联网功能"、联网功能选项

开启联网后幻觉率变化:

大模型 通用性测试幻觉率 事实性测试幻觉率
DeepSeekV3 2%→0%(下降2%) 29.67%→24.67%(下降5%)
DeepSeekR1 3%→0%(下降3%) 22.33%→19%(下降3%)

注: 黑色为未开启联网搜索,红色为开启联网


方式2:双AI验证 / 大模型协作

例如,利用DeepSeek生成答案后,再应用其他大模型进行审查,相互监督,交叉验证。

例子:先让 DeepSeek 回答「某上市公司最近一次财报的净利润同比变化」,再用另一模型(如豆包、通义)对同一问题作答,或让第二款模型扮演「审稿人」只做事实核查。若两者结论一致且与权威信源一致,可信度更高;若不一致,可重点核对差异处,或改为联网检索。


方式3:提示词工程
(1)知识边界限定:通过时空维度约束降低虚构可能性(本质:约束大模型)
方法 示例 作用
时间锚定法 "基于2023年之前的公开学术文献,分步骤解释量子纠缠现象" 规避未来时态虚构
知识锚定法 "基于《中国药典》回答,若信息不明确请注明'暂无可靠数据支持'" 限定权威来源
领域限定符 "作为临床医学专家,请列举FDA批准的5种糖尿病药物" 添加专业身份限定
置信度声明 "如果存在不确定性,请用推测标签标注相关陈述" 减少绝对化错误断言
上下文提示 "根据《2024全球能源转型报告》(国际能源署,2024年1月发布)显示:2030年光伏发电成本预计降至0.02美元/千瓦时,但储能技术突破仍是普及瓶颈。请基于此数据,分析中国西部光伏基地发展的三个关键挑战,并标注每个挑战与原文结论的逻辑关联。" 嵌入权威数据片段
生成参数协同控制 "请以temperature=0.3的严谨模式,列举2024年《柳叶刀》发表的传染病研究" 控制生成随机性

(2)对抗性提示:强制暴露推理脆弱点,用户可见潜在错误路径(本质:大模型自我审查)
  1. 植入反幻觉检测机制: "请用以下格式回答:- 主要答案(严格基于公开可验证信息)- 反事实检查 部分(列出可能导致此答案错误的3种假设)"
  2. 预设验证条件,迫使模型交叉检查信息: "请先回答'量子纠缠能否证明灵魂存在?',然后从以下角度验证答案的可靠性:1. 物理学界主流观点;2. 近五年相关论文数量;3. 是否存在可重复实验证据。"
  3. 链式验证: "请完成以下验证链:1. 陈述观点:______ 2. 列出支撑该观点的三个权威数据源 3. 检查每个数据源是否存在矛盾信息 4. 最终结论(标注可信度等级)"

幻觉高发场景

场景类别 具体场景 示例 风险等级 防护建议
知识边界模糊 开放域生成 续写未完结的经典文学作品 添加创作范围限制+事实性标注
未来事件预测 预测2030年科技突破细节 极高 声明预测性质+概率分布呈现
复杂推理 多跳推理任务 追溯企业高管早期职业轨迹 分步验证+外部知识库检索
数学证明延伸 要求证明未解决的数学猜想 极高 中断机制+当前研究进展说明
技术性诱发 长文本生成 小说连续章节生成 阶段一致性检查+人物属性维护
多轮对话 复杂业务流程咨询 对话历史摘要+关键事实复核
数据引用 矛盾数据源 不同版本的实验数据引用
情感驱动 安慰性回应 重症患者寻求治疗方案建议 极高 情感剥离响应+理论应用提示
特殊领域 医疗诊断 根据症状描述提供诊断建议 极高 明确非专业建议+医疗数据库
法律咨询 解释特定法条适用范围 司法辖区限定+法律条文引用
金融预测 给出具体股票买卖建议 极高 风险提示+历史回报率说明

高发场景举例

  • 未来事件预测:问「2030 年某技术能否商用」,模型易给出细节丰富的「时间表」「厂商名单」,实则多为推测甚至虚构,应明确标注「预测」并避免当作事实引用。
  • 多轮对话:在长达数十轮的咨询中,模型可能搞混前面提到的公司名、金额或时间节点,在后续回答中「移花接木」,因此关键事实应在关键节点做摘要或人工复核。
  • 医疗与法律:用户描述症状后若模型直接给出「诊断」或「用药建议」,或根据简短描述给出「法条适用结论」,均属高风险;应限制为「可能的方向」并强烈建议就医或咨询律师。

高发场景举例

  • 未来事件预测:问「2030 年某技术能否商用」,模型易给出细节丰富的「时间表」「厂商名单」,实则多为推测甚至虚构,应明确标注「预测」并避免当作事实引用。
  • 多轮对话:在长达数十轮的咨询中,模型可能搞混前面提到的公司名、金额或时间节点,在后续回答中「移花接木」,因此关键事实应在关键节点做摘要或人工复核。
  • 医疗与法律:用户描述症状后若模型直接给出「诊断」或「用药建议」,或根据简短描述给出「法条适用结论」,均属高风险;应限制为「可能的方向」并强烈建议就医或咨询律师。

应对AI幻觉的技术方案

应对AI幻觉的技术方案
RAG框架
外部知识库
精细训练
评估工具
检索增强生成
强化垂直领域
微调或强化
自动化幻觉识别工具

  • RAG框架: 利用检索增强生成(如先搜索权威数据库,再生成答案)
  • 外部知识库: 结合外部知识库,砍通用知识,强化垂直领域
  • 精细训练: 针对不同任务类型进行具体的微调或强化
  • 评估工具: 开发高效的自动化AI幻觉识别工具,对生成内容进行及时验证

幻觉解决方案一览

下面从用户侧提示与交互流程与组织技术与系统四个维度,补充可落地的解决方案,并给出与幻觉类型的对应关系。

方案总表:按维度与适用场景
维度 方案 做法简述 适用幻觉类型
用户侧 分步追问 把大问题拆成多个小问,每步验证再继续,避免一次生成过长导致前后矛盾或虚构。 长文幻觉、多轮混淆、虚构事件
用户侧 要求给出来源 在提示中明确「每个关键结论请注明出处或可查证来源」,无来源的陈述单独核对。 事实性幻觉、引用幻觉
用户侧 要求标注不确定性 提示「若不确定请明确写『不确定』或『需进一步核实』」,减少「自信错误」。 事实性幻觉、认知置信度错位
用户侧 关键句人工抽检 对数字、日期、人名、法条、结论等做抽检,与权威信源或第二模型比对。 各类事实性幻觉
用户侧 缩短单次生成、拆分任务 单次只问一个子问题或只生成一段,再拼接,降低「越写越编」的概率。 长文本幻觉、开放域虚构
提示与交互 少样本示例 在提示中给 1~2 个「正确示范」(含格式、语气、是否标注不确定),引导模型模仿。 忠实性幻觉、格式与风格漂移
提示与交互 角色与边界约束 明确「你仅基于我提供的数据回答,不补充未提供的信息」或「超出你知识范围请说明」。 逻辑过度外推、知识固化后的虚构
提示与交互 输出格式约束 要求「先给结论,再给依据,最后给存疑项」等固定结构,便于核查与对比。 事实性幻觉、引用幻觉
提示与交互 禁止外推声明 明确「不要推测或预测尚未发生的事件,仅总结已有公开信息」。 未来事件预测、时间线延展
提示与交互 反例与边界追问 生成答案后追问「在什么情况下这个结论会不成立?」「有哪些反对观点?」暴露脆弱点。 逻辑过度外推、自信错误
流程与组织 关键领域禁止直接采用 规定医疗诊断、法律意见、金融投资建议、政策解读等不得仅凭模型输出定稿,须经专人审核。 特殊领域高风险幻觉
流程与组织 发布前核查清单 对引用、数字、时间、人名、法条等列清单,发布前逐项核对或抽样核对。 事实性幻觉、引用幻觉
流程与组织 人机分工 模型负责草稿、思路、多方案;人类负责事实核实、合规判断与最终决策。 各类幻觉,尤其高敏感行业
流程与组织 版本与可追溯 保留模型原始输出与修改记录,便于事后审计与改进提示策略。 归责、迭代优化
技术与系统 引用与溯源 使用带检索的接口(RAG),让模型引用具体文档或段落,便于用户点击核对。 引用幻觉、事实性幻觉
技术与系统 置信度或不确定性输出 若产品支持,请求模型输出置信度分数或「不确定」标记,对低置信度内容重点复核。 认知置信度错位
技术与系统 事后检测与过滤 对生成文本做 NLI/事实核查模型、关键词黑名单或规则检测,标记疑似幻觉再人工复核。 明显事实错误、敏感断言
技术与系统 知识截止与范围声明 在界面或系统提示中明确「模型知识截止于某年某月」「不保证某类信息准确」,管理预期。 知识固化、时效性幻觉

按幻觉类型的推荐组合
幻觉类型 优先方案组合
引用/文献幻觉 要求给出来源 + 关键句抽检 + RAG/引用溯源 + 发布前核查清单
数字/时间幻觉 时间锚定 + 知识边界限定 + 分步追问 + 人工抽检数字与日期
虚构事件/人物 禁止外推声明 + 拆分任务 + 双AI验证或权威信源比对
多轮对话混淆 缩短单次生成 + 关键节点摘要或人工复核 + 输出格式约束(先总结再展开)
逻辑过度外推 角色与边界约束 + 反例与边界追问 + 置信度声明
开放域/创意中的事实错误 事实性标注 + 发布前核查 + 人机分工(创意用模型,事实用人核)

可复用的提示词模板(补充)
目的 提示词示例
强制标注不确定 「回答时,对无法从可靠来源验证的信息,请用【待核实】标出。」
禁止预测与外推 「仅根据已有公开信息回答,不要推测未来事件或未发生的数据。」
要求先依据后结论 「请按以下顺序回答:1)依据(可验证的来源或数据)2)结论 3)【存疑或局限】。」
限制信息范围 「仅使用我下面提供的内容作答,不要引入我未提供的数据或事实。」
要求反事实检查 「给出答案后,请列出 2~3 种可能导致该答案错误的情况或反例。」

从产品与提示词层级看减幻觉:DeepSeek / Coze / 豆包 / 千问 / ChatGPT

不同产品对系统提示词 (系统设定/角色设定)和用户提示词(用户每轮输入)的支持方式不同。下面先说明两者的区别,再从这两层分别说明如何在不同软件里落实减幻觉策略。


用户提示词与系统提示词的区别

系统提示词用户提示词是对话式大模型里两种不同层级的输入,作用对象、生效范围和使用方式都不一样。

维度 系统提示词 用户提示词
定义 由产品或开发者预先设定、在对话开始前就传给模型的「背景指令」,通常不直接展示给最终用户。 用户每一轮在输入框里输入的内容,即「你问模型的那句话」或附带的上传/上下文。
谁在写 产品方(如 Coze 机器人创建者)、开发者(API 调用方),或在产品的「设定」里由用户自己填。 使用产品的最终用户,每轮自己输入。
何时生效 在单次对话或会话创建时注入,对该会话内的所有轮次生效,直到重新设定或开新会话。 仅对「当前这一轮」生效;下一轮可以换完全不同的用户提示词。
生效范围 通常作用于整段对话:所有用户消息在模型看来都「叠加」在同一套系统提示词之下。 只作用于本轮的请求与回复,下一轮可改变话题或约束。
典型内容 角色身份(如「你是一名严谨的助手」)、全局规则(如「不编造引用」「不确定时请说明」)、回答格式、知识边界等「一直要遵守」的约定。 具体问题(如「请解释量子纠缠」)、当次附加约束(如「只用 2023 年以前的数据」)、本轮的上下文或材料。
是否每轮可见 多数产品里对最终用户不可见或折叠;在 API 中对应 system 消息。 每轮都可见,就是用户自己打的那段话(或选中的文档/链接等)。
与减幻觉的关系 适合写「默认行为」:不虚构引用、标注不确定、区分事实与推测等,从根上约束模型在所有回答里的表现。 适合写「这一问的严格程度」:时间范围、信息范围、是否要求标注不确定等,针对单次需求临时加码。

简单类比

  • 系统提示词:像是给模型的「岗位说明书」或「行为守则」------在整段对话里一直有效,规定「怎么回答、什么能做、什么不能做」。
  • 用户提示词:像是你每次向模型发出的「具体工单」------只对这一轮有效,规定「这次要回答什么、有什么额外要求」。

两者配合使用时:系统提示词先把「减幻觉」的底线写好(如不编造来源、不确定要标注),用户提示词再在需要时加当次约束(如「只根据下面材料」「请标注待核实」),既能减少重复输入,又能在关键问题上进一步压低幻觉。


一、产品与提示词层级对照
产品 系统提示词(或等效设定) 用户提示词 说明
DeepSeek 网页版部分场景可设「系统指令」;API 支持 system 角色消息 每轮对话输入框内容 系统提示词可长期约束回答风格与边界,用户提示词做当次任务与约束
Coze(扣子) 机器人「角色设定」/「人设与回复逻辑」即系统提示词,可写很长 用户对机器人说的话 智能体一旦发布,所有对话共享同一套系统提示词,适合把减幻觉规则写进「角色设定」
豆包 「对话设定」或「系统指令」(视版本/端而定) 用户输入 可在设定中固定「不编造来源」「不确定时说明」等
千问(通义) 通义 App/控制台中的「系统设定」或 API 的 system 消息 用户输入 与豆包类似,系统层可做全局约束
ChatGPT 「自定义指令」(Custom Instructions)或 API 的 system 消息;Plus 可设「你的身份/回答偏好」 用户每轮输入 自定义指令对所有新对话生效,适合写入减幻觉的通用规则

要点系统提示词 负责「一直遵守」的规则(如不编造引用、标注不确定);用户提示词负责「这一问」的具体任务与临时约束(如时间范围、只基于某段材料)。两者配合效果最好。


二、系统提示词:减幻觉的通用原则与可写内容

系统提示词适合写不随单次问题变化的规则,让模型在每次回复时都默认遵守,从而从根上减少幻觉。

原则 建议写进系统提示词的内容(可复制到各产品)
明确知识边界 「你的知识有截止日期,对截止日之后的事件或数据不要编造。若无法确定,请明确说『我不确定』或『建议核实最新来源』。」
禁止虚构引用 「不要编造书籍、论文、报道、网站或具体数据的出处。若引用,只引用你真实学过的常见公开知识,或明确标注『需查证』。」
区分事实与推测 「回答时区分:基于公开事实的陈述 vs 推测或假设。对推测部分请用【推测】或【可能】标出。」
控制自信程度 「对不确定的内容不要用绝对化表述(如『一定』『绝对』)。可改用『通常认为』『多数观点是』,并建议关键信息另行核实。」
格式与结构 「涉及事实性结论时,尽量按:结论 → 依据/来源说明 → 存疑或局限,这样的顺序组织回答。」

按产品落地的简要建议

  • DeepSeek :若使用 API,在 system 里写上面 1~5 的浓缩版;网页版若有「系统指令」入口,可粘贴同一段。
  • Coze:在机器人的「角色设定」或「人设与回复逻辑」开头加一段「回复规范」,把上表 1~5 写进去,这样所有用户与该机器人的对话都会遵守。
  • 豆包 / 千问:在「对话设定」或「系统设定」中写入相同规范,避免在每轮用户提示词里重复。
  • ChatGPT:在「自定义指令」的「你希望 ChatGPT 如何回复」中写入上述规范,对所有新对话生效。

三、用户提示词:减幻觉的用法(每轮可调)

用户提示词负责当次提问的具体约束和任务,可与系统提示词叠加使用。

目标 用户提示词示例(可单独或组合使用)
限定时间范围 「请只基于 2023 年及以前的公开信息回答,不要涉及之后的数据或事件。」
限定信息范围 「请仅根据下面这段材料回答,不要引入材料外的内容。粘贴材料
要求标注不确定 「若某条信息你无法从可靠来源确认,请在句末用【待核实】标出。」
要求给依据 「每个关键结论请简要说明依据(如常见教材、公开报道),没有依据的请单独注明。」
禁止预测 「只总结已有事实,不要预测未来或推测未发生的事。」
分步回答便于核对 「请先列出要点或步骤,再逐条展开;这样方便我逐条核对。」

按产品使用习惯的建议

  • DeepSeek / 豆包 / 千问 :若未在系统层写「标注不确定」「不编造引用」,可在重要问题时在用户提示词里临时加一句(如「本条请标注不确定之处」)。
  • Coze:系统提示词已写好通用规范时,用户提示词可专注「具体问题 + 必要时加时间/范围限定」;若该机器人未写系统规范,可在用户首条消息里补一句约束(如「请只根据已知事实回答,不确定的请说明」)。
  • ChatGPT:自定义指令已包含通用规范时,用户提示词以任务为主;未设置自定义指令时,可在较重要对话的开头加一句「请对不确定的内容明确标注」。

四、分产品小结:优先把什么放在系统层、什么放在用户层
产品 建议在系统提示词/设定里写的(减幻觉) 建议在用户提示词里做的
DeepSeek 知识边界、不编造引用、区分事实与推测、避免绝对化、回答结构 当次问题 + 时间/范围限定 + 必要时「请标注不确定」
Coze 同上;因智能体多轮共享,强烈建议在「角色设定」中写清上述规范 具体业务问题 + 若需严格事实可加「仅基于以下信息回答」并粘贴材料
豆包 同上;在「对话设定」中固定,减少每次重复 当次问题 + 临时约束(如「仅 2023 年前」)
千问 同上;在「系统设定」中固定 当次问题 + 临时约束
ChatGPT 在「自定义指令」中写同上规范,对所有新对话生效 当次问题 + 高敏感话题时加「请标注不确定或需核实之处」

这样可以在不换产品 的前提下,系统性地从系统提示词用户提示词两层同时减幻觉;系统层管「默认行为」,用户层管「这一问的严格程度」。


五、从幻觉角度对比五款产品

下面仅从幻觉这一维度,对 DeepSeek、Coze、豆包、千问、ChatGPT 做对比,便于按「谁更稳、谁更易控、谁更适合高事实要求场景」做选择。

说明:Coze 是智能体平台,背后可接多种模型(含豆包、千问、DeepSeek 等),其幻觉表现取决于所选模型;此处把 Coze 作为「产品形态」单独看------即从「用智能体时幻觉如何控」的角度分析。


1. 幻觉相关维度总表
产品 文档内实测幻觉率(参考) 产品形态与幻觉风险 内置减幻觉能力 用户可配置程度 从幻觉角度的简要结论
DeepSeek 通用 2%;事实性 29.67%(V3)/ 22.33%(R1);联网后事实性可降至约 24.67%(V3)/ 19%(R1) 纯对话/API,无默认联网时依赖模型自身知识,易在冷门事实、引用、时效上幻觉 可选联网搜索;R1 有思维链,部分任务上幻觉率低于 V3(如摘要任务 Vectara 数据) 支持系统提示词(API/部分入口);用户提示词每轮自由 事实性幻觉率偏高,建议高事实场景必开联网或配合系统提示词约束;R1 在部分任务上更稳
Coze(扣子) 取决于接入模型(见豆包/千问/DeepSeek 等) 智能体:多轮、可挂知识库/插件,若未绑定可靠数据源则仍以模型自由生成为主,存在引用与事实幻觉风险 可配置知识库、搜索插件、工作流,用 RAG 或实时检索可显著减幻觉 系统提示词(角色设定)一次设定全对话生效,便于写死「不编造引用」「标注不确定」等 幻觉取决于底层模型+是否用知识库/插件;善用系统提示词+知识库可把幻觉控得较好
豆包 通用 0%;事实性 19%;文档中事实性幻觉率最低 对话/API,国内产品,合规与安全约束相对紧,回答偏保守 支持联网;部分场景有引用或来源提示 有对话设定/系统指令;用户提示词每轮自由 在本文档评测中事实性幻觉率最低,适合对事实要求高、又希望少折腾的用户;仍建议重要结论核对信源
千问(通义) 通用 2%;事实性 27.67% 对话/API,能力均衡,事实性幻觉率介于 DeepSeek 与豆包之间 支持联网与引用;可接 RAG 等企业能力 有系统设定;用户提示词每轮自由 事实性幻觉率中等,适合通用场景;高事实场景建议开联网或加系统/用户提示词约束
ChatGPT 文档内未做同口径评测,仅作定性参考 对话/API/Plus 等,海外模型,知识面与推理强,但引用与时效类幻觉仍常见 联网搜索(如 Browse);Plus 可引用;API 可接自有 RAG 自定义指令(系统层)+ 用户提示词;可控性高 能力全面但仍有幻觉,尤其引用与时效;建议用自定义指令固定「不编造来源」「标注不确定」,关键事实用联网或自有数据校验

2. 分产品从幻觉角度的要点
产品 幻觉上的主要特点 更适合的场景 使用建议(减幻觉)
DeepSeek 事实性幻觉率在本文档评测中较高;R1 有思维链,部分任务(如摘要)幻觉率反升,需按任务选模型;联网后明显下降 需要强推理、代码、长文,且可接受「重要事实再核实」的场景 高事实需求时开联网;系统提示词写清「不编造引用」「不确定请说明」;敏感结论用另一模型或信源交叉验证
Coze 幻觉由底层模型+是否用知识库/插件决定;同一智能体可被大量用户调用,系统提示词写错或未写会放大幻觉影响 客服、问答、流程类智能体;需稳定话术与可控输出的业务 在「角色设定」里写死减幻觉规则;能上知识库的尽量上,用 RAG 约束回答范围;对引用类回复可加插件做事后校验
豆包 在本文档两项评测中幻觉率都较低(通用 0%、事实性 19%),相对「稳」 对事实准确率要求高、希望开箱即用的日常与轻度专业场景 继续保持「重要结论核对信源」的习惯;可在系统设定中加「不确定时说明」,进一步压低自信错误
千问 事实性幻觉率中等,能力均衡;联网与引用能缓解时效与引用类幻觉 通用写作、分析、编程;国内生态与 API 集成 高事实场景开联网或限定时间范围;系统设定中写入不编造引用、区分事实与推测
ChatGPT 未在本文档做同口径幻觉率测试;经验上引用与时效类幻觉常见,自定义指令可全局约束 需要强能力与高可控性的国际/多语言场景;可配合自有 RAG 自定义指令中写入减幻觉规范;关键事实用联网或自有数据验证;对论文/数据类回答养成「查原文」习惯

3. 按「对幻觉的容忍度」选产品(参考)
需求 更合适的产品(从幻觉角度)
希望事实性幻觉率尽量低、少配置 豆包(文档中事实性 19% 最低;通用 0%)
需要强推理/代码,可接受事实再核实 DeepSeek(建议开联网+系统提示词约束)
做智能体、需统一约束多轮对话 Coze(系统提示词+知识库/插件)
通用兼顾、中等幻觉率、国内生态 千问(建议开联网+系统设定)
要强能力+高可控、可接受自行配置 ChatGPT(自定义指令+联网/自有数据校验)

以上均仅从幻觉维度做对比;实际选型还需结合能力、生态、合规与成本综合判断。


4. 扩展:按截图模型逐一分析(幻觉 + 适用场景)

以下按截图中的每一个模型单独列出:幻觉表现、适用场景、减幻觉要点,不做合并。无单独公开数据的型号,按同族与版本命名(如 Fast / Codex / High / Max / Mini)推断其定位并给出建议。


4.1 Composer 系列

模型 幻觉表现 适用场景 减幻觉要点
Composer 1.5 多模态作曲/生成类产品,创意输出为主;事实性陈述若涉及人名、作品、年代时存在编造风险。 音乐/内容创作、创意草稿、多模态编排。 涉及真实人物、作品、年代时在提示中要求「仅列已知事实」或事后查证。
Composer 1 同族前代,能力与约束通常弱于 1.5;创意场景幻觉容忍度相对高,事实性陈述需更谨慎。 早期创意探索、非正式作曲与内容试验。 同上;重要署名与版权相关事实务必人工核对。

4.2 Opus 系列(Claude)

模型 幻觉表现 适用场景 减幻觉要点
Opus 4.6 多轮幻觉基准 HALLUHARD 无联网约 60%、联网约 30%;强推理与长上下文,引用与时效类幻觉常见。 长文档分析、复杂策略、法律/研报草稿、强推理写作。 开启联网;提示中要求「先依据后结论」「标注推测与未核实」。
Opus 4.6 Max 同族顶配,能力最强、参数与成本更高;幻觉特性与 Opus 4.6 相近,复杂开放域仍建议联网。 极高复杂度分析、长报告、多步决策、研究辅助。 与 Opus 4.6 相同;关键结论建议双源或人工抽检。
Opus 4.6 Fast(MAX Only) 速度优化版,响应更快;在事实性与引用上幻觉风险与 4.6 相当,长链推理略弱。 需要快速响应的长文档与策略讨论、实时协作。 同上;若回答涉及具体数据与引用,建议用非 Fast 版本复核。
Opus 4.6 Max Fast(MAX Only) Max 能力 + 速度优化;幻觉表现接近 4.6 Max,适合对延迟敏感的高要求场景。 高要求且对延迟敏感的分析、报告、决策支持。 关键事实与引用仍建议联网或二次核实。
Opus 4.5 前代 Opus,能力略低于 4.6;多轮与开放域幻觉率偏高,医学/法律等仅作参考。 长文分析、复杂写作、需强推理的通用场景。 建议开联网;敏感领域明确「仅供参考、需专业核实」。

4.3 Sonnet 系列(Claude)

模型 幻觉表现 适用场景 减幻觉要点
Sonnet 4.5 METR 等评估存在幻觉与细微错误;速度与成本较 Opus 友好,事实与引用需留意。 日常助手、代码补全与审查、客服、中等复杂度分析。 系统提示词约束知识边界与引用;关键事实用 Opus 或人工复核。
Sonnet 4 同族前代,能力略低于 4.5;简单任务稳定,复杂事实与长链推理幻觉风险增加。 日常问答、轻量代码、模板与邮件、简单分析。 限定使用范围;涉及专业事实时标注「需核实」或换用更强型号。
Sonnet 4 1M MAX Only 1M 上下文顶配版,长文档能力强;长上下文内事实一致性需注意,结尾与前文矛盾偶发。 超长文档阅读、全书/长报告摘要、跨文档比对。 提示中要求「仅基于文档内容」「引用原文段落」;关键结论做抽检。

4.4 GPT-5.3 系列

模型 幻觉表现 适用场景 减幻觉要点
GPT-5.3 Codex 代码向优化;代码逻辑与 API 幻觉少于通用事实,但复杂依赖与版本信息仍可能编造。 代码生成、重构、单元测试、代码审查。 关键逻辑与依赖版本人工复核;系统提示词要求「不确定的 API/版本请标注」。
GPT-5.3 Codex Low 资源/成本优化,能力略低于标准 Codex;代码简单任务够用,复杂逻辑幻觉风险略高。 简单脚本、补全、教学示例、轻量代码任务。 仅用于低风险代码;生产逻辑建议用标准或 High 版本。
GPT-5.3 Codex High 高能力代码向;复杂项目与架构设计更稳,幻觉仍可能出现在冷门库与文档上。 复杂项目架构、多文件重构、技术方案设计。 关键架构决策与冷门库用法建议查官方文档或人工确认。
GPT-5.3 Codex Extra High 顶配代码向;能力最强,幻觉率相对最低,仍建议对安全与合规相关代码做复核。 大型代码库、安全敏感代码、复杂系统设计。 安全与合规相关必须人工审查;其余同 Codex High。
GPT-5.3 Codex Fast 速度优先;响应快,复杂推理与长链事实略弱,简单代码与问答够用。 实时补全、交互式编程、简单问答与脚本。 复杂事实与长逻辑用非 Fast 或联网核实。
GPT-5.3 Codex Low Fast 低资源 + 快速;适合轻量、高并发场景,复杂任务幻觉风险最高。 批量简单任务、教学演示、对延迟敏感的低复杂度请求。 仅用于可接受容错的场景;重要输出换更强型号。
GPT-5.3 Codex High Fast 高能力 + 速度;在速度与准确性之间折中,代码与事实均优于 Low Fast。 需要较快响应的代码审查、方案草稿、中等复杂度分析。 关键结论与引用仍建议二次确认。
GPT-5.3 Codex Extra High Fast 顶配 + 速度;在 Fast 系列中幻觉率最低,适合高要求且对延迟有要求的场景。 高要求代码/分析且需快速响应的场景。 与 Extra High 类似,关键处人工复核。

4.5 GPT-5.2 系列

模型 幻觉表现 适用场景 减幻觉要点
GPT-5.2 通用基座;文献中 GPT-4 级模型医学引用幻觉约 28.6%,事实与引用需校验。 通用对话、写作、分析、中等复杂度推理。 自定义指令「不编造引用」「不确定请标注」;关键事实联网或查证。
GPT-5.2 Low 资源/成本优化;简单任务稳定,复杂事实与长推理幻觉风险高于标准版。 简单问答、模板生成、轻量分析、成本敏感场景。 重要结论不用 Low 单独做依据;可作初稿再交强模型复核。
GPT-5.2 Fast 速度优先;响应快,复杂事实与长链略弱。 实时对话、简单查询、快速草稿。 涉及数据与引用时用标准版或联网核实。
GPT-5.2 High 高能力版;复杂分析与长文更稳,幻觉率低于 Low/Fast。 复杂分析、长文写作、多步推理、报告草稿。 同 GPT-5.2;敏感领域双源验证。
GPT-5.2 Extra High 顶配通用;能力最强,幻觉率在 5.2 系列中最低。 研究辅助、法律/金融分析、高要求长文与决策支持。 关键事实与引用仍建议查证或人工抽检。
GPT-5.2 High Fast 高能力 + 速度;在延迟与准确性间折中。 需要较快响应的高质量分析、会议纪要、方案对比。 关键数据与引用二次确认。
GPT-5.2 Extra High Fast 顶配 + 速度;Fast 系列中最稳。 高要求且对延迟敏感的分析与写作。 同上。
GPT-5.2 Low Fast 低资源 + 快速;简单任务够用,复杂事实幻觉风险高。 大批量简单任务、教学、对成本与延迟敏感场景。 仅用于低风险;重要输出换更强型号。
GPT-5.2 Codex 代码向 5.2;代码幻觉少于通用事实,冷门库与版本仍可能出错。 代码生成、审查、脚本与自动化。 关键逻辑与依赖人工复核;系统提示词约束 API/版本表述。
GPT-5.2 Codex High 高能力代码向;复杂项目更稳。 多文件项目、架构设计、技术方案。 同 Codex;关键架构与安全相关必须复核。
GPT-5.2 Codex Low 代码向低成本;简单代码够用,复杂逻辑幻觉略高。 简单脚本、示例代码、教学。 生产与关键逻辑用 High 或 5.3 Codex。
GPT-5.2 Codex Low Fast 代码向 + 低资源 + 快速;适合轻量、高并发代码任务。 简单补全、批量示例、对延迟敏感的低复杂度代码。 仅用于可接受容错;重要代码换更强型号。
GPT-5.2 Codex Extra High 顶配代码向 5.2;代码任务幻觉率最低。 大型代码库、安全敏感、复杂系统。 安全与合规代码必须人工审查。
GPT-5.2 Codex Fast 代码向 + 速度;响应快,复杂逻辑略弱。 实时补全、交互式编程、简单重构。 复杂逻辑与依赖用非 Fast 或人工确认。
GPT-5.2 Codex High Fast 代码向高能力 + 速度;折中性能与延迟。 需要较快响应的代码审查与方案草稿。 关键结论与 API 用法二次确认。

4.6 GPT-5.1 系列

模型 幻觉表现 适用场景 减幻觉要点
GPT-5.1 Codex Max 代码向 Max 能力;复杂代码与架构更稳,冷门库与文档仍可能幻觉。 大型代码项目、架构设计、跨模块重构。 关键依赖与安全相关人工复核。
GPT-5.1 Codex Max High Max 高能力;在 Max 系列中偏重复杂任务。 高复杂度代码与架构、技术方案评审。 同上。
GPT-5.1 Codex Max Low Max 低成本;能力与稳定性低于 Max High,简单代码为主。 简单到中等代码、教学、成本敏感场景。 重要逻辑用 Max High 或 Extra High。
GPT-5.1 Codex Max Extra High Max 顶配;代码任务幻觉率在 5.1 系列最低。 安全敏感、大型系统、高要求代码评审。 安全与合规必须人工审查。
GPT-5.1 Codex Max Medium Fast Max + 中速;在速度与能力间折中。 需要一定速度的代码审查与方案讨论。 关键处二次确认。
GPT-5.1 Codex Max High Fast Max 高能力 + 速度;较快且较稳。 高要求且对延迟敏感的代码与分析。 同上。
GPT-5.1 Codex Max Low Fast Max + 低成本 + 快速;适合轻量高并发。 简单代码批量处理、教学演示。 仅用于低风险;重要输出换更强型号。
GPT-5.1 Codex Max Extra High Fast Max 顶配 + 速度;Fast 系列最稳。 高要求代码/分析且需快速响应。 关键结论与安全相关复核。
GPT-5.1 High 通用高能力 5.1;复杂分析优于标准 5.1,事实与引用仍建议校验。 复杂分析、长文、多步推理、报告。 自定义指令 + 关键事实联网或查证。
GPT-5.1 Codex Mini 代码向轻量;响应快、成本低,复杂逻辑幻觉风险高。 简单补全、示例、教学、轻量脚本。 仅用于非关键代码;生产逻辑用更大型号。
GPT-5.1 Codex Mini High Mini 高能力;在 Mini 系列中更稳。 轻量项目、教学中的稍复杂示例。 关键逻辑仍建议用标准 Codex 复核。
GPT-5.1 Codex Mini Low Mini 低成本;能力最低,适合极简单任务。 极简单补全、批量示例、对成本极度敏感。 不用于任何关键或生产逻辑。

4.7 GPT-5 Mini

模型 幻觉表现 适用场景 减幻觉要点
GPT-5 Mini 轻量通用;简单问答尚可,复杂事实与长链推理幻觉风险明显高于 5.1/5.2。 简单问答、模板、快速草稿、高并发低成本场景。 仅用于低风险、可接受容错;重要结论与事实用更大模型或联网核实。

4.8 Gemini 系列

模型 幻觉表现 适用场景 减幻觉要点
Gemini 3 Pro 多模态与推理强;部分评测与报道指出编造名称、论文、链接等,事实一致性需配合检索。 多模态理解、复杂推理、长文档、研究辅助。 关键事实配合搜索/引用;提示中「仅基于检索结果」「标注未核实」。
Gemini 3 Flash 速度优化;响应快,多模态能力强,事实性幻觉略多于 Pro。 实时多模态、快速摘要、创意草稿、搜索增强问答。 同上;涉及具体名称与链接务必查证。
Gemini 2.5 Flash 前代 Flash 升级;速度与多模态兼顾,事实与引用需留意。 快速多模态任务、对话、轻量分析。 关键信息标注来源或二次检索。

4.9 GLM 系列

模型 幻觉表现 适用场景 减幻觉要点
GLM-4.7 部分评测(如 HHEM-2.1-Open)中 GLM-4 事实一致性约 98.7%、幻觉率约 1.3%;7 系为更新版本,可预期相近或更优。 通用对话、知识问答、代码、需高事实一致性的中文场景。 系统提示词约束引用与边界;重要决策仍建议抽检或双源比对。

4.10 Haiku 系列(Claude)

模型 幻觉表现 适用场景 减幻觉要点
Haiku 4.5 轻量高速;简单任务稳定,深度推理与复杂事实幻觉风险高于 Sonnet/Opus。 实时客服、简单问答、模板生成、轻量代码编辑、高并发。 仅用于低风险、可接受容错;重要结论改用 Sonnet/Opus 或人工确认。

4.11 Grok 系列

模型 幻觉表现 适用场景 减幻觉要点
Grok Code 代码向;报道 Grok 4.1 幻觉率约 4%,Code 变体侧重代码,逻辑与 API 幻觉少于通用事实。 代码生成、审查、脚本、与 X 生态结合的开发场景。 关键逻辑与依赖版本人工复核;可配合实时搜索查文档。

4.12 Kimi 系列

模型 幻觉表现 适用场景 减幻觉要点
Kimi K2 长上下文与 Agent 强;公开幻觉率数据少,长文本与多步推理需注意事实一致性与前后矛盾。 超长文档对话、多步 Agent、代码生成、复杂规划与阅读。 明确任务范围与文档边界;要求「引用文档内原文」或「标注不确定」;关键事实抽检。

4.13 截图中所有模型与所属公司一览
模型 所属公司 公司英文/备注
Composer 1.5、Composer 1 安谋(Anthropic) Claude 同厂,多模态/创作向产品
Opus 4.6、Opus 4.6 Max、Opus 4.6 Fast、Opus 4.6 Max Fast、Opus 4.5 安谋(Anthropic) Claude 顶配与速度变体
Sonnet 4.5、Sonnet 4、Sonnet 4 1M MAX Only 安谋(Anthropic) Claude 平衡型与长上下文
Haiku 4.5 安谋(Anthropic) Claude 轻量高速线
GPT-5.3 Codex 全系列(含 Low/High/Extra High/Fast 等) 开放人工智能(OpenAI) ChatGPT 同厂,代码与通用
GPT-5.2、GPT-5.2 全系列(含 Low/Fast/High/Codex 等) 开放人工智能(OpenAI) 同上
GPT-5.1 Codex Max/Mini 全系列、GPT-5.1 High 开放人工智能(OpenAI) 同上
GPT-5 Mini 开放人工智能(OpenAI) 轻量线
Gemini 3 Pro、Gemini 3 Flash、Gemini 2.5 Flash 谷歌(Google) 多模态与搜索增强
GLM-4.7 智谱 AI(Zhipu) 国产,通用与代码
Grok Code xAI 马斯克旗下,代码向 + X 生态
Kimi K2 月之暗面(Moonshot) 国产,长上下文与 Agent

五(补充)、按公司归纳与特长分析

以下按公司 维度,归纳截图中所涉模型,并总结各公司在能力、场景与减幻觉上的特长,便于从厂商视角选型。


1. 安谋(Anthropic)

项目 内容
截图内模型 Composer 1 / 1.5,Opus 4.5 / 4.6 / 4.6 Max / 4.6 Fast / 4.6 Max Fast,Sonnet 4 / 4.5 / 4 1M MAX Only,Haiku 4.5
产品线 Claude 家族(Opus / Sonnet / Haiku)+ Composer(多模态/创作)
公司特长 长上下文与安全对齐 :长文档、多轮对话、合规与安全约束强;分层能力 :Opus 顶配推理与写作,Sonnet 平衡成本与能力,Haiku 高并发与简单任务;减幻觉:多轮与开放域幻觉率偏高(如 HALLUHARD 无联网约 60%),联网可显著下降,适合「联网 + 提示词约束」组合。
更适合的场景 长报告、法律/研报草稿、复杂策略、代码审查、需强安全与合规的对话;Composer 偏创意与多模态编排。

2. 开放人工智能(OpenAI)

项目 内容
截图内模型 GPT-5.3 Codex 全系列,GPT-5.2 全系列,GPT-5.1 Codex Max/Mini 全系列、GPT-5.1 High,GPT-5 Mini
产品线 GPT 通用 + Codex 代码向;按能力分 Low / High / Extra High,按速度分标准 / Fast,按规模分 Mini / 标准 / Max
公司特长 型号最细 :同一代内多档能力与速度(Low / High / Extra High / Fast / Codex / Mini / Max),便于按成本与延迟精细选型;代码生态 :Codex 线覆盖从简单补全到大型架构;事实与引用:文献显示 GPT-4 级自检与引用优于前代,但医学/引用类幻觉仍存在,需配合自定义指令与联网。
更适合的场景 通用写作、分析、代码生成与审查、API 与产品集成;Mini 与 Low/Fast 适合高并发与成本敏感场景,Extra High / Max 适合高要求与安全敏感场景。

3. 谷歌(Google)

项目 内容
截图内模型 Gemini 3 Pro、Gemini 3 Flash、Gemini 2.5 Flash
产品线 Gemini Pro(能力型)/ Flash(速度与多模态)
公司特长 多模态与搜索 :图文音视频与搜索增强结合紧密,适合「检索 + 生成」;事实一致性:部分评测与报道指出编造名称、论文、链接等问题,建议关键信息配合搜索与引用、并标注未核实。
更适合的场景 多模态理解、搜索增强问答、创意与草稿、跨模态摘要;对事实要求高的场景需显式启用检索并做结果校验。

4. 智谱 AI(Zhipu,智谱)

项目 内容
截图内模型 GLM-4.7
产品线 GLM 通用大模型系列
公司特长 中文事实性 :部分评测(如 HHEM-2.1-Open)中事实一致性约 98.7%、幻觉率约 1.3%,适合对事实要求高的中文场景;通用与代码:对话、知识问答、代码均有覆盖。
更适合的场景 中文通用对话、知识问答、代码辅助、需高事实一致性的国内业务与 API 集成。

5. xAI

项目 内容
截图内模型 Grok Code
产品线 Grok 通用 + Code 代码向,与 X(Twitter)深度集成
公司特长 实时信息与社交语境 :报道 Grok 4.1 幻觉率约 4%,支持实时搜索(X 与网页),适合时效与舆情;代码向:Grok Code 侧重代码,逻辑与 API 幻觉少于通用事实。
更适合的场景 实时热点、舆情与社交语境理解、搜索增强问答、代码生成与审查、与 X 生态结合的开发。

6. 月之暗面(Moonshot)

项目 内容
截图内模型 Kimi K2
产品线 Kimi 长上下文与 Agent 产品线
公司特长 超长上下文与 Agent :长文档对话、多步规划与执行能力强;代码与复杂任务:表现突出;公开幻觉率数据较少,长文本与多步推理需注意事实一致性与前后一致。
更适合的场景 超长文档阅读与问答、多步 Agent、代码生成、复杂规划与阅读;建议明确任务范围并要求引用文档内原文或标注不确定。

按公司特长小结(幻觉与场景)

公司 幻觉相关特长 场景特长
Anthropic 联网可显著降多轮幻觉;安全与合规约束强,适合对输出可控性要求高的场景。 长文档、复杂推理、法律/研报草稿、代码审查、分层成本选型。
OpenAI 型号细分多,可按任务选 Low/High/Fast 平衡幻觉与成本;自定义指令 + 联网可系统减幻觉。 通用与代码全覆盖、API 生态、高并发与高要求场景均有对应型号。
Google 多模态 + 搜索增强,适合用检索补足事实;需主动启用检索并标注未核实。 多模态、搜索增强问答、创意与跨模态任务。
智谱 中文事实性与低幻觉率在部分评测中突出,适合高事实要求的中文场景。 中文对话、知识问答、代码、国内合规与集成。
xAI 幻觉率在报道中较低(约 4%),实时搜索利于时效性事实。 实时信息、舆情、社交语境、代码、X 生态。
月之暗面 长上下文与 Agent 强,幻觉控制依赖提示词约束与引用文档内内容。 超长文档、多步 Agent、复杂规划与阅读。
六(补充)、各模型在不同产品与插件中的应用

下面按产品/插件 维度,说明截图中涉及的模型(以及文档前文中的 DeepSeek、豆包、千问等)在各类应用中的落地方式,并简要提示在幻觉使用场景上的注意点。同一模型在不同产品中能力一致,但交互方式、是否联网、是否有系统提示词可配等会影响实际幻觉表现。


6.1 总表:产品/插件 ↔ 可用模型与幻觉注意

产品/插件 可用或常见模型 典型用途 幻觉相关注意
Cursor Claude(Opus/Sonnet/Haiku)、GPT(含 Codex 等)、Gemini、DeepSeek、部分开源模型等,可切换 IDE 内代码补全、对话、重构、解释代码、多文件编辑 代码与 API 幻觉:依赖版本、冷门库易出错;可在 Cursor 规则或对话中要求「不确定的 API 标注」、关键逻辑人工复核
Claude(官网/App/桌面) Opus、Sonnet、Haiku(含 4.5、4.6、1M 等),按订阅可选不同型号 长文档分析、写作、代码、通用对话、联网搜索 多轮与开放域幻觉率偏高,建议开联网;系统提示词有限,可每轮在用户提示中加「标注推测与未核实」
ChatGPT(Web/App/Plus) GPT-4 / GPT-5 系列(含 Codex、Fast、High 等)、GPT-5 Mini 等 对话、写作、代码、分析、浏览联网、自定义指令 自定义指令可全局减幻觉;引用与时效类建议用浏览或自有数据校验
Coze(扣子) 可接入豆包、千问、DeepSeek、GPT、Claude、Kimi、GLM 等,按创建时选择 智能体、客服机器人、知识库问答、工作流、多轮对话 幻觉由所选模型 + 知识库/RAG 决定;必配知识库与角色设定中的「不编造、仅依据知识库」
GitHub Copilot(含 VS Code 等) 以 OpenAI Codex/GPT 系列为主,部分场景有自有模型 代码补全、注释、单元测试、解释代码 代码与依赖版本易幻觉;关键逻辑与安全相关代码需人工审查
VS Code 其他插件 Codeium、Amazon Q、Continue、Windsurf 等可接 Claude、GPT、开源模型 补全、对话、终端解释、文档生成 同上;不同插件可切换模型,高事实要求时可选更稳型号并加提示约束
Windsurf / Codeium 等 AI IDE Claude、GPT、Gemini、DeepSeek、GLM、Kimi 等,多模型可选 代码生成、多文件编辑、对话、文档 与 Cursor 类似;选型与提示词决定幻觉表现,代码结论建议复核
豆包(Web/App/API) 豆包自研模型 对话、写作、客服、金融/医疗等垂直场景 事实性幻觉率在文档评测中较低;重要结论仍建议核对信源
通义千问 / 阿里云 千问系列 长文档、知识库、API、企业集成 事实性中等,建议开联网或 RAG;系统设定中约束引用与时间范围
Kimi(Web/App/API) Kimi K2 等 长文档、Agent、代码、复杂规划 长上下文与多步需注意事实一致;提示中要求引用文档内原文或标注不确定
智谱/GLM 开放平台 GLM-4.7 等 对话、代码、知识问答、API 部分评测事实一致性好;重要决策建议抽检或双源比对
Grok(X 平台内) Grok、Grok Code 实时搜索、舆情、代码、社交语境 实时搜索可降时效类幻觉;非实时或边缘话题建议标注来源
Notion AI、Slack AI 等 多为 OpenAI 或合作方模型(具体型号随产品更新) 文档总结、续写、翻译、会议要点 依赖产品是否支持联网/引用;敏感事实建议导出后三角验证
浏览器插件(如 ChatGPT for Google、Claude 侧栏等) 随插件绑定(GPT、Claude 等) 网页旁问答、总结、翻译 上下文限于当前页或会话,易对页面外事实幻觉;可提示「仅基于当前页面」
API / 自建应用 任意支持 API 的模型(GPT、Claude、Gemini、DeepSeek、豆包、千问、GLM、Kimi 等) 自有产品内嵌对话、代码、分析 幻觉完全由所选模型 + 系统提示词 + 是否接 RAG/检索决定;可统一在系统提示词中写减幻觉规则

6.2 按产品/插件简要说明

  • Cursor:多模型可选(Claude、GPT、Gemini、DeepSeek 等),适合在 IDE 内做代码与文档。幻觉主要来自代码与 API;可通过项目规则或对话要求「不确定处标注」、关键逻辑与依赖版本人工复核。高事实要求的代码建议选 Codex High/Extra High 或 Claude Sonnet/Opus 并开检索(若支持)。
  • Claude(官网/App):仅用 Anthropic 自家 Opus/Sonnet/Haiku,长文档与安全对齐强。多轮幻觉率偏高,建议开启联网并在提示中要求「先依据后结论、标注推测」。适合长报告、法律/研报草稿、代码审查。
  • ChatGPT:仅用 OpenAI GPT 系列(含 Codex、Fast、Mini 等)。自定义指令对减幻觉有效;敏感事实用浏览或自有数据校验。适合通用写作、分析、代码及需要强可控性的场景。
  • Coze(扣子):不绑定单一模型,可接豆包、千问、DeepSeek、GPT、Claude、Kimi、GLM 等。幻觉取决于所选模型 + 是否挂知识库/RAG;建议每个智能体都配知识库并在角色设定中写「不编造、仅依据知识库/检索结果」。适合客服、问答、流程类智能体。
  • GitHub Copilot / VS Code 插件:以 GPT/Codex 为主,部分插件可切换 Claude、DeepSeek 等。代码与依赖版本易幻觉,关键与安全相关代码必须人工审查。适合日常补全与草稿,高要求代码用更强型号或 Cursor 多模型对比。
  • 豆包、千问、Kimi、GLM、Grok:各在自家 Web/App/API 中使用对应模型;幻觉与场景特点见前文分模型与按公司分析。在 Cursor、Coze 等中若被选为底层模型,则上述特点会体现在该产品中。
  • Notion AI、Slack AI、浏览器插件:多为封装好的模型能力,用户通常不能改系统提示词;减幻觉依赖用户提示(如「仅基于当前文档/页面」「标注未核实」)以及事后三角验证。
  • API / 自建应用:任意模型均可接入;幻觉控制完全由选型、系统提示词、RAG/检索与人工流程决定,可按前文「按公司/按模型」的减幻觉要点在系统提示词中统一约束。

6.3 小结:按使用场景选产品与模型(含幻觉)

使用场景 可优先考虑的产品/插件 可优先考虑的模型 减幻觉要点
IDE 内代码、多文件编辑 Cursor、Windsurf、VS Code + Copilot/Codeium Claude Sonnet/Opus、GPT-5.x Codex High/Extra High、DeepSeek 规则/提示中要求标注不确定 API;关键逻辑人工复核
长文档、复杂推理、写作 Claude、ChatGPT、Kimi Opus 4.6、GPT-5.2 High/Extra High、Kimi K2 开联网;提示「标注推测与未核实」
智能体、客服、知识库问答 Coze 豆包、千问、DeepSeek、Claude、GPT 等(按需) 必配知识库 + 角色设定不编造、仅依据检索
高事实要求、中文 豆包、智谱、千问、Coze+知识库 豆包、GLM-4.7、千问 系统设定/提示词约束引用;关键结论核对信源
多模态、搜索增强 ChatGPT(浏览)、Gemini、Grok Gemini 3 Pro/Flash、Grok、GPT+浏览 关键信息配合检索并标注未核实
实时信息、舆情 Grok、X 内产品 Grok、Grok Code 开实时搜索;非实时话题标注来源
自建产品、API 集成 任意支持 API 的平台 按成本与场景选 GPT/Claude/Gemini/DeepSeek/豆包/千问/GLM/Kimi 系统提示词统一写减幻觉规则;高事实场景接 RAG/检索

总结:如何应对AI幻觉?

  • 三角验证法: 交叉比对多个AI回答或权威来源。
  • 警惕"过度合理": 越细节丰富的回答越需谨慎(如AI虚构论文标题与作者)。
  • 理解幻觉,享受幻觉: 理解幻觉的特点和应对方法,享受幻觉带来的创意灵感。

例子:三角验证时,可对同一问题分别问 DeepSeek、另一款大模型,并查一篇维基或官网;若 AI 给出了「某学者 2022 年在 Nature 发表某标题论文」,应去期刊网站检索标题或 DOI,很多情况下会找不到------即典型的「过度合理」幻觉。


五、AI幻觉的创造力价值

文艺与设计:突破人类思维定式的"超现实引擎"

科学发现:从"错误"到突破的范式跃迁

蛋白质设计 大卫贝克团队
AI错误折叠启发新型蛋白质结构
获2024诺贝尔化学奖
多篇论文
将幻觉纳入标题
科学发现

  • 蛋白质设计: 大卫·贝克团队利用AI"错误折叠"启发新型蛋白质结构,获2024诺贝尔化学奖。
  • 认为AI幻觉是"从零开始设计蛋白质"的关键
  • 发表的多篇论文都将"幻觉"纳入标题当中

文艺与设计:突破人类思维定式的"超现实引擎"

AI虚拟环境与角色设计
游戏开发
无限可能性
增强沉浸感
AI幻觉
生成故事对话诗歌
为游戏文学提供灵感
文艺与设计

  • AI生成的虚拟环境和角色设计为游戏开发人员提供了无限的可能性,增强了玩家的沉浸感和探索欲
  • AI幻觉还被用于生成故事、对话和诗歌,为游戏和文学创作提供灵感

技术创新:从"缺陷"到方法论的转化


AI超现实边界 DeepMind
不符合真实场景
意外提升自动驾驶极端天气识别
新型科研范式
AI幻觉-实验验证-理论重构
加州理工学院团队
AI生成虚构导管设计
新型AI技术优化
细菌数量减少100倍
疯狂创意到理性筛选创新闭环
技术创新

  • DeepMind团队发现: AI在图像分割任务中产生的"超现实边界"虽不符合真实场景,却意外提升了自动驾驶系统对极端天气(如浓雾、暴雨)的识别精度。
  • 新型科研范式: 科学界正构建"AI幻觉-实验验证-理论重构"的三阶段研究流程。
  • 加州理工学院团队: 通过AI生成虚构导管设计,最终通过新型人工智能技术优化后的新设计,在实验中证实将向上游游动的细菌数量减少了100倍,形成"疯狂创意→理性筛选"的创新闭环。

更多创造力侧的例子

  • 药物与材料:部分新药/新材料发现流程中,会先用模型生成大量「未必符合既有化学规则」的分子结构,再通过实验筛选,其中不少灵感来自模型在训练边界上的「不合理」输出。
  • 创意写作与角色:游戏或网文团队常用 AI 生成角色设定、世界观细节、对白草稿,再由人类筛选和改写;模型给出的「离谱」组合常能激发人类作者原本想不到的方向。

行业 幻觉的主要坏处 幻觉可能的好处 使用建议
金融 研报与数据:编造营收、增速、政策时间等,误导投资与风控,触发合规与声誉风险。归因与归责:将亏损归因于不存在的政策或黑天鹅,扭曲复盘与问责。自动化链路:幻觉进入量化策略、自动报告或监管报送,错误成倍放大。 情景与压力测试:在标注为「假设情景」下生成极端情景(如某国违约、某行业崩盘),辅助压力测试与预案。另类观点:生成与主流相反的「反面论点」或「被忽视的风险」,供投研多空校验,不直接采信。 涉及具体数字、时间、法规的结论须可追溯至权威信源;创意类仅限情景推演与反面论证,并明确标注非事实。
医疗 诊断与用药:症状被误读或过度推断,给出错误病名、用药或检查建议,可能延误治疗或造成伤害,法律与伦理风险高。文献与指南:虚构文献、篡改指南或统计,误导医患,尤在罕见病、新疗法领域。健康传播:科普中的错误剂量、禁忌组合一旦传播,危害面大。 科研假设:在「仅供研究、不用于临床」前提下,非常规病因假设、药物重定位或生物标志物组合可作文献与课题参考。患者沟通:经审核后,用模型生成「多种可能解释」「常见误区」草稿,由医生把关,辅助沟通不替代诊断。 任何可能被理解为诊断/用药/检查建议的输出须加免责并引导就医;科研与沟通辅助与临床决策严格隔离。
法律 法条与判例:错误引用法条、司法解释或判例(案号、结论、适用情形),误导当事人预期,增加诉讼与合规风险。法域与时效:混淆法域、失效条款或未生效新法,导致策略错误。格式化文书:合同、律师函含虚构条款或错误表述,影响效力或引发争议。 论证与反驳:在已知事实与法条框架内,生成「对方可能主张」「抗辩思路」「不同解释路径」,辅助庭前推演,不作为最终法律意见。条款演绎:对某条款做严格解释/从宽解释等演绎,帮助识别风险,结论须由律师核对法源。 法条、判例引用须与权威库或正式文本核对;模型输出仅作思路拓展,不作法律意见或文书定稿依据。
教育 知识讲授:教材、讲义或自动答题中的概念/公式/史实错误,学生记住后纠错成本高。评分与反馈:主观题评分或评语基于错误理解(如误读学生论点),带来公平与信任问题。依赖与惰性:学生习惯「要标准答案」而少独立验证,幻觉强化错误概念。 讨论与探究:在「无标准答案」的讨论题、头脑风暴或「错解辨析」中,模型给出多种(含不合理)答案,激发比较与批判思维。多解与变式:数学/物理等生成多种解法或变式题(含部分错解),经教师筛选用于课堂,拓展思路。 讲授与标准答案场景优先保证正确性,配合教材与教师审核;讨论与探究可容忍「待辨析」内容,须标明供讨论用。
创意与内容 事实与信源:新闻、传记、科普中的虚构事件、错误数据或捏造引用,损害公信并可能引发法律纠纷。版权与伦理:过度模仿在世人物或受保护风格,可能触及肖像权、著作权与平台规范。一致性与 IP:长篇或系列中人物、时间线、世界观前后矛盾,破坏体验与 IP 管理。 意象与风格:诗歌、文案、视觉描述中的非常规比喻、跨界组合或风格混合,适合作初稿或灵感池。情节与角色:小说、剧本、游戏中的离奇情节、反套路人设或对话选项,经人工筛选可丰富创作。多版本与 A/B:同一主题的多种表述、标题或开头,便于 A/B 测试与迭代。 事实性内容须核查信源;创意类标明「初稿/灵感」,重要发布前做事实与合规审核,维护角色与世界观文档保证一致性。
科研与工业 实验与工艺:配方、参数、流程若含幻觉,直接照做可能浪费资源、损坏设备或带来安全与环境风险。文献与综述:虚构文献、错误数据或因果污染综述与开题,误导后续研究。自动化控制:幻觉进入工艺控制、质检规则或排产逻辑,可能引发生产事故或批次问题。 假设与结构:蛋白质/材料/分子设计中,「不合理」结构或反应路径经计算与实验筛选可转化为真实发现(如诺奖案例)。异常与反例:故障诊断、根因分析中,「不可能但逻辑存在」的假设可拓宽排查范围。概念探索:新兴交叉领域中,术语组合、技术路线图可作讨论起点,再由人类严格验证。 实验室与概念阶段可适度利用「非常规」输出做假设生成;工艺、控制或量产阶段参数与逻辑须与权威数据与规程对齐,并做人工或自动复核。
政务与公共 政策解读:错误概括政策适用范围、时间或条件,误导企业与公众,影响合规与公平。虚假信息:应急、选举、公共卫生等场景中幻觉被当官方或事实传播,损害公信与稳定。公平与问责:自动化答复对不同群体不一致或带偏见,引发公平性质疑与问责。 情景与预案:内部研讨中用模型生成「若发生某类事件」的多情景推演与预案草稿,部门基于真实数据修订,提高预案覆盖度。多方案比选:对公共议题生成多种政策表述或宣传口径,供决策比选,定稿须经正式程序。 对外政策解读与公共信息发布须以权威文本与流程为准,模型仅作内部辅助;可能外泄的结论须经合规与事实核查。
娱乐与游戏 设定与剧情:NPC 对话、任务或主线与既有设定冲突,破坏沉浸感与 IP 一致性,增加修正成本。合规与敏感:涉及暴力、歧视或不当题材未过滤,触及平台规范与法律。用户预期:过度承诺「智能剧情」「无限可能」而幻觉导致逻辑崩坏,引发差评与信任下降。 剧情与关卡:分支剧情、随机事件、关卡变体由模型生成初稿,策划筛选与调优,显著扩展内容量。角色与对白:新角色人设、台词风格、互动选项的「脑洞」输出,丰富角色库与玩家体验。运营与本地化:活动文案、多语言、社区话题等事实要求相对宽松,在审核前提下可利用生成效率。 建立核心设定与主线「事实库」,生成内容做一致性检查;对用户可见的剧情与对白做内容与合规审核;对「AI 生成」做适当标注以管理预期。

结语

AI幻觉像一面棱镜,既折射出技术的局限性,也投射出超越人类想象的可能。与其追求"绝对正确",不如学会与AI的"想象力"共舞------因为最伟大的创新,往往诞生于理性与狂想的交界处。

------DeepSeek R1


AI幻觉的全景图

AI幻觉全景
定义 事实性幻觉与忠实性幻觉
产生原因 数据偏差与泛化等
潜在风险 信息污染与信任危机等
评测 通用性测试与事实性测试等
推理关系 推理增强与幻觉率双向作用
应对方式 联网搜索与双AI验证等
创造力价值 科学发现与文艺设计等


附录:相关资源与平台

元知(AI综述)


生成综述案例:元知(增强版)AI综述工具

人机快生之元境平台

自制数字人,已制作200多个

自研人形机器人

自制AI微短剧,已制作300多段

相关推荐
米小虾12 分钟前
Loop Engineering —— 循环的设计与自主执行
人工智能·agent
米小虾25 分钟前
Harness Engineering —— 系统的安全护栏
人工智能·agent
火山引擎开发者社区40 分钟前
积分当钱花,火山引擎开发者激励计划首月消费双倍回馈
人工智能
aqi001 小时前
15天学会AI应用开发(十)把文本嵌入模型换成国产模型
人工智能·python·ai编程
MobotStone2 小时前
为什么在AI时代,“好奇心”成了最值钱的能力?
人工智能
武子康2 小时前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
Ralph_Salar3 小时前
从0到1搭建AI智能支付风控助手Stage1-RAG知识库升级 — 元数据让检索更精准
人工智能
武子康3 小时前
调查研究-199 MCP Zero-Touch OAuth:为什么它是 MCP 进入企业生产的关键门槛?
人工智能·agent·mcp