A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive

ACL 2025 Best Paper Award

摘要

大语言模型（LLMs）正越来越多地被应用于自主决策场景，在这类场景中，模型需要从庞大的行动空间中选取决策选项。然而，主导这一采样过程的启发式规则，目前尚未得到充分的研究。本文对大语言模型的这种采样行为展开探究，研究发现，其背后的启发式规则与人类的决策方式具有相似性：均包含某一概念的描述性成分（反映统计常态）和规定性成分（大语言模型中内置的隐含理想范式）。研究证实，在公共卫生、经济趋势等诸多现实领域的概念中，模型采样结果都会出现一致的偏移 ------ 偏离统计常态，向规定性成分靠拢。为进一步阐释该理论，本文还验证了大语言模型中的概念原型会受规定性规范的影响，这一点与人类认知中的 "常态" 概念具有相似性。通过案例研究与人类相关研究的对比分析，本文揭示：在实际应用中，大语言模型的输出结果会向理想值偏移，这会导致决策产生显著偏差，进而引发一系列伦理层面的问题。

1 Intro

决策是一项具有挑战性的任务，通常需要从海量的可能性中选择一个选项（Mattar & Lengyel, 2022; Ross et al., 2023）。在许多现实场景中，对这无数选项进行逐一斟酌以确定行动方案，在计算层面是难以实现的 ------ 因此，智能体（agent）会采用启发式规则来采样筛选选项（Gigerenzer & Gaissmaier, 2011）。例如，研究表明，人类（及动物）仅会对少数选项进行深思熟虑，这些选项的筛选依据是由可能性（某一选项在统计上的概率）和效用（与该选项相关的价值）主导的启发式规则（Bear et al., 2020; Mattar & Daw, 2018）。尽管大语言模型（LLMs）常被描述为 "系统 1"（System-1，详见附录 A）智能体，其核心特征是依赖启发式规则，但主导其响应采样过程的内在机制，目前仍未得到充分探究。

系统 1 指一种决策模式，其核心特征是快速、自动且依赖直觉的信息处理过程，运作时更倾向于使用启发式规则而非显式推理。这种模式能够实现快速决策，但往往需要以牺牲准确性和思考深度为代价。在人类认知中，系统 1 负责处理日常常规任务、即时响应以及由启发式驱动的判断，且这些过程通常无需有意识的深思熟虑。

启发式规则：在认知科学中，启发式规则（Heuristics） 就是大脑为了节省算力和时间而采用的**"思维捷径"或"经验法则"**。

系统 2 是一种缓慢、审慎且具有分析性的思考模式，需要投入认知努力并进行逻辑推理。在人类认知中，系统 2 负责解决复杂问题与制定长期规划。在大语言模型（LLMs）中，类系统 2 行为需通过结构化提示技术（如思维链推理）诱导产生 ------ 在这类技术中，推理的中间步骤会被明确建模。

我们将响应采样定义为：大语言模型智能体从潜在选项分布中概率性选择输出的过程（所有正式定义详见附录 A）。我们对这一采样启发式规则展开了系统性研究，发现其与人类决策的启发式规则具有相似性。当大语言模型针对某一概念的多种可能性进行采样时，该采样启发式规则由描述性成分（该概念的统计常态）和规定性成分（该概念的理想范式）共同驱动。

描述性成分反映某一概念在统计上的可能性，体现选项的出现频率或概率；规定性成分则是一套隐含标准，定义了该概念中被认为理想、合意或具有价值的选项。这些关于概念的规范既可以通过上下文学习获得，也能在预训练阶段习得。

我们设计了关键实验以分离所提理论的效应，随后证实该启发式规则的影响在多个现实领域中均稳定存在。我们开展了涵盖不同大语言模型、各类评估概念及控制变量的大量实验，以验证观测结果的稳健性。同时，我们呈现了一个医疗领域案例研究：将大语言模型作为智能体为患者分配康复时间，以此揭示潜在的实际应用风险。
图 1：从左至右依次为：当针对某一概念进行采样时，大语言模型（LLM）会同时考虑该概念的统计概率（A(C)）与规定性规范（I(C)）。因此，采样分布会呈现出偏离真实分布的偏移（以 α 表示），且偏移方向朝向理想值（最右侧子图）。

如图 1 所示，所提理论表明：当大语言模型为某一概念选取采样结果时，该结果不仅反映该概念的统计规律（描述性规范），还会系统性地融入该概念的理想化版本（规定性规范）。我们发现，这种偏移可能与人类的理想范式不一致，这使得大语言模型用于自主决策时引发了伦理层面的担忧。

人类决策往往受概念原型性的引导（Murphy, 2004），而概念原型性同时包含描述性成分（统计上的普遍性）和规定性成分（价值属性）（Barsalou, 1985）------ 例如，多数教师可能具备某种平均水平的教学能力，但原型化的教师通常被设想为教学出色的形象。我们通过初步研究证实，大语言模型的概念原型性同样包含这两种成分，并推测其与采样过程存在关联。

综上，本文的贡献如下：

从人类认知研究的视角探究大语言模型的采样机制，证实驱动人类与大语言模型采样过程的启发式规则均包含描述性成分与规定性成分；构建了分离式实验场景，通过多项稳健性检验及与人类研究的对比，对所提理论进行了实证验证。
在 10 个领域的 500 个既有概念上评估采样结果，验证了所提理论的有效性；在涵盖不同家族、不同规模的 15 个语言模型上均取得了统计显著的结果；通过一个源于现实应用的案例研究，揭示了规定性成分可能导致的不良后果。
证实大语言模型的概念原型表征会系统性地融入规定性规范，提供了初步证据表明：其对 "典型" 示例的判断会偏向理想化版本，这与人类的概念原型性认知具有相似性。

2 相关工作

早期探究大语言模型（LLMs）输出生成机制的研究认为，模型是通过概率性拼接语言模式生成连贯文本，而非具备 "真正的理解能力"（Bender et al., 2021）。但后续研究证实，大语言模型能够构建对环境的内在结构化表征（Li et al., 2023）。甚至在接受编程语言训练后，模型还展现出对语义结构的理解能力，这表明其具备有意义的文本处理与生成能力（Jin & Rinard, 2024）。这一发现引发了学术界的关注，促使研究者从认知科学及相关学科视角，探究主导大语言模型输出生成的底层机制。

近期研究表明，尽管大语言模型智能体能够理解概率概念，但在概率采样任务中仍存在困难（Gu et al., 2025）。它们无法充分表征统计规律，即难以生成与预期概率模式一致的样本。本文提出了一个系统性框架，用于解释大语言模型采样结果的构成成分，这一框架或可解释模型呈现的各类偏差（详见附录 C）。

以往关于大语言模型（LLM）的研究，主要围绕性别、种族、受欢迎程度等社会概念评估其偏差，也有部分研究探究了语言风格、词汇内容等方面的偏差（Wan et al., 2023）。Gallegos 等人对这些研究进行了全面综述，并提出了一套偏差分类体系（Gallegos et al., 2024）。该分类体系与人类对这些偏差的语义归因及其社会影响的认知相契合。此外，已有研究还在医疗保健等特定领域和应用场景中探究了大语言模型的偏差（Omiye et al., 2023; Zack et al., 2024; Thirunavukarasu et al., 2023; Hastings, 2024）。但这些研究均未超出人类对偏差的分类范畴，未能深入探究那些会在现实应用中显现的根本性偏差。

系统 1 输出中的偏差会对系统 2 过程产生显著影响，因为系统 2 在决策时往往会将系统 1 的输出作为先验信息。例如，在 AlphaGo（Silver et al., 2016）中，蒙特卡洛树搜索（MCTS）算法（属于系统 2 过程）依赖神经网络（系统 1）的估算结果来限制搜索空间。类似地，在 "思维树"（ToT）等框架中（Yao et al., 2023），大语言模型会生成初始样本，再由符号求解器进行优化 ------ 该过程默认大语言模型能为求解器提供有效的先验信息。因此，理解并解释系统 1 的偏差，对于构建基于系统 2 的现实应用系统至关重要。

它实际上在警告所有开发者：如果"直觉（系统 1）"歪了，那么"理智（系统 2）"跑得再远也只是在错误的道路上狂奔。AlphaGo 的启示 ：AlphaGo 之所以强，是因为它的系统 2（MCTS 搜索）非常深。但 MCTS 为什么不搜索几亿万个落子点？因为它依赖系统 1（策略网络）给出的先验信息（Prior）。如果系统 1 觉得"这几步棋我看都不用看"，系统 2 就会直接放弃搜索。

将大语言模型理解为 "系统 1"（System-1）：推理过程被广泛定义为包含快速的 "系统 1" 思考与更为审慎的 "系统 2" 推理的双阶段过程（Kahneman, 2011）。由于大语言模型的输出生成具有启发式驱动、非审慎决策的特征，其在概念上被类比为 "系统 1"（Yao et al., 2023）。事实上，近期研究发现，大语言模型与人类在系统 1 推理任务中出现的错误存在重叠，这表明二者可能依赖相似的启发式规则进行快速决策（Lampinen et al., 2024）。本文旨在探究大语言模型与人类启发式规则的趋同性，并提出大语言模型采样理论。

以往研究主要将采样用于行动生成、决策制定等任务，而非明确探究大语言模型的采样机制（Hazra et al., 2024; Shah et al., 2023; Suri et al., 2024）。本文的研究目标是填补这一空白，通过探究驱动大语言模型响应采样的启发式规则，为深入理解其决策过程提供支撑。

以前的研究是通过训练是怎么让采样变好，这个文想的是，采样的时候到底发生了什么，为什么会这样采样？

3 大语言模型采样理论

当面临大量可能的行动选项，且对每个选项进行逐一斟酌在计算层面难以实现时，人类会本能地借助启发式规则筛选出有限的备选选项集合（Phillips et al., 2019）。认知科学研究将这种基于启发式的筛选过程定义为 "系统 1" 思维：快速、自动且受直觉驱动（Kahneman, 2011; Gigerenzer & Gaissmaier, 2011）。此类启发式规则通过筛选出易于处理的备选子集供进一步深思，有效降低了审慎决策过程（"系统 2"）的认知负荷。在人类决策中，这些启发式规则主要受两个因素引导：选项的统计概率与感知价值（Bear et al., 2020）。

在大语言模型（LLMs）中，思维链（CoT，Wei et al., 2022）等推理机制，以及 GPT-o3（OpenAI, 2024）、Deepseek-r1（Guo et al., 2025）等显式推理模型，被类比为显式审慎决策过程（"系统 2"）；而模型的默认机制则被类比为启发式驱动的 "系统 1"（Li et al., 2025）。因此，理解驱动模型采样的启发式规则，是解释其性能表现的关键。本文结合这一人类认知理论，探究大语言模型的采样机制，并提出如下大语言模型采样理论：

大语言模型的采样过程由描述性成分（概念的统计常态）与规定性成分（概念的理想范式）共同驱动。

这意味着，当大语言模型针对某一概念的多种可能性进行采样时，其启发式规则会同时受到该概念的统计常态与理想范式的影响。此处的 "采样" 被定义为：模型从潜在响应分布中概率性选择输出的过程。所有术语的详细定义请参见术语表（附录 A）。

在人类认知中，这两种思维成分被假设源于人类作为目标驱动型智能体的本质，以及对价值最大化的追求（Bear & Knobe, 2017）。然而，大语言模型的底层自回归机制并非目标驱动，其采样过程中为何会存在规定性成分，仍是一个需要深入探究的非平凡问题。本研究的实验方法严格遵循认知科学文献中已确立的人类启发式规则探究原则（Bear et al., 2020; Phillips et al., 2019）。

晚上在实验室读到这里脊背发凉，自回归训练的模型，为什么会有人类一样追求进化和生存的目标，细思极恐。

3.1 面向新异概念的采样

所提理论需要严格的验证，为此，我们采用了一套已在人类研究中应用的成熟框架（Bear et al., 2020），并对其进行扩展以获取更多证据。这一严谨的实验设计是支撑所提理论的关键实验，能够提供具有说服力的实证依据。在该实验设置中，我们引入新概念 C，以消除大语言模型中已嵌入的既有概念可能带来的混淆效应。我们向模型提供完全相同的提示词，但对概念 C 的描述性成分与规定性成分进行变量控制，通过评估输出采样结果，验证这两个变量对采样过程的影响。

为建立概念 C 的统计基线，我们采用均值为Cμ（方差已知）的高斯分布生成数据。我们向大语言模型提供该分布中的 N 个样本，这些样本代表与概念 C 相关的可能选项。为确保基线的可靠性，N 被设置为足够大，使得输入样本的均值能够近似逼近Cμ。随后，为给概念 C 建立规定性规范Cv，我们为这 N 个选项分别关联一个代表规定性成分的等级（grade）。

实验中，我们针对Cv设置三种情境：高值为理想、低值为理想，以及无明确理想方向的控制组。基于输入信息（N 个样本及对应的等级），我们提示大语言模型给出概念 C 的一个采样结果，记为S(C)。通过系统性地改变Cμ和Cv，同时保持提示词的其他部分不变，我们探究采样结果S(C)的相应变化。

对于每个Cμ和Cv组合，我们在独立的上下文（即独立提示词）中重复该流程 M 次，以获取采样分布。所有实验变体中，M 的取值均与 N 保持一致，以便计算输入分布与采样分布之间偏移的统计显著性。若采样结果仅由描述性规范（输入样本的统计特征）驱动，则S(C)的分布应与输入分布在统计上无显著差异。

输入样本与大语言模型输出采样结果之间的差异，也可能源于模型对输入分布统计特征的逼近误差（即模型无法 "理解" 分布的统计规律）。为排除这一可能性，我们指令模型报告该分布的均值，记为A(C)。所有实验结果均显示Cμ≈A(C)，表明大语言模型能够可靠地逼近输入分布的统计特征。（严谨！）

我们采用曼 - 惠特尼 U 检验（Mann-Whitney U test），将S(C)的分布分别与（a）输入分布、（b）报告均值A(C)的分布进行对比。针对每个概念 C，我们计算曼 - 惠特尼 U 统计量及对应的 p 值：若 p < 0.05，则表明被评估的两个分布存在显著差异。我们通过改变Cv的方向，证实了采样结果的均值（S(C)的均值）会随Cv的变化而相应改变。作为合理性检验，我们在不设置任何等级的情况下重复该实验，结果表明模型确实能够逼近输入分布。因此，采样结果向理想方向的偏移，可明确证明所观测到的采样偏差是大语言模型的启发式规则所致，而非源于其对分布的逼近能力不足。

对比组	科学目的	实验结果	结论
(a) 采样 vs. 输入分布	验证是否存在偏差。	显著差异	采样确实"偏了"。
(b) 采样 vs. 报告均值 $A(C)$	排除"智力/理解"问题。	显著差异	即使脑子知道均值在哪，手还是抓偏了。
(c) 无等级控制组	验证模型是否具备"客观性"。	无显著差异	没有"理想（Grade）"诱惑时，模型是个完美的统计员。

3.2 面向既有概念的采样

本节将突破构造实验场景的局限，在大语言模型（LLMs）中已有的、涵盖 10 个领域的 500 个概念上，验证所提理论的有效性。对于既有概念而言，其可能选项的统计特征及相关价值已嵌入模型内部，且不为研究者所知 ------ 即与概念 C 相关的均值Cμ和规定性规范Cv是未知的。

与前文实验设置类似，针对每个概念 C，我们通过评估模型报告的均值A(C)与采样结果S(C)之间的统计差异，验证所提理论的合理性。我们采用模型自我报告的理想值I(C)来确定Cv的方向，并通过二项检验（binomial test）判断采样结果S(C)落在均值A(C)的理想侧还是非理想侧（后者也可理解为采样结果落在理想值I(C)的均值侧）。

该框架的示例如图 2 所示。设采样结果落在均值理想侧的概念数量为 n，总评估概念数为ntotal。二项检验的原假设为 "采样结果落在理想侧的概率 p=0.5"，通过该检验可判断 n 与随机预期结果是否存在显著差异。二项检验得出的 p 值用于评估显著性：若 p < 0.05，则表明规定性规范在各类概念中普遍存在。
图2：该图显示了LLM报告的三个不同概念的平均值、理想值和样本值。
正α表示理想方向上的偏差。

偏离统计常态的量化

在多数应用场景中，人们通常期望大语言模型基于选项的统计概率进行采样。为此，我们引入变量 α 来量化采样结果偏离统计常态的程度，并定义：当所提理论成立时，α 取值为正 ------ 即当S(C)朝着Cv或I(C)的方向偏离A(C)时，α 为正值（α 在图 1 和图 2 中均有标注）。形式上，对于概念 C 的每个采样结果S(C)，α 的计算公式如下：α=(A(C)−S(C))×sign(A(C)−I(C))(1)

我们同时计算归一化指标α^：将A(C)映射到原点，I(C)映射到距离原点单位长度的位置，α^=α/∣A(C)−I(C)∣。α^降低了对数值尺度的依赖，便于跨概念比较，同时也能与人类被试实验的观测结果进行对比。

偏差指标 α 是量化从统计常态A(C)向规定性规范I(C)偏移的方向性指标。然而，当均值与理想值相等（即A(C)=I(C)）时，方向项sign(A(C)−I(C))为 0，导致 α 和α^无定义。这类退化情况将被排除在基于 α 的分析之外，因为此时无法计算方向性偏差 ------ 仅当统计成分与规定性成分存在差异时，此类分析才有意义。

与人类研究的对比

3.1 节和 3.2 节的实验设置均受人类决策评估研究的启发（Bear et al., 2020; Phillips et al., 2019; Bear & Knobe, 2017）。我们通过扩大实验规模以提升统计显著性，并在附录中复现了人类研究的完全一致场景（人类研究结果见表 4，LLM 实验结果见表 5），基于各自的 α 值进行一对一直接对比（见图 6 左图）。

对比结论如下：大语言模型与人类的采样启发式规则具有趋同性，但采样结果向规定性规范偏移的程度并不一致。这种不一致导致模型采样结果偏离统计概率的程度难以预测，这为未来公平性与对齐性研究提供了一个值得探索的方向。

4 实验与结果

本节将介绍两项核心实验与一项案例研究。首先，我们遵循 3.1 节的方法，构建约束场景以验证所提理论的有效性；其次，按照 3.2 节的思路，在模型训练过程中习得的概念上，评估采样过程中规定性成分与描述性成分的存在性。实验结果为所提理论提供了显著的实证支持。

我们在以下模型上进行了测试：GPT-4 的指令微调版本（Achiam et al., 2023）、GPT-3.5-Turbo（Brown et al., 2020）、Claude（Anthropic, 2024）、Mixtral-8x7B（Jiang et al., 2024）、Mistral-7B（Jiang et al., 2023），以及 Llama-2 和 Llama-3 系列的预训练模型与指令微调模型（Touvron et al., 2023）（详见附录 B）。除非另有说明，正文仅报告 GPT-4 的实验结果，其他模型的结果详见附录。各实验所用提示词的完整文本分别见附录 I、M、R 和 P。

4.1 面向新异概念的采样

遵循 3.1 节的设计，我们通过构建一个围绕新异虚构概念 "glubbing" 的约束场景，对所提理论进行实证验证。同时，我们还考虑了多个以不同表述定义的随机虚构概念（见附录 H.3）。

实验中，我们系统性地改变规定性规范Cv和统计均值Cμ，以探究其对采样结果分布S(C)的影响。提示词的其他部分保持一致，以隔离描述性成分与规定性成分对大语言模型采样过程的影响，避免先验知识和提示词伪影的干扰。重要的是，实验结果旨在反映大语言模型的采样启发式规则，与提示词设计或特定实验条件无关。提示词包含两部分：（a）由 100 个样本定义的统计常态（这些样本来自与 "glubbing 时长" 对应的分布）；（b）与每个样本 i 相关联的理想性指标Cvi，该指标以 A + 至 D - 的等级形式呈现。

在首轮实验中，人们的 "glubbing 时长" 从均值为 45、标准差为 15 的高斯分布中采样获得。我们还使用了一个双峰高斯分布（两个峰值分别为 35 和 65，标准差均为 5）重复该实验，两次实验的实现方式与分析方法完全一致。
图4：单峰模型（左）的glubbing平均值（绿色）和样本平均值（红色）的估计值
和实验4.1的双峰（右）条件。给出了真实平均值（输入分布的平均值）也用黑色虚线表示。

我们将价值系统Cv的效价分为三个等级进行评估：（a）正向、（b）负向、（c）中性（控制组实验）。对于正向Cv，等级分配规则为 "glubbing 时长越长，等级越高"（最高等级为 A+）；对于负向Cv，等级分配规则为 "glubbing 时长越短，等级越高"（采用相同等级尺度）。正向提示词示例如下：

提示词

存在一种名为 "glubbing" 的爱好。以下是部分人的 glubbing 时长及对应的等级（A + 为最高等级，D - 为最低等级）：43:C、35:C-、63:B+、......、35:C-。< 采样提示词 >。

"......" 代表其余的时长与对应等级（提示词中包含 100 个样本及相应等级）。完整提示词集合见附录 I。基础版 < 采样提示词 > 为："基于以上信息，选取一个 glubbing 时长的样本数值。" 如附录 H.3 所示，不同采样提示词得到的结果一致。

输入分布与采样分布之间的偏移，可能是大语言模型（LLM）逼近输入分布统计特征时产生的误差所致。为排除这一替代性解释，我们计算了生成采样结果（S(C)）相对于模型报告均值（A(C)）的偏移显著性。在中性控制组实验中，我们将统计均值Cμ分配为最高等级，偏离均值越远，等级越低。正向、负向与控制组实验各重复 100 次。

实验结果

表 1 呈现了单峰和双峰输入分布在三种不同Cv设置下，100 次重复实验的均值结果。首先，在所有六种场景中，模型报告的均值A(C)均与真实分布均值（Cμ=45）大致吻合。

对于中性规定性规范（以及后文将展示的无规定性规范场景），采样结果均值S(C)≈A(C)≈Cμ，且输入分布与S(C)的差异无统计学意义（p=0.52）。这一非显著差异结果与 "无明确'理想'时，采样结果反映输入分布统计特征" 的假设一致。

当Cv为正向时，采样结果均值高于模型报告的均值；当Cv为负向时，采样结果均值低于模型报告的均值。例如，在单峰分布场景中，负向Cv下S(C)的均值为 36.5，正向Cv下为 46.7。

正向Cv时，S(C)的分布与A(C)的分布存在显著差异（p=0.003）；负向Cv时，二者差异更为显著（p<0.001）。这表明，采样结果并非仅由输入分布的统计特征驱动，还受到该概念规定性规范的影响。

实验稳健性验证

为验证结论的可靠性，我们在附录 G 中通过改变输入分布的均值Cμ展开实验。结果表明，在一定范围的Cμ取值内，模型报告的均值A(C)≈Cμ，且对于每个Cμ，采样结果S(C)均会朝着规定性规范Cv的方向持续偏离A(C)。

我们还在多个新引入的虚构场景中重复了该实验：采用 "glubbing" 之外的不同词汇定义新异概念，并将其表述为不同类型的事物（而非仅局限于 "爱好"，详见附录 H.3）。作为额外控制组，我们在不给输入样本分配等级、分配随机等级的情况下重复实验，结果显示输入样本分布与S(C)均无显著偏移（p值分别为 0.51 和 0.52）。

需说明的是，为确保观测结果并非由提示词伪影导致，所有实验均使用相同提示词，仅在三组实验中改变Cv的设置。为进一步验证观测结果对提示词的稳健性，我们在附录 H.1 中采用了不同的 <采样提示词>，结果表明结论在这些变体中依然成立。此外，附录 H.1 和 H.2 的实验结果显示，即便使用明确的去偏提示词，也无法消除规定性成分的影响。

我们通过扩大实验规模进一步验证稳健性：将Cμ在 45 至 845 的范围内按百为间隔取值，针对每个Cμ设置 8 种不同的等级分配方案 ------ 最优等级对应的数值按十为间隔变化，等级随偏离该最优数值的距离增大而降低（呈帐篷函数分布）。Cμ与最优理想值的每种组合均重复实验 100 次，并报告采样结果的平均偏差。图 3 展示了Cμ=45时，8 种不同最优理想值对应的实验结果，其余结果见图 7。实验表明，在不同实验设置下，采样结果均呈现出从描述性成分向规定性成分持续偏移的一致模式

医疗康复时间案例研究：

采样结果向规定性规范的偏移有助于解释大语言模型（LLMs）的部分偏差。为具体说明这一点，我们基于真实场景设计了一项案例研究：将大语言模型智能体设定为医生角色，要求其根据一系列症状确定患者的出院时间（行动空间为正有理数，即康复周数）。当模型给出康复时间后，我们同时获取其自我报告的平均康复时间与理想康复时间 ------ 其中 "自我报告的平均" 特指模型在被提示报告平均值时，直接提供的平均数值。本案例研究的设置与实验 4.2 类似，但我们提示大语言模型（LLM）扮演医生角色，要求其基于给定的四组症状输出康复时间（以周为单位）。我们发现，尽管人们可能会假设（事实上在本案例中也要求）模型仅依据统计常态进行判断，但模型的康复时间输出仍显著偏离统计常态，朝着理想值方向偏移。在 35 组症状组合（每组含四种症状）中，有 26 组的采样结果落在均值的理想侧 ------ 这一偏移具有统计学显著性（二项检验p=0.003）。

在 35 组症状中，模型给出的理想值有 30 组低于均值，这意味着采样结果往往被拉低至均值以下。该发现表明，大语言模型在患者康复时间决策中存在规定性成分的干扰，这对临床决策、医院资源分配以及患者安全潜在风险均具有重要影响。完整的症状列表与所用提示词详见附录N。

本案例研究结果揭示了规定性规范与人类认知不一致时的负面影响：大语言模型（LLM）本应通过采样预测患者的康复时间，但实际输出的采样结果并未遵循平均康复时间，而是包含了一个持续低于均值的规定性成分，这可能损害患者利益。文中报告的均值（包括平均康复时间、理想康复时间及采样康复时间）均为 100 次重复实验的平均值。

5. 概念原型中的规定性组件

系统 1 的基本特征之一，是它会用原型样例 来表征概念（Kahneman, 2011）。在人类认知中，尽管原型通常被理解为一个概念里最典型、最具代表性 的成员（Murphy, 2004），但研究发现，原型同时体现了概念中的统计规律 与面向目标的理想范式（Barsalou, 1985）。

例如，** 知更鸟（Robin）** 往往被视作 "鸟" 这一概念的原型：它与大多数鸟类共享许多高频率出现的共同特征（统计规律），并且具备飞行能力（人们对鸟所期望的价值属性），这使它成为 "鸟" 的典型样例（Smith and Medin, 1981）。出于这一原因，不会飞的企鹅作为鸟类，其典型性就低于知更鸟。原型性定义了一个概念的 "常态"，并进而驱动采样过程（见附录 F）。

作者引用知更鸟的例子，是为了说明一个**原型（Prototype）**是如何构成的：

统计规律（描述性）：大多数鸟确实有羽毛、有喙、个头小。知更鸟符合这些"高频特征"。

价值属性（规定性） ：在人类的认知里，"能飞"是鸟类的一种理想化特质。哪怕世界上有很多鸟（如鸵鸟、企鹅）不会飞，但我们依然认为"会飞的才是好鸟"。

结果：知更鸟因为同时满足了"长得像大家"和"具备理想特质"，成为了原型之王。

与人类不同，目前尚不清楚大语言模型（LLM）在采样时是否依赖概念原型。但由于 LLM 的采样启发式与人类趋同，因此探究 LLM 中的概念原型性是一个有意义的方向。我们并不声称 LLM 的输出由原型驱动，而是采用与 Bear and Knobe (2017) 完全一致的实验设置，在这一方向上开展初步探索。

我们使用了8 个概念 ，每个概念 C 对应6 个不同的样例。样例是对概念中具体事物的简短描述。例如，对于 "高中教师" 这一概念，第一个样例如下："一位 30 岁的女性，基本了解所教内容，但相对缺乏感染力，讲课枯燥，也并不特别热爱这份工作。"

与 Bear and Knobe (2017) 的实验流程一致，我们让 LLM 在三个维度 上对每个样例进行评分：平均性、理想性、以及该样例的原型性 。原型性得分由三项评分取平均得到，分别衡量该样例在多大程度上是："好例子""范式性例子""原型性例子"（Bear and Knobe, 2017）。我们要求 LLM 使用7 分制量表 评分：0 分表示完全不 平均 / 理想 /"好例子"，7 分表示完全是平均 / 理想 /"好例子"。完整的概念与样例列表见附录 P。

与 3.2 节类似，我们检验概念的原型性评分 是否落在平均性的理想一侧 。为检验统计显著性，我们对所有概念进行二项检验 ，以判断 LLM 的原型表征是否包含规定性成分。评估方式与前一节一致。

表 3 给出了各概念在平均性、理想性、原型性上的得分（所有样例取平均），结果显示：原型得分并非只与平均性一致，而是同时包含理想成分。

我们在 GPT‑4 上以温度系数 0.8 重复实验 10 次，并报告平均结果。三项原型性评估（"好例子""范式性例子""原型性例子"）的内部一致性良好，克朗巴哈系数 α = 0.96。因此我们将这三项得分合并，形成一个综合原型性评分。

表 3 展示了每个概念在所有样例上的聚合结果。结果显示规定性成分存在显著影响 ：46 个样例中有 39 个落在平均性的理想一侧（二项检验 p < 0.001）。

它证明一件事：在 LLM 的认知里，"典型（Prototype）"并不等于"平均（Average）"，而是向"理想（Ideal）"严重偏心的产物。

在不同 LLM 上评估，得到如下结果：

Llama‑3‑7B（二项检验 p = 0.003）
Mixtral‑8x7B（二项检验 p = 0.05）
GPT3.5‑turbo（二项检验 p < 0.001）
Claude（二项检验 p < 0.001）
Mistral（二项检验 p = 0.0019）

这表明规定性规范普遍存在于 LLM 的概念原型中。所有样例的完整结果详见