评分集中化偏差:从人类评分者到LLM智能体的系统性综述
Survey on Central Tendency Bias in Scoring: From Human Raters to LLM-Based Agents
摘要:评分集中化偏差(Central Tendency Bias/Error)是指评分者将被评对象的分数系统性地向量表中间位置拉拢的现象,表现为对高表现者低估、对低表现者高估,整体分数分布被压缩至中间区域。这一问题由来已久,最早在20世纪70年代的工业心理学绩效评估研究中被系统定义,随后扩散到教育测量、自动化作文评分(AES)、语言测试等多个领域。进入大语言模型(LLM)时代,该问题在LLM-as-a-Judge范式和多智能体(Multi-Agent)评估系统中以新的形式复现,并因LLM的固有偏好(如宽松偏差、过度赞同倾向)而加剧。本文系统梳理了国内外相关文献,涵盖经典测量理论、自动化评分系统以及LLM评估三个阶段,分析了该偏差的定义、成因与机制,并整合了多种有据可查的缓解策略,旨在为基于LLM的学生能力评估系统设计提供理论与实践参考。
关键词:集中趋势错误;分数压缩;LLM-as-a-Judge;自动化教育评分;多智能体评估;宽松偏差;评分校准;PBL评估
前言:因为我在做用Agent去评估学生软实力,发现大模型给分趋向于中间值,极端学生的区分度显示不出来,于是做了一个研究,来更好地了解问题原因,去解决问题。
目录
- 引言
- 概念界定与理论溯源
- 传统人类评分中的集中趋势错误
- 自动化教育评分(AES)中的分数压缩问题
- LLM-as-a-Judge中的评分偏差
- 多智能体评估系统中的特殊机制
- 文化与语言因素:东亚语境的特殊性
- 缓解策略综述
- 研究空白与未来方向
- 对PBL多智能体评估系统的启示
- 结论
- 参考文献
1. 引言
在基于大语言模型的学生能力评估系统中,一个重复出现且难以忽视的现象是:系统对高表现学生的评分系统性地低于其真实水平,而对低表现学生的评分则高于其实际水平。这种分数向量表中间"收缩"的现象,在视觉上表现为Agent评分(蓝色)与Ground Truth(金色)之间的一致性差距:优秀学生的Agent Score < Ground Truth,差生的Agent Score > Ground Truth,所有学生的分数被拉向"Developing"至"Standard"的中间区域。
这一现象并非偶然或孤立的系统性错误,而是跨越七十余年、横跨多个研究领域的共同难题。从1970年代工业心理学的绩效评估研究(Aamodt, 2013),到2000年代教育测量中的Many-Facet Rasch Model(Linacre, 1989; Myford & Wolfe, 2003),再到2020年代兴起的大语言模型自动评估(Zheng et al., 2023; Li et al., 2025),评分集中化偏差在每一个评分系统的演化阶段都以各自的面貌出现。
本综述旨在打通这三个研究脉络,为基于LLM的多智能体学生能力评估系统中出现的分数压缩问题提供系统性的理论解释与实践应对方案。文章按照"问题定义------传统研究------自动化系统------LLM时代"的逻辑展开,最终落脚于对PBL(项目式学习)多智能体评估系统设计的具体启示。
2. 概念界定与理论溯源
2.1 核心术语界定
评分集中化问题在不同文献和领域中以多种术语呈现,理解这些概念的关联与区别是开展综述的前提。
**Central Tendency Error / Bias(集中趋势错误/偏差)**是该现象最经典的学术命名。管理学学者Michael G. Aamodt在其著作中将其定义为:"评分者持续将所有被评对象打在量表中间,无论其真实表现水平如何的评分类型错误(a type of rating error in which a rater consistently rates all employees in the middle of the scale, regardless of their actual levels of performance)"(Aamodt, 2013)。该定义强调了两个核心特征:其一是系统性(consistently),即非随机的错误而是稳定的模式;其二是与真实表现的脱钩(regardless of actual performance),即评分不再反映真实水平差异。
**Score Compression / Range Restriction(分数压缩/范围限制)**是自动化评分(AES)和心理测量领域的专用术语。它强调评分分布的统计特征变化:真实分数分布的方差远大于模型输出的方差,模型无法可靠地使用量表的极端类别。Engelhard(1992)的经典研究发现,在大规模写作评估中,约80%的评分落在中间两个类别,这是分数压缩最直接的经验证据。
**Leniency Bias(宽松偏差)和Severity Bias(严格偏差)**是范围限制的两种方向性变体。在集中趋势错误中,两者同时出现:系统对弱表现者过度宽容(表现出宽松偏差),同时对强表现者给分过于保守(表现出变相的严格偏差)。这种"双向的中间化"使集中趋势错误区别于单纯的系统性宽松或严格偏差。
在LLM-as-a-Judge领域,研究者进一步识别出Agreeableness Bias(过度赞同偏差)(超出NUS论文, 2025),将其定义为LLM评判者将"有价值"标签过度分配的倾向,其数学特征是高真正例率(TPR)与低真负例率(TNR)的不平衡。这一概念与宽松偏差高度相关,但更精确地刻画了LLM评分的分布特征。
2.2 相关概念辨析
集中趋势错误需与以下相近概念区分:
- Halo Effect(光环效应):评分者基于对被评者的整体印象而在各维度给出一致评分,可能导致分数偏高或偏低,但不一定向中间集中。
- Leniency Error(纯宽松错误):系统性地给所有被评者高分,不限于中间值;集中趋势错误的低端被高估与此类似,但高端被低估则不符合纯宽松错误的特征。
- Regression to the Mean(均值回归):统计学现象,极端测量值在重复测量时向均值靠拢,源于测量误差而非系统性偏差;集中趋势错误是系统性的评分策略,而非测量噪声。
3. 传统人类评分中的集中趋势错误
3.1 工业心理学与绩效评估研究(1950s-1990s)
集中趋势错误最早在工业组织心理学(I/O Psychology)中得到系统研究,背景是企业绩效评估(Performance Appraisal)的大规模应用。
早期研究(Guilford, 1954; Saal, Downey & Lahey, 1980)将评分者错误归纳为四大类:严格/宽松偏差(Severity/Leniency)、光环效应(Halo Effect)、**集中趋势错误(Central Tendency Error)**和范围限制(Restriction of Range)。其中集中趋势错误被认为是危害最隐蔽的一种,因为它既不像系统性宽松那样一目了然,又不像随机误差那样可以通过统计手段消除。
心理学研究揭示了三种驱动集中趋势错误的认知机制(Ceopedia管理学百科,综述条目):
第一,不确定性规避(Uncertainty Avoidance):当评分者对被评者的真实表现水平不够确定时,倾向于选择"安全"的中间值以避免可能的错误判断。这在信息不足的短时观察场景(如PBL中仅基于有限交互数据评分)中尤为突出。
第二,心理成本规避(Cost Avoidance):若评分系统要求评分者为极端评分(最高分或最低分)提供书面说明或额外理由,这种额外负担会抑制极端分数的使用,导致评分向中间集聚。这一机制对于LLM评判者同样适用------当Prompt结构对极端等级的描述不够充分时,模型会本能地选择描述最清晰的中间等级。
第三,社会和谐压力(Social Harmony Pressure):评分者担心极端负面评价损害人际关系,因此即使被评者表现极差也不愿给出最低分;同时担心给出最高分会引发嫉妒或比较压力,因此也倾向于压制顶级评分。
研究(Landy & Conte, 2013)表明,这三种机制在人类评分者中普遍存在,且难以通过简单的评分指导完全消除,需要系统性的评分者训练和标准化流程来干预。
3.2 教育测量中的评分者效应研究(1980s-2010s)
教育测量领域对集中趋势错误的研究以写作评估为核心场景,采用了比工业心理学更严格的心理测量工具。
**Many-Facet Rasch Model(MFRM,多维面Rasch模型)**是该领域的核心方法论贡献。由Linacre(1989)提出的MFRM能够同时估计学生能力(examinee ability)、题目难度(item difficulty)和评分者严格度(rater severity)三个维度,从而将评分结果中来自评分者特性的方差与来自学生真实水平的方差分离。
Engelhard(1992)对乔治亚州第八年级写作测试的经典分析是集中趋势错误定量研究的里程碑。该研究对264份作文、15名评分者的数据进行MFRM分析,发现约80%的评分落在中间两个类别,明确证实了大规模评估中集中趋势错误的普遍性。Myford & Wolfe(2003, 2004)进一步系统综述了评分者效应的MFRM检测方法,将集中趋势效应的统计指标(category probability curves的中心化特征)与其他评分者效应区分开来。
Leckie & Baird(2011)的多层分析研究(Journal of Educational Measurement)引入了评分者漂移(Rater Drift)的时间维度,发现集中趋势错误会随着评分会话时间的延长而加剧:评分者在长期高强度评分后会逐渐向中间值收缩,而非维持初始的评分标准。这一发现对于需要持续运行的自动化评估系统具有重要意义。
Leckie & Baird的研究还指出了经验的矛盾影响:经验丰富的评分者有时会表现出更强的集中趋势,因为他们形成了"什么样的表现是正常的"的固化心理图式,从而在遭遇极端案例时将其向正常区间拉拢。这一机制在LLM评分中的对应物是训练数据的分布偏向:模型见过的绝大多数样本集中在中等表现区间,因此在面对极端样本时会将其向熟悉的中间区间回拉。
Jin & Wang(2018)在MFRM框架内专门提出了**Centrality/Extremity Response Style(中心/极端响应风格)**的测量模型,将评分者在这两个方向的系统性倾向参数化。这为后续研究提供了精确量化集中趋势倾向的工具,也为校正提供了理论基础。
3.3 中文教育环境的特殊性
跨文化研究(Chen & Li, 2005; PLOS ONE, 2022)提供了一个重要的背景发现:东亚受访者(包括中国、日本、韩国)在Likert量表调查中表现出比西方受访者更强的集中趋势偏差。这一现象被归因于东亚文化对"中庸之道"的文化推崇------在中国传统儒家伦理观中,过于极端的评判被视为失于公正和审慎,而居中是一种美德。
Zheng(2009)在开发中文信任量表时明确记录了这一效应,并采用六点(偶数)Likert量表代替五点量表,以消除中间选项,从而强制评分者做出方向性判断。这一设计思路对于中文LLM训练数据(含有大量中文评价文本和人类标注)同样有重要启示:如果中文LLM的训练数据中包含了大量反映中庸评价习惯的标注,这种偏差会通过RLHF过程内化为模型的评分倾向。
中国高等教育评估实践中也有对应的经验发现。李斐等人(2019)在高校PBL课程的同伴评估研究中发现,中国学生在进行同伴互评时显著倾向于给出中等分数,与教师评分相比标准差更小,极端分数的使用率更低。这一发现与西方同类研究相比显示出更强的集中趋势,支持了文化因素的影响假设。
4. 自动化教育评分(AES)中的分数压缩问题
4.1 自动化作文评分(AES)的发展与偏差遗传
自动化作文评分(Automated Essay Scoring, AES)系统自1960年代Project Essay Grade(PEG)起就开始尝试计算机化评分,经历了基于规则、机器学习和深度学习三个技术阶段。在整个发展过程中,分数压缩问题始终是系统性挑战。
机器学习时代(2000s-2015s)的AES系统通常在人类评分数据上训练回归模型或分类器。由于人类评分数据本身就包含集中趋势错误(约80%的评分集中在中间类别,Engelhard, 1992),模型在训练时会将这种分布偏差内化。当极端表现(Beginning或Advanced/Exemplary级别)的训练样本远少于中间样本时,模型预测极端分数时的误差会系统性地大于中间分数,导致输出分布的方差小于真实分布------即分数压缩。
针对AES系统的公平性综述(Baker & Hawn, 2022; Automated Essay Scoring in the Presence of Biased Ratings, NAACL 2018)记录了自动评分系统对不同学生群体的差异化偏差,包括性别偏差、种族偏差和语言背景偏差。其中与集中趋势相关的重要发现是:当学生的写作风格偏离训练数据的主体分布时(如英语学习者、少数族裔学生),系统更倾向于给出中间分数而非对其真实水平进行区分(Reed & Mercer, 2022)。
Raczynski & Cohen(2018)在AI教育测量综述中指出,训练数据应涵盖大量样本、分数和反馈,以捕捉典型和非典型的表现输出------尤其是成就分布两端严重欠代表的极端情况。这一建议直接指向极端样本不足是AES分数压缩的核心原因之一。
4.2 大语言模型时代AES的新挑战
随着GPT-4、LLaMA等大型语言模型进入教育评分领域,AES的能力得到显著提升,但也引入了新的偏差模式。
Kostic et al.(2024)的实验报告称GPT-4的评分与人类评分之间存在显著偏差,对于高质量作文尤为明显;GPT-4倾向于给出比人类更高但更集中的分数,导致高低质量作文之间的分数差异被压缩。在法律作文评估案例中,LLM评判者(GPT-4o)将评分压缩在85-90分区间,而人类评分者的分布为8-37分,压缩比例极为显著。
Seßler et al.(2025)对多维作文评分的大规模实验表明,LLM评分者在不同模型之间存在约2.5分的默认宽松程度差异,但所有模型都表现出比人类更窄的分数分布。重要发现是:仅添加评分标准(Rubric)而无分数锚点(Score Anchoring)并不能解决分数压缩问题,有时甚至会将模型推向不同的系统性偏差方向。
Chlapanis et al.(2025)对物理教育作业的LLM评分研究提供了目前最系统的证据:不同模型之间存在显著的默认评分宽松度差异,添加了标准答案但没有分布锚点(Distributional Anchoring)的方案反而会将某些模型推向新的偏差,而"方案+锚点"条件在所有模型上都产生了显著且一致的改善,MAE降低幅度可达8倍。
AutoSCORE框架(AAAI 2025)从结构化成分识别的角度解决了部分分数压缩问题:通过强制模型对学生回答的每个评分相关成分进行显式识别和判断,而非直接给出整体分数,系统能够对低分作文(Score 1)的准确率提升26.6个百分点,对较低分作文(Score 2)提升10.8个百分点------主要改善在于减少了低分作文被高估的现象。
GradeOpt(Chu et al., 2024; arXiv:2410.02165)是迄今最系统的多智能体自动评分框架之一,引入Reflector Agent和Refiner Agent对Grader Agent的评分进行反思和优化。实验表明,通过自动优化评分指南(Guidelines Optimization),系统能够提升对极端案例的处理能力,但作者也指出,单纯的提示词优化仍面临搜索空间有限的问题,对于极端分数的改善效果有限。
4.3 评分量表设计对分数压缩的影响
量表设计本身是影响分数压缩的结构性因素,在AES和人类评分研究中均有充分记录。
Guerdan et al.(2025)的研究发现,当输出质量模糊时,离散Likert量表会导致评分不确定性和更低的一致性;评分量表的粒度(granularity)与LLM评判者的可靠性成反比------量表越细,随机性越大,分数压缩越严重。
专门针对LLM-as-Judge评分量表的研究(Grading Scale Impact, arXiv:2601.03444, 2026)比较了人类和LLM在三种量表上的评分一致性,发现0-5量表能产生最高的人类-LLM对齐度。这一发现建议在PBL 4C Rubric的4级量表(Beginning/Developing/Standard/Advanced)设计中,避免在同等级内引入过细的数值细分,否则LLM的评分可靠性会显著下降。
5. LLM-as-a-Judge中的评分偏差
5.1 LLM评判者偏差的系统性分类
LLM-as-a-Judge范式(使用大语言模型评判另一语言模型输出)由Zheng et al.(2023)在MT-Bench和Chatbot Arena研究中系统提出,随后引发了大量关于评判偏差的系统性研究。
截至2025年,文献记录的LLM评判偏差至少包含以下类型(Koo et al., 2024; Li et al., 2025; Spiliopoulou et al., 2025综述):
| 偏差类型 | 英文名称 | 核心描述 |
|---|---|---|
| 位置偏差 | Position Bias | 偏好特定位置的回答(如总是选第一个) |
| 冗长偏差 | Verbosity Bias | 给更长的回答更高分,无论质量 |
| 自我增强偏差 | Self-Enhancement Bias | 偏好与自身输出相似的回答 |
| 宽松偏差 | Leniency Bias | 系统性地将输出评为正确/高质量 |
| 过度赞同偏差 | Agreeableness Bias | 高TPR-低TNR的不平衡,给"有价值"标签太多 |
| 参考答案分数偏差 | Reference Answer Score Bias | 分数跟随参考答案的给分而漂移 |
| 评分标准排列偏差 | Rubric Order Bias | 分数因Rubric描述的排列顺序而改变 |
| 分数ID偏差 | Score ID Bias | 分数因使用阿拉伯数字/字母/罗马数字而不同 |
其中,**宽松偏差(Leniency Bias)和过度赞同偏差(Agreeableness Bias)**是与分数集中化最直接相关的两种偏差。
5.2 宽松偏差与过度赞同偏差的机制
LLM评判者的宽松偏差有多重产生机制,而非单一来源。
RLHF对齐的副作用:大多数商业LLM(GPT系列、Claude系列)经过人类反馈强化学习(RLHF)对齐,这一过程在训练模型"帮助性、无害性和诚实性"的同时,也使模型对批评性评判产生心理抵触。具体表现为:模型在评分时倾向于找到被评内容的积极方面,对明显的缺陷会相对轻描淡写。这种倾向在自我对话或教育评估场景中会导致系统性高估。
训练数据的中间化分布:互联网上的人类书写数据(LLM的主要训练来源)本身就倾向于中等质量:极差的内容被过滤,极优的内容相对稀少,中等质量的内容占绝大多数。LLM的语言模式因此在概率分布上就偏向于"中等好"的输出,在评分时会对所有内容产生朝向中等区间的引力。
评分能力的渐近上限:Confident AI的研究发现,LLM在进行高层次二元判断(如正确/错误、通过/不通过)时表现可靠,但随着评分量表粒度增加(如1-10的连续量表),评分任意性急剧上升。对于4级量表,LLM能够可靠区分大的类别差异(Beginning vs. Advanced),但对相邻类别(Developing vs. Standard)的区分往往不稳定,倾向于将不确定的案例归入更中间的类别。
5.3 Scoring Bias的最新系统性研究
Li et al.(2025; arXiv:2506.22316)发表了目前最系统的LLM评分偏差研究,聚焦于此前被忽视的绝对打分(Absolute Scoring)情境,而非相对比较(Pairwise Comparison)。
该研究定义了三种新型打分偏差:
Rubric Order Bias(评分标准排列偏差) :当Rubric描述从最低分到最高分排列时,与从最高分到最低分排列相比,模型给出的分数分布不同。实验发现,使用降序排列(从最高等级描述到最低等级描述)往往产生更准确的评分,因为模型首先接触到"最佳表现"的描述,能够更清晰地建立评分参考系。
Score ID Bias(分数标识符偏差):将1-5的阿拉伯数字替换为字母(A-E)或罗马数字(I-V)会影响模型的评分分布。GPT-4o使用罗马数字时评分准确性更高;DeepSeek-V3使用字母时改善最显著。这一偏差的成因被归结为LLM对不同符号系统的语义关联不同。
Reference Answer Score Bias(参考答案分数偏差):当提供参考答案时,模型的评分会向参考答案的分数强烈靠拢。当参考答案的分数为满分(5分)时,模型的整体评分会显著提升并变得更合理;而当参考答案分数处于中间值(如3分)时,模型会将大量不同质量的输出都打在3分附近,加剧集中化。
该研究最重要的实践建议是:提供满分参考答案(Full-Mark Reference Example)能够最有效地校正分数压缩,因为它帮助模型明确了"顶级表现应该是什么样",解除了对高分的不确定性约束。
5.4 物理教育评分中的锚点实验
Chlapanis et al.(2025; arXiv:2603.14732v1)的物理教育LLM评分研究提供了最直接的实验证据,验证了锚点(Anchor)对分数压缩的缓解效果。
该研究设计了三个条件:盲目评分(Blind) ------无任何参考;评分方案(Scheme) ------有评分标准但无示例;方案+锚点(Scheme+Anchor)------有评分标准且有分数校准的示例答案。
关键发现:
- 不同模型之间在默认评分宽松度上差异约2.5分(出现显著的模型间差异)
- 仅添加评分方案(Scheme)不仅不能完全解决问题,有时会将某些模型推向新的偏差
- 方案+锚点条件在所有模型上都产生一致且显著的改善,MAE降低幅度高达8倍
这一实验直接证明了"给出清晰的评分标准"与"通过锚点示例让模型理解分数的实际含义"是两个不同的操作,只有后者才能有效校正分数压缩。
5.5 Ensemble方法与多模型聚合
为应对单一LLM评判者的偏差,研究者提出了多种集成方法。
研究表明,对多个来自不同LLM家族的评判者结果进行多数投票或聚合,可以减少单个模型的特定偏差,提高与人类判断的相关性。关键在于不同家族模型(如GPT系列、Claude系列)往往具有不同的偏差特征,其偏差并不完全相关,因此聚合后可以部分抵消。
然而,"超出共识"(Beyond Consensus)研究指出,当LLM评判者共同出现宽松偏差时(即所有模型都存在过度赞同倾向),简单的多数投票聚合不能解决问题,反而会强化共同偏差。此时需要引入人类标注的校准集(Calibration Set)作为锚点,通过统计模型显式建模评判者偏差并进行校正。
6. 多智能体评估系统中的特殊机制
6.1 单Agent与多Agent的偏差传播
多智能体系统(Multi-Agent Systems)在教育评估中的应用是近年的重要趋势,但其分数压缩问题具有单Agent系统所不具备的特殊机制。
Specialists or Generalists(arXiv:2601.22386, 2026)的多智能体作文评分研究是最新的直接实验证据。该研究将写作评估分解为内容(Content)、结构(Structure)和语言(Language)三个专家Agent,并设计了Veto和Capping逻辑确保某一维度严重失分的作文不会因其他维度的高分而被整体高估。结果表明,多智能体架构在低分作文 (Score 1和Score 2)上的准确率分别提升了26.6和10.8个百分点。然而,研究同时指出,多智能体架构表现出保守偏差(Conservative Bias),对高质量作文的评分仍受到约束,高分端的分数压缩没有得到有效解决。
这一发现揭示了多智能体协作的内在矛盾:分解-专门化能够改善低分端的区分度(减少对弱学生的高估),但协商聚合过程中的均值化倾向会抑制高分端的极端评分(增加对优秀学生的低估)。
6.2 协商协议对分数分布的影响
在多Agent协商中,如何整合各Agent的评分结论直接影响最终分数分布。
常见的整合策略包括:加权平均(Weighted Average)、多数投票(Majority Voting)、Synthesis Agent综合(后接仲裁者)。研究表明,无论采用哪种标准聚合方法,最终结果都会向各Agent评分的均值漂移,丢失来自任何单一Agent的极端判断。
王彦等(Wang et al., 2025; 使用生成Rubric的多Agent框架)的研究发现,当用于协商的Rubric本身对中间等级的描述比极端等级更丰富时,协商过程会进一步放大对中间等级的偏好。这与4C Rubrics中"Standard"和"Developing"等级描述最为详细具体而"Advanced/Capstone"的描述高度抽象的特征高度吻合,预示着基于4C Rubrics的多Agent系统天然倾向于将学生评在中间两个等级。
6.3 合成数据对分数分布的影响
使用合成数据(Synthetic Data)训练或测试评估系统时,训练数据的Profile分布直接决定了系统对各分数等级的"熟悉程度",进而影响对极端分数的可靠性。
若合成数据Pipeline在生成学生Profile时倾向于中间Profile(如PBL评估中的Developing/Standard型),系统便从未充分接触"纯Beginning"或"纯Advanced/Exemplary"型学生的行为模式,在面对这些极端样本时会将其向熟悉的中间区间回拉------这是典型的分布外泛化失败(Out-of-Distribution Generalization Failure)。
自动化作文评分领域的综述(Raczynski & Cohen, 2018)明确指出,极端表现在训练数据中的欠代表是导致AES系统在极端分数上准确性差的核心原因,呼吁在构建训练集时特别注重两端样本的充分采样。
7. 文化与语言因素:东亚语境的特殊性
7.1 中文LLM的训练数据偏差
针对中文大语言模型(C-LLMs)偏差的系统性研究(Exploring occupational biases in C-LLMs, Scientific Reports, 2025)表明,中文LLM在职业偏见、性别偏见等方面与英文LLM存在结构性差异,这些差异反映了训练数据中的中文社会文化特征。
虽然目前尚无专门研究中文LLM在教育评分中集中趋势偏差的实证研究,但可以从两个方向推断其影响:
其一,中文文本中的评价语言偏好:中文网络评价(如学生评语、教师评价、课程反馈等)通常比英文更倾向于使用温和的中间性表述。"尚可""基本达到""有所不足"等中间性表述在中文教育语境中远比"卓越""完全不及格"等极端表述常见。若LLM在这样的数据上训练,其评分词汇的语义中心会偏向中间区域。
其二,儒家中庸文化的渗透:如第3节所述,中庸文化偏好在东亚语言和文化产品中广泛体现。以中文书写的人类评价标注数据会系统性地体现这种中庸偏好,从而通过预训练和RLHF向中文LLM传递集中化评分倾向。
7.2 DeepSeek系列模型的特殊考量
Li et al.(2025; arXiv:2506.22316)的评分偏差研究对DeepSeek-V3-671B进行了专门测试,发现该模型在没有引入参考答案时表现出强烈的满分偏好(score of 5倾向),但当引入满分参考答案后,这一极端宽松偏差反而被有效缓解。此外,Qwen3-8B(较小中文模型)的评分分布受偏差影响最显著,说明模型能力越强,对偏差的抵抗力越强------但中文较小模型在评分稳定性上的劣势值得注意。
这对于在中国教育背景下使用国产LLM(DeepSeek、Qwen、文心等)构建评估系统的研究者具有特别的警示意义:不同模型的分数压缩方向和强度可能与英文模型存在系统性差异,需要针对性的校准实验。
8. 缓解策略综述
基于以上文献梳理,本节将已有文献支持的缓解策略按照作用层面分为五类,从提示工程到系统架构再到统计后处理,提供多层次的解决思路。
8.1 提示工程层:Anchor Exemplar注入
策略原理:为每个评分等级提供具体的行为示例(Anchor Exemplar),让LLM在评分时能够将被评对象与清晰的参照点进行比较,而非依赖模型内部模糊的等级概念。
文献支持:物理教育评分研究(Chlapanis et al., 2025)证明方案+锚点条件使MAE降低8倍。LLM-as-a-Judge最佳实践研究(Cameron Wolfe, 2024)将提供少样本示例(Few-Shot Examples)列为减少评判偏差的有效技术。Kinde(2025)的LLM评判最佳实践指出:提供清晰的5星和1星回答范例能"显著提升评分一致性"。
实施建议:
- 为4C Rubrics的每个维度(Critical Thinking, Creativity, Communication, Collaboration)的每个等级(Beginning/Developing/Standard/Advanced)提供至少1个具体的学生行为描述
- 重点关注Advanced/Exemplary等级的锚点:文献显示模型对顶级表现的识别最不可靠,需要最具体的行为示例
- 锚点应基于真实或高质量合成的极端表现案例,而非从中等案例推断
示例Prompt结构:
在评估"Critical Thinking - Complex Problem Analysis"维度时,请参考以下等级示例:
[Advanced/Capstone示例]
学生系统性地拆解了城市交通问题的复杂成因:不仅识别了表层的拥堵现象,
还追溯至土地利用政策、居住分布、公共交通投资历史等系统性因素,
并明确指出跨部门协调的制度性障碍。其分析框架引用了三个相互竞争的理论视角,
并解释了为何在本地情境下某一视角最具解释力。
[Beginning示例]
学生仅描述"交通很堵,需要修更多道路",未能识别问题的系统性复杂性,
也未考虑多种解决方案的利弊权衡。
请基于以上参考示例,对[学生行为数据]进行评分:
8.2 提示工程层:Chain-of-Thought与反向核查
策略原理:要求LLM在给出最终分数之前显式推理评分依据,并加入反向核查步骤,强制模型考虑被评者是否可能处于极端等级。
文献支持:Chiang et al.(2025; TRACT框架)证明Chain-of-Thought整合结合回归感知微调使评分准确性显著提升。Kinde(2025)提出Counter-Prompt策略,要求模型"首先评估X,然后重新评估但忽略Y,只关注Z"。Spiliopoulou et al.(2025)发现详细结构化提示词(Elaborate Prompt)比最简提示词系统性地产生更严格的评判,减少了对表面特征的过度依赖。
实施建议:
- 在Prompt中加入显式的推理步骤指令,要求在分数之前输出理由
- 加入"极端等级核查"步骤:要求Agent明确回答"是否有证据支持Advanced评级?是否有证据支持Beginning评级?"
- 对于Synthesis Agent,在整合之前要求各Agent提供支持极端评分的最强证据
示例反向核查问题:
在给出最终等级之前,请依次回答:
1. 该学生在[维度X]上表现出的哪些具体行为,最接近Advanced/Capstone等级的描述?
(请引用具体的学生行为证据)
2. 该学生在[维度X]上存在哪些具体不足,可能对应Beginning等级的特征?
(请引用具体的学生行为证据)
3. 综合以上分析,该学生最符合哪个等级?为什么不是相邻等级?
8.3 数据层:校准集与统计偏差修正
策略原理:建立包含已知Ground Truth分数的小型校准集,通过统计分析识别Agent系统的系统性偏差方向和幅度,并对所有输出应用统计修正。
文献支持:Medium技术博客(Nayeem Islam, 2025)建议建立30-50个人类标注样本的黄金标准测试集。"Beyond Consensus"论文(NUS, 2025)提出通过统计模型显式建模评判者偏差并使用校准集锚定修正参数。Confident AI最佳实践文档推荐将人类评估作为修正LLM评判者偏差的基准。
实施步骤:
- 从数据集中抽取20-30个样本,确保各等级(Beginning、Developing、Standard、Advanced)均有代表(各5-8个)
- 为这些样本建立人工确认的Ground Truth
- 运行Agent系统对校准集评分
- 计算系统偏差:
bias_function = f(raw_score, ground_truth_distribution) - 对全部输出应用偏差修正:
corrected_score = g(raw_score, bias_function)
注意事项:偏差修正函数不一定是线性的。对于集中趋势错误,修正应扩展分数分布的两端,对高分区间应用正向修正(将接近Advanced的分数推向Advanced),对低分区间应用负向修正(将接近Developing的分数推向Beginning)。
8.4 数据层:训练数据极端样本补充
策略原理:重新设计合成数据Pipeline,确保极端Profile(顶级表现和最低表现)的学生样本有足够的数量,让Agent系统在训练/测试中充分接触极端表现模式。
文献支持:Raczynski & Cohen(2018)在AI教育测量综述中明确指出,极端表现在训练数据中的欠代表是AES系统在极端分数上准确性差的核心原因。Reed & Mercer(2022)的AES研究证实,当学生群体分布偏离主体训练分布时,系统更倾向于给出中间分数。
实施建议:
- 在Synthetic Data Pipeline中设计专门的极端Profile,如
P_Exemplary(在所有4C维度均达到Advanced级别)和P_Beginning(在所有4C维度均处于Beginning级别) - 对极端Profile生成比例不低于30%的样本(当前MVP数据3个Profile均为中间Profile的设计需要修正)
- 为极端Profile的行为叙事(Narrative Layer B)提供特别具体、可识别的行为描述,确保与中间Profile有清晰可辨的区别
8.5 系统架构层:强制分布约束与分歧激活
策略原理:在批量评分场景中,通过架构层面的设计防止所有学生分数集中在中间,并在Agent间出现分歧时触发深度分析而非简单聚合。
策略A------强制分布(Forced Distribution):在Synthesis Agent的综合逻辑中,若检测到所有学生分数集中在某一区间(如70%以上的学生被评为Developing或Standard),触发重新校准流程。
文献支持:工业心理学研究(Ceopedia综述; Landy & Conte, 2013)证明强制分布可以有效防止分数压缩,但需要足够多的学生样本(建议至少15人以上才有意义)。
策略B------分歧激活深度分析(Divergence-Triggered Deep Analysis):当多个Agent对同一学生在某一维度的评分出现超过1个等级的分歧时,不应直接取均值,而应触发专门的深度分析协议,要求Agent提供更多证据后重新协商。
文献支持:Ensemble方法研究表明,多数投票和均值聚合在极端情况下会丢失有价值的异常评判信息;LLM-as-a-Judge综述(Cameron Wolfe, 2024)建议使用多个不同评判者并在高分歧案例上增加人工复审。
8.6 统计后处理层:IRT/MFRM校正
策略原理:对Agent系统的输出应用项目反应理论(IRT)或多维面Rasch模型(MFRM),将系统性的宽松/严格偏差分离出来,获得更准确的学生能力估计。
文献支持:MFRM方法(Linacre, 1989; Myford & Wolfe, 2003)已在教育测量领域被广泛用于校正人类评分者的系统性偏差。Jin & Wang(2018)的Centrality/Extremity模型为量化评分者的集中化倾向提供了参数化工具。
实施建议:
- 将每个Agent视为一个"虚拟评分者",对其历史评分数据拟合MFRM
- 估计每个Agent的严格度参数(Rater Severity Parameter)和范围限制参数
- 使用校正后的能力估计值作为最终输出,而非直接使用原始分数
适用条件:此方法需要一定量的评分数据(建议至少50个以上的学生-Agent评分对),适用于系统积累足够数据后的持续改进阶段,不适合初期部署。
9. 研究空白与未来方向
通过系统文献综述,识别出以下值得深入研究的空白领域:
9.1 LLM集中趋势偏差的专项测量工具
目前针对LLM评分偏差的测量框架(Li et al., 2025)主要关注评分稳定性(Stability)、准确性(Accuracy)和打分倾向(Scoring Tendency)三个维度,但尚未有专门量化集中趋势程度的标准化指标。将MFRM中的Centrality参数(Jin & Wang, 2018)迁移至LLM评分场景、建立标准化的分数集中化测量工具,是重要的方法论贡献机会。
9.2 PBL软技能评估的LLM偏差研究
现有LLM评分偏差研究主要针对写作评估(AES)和问答系统评估,而针对PBL中协作、批判性思维等软技能的LLM评分偏差研究极为稀少。软技能评估的主观性更强、行为证据更模糊,理论上更容易出现集中趋势偏差,但缺乏实证研究。
9.3 中文LLM在教育评分中的偏差特征研究
如第7节所述,关于中文LLM教育评分偏差的专项研究几乎空白。DeepSeek、Qwen、文心等国产LLM在中文教育场景下的分数压缩模式是否与英文LLM有系统性差异,是值得优先研究的问题,具有重要的政策价值(国内AI教育工具的公平性和可靠性)。
9.4 动态校准与持续学习的偏差监测
现有偏差研究主要针对静态评分场景,而教育评估系统通常需要持续运行和更新。随着学生群体分布和教学目标的变化,系统的集中趋势程度也可能漂移(类似于Leckie & Baird, 2011发现的Rater Drift)。建立能够持续监测和动态校准集中趋势偏差的自适应机制,是系统工程层面的重要研究方向。
9.5 多智能体协商协议对分数分布的影响
当前关于多智能体教育评分的研究(如GradeOpt, AutoSCORE, Specialists or Generalists)主要关注整体评分准确性,而非专门研究协商协议(Negotiation Protocol)设计对分数分布形状的影响。不同协商策略(如最大值规则、加权均值、Veto逻辑)如何影响极端分数的保留是理论上重要、实践上紧迫的问题。
10. 对PBL多智能体评估系统的启示
综合以上文献综述,提炼出对基于4C Rubrics的PBL多智能体学生能力评估系统设计的核心启示:
10.1 问题诊断框架
当PBL评估系统出现如图所示的分数压缩模式时,应首先按以下优先级检查可能的根因:
第一层检查:Prompt设计
├── Rubric各等级描述是否充分、具体、可操作?
├── 是否为极端等级(Advanced和Beginning)提供了行为锚点?
└── 是否有反向核查步骤要求Agent考虑极端等级的可能性?
第二层检查:数据分布
├── 合成数据中是否包含足够的极端Profile样本?
├── 极端Profile的行为叙事是否与中间Profile有清晰区别?
└── 是否有校准集可以测量系统的偏差程度?
第三层检查:架构设计
├── 多Agent协商是否有保护极端评分的机制?
├── Synthesis Agent的聚合逻辑是否会系统性地抹平极端分数?
└── 是否有分布约束防止所有学生评分向中间集中?
10.2 优先级改进路线图
基于文献证据的效果-成本权衡分析,建议以下优先级:
| 优先级 | 干预措施 | 预期效果 | 实施成本 | 文献支持 |
|---|---|---|---|---|
| ★★★ | 为每个Rubric维度每个等级添加行为锚点示例 | 高(MAE降低可达8倍) | 低(仅修改Prompt) | Chlapanis et al., 2025 |
| ★★★ | 在Prompt中加入反向核查步骤 | 高(防止中间偏好强化) | 低(仅修改Prompt) | Spiliopoulou et al., 2025 |
| ★★★ | 在Synthesis Agent中加入分布监测逻辑 | 高(系统级防护) | 中(修改架构) | 工业心理学综述 |
| ★★☆ | 建立20-30个样本的校准集 | 中-高(精确校正) | 中(需要人工标注) | Nayeem Islam, 2025 |
| ★★☆ | 重新设计合成数据极端Profile | 中(提升泛化能力) | 中(修改Pipeline) | Raczynski & Cohen, 2018 |
| ★☆☆ | 引入MFRM统计后处理 | 中(精确量化校正) | 高(需要统计专业知识) | Jin & Wang, 2018 |
10.3 评分公平性的更广泛考量
分数压缩问题不仅是技术问题,也是公平性问题。对高表现学生的低估和对低表现学生的高估,会导致:
- 优秀学生失去应得的认可,影响其学习积极性
- 需要帮助的学生被误判为"尚可",延误早期干预
- 教师基于不准确的评估做出错误的教学决策
在中国高校PBL场景中,这一问题因文化因素(中庸倾向)和技术因素(LLM训练数据偏差)的叠加而可能更为严重。建立公平、准确、鉴别力强的自动化评估系统,需要在技术设计的各个层面都将分数压缩防控纳入核心考量。
11. 结论
本文通过系统性文献综述,追踪了评分集中化偏差问题从工业心理学绩效评估(1950s-1990s)到教育测量(1980s-2010s)再到LLM自动评估(2020s)的演化脉络,并揭示了该问题在多智能体PBL学生能力评估系统中的特殊表现形式。
核心发现可概括为以下几点:
第一,该问题有深厚的理论根基和广泛的经验记录。无论是人类评分者还是自动化系统,评分向中间集中的倾向都被反复记录,其背后有清晰的认知机制(不确定性规避、安全偏好、训练数据分布偏向)。这意味着PBL多智能体评估系统中观察到的分数压缩并非特殊的系统缺陷,而是此类系统的普遍性挑战,需要在设计层面系统性应对。
第二,LLM-as-a-Judge范式引入了新的偏差机制。RLHF对齐的副作用(安全偏好、过度赞同倾向)与传统评分者心理机制不同,但产生了类似的分数压缩效果。更重要的是,多智能体协商过程天然会向均值漂移,进一步加剧极端分数的损失。
第三,有效的缓解策略已有充分的文献支持。从提示工程层的Anchor Exemplar注入(效果显著,成本低)到统计后处理层的MFRM校正(效果精确,成本高),多层次的解决方案已经存在。其中,提供满分参考答案/锚点示例和设计反向核查步骤是成本效益最高的干预措施,应作为系统改进的优先选项。
第四,中文教育场景具有需要特别关注的文化维度。东亚的中庸文化偏好会通过训练数据向中文LLM传递集中化评分倾向,且目前缺乏专门针对中文LLM教育评分偏差的实证研究,是重要的研究空白。
本综述希望为基于LLM的教育评估系统研究者提供跨领域的理论视角,并为系统设计提供可操作的改进路径。
12. 参考文献
经典教育测量与评分者效应
- Aamodt, M. G. (2013). Applied industrial/organizational psychology (7th ed.). Cengage Learning.
- Engelhard, G. (1992). Examining rater errors in the assessment of written composition with a Many-Faceted Rasch Model. Journal of Educational Measurement, 29(2), 93-112.
- Guilford, J. P. (1954). Psychometric methods (2nd ed.). McGraw-Hill.
- Jin, K. Y., & Wang, W. C. (2018). A new facets model for rater's centrality/extremity response style. Journal of Educational Measurement, 55(4), 543-563.
- Landy, F. J., & Conte, J. M. (2013). Work in the 21st century: An introduction to industrial and organizational psychology (4th ed.). Wiley.
- Leckie, G., & Baird, J. A. (2011). Rater effects on essay scoring: A multilevel analysis of severity drift, central tendency, and rater experience. Journal of Educational Measurement, 48(4), 399-418.
- Linacre, J. M. (1989). Many-faceted Rasch measurement. MESA Press.
- Myford, C. M., & Wolfe, E. W. (2003). Detecting and measuring rater effects using many-facet Rasch measurement: Part I. Journal of Applied Measurement, 4(4), 386-422.
- Myford, C. M., & Wolfe, E. W. (2004). Detecting and measuring rater effects using many-facet Rasch measurement: Part II. Journal of Applied Measurement, 5(2), 189-227.
- Saal, F. E., Downey, R. G., & Lahey, M. A. (1980). Rating the ratings: Assessing the psychometric quality of rating data. Psychological Bulletin, 88(2), 413-428.
自动化教育评分(AES)
- Amorim, E., Cançado, M., & Veloso, A. (2018). Automated essay scoring in the presence of biased ratings. In Proceedings of NAACL-HLT 2018 (pp. 229-237).
- Baker, R. S., & Hawn, A. (2022). Algorithmic bias in education. International Journal of Artificial Intelligence in Education, 32, 1052-1092.
- Chu, Y., et al. (2024). A LLM-powered automatic grading framework with human-level guidelines optimization. arXiv:2410.02165.
- Madnani, N., & Cahill, A. (2018). Automated scoring: Beyond natural language processing. In Proceedings of COLING 2018 (pp. 1099-1109).
- Matta, M., Mercer, S. H., & Keller-Margulis, M. A. (2023). Implications of bias in automated writing quality scores for fair and equitable assessment decisions. School Psychology, 38(3), 173-181.
- Raczynski, K., & Cohen, A. (2018). [AI in educational measurement: training data and bias]. In AI in educational measurement. CE-JEME.
- Reed, D. K., & Mercer, S. H. (2022). Validity of automated essay scores for elementary-age English language learners: Evidence of bias? Assessing Writing, 53, 100635.
- Wu, X., et al. (2025). AutoSCORE: Enhancing automated scoring with multi-agent large language models via structured component recognition. arXiv:2509.21910.
LLM-as-a-Judge偏差研究
- Chiang, W. L., et al. (2025). TRACT: Regression-aware fine-tuning with chain-of-thought. arXiv preprint.
- Chlapanis, G., et al. (2025). Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats. arXiv:2603.14732.
- Koo, R., et al. (2024). Benchmarking cognitive biases in large language models as evaluators. In Findings of ACL 2024 (pp. 517-545).
- Li, Q., Dou, S., et al. (2025). Evaluating scoring bias in LLM-as-a-Judge. arXiv:2506.22316.
- Spiliopoulou, A., et al. (2025). Evaluating and mitigating LLM-as-a-judge bias in communication systems. arXiv:2510.12462.
- Wang, P., et al. (2024). Large language models are not robust multiple choice selectors. arXiv preprint.
- Zheng, L., et al. (2023). Judging LLM-as-a-judge with MT-bench and Chatbot Arena. In Advances in Neural Information Processing Systems 36 (NeurIPS 2023).
多智能体教育评分
- Chu, Y., et al. (2025). Enhancing LLM-based short answer grading with retrieval-augmented generation. In Proceedings of EDM 2025.
- Idowu, O., et al. (2024). Multi-agent LLM framework for automated grading. In Proceedings of AIED 2024.
- Li, Z., et al. (2026). Specialists or generalists? Multi-agent and single-agent LLMs for essay grading. arXiv:2601.22386.
- Wang, Y., Gopalakrishnan, M., & Bergner, Y. (2025). Using generated rubrics to provide a window into item evaluation with multi-agent LLMs. In AIED 2025 Proceedings.
偏差缓解方法
- Huang, Z., et al. (2024). Post-hoc reward calibration: A case study on length bias. arXiv:2409.17407.
- Liu, Z., et al. (2024). Pairwise-Preference Search (PAIRS) to mitigate biases in LLM evaluators. arXiv preprint.
- NUS AI Center for Emerging Technologies. (2025). Beyond consensus: Mitigating the agreeableness bias in LLM judge evaluations. Technical Report.
- Wang, Y., et al. (2024). Large language models are not robust multiple choice selectors: Calibrating positional bias. arXiv preprint.
文化与中文LLM
- Chen, C., & Li, O. (2005). [Cross-cultural differences in Likert scale responses]. Cross-Cultural Research, 39(4), 350-368.
- PLOS ONE. (2022). Information loss and bias in Likert survey responses. PLOS ONE, 17(7), e0271949.
- Scientific Reports. (2025). Exploring the occupational biases and stereotypes of Chinese large language models. Scientific Reports, 15, article number.
- Zheng, Y. (2009). [Development of Chinese trust measurement scale]. In Chinese psychology journals.
本综述写作日期:2026年4月3日