8个AI，同一道高考作文题，同一个结果：我的那篇最好

恰逢高考季，黄啊码今天专门做了一个有趣的实验：

我让国内几个大语言模型以高考全国卷主题《词语》为题，写一篇高考作文，用的模型分别是文心、混元、豆包、Minimax、kimi、GLM、Deepseek、Qwen，几篇文章各有千秋，都有各自的视角和想法，但令我有点无语的是 GLM5.1，直接拒绝回答，哈哈哈，我一开始的心理预想是豆包，结果并不是。

但这都不是重点，今天重点聊一聊另外一个话题：各大模型都把自己认为是全场最佳。

不过等等，模型真的在偏爱自己的输出吗？还是说，它只是在忠实地复现训练数据里最常见的自夸模式？我不知道答案，但这件事让我确认了一点，这不就是我们常见的角度：偏见。

我无意嘲笑这种自我欣赏，只是单纯想深究里边更多的内容：如果连大模型，这些理论上没有情感只有算法的存在，他们都会本能地偏爱自己的输出，那么人类在评价自我时，该有多大的滤镜？

旁观者清，当局者迷

高考作文阅卷有一个铁律：每篇作文至少由两位老师背对背打分，为什么？因为一个人太容易看走眼，要么被漂亮的字迹迷惑，要么被熟悉的文风打动，有的时候一两句触到自己内心深处或者泪点，就立马想给它打个高分，但人的一生，谁没有一点故事呢？

模型显然继承了这种人性弱点，它们没有眼睛，却有训练数据塑造的审美偏好，一个擅长排比的模型，会认为排比才是好文章的灵魂；一个青睐叙事的模型，会觉得细节才是打动人心的唯一途径，这与人类高度相似。

就像我这个擅长看到这类 AI 味道的人类，看到这些模型的叙述，会觉得满满的 AI 味就是在侮辱我的眼睛。

越专业，越主观

有人可能会说：让模型自我评价，本身就是伪命题，它们没有自我意识，只是在模仿人类常见的自夸话语。

我们模仿阅卷标准，往往是优先模仿前辈经验，久而久之，我们把这些模仿内化为自己的判断，然后理直气壮地说：我认为这篇最好。

可是，人类所谓的客观评价，不就是一种高级的模仿吗？不也是一种你中有我，我中有你的偏见？

高考作文有评分细则，49分和52分的差距，很多时候不过是阅卷老师昨天刚读过一篇相似文章后，觉得当下这篇文章就是复刻版，我们常常说比赛的时候为什么越早上场越好，因为往往先入为主。

放下最高分的执念

实验结束后，我找了以前的高中语文老师重新为这几篇文章打分，结果很有意思：没有一篇得到绝对最高分，deepseekV4夸自己有思想，但老师说他的结尾有点套路化；Minimax m3赞自己非常有生活味，但如果是议论文的角度来说，结构有些许松散【其实我还蛮喜欢的】；qwen 被说内容平淡如水，没有一点起伏节奏感，等等。

单独贴一下 Minimax 的作文吧，我觉得所有的模型里边，关于这次高考作文的角度，就它人味最明显，

但是：我老师说了一句话，让我记记忆深刻

其实真正的好文章，缺点恰好成了风格的一部分

而风格，往往是无法打分的

我们也常常在内心深处给自己的每篇人生作文打着偏高的分数，这没什么可耻的，越挫越勇、越战越勇才能持续给自己加油。

但想真正进步，就需要偶尔把镜子拿远一点，听听别人的声音，甚至听听那些锐评，良药先苦口，忠言先逆耳。

毕竟，评价的目的从来不是证明我最好，却是弄清楚我怎样才能更好的最佳途径。

这篇文章，我不给自己打分，留给读者吧。

OK，今天的分享就到此，我是黄啊码，码字的码，如果觉得我说得有道理，欢迎一键三连，如果觉得有异议，欢迎评论区指正，我们都是 AI 时代的共创者。