恰逢高考季,黄啊码今天专门做了一个有趣的实验:
我让国内几个大语言模型以高考全国卷主题《词语》为题,写一篇高考作文,用的模型分别是文心、混元、豆包、Minimax、kimi、GLM、Deepseek、Qwen,几篇文章各有千秋,都有各自的视角和想法,但令我有点无语的是 GLM5.1,直接拒绝回答,哈哈哈,我一开始的心理预想是豆包,结果并不是。

但这都不是重点,今天重点聊一聊另外一个话题:各大模型都把自己认为是全场最佳。
不过等等,模型真的在偏爱自己的输出吗?还是说,它只是在忠实地复现训练数据里最常见的自夸模式?我不知道答案,但这件事让我确认了一点,这不就是我们常见的角度:偏见。
我无意嘲笑这种自我欣赏,只是单纯想深究里边更多的内容:如果连大模型,这些理论上没有情感只有算法的存在,他们都会本能地偏爱自己的输出,那么人类在评价自我时,该有多大的滤镜?
旁观者清,当局者迷
高考作文阅卷有一个铁律:每篇作文至少由两位老师背对背打分,为什么?因为一个人太容易看走眼,要么被漂亮的字迹迷惑,要么被熟悉的文风打动,有的时候一两句触到自己内心深处或者泪点,就立马想给它打个高分,但人的一生,谁没有一点故事呢?
模型显然继承了这种人性弱点,它们没有眼睛,却有训练数据塑造的审美偏好,一个擅长排比的模型,会认为排比才是好文章的灵魂;一个青睐叙事的模型,会觉得细节才是打动人心的唯一途径,这与人类高度相似。
就像我这个擅长看到这类 AI 味道的人类,看到这些模型的叙述,会觉得满满的 AI 味就是在侮辱我的眼睛。
越专业,越主观
有人可能会说:让模型自我评价,本身就是伪命题,它们没有自我意识,只是在模仿人类常见的自夸话语。
我们模仿阅卷标准,往往是优先模仿前辈经验,久而久之,我们把这些模仿内化为自己的判断,然后理直气壮地说:我认为这篇最好。
可是,人类所谓的客观评价,不就是一种高级的模仿吗?不也是一种你中有我,我中有你的偏见?
高考作文有评分细则,49分和52分的差距,很多时候不过是阅卷老师昨天刚读过一篇相似文章后,觉得当下这篇文章就是复刻版,我们常常说比赛的时候为什么越早上场越好,因为往往先入为主。
放下最高分的执念
实验结束后,我找了以前的高中语文老师重新为这几篇文章打分,结果很有意思:没有一篇得到绝对最高分,deepseekV4夸自己有思想,但老师说他的结尾有点套路化;Minimax m3赞自己非常有生活味,但如果是议论文的角度来说,结构有些许松散【其实我还蛮喜欢的】;qwen 被说内容平淡如水,没有一点起伏节奏感,等等。
单独贴一下 Minimax 的作文吧,我觉得所有的模型里边,关于这次高考作文的角度,就它人味最明显,

但是:我老师说了一句话,让我记记忆深刻
其实真正的好文章,缺点恰好成了风格的一部分
而风格,往往是无法打分的
我们也常常在内心深处给自己的每篇人生作文打着偏高的分数,这没什么可耻的,越挫越勇、越战越勇才能持续给自己加油。
但想真正进步,就需要偶尔把镜子拿远一点,听听别人的声音,甚至听听那些锐评,良药先苦口,忠言先逆耳。
毕竟,评价的目的从来不是证明我最好,却是弄清楚我怎样才能更好的最佳途径。
这篇文章,我不给自己打分,留给读者吧。

OK,今天的分享就到此,我是黄啊码,码字的码,如果觉得我说得有道理,欢迎一键三连,如果觉得有异议,欢迎评论区指正,我们都是 AI 时代的共创者。