破解AI“机器味“困境:HeartBench评测实践详解作者:苏菲,AI 科学与评测部2025年起,大模型的竞争格局正在发生微妙而深刻的变化。单纯的 Scaling Law已开始遭遇边际效应递减。当主流模型在MMLU、HumanEval等客观评测集上的表现日趋饱和,甚至纷纷宣称达到SOTA时,一个关键问题浮出水面:在AI应用落地场景(如AI陪伴、创意写作、心理咨询等),我们正普遍面临模型虽具备逻辑,却有着明显的“机器味”,缺乏真正“人味儿”的困境。这种“人味儿”的缺失,不仅限制了AI的实用性,更直接影响了用户体验和产品的核心价值。它预示着:技术指标的军备竞赛之