AI算命评测数据集分享，来自AuraMate灵伴团队的研究

cjx112352026-03-15 10:05

分享一下AuraMate灵伴团队发的一篇论文。我们专门测 AI 到底能不能"算命"，不是网上那种给 DeepSeek 发个 prompt 截图说"准到离谱"的玩法，我们做的是有标准答案的盲测。

怎么测的？

我们搞了一个 benchmark 叫 BaziQA，来源是全球算命师大赛 2021-2025 年的真题，200 道四选一选择题。每道题给出生辰八字，问具体的人生事件------"此人哪年结婚""出生家境如何""事业转折在何时"------有标准答案，不让 AI 打太极。

为了公平，所有模型拿到的干支数据完全一样------四柱、十神、大运流年都事先排好，只需要做推理。

AI vs 人类专家，差距没想象中那么大：

年份	最强通用 AI	竞赛冠军	竞赛季军
2025	37.0%（DeepSeek-V3）	50.0%	45.0%
2023	36.0%（GPT-5.1）	37.5%	32.5%
2022	36.0%（DeepSeek-V3）	40.0%	35.0%

2023 年 GPT-5.1 已经超过了竞赛季军，离冠军只差 1.5%。在连人类冠军也只有 37.5%-50% 的高难度赛道上，AI 不是"凑热闹"，已经能进入强手区间了。

但通用 AI 有个明显短板：它们缺乏系统化的分析流程。八字推理需要"先看全局→排主次→再下结论"，通用模型往往跳步骤，导致时间定位类问题拉胯。

所以我们提出了结构化推理协议（SRP）：

引导 AI 按"全局扫描→力量排序→事件推断"的步骤来分析。效果很明显：

• 流年分析 +8~10 个百分点

• 事业推断最高 +15 个百分点

• 学业推断最高 +30 个百分点

SRP 引擎在 2022 年超越竞赛季军追平亚军，2025 年达到 42%，比最强通用 AI 高出 5 个百分点。

基于这套方法论，我们做了 AuraMate 灵伴 ------ 一个 AI 命理分析平台。**它不是简单地把八字丢给大模型，而是用论文验证过的结构化推理方法，配合自研的高精度排盘引擎，让每一步推理都有据可依、可追溯。

感兴趣的可以看看：

• 数据集开源：GitHub - BaziQA

• 实时评测榜单：auramate.net/benchmark

欢迎拿自己感兴趣的模型跑跑看 😃