AI算命评测数据集分享,来自AuraMate灵伴团队的研究

分享一下AuraMate灵伴团队发的一篇论文。我们专门测 AI 到底能不能"算命",不是网上那种给 DeepSeek 发个 prompt 截图说"准到离谱"的玩法,我们做的是有标准答案的盲测。

怎么测的?

我们搞了一个 benchmark 叫 BaziQA,来源是全球算命师大赛 2021-2025 年的真题,200 道四选一选择题。每道题给出生辰八字,问具体的人生事件------"此人哪年结婚""出生家境如何""事业转折在何时"------有标准答案,不让 AI 打太极。

为了公平,所有模型拿到的干支数据完全一样------四柱、十神、大运流年都事先排好,只需要做推理。

AI vs 人类专家,差距没想象中那么大:

年份 最强通用 AI 竞赛冠军 竞赛季军
2025 37.0%(DeepSeek-V3) 50.0% 45.0%
2023 36.0%(GPT-5.1) 37.5% 32.5%
2022 36.0%(DeepSeek-V3) 40.0% 35.0%

2023 年 GPT-5.1 已经超过了竞赛季军,离冠军只差 1.5%。在连人类冠军也只有 37.5%-50% 的高难度赛道上,AI 不是"凑热闹",已经能进入强手区间了。

但通用 AI 有个明显短板: 它们缺乏系统化的分析流程。八字推理需要"先看全局→排主次→再下结论",通用模型往往跳步骤,导致时间定位类问题拉胯。

所以我们提出了结构化推理协议(SRP):

引导 AI 按"全局扫描→力量排序→事件推断"的步骤来分析。效果很明显:

• 流年分析 +8~10 个百分点

• 事业推断最高 +15 个百分点

• 学业推断最高 +30 个百分点

SRP 引擎在 2022 年超越竞赛季军追平亚军,2025 年达到 42%,比最强通用 AI 高出 5 个百分点。

基于这套方法论,我们做了 AuraMate 灵伴 ------ 一个 AI 命理分析平台。**它不是简单地把八字丢给大模型,而是用论文验证过的结构化推理方法,配合自研的高精度排盘引擎,让每一步推理都有据可依、可追溯。


感兴趣的可以看看:

• 论文:arXiv:2602.12889

• 数据集开源:GitHub - BaziQA

• 实时评测榜单:auramate.net/benchmark

• 研究详情:AI 在传统四柱八字干支推理任务上的表现已接近人类专家

欢迎拿自己感兴趣的模型跑跑看 😃

相关推荐
冬奇Lab1 小时前
Workflow 系列(01):基础理论——三种执行模型与 Anthropic 5 种模式
人工智能·agent·工作流引擎
冬奇Lab1 小时前
每日一个开源项目(第143篇):page-agent - 纯 JS 的网页 GUI Agent,无需截图、无需插件、无需后端
前端·人工智能·agent
程序员cxuan3 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
ZhengEnCi5 小时前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒6 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
不加辣椒7 小时前
第12章 工具调用与 Agent 提示工程
人工智能
用户1693176172667 小时前
前端给AI消息做日期分组与时间线
人工智能
i晟7 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户252736278148 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩8 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent