AI算命评测数据集分享,来自AuraMate灵伴团队的研究

分享一下AuraMate灵伴团队发的一篇论文。我们专门测 AI 到底能不能"算命",不是网上那种给 DeepSeek 发个 prompt 截图说"准到离谱"的玩法,我们做的是有标准答案的盲测。

怎么测的?

我们搞了一个 benchmark 叫 BaziQA,来源是全球算命师大赛 2021-2025 年的真题,200 道四选一选择题。每道题给出生辰八字,问具体的人生事件------"此人哪年结婚""出生家境如何""事业转折在何时"------有标准答案,不让 AI 打太极。

为了公平,所有模型拿到的干支数据完全一样------四柱、十神、大运流年都事先排好,只需要做推理。

AI vs 人类专家,差距没想象中那么大:

年份 最强通用 AI 竞赛冠军 竞赛季军
2025 37.0%(DeepSeek-V3) 50.0% 45.0%
2023 36.0%(GPT-5.1) 37.5% 32.5%
2022 36.0%(DeepSeek-V3) 40.0% 35.0%

2023 年 GPT-5.1 已经超过了竞赛季军,离冠军只差 1.5%。在连人类冠军也只有 37.5%-50% 的高难度赛道上,AI 不是"凑热闹",已经能进入强手区间了。

但通用 AI 有个明显短板: 它们缺乏系统化的分析流程。八字推理需要"先看全局→排主次→再下结论",通用模型往往跳步骤,导致时间定位类问题拉胯。

所以我们提出了结构化推理协议(SRP):

引导 AI 按"全局扫描→力量排序→事件推断"的步骤来分析。效果很明显:

• 流年分析 +8~10 个百分点

• 事业推断最高 +15 个百分点

• 学业推断最高 +30 个百分点

SRP 引擎在 2022 年超越竞赛季军追平亚军,2025 年达到 42%,比最强通用 AI 高出 5 个百分点。

基于这套方法论,我们做了 AuraMate 灵伴 ------ 一个 AI 命理分析平台。**它不是简单地把八字丢给大模型,而是用论文验证过的结构化推理方法,配合自研的高精度排盘引擎,让每一步推理都有据可依、可追溯。


感兴趣的可以看看:

• 论文:arXiv:2602.12889

• 数据集开源:GitHub - BaziQA

• 实时评测榜单:auramate.net/benchmark

• 研究详情:AI 在传统四柱八字干支推理任务上的表现已接近人类专家

欢迎拿自己感兴趣的模型跑跑看 😃

相关推荐
诺云小星17 小时前
GEO时代已开启:品牌如何获得AI推荐?
人工智能
youcans_17 小时前
【跟我学 AI 编程】(6) Claude Code 与 IDE 的集成
ide·人工智能·ai编程·claude code
X54先生(人文科技)17 小时前
《元创力》纪实录·桥段陶罐的测绘:当“表演性安全”吞噬星辰
人工智能·开源·开源协议·零知识证明
czzxxxxxx17 小时前
创客匠人AI智能体:知识付费的效率革命与未来图景
人工智能
OpenCSG17 小时前
Cosmos3:NVIDIA 把世界模型做成了“理解、生成、模拟、行动”的统一入口
人工智能·大模型·nvidia·opencsg
IvorySQL17 小时前
PostgreSQL 技术日报 (6月1日)|逻辑复制问题修复,AI 行业动态速览
数据库·人工智能·postgresql
刘一说17 小时前
AI科技热点日报 | 2026年6月5日
人工智能·科技
温九味闻醉17 小时前
八股-大语言模型基础
人工智能·语言模型·自然语言处理
EasyGBS17 小时前
从“后厨黑箱”到“透明厨房”:国标GB28181视频平台EasyGBS平台AI视频分析如何守护舌尖上的安全
人工智能·安全·音视频
澹锦汐18 小时前
Serverless 云端架构:独立开发者的单兵作战服务器搭建路线图
人工智能