AI算命评测数据集分享,来自AuraMate灵伴团队的研究

分享一下AuraMate灵伴团队发的一篇论文。我们专门测 AI 到底能不能"算命",不是网上那种给 DeepSeek 发个 prompt 截图说"准到离谱"的玩法,我们做的是有标准答案的盲测。

怎么测的?

我们搞了一个 benchmark 叫 BaziQA,来源是全球算命师大赛 2021-2025 年的真题,200 道四选一选择题。每道题给出生辰八字,问具体的人生事件------"此人哪年结婚""出生家境如何""事业转折在何时"------有标准答案,不让 AI 打太极。

为了公平,所有模型拿到的干支数据完全一样------四柱、十神、大运流年都事先排好,只需要做推理。

AI vs 人类专家,差距没想象中那么大:

年份 最强通用 AI 竞赛冠军 竞赛季军
2025 37.0%(DeepSeek-V3) 50.0% 45.0%
2023 36.0%(GPT-5.1) 37.5% 32.5%
2022 36.0%(DeepSeek-V3) 40.0% 35.0%

2023 年 GPT-5.1 已经超过了竞赛季军,离冠军只差 1.5%。在连人类冠军也只有 37.5%-50% 的高难度赛道上,AI 不是"凑热闹",已经能进入强手区间了。

但通用 AI 有个明显短板: 它们缺乏系统化的分析流程。八字推理需要"先看全局→排主次→再下结论",通用模型往往跳步骤,导致时间定位类问题拉胯。

所以我们提出了结构化推理协议(SRP):

引导 AI 按"全局扫描→力量排序→事件推断"的步骤来分析。效果很明显:

• 流年分析 +8~10 个百分点

• 事业推断最高 +15 个百分点

• 学业推断最高 +30 个百分点

SRP 引擎在 2022 年超越竞赛季军追平亚军,2025 年达到 42%,比最强通用 AI 高出 5 个百分点。

基于这套方法论,我们做了 AuraMate 灵伴 ------ 一个 AI 命理分析平台。**它不是简单地把八字丢给大模型,而是用论文验证过的结构化推理方法,配合自研的高精度排盘引擎,让每一步推理都有据可依、可追溯。


感兴趣的可以看看:

• 论文:arXiv:2602.12889

• 数据集开源:GitHub - BaziQA

• 实时评测榜单:auramate.net/benchmark

• 研究详情:AI 在传统四柱八字干支推理任务上的表现已接近人类专家

欢迎拿自己感兴趣的模型跑跑看 😃

相关推荐
VBsemi-专注于MOSFET研发定制9 小时前
AI训练服务器8GPU功率链路设计实战:效率、可靠性与功率密度的平衡之道
运维·服务器·人工智能
北京耐用通信9 小时前
1个网关=100+设备兼容:耐达讯自动化CC-Link IE 转 EtherCAT重新定义工业协议转换价值
人工智能·科技·网络协议·自动化·信息与通信
想你依然心痛9 小时前
HarmonyOS 5.0运动健康APP开发实战:基于多传感器融合与AI教练的智能运动训练系统
人工智能·华为·harmonyos
格林威9 小时前
GigE Vision 多相机同步终极检查清单(可直接用于项目部署)
开发语言·人工智能·数码相机·机器学习·计算机视觉·视觉检测·工业相机
wenjingdadi9 小时前
自学小模型day2——YOLO模型的输出指标
人工智能·yolo·机器学习
AugustRed9 小时前
AI流式输出方案SSE vs WebSocket对比
人工智能·websocket·网络协议
砍材农夫9 小时前
spring-ai 第五模型介绍
java·人工智能·spring
DeepModel9 小时前
机器学习降维与信号分离:独立成分分析 ICA
人工智能·机器学习
阿勉要睡觉9 小时前
深度学习的模型量化
人工智能
KuAI_KST10 小时前
医美抖音AI客服推荐,低成本撬动本地医美获客增长
人工智能