金融领域LLM开源测试集

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference


相关推荐
yzx9910137 分钟前
当AI握住方向盘:智能驾驶如何重新定义出行未来
人工智能
Sui_Network32 分钟前
备受期待的 POP 射击游戏 XOCIETY 正式在 Epic Games Store 开启体验
人工智能·游戏·rpc·区块链·量子计算·graphql
漫长的~以后1 小时前
GPT-5.2深度拆解:多档位自适应架构如何重塑AI推理效率
人工智能·gpt·架构
爱笑的眼睛111 小时前
自动机器学习组件的深度解析:超越AutoML框架的底层架构
java·人工智能·python·ai
LCG米1 小时前
嵌入式Python工业环境监测实战:MicroPython读取多传感器数据
开发语言·人工智能·python
努力的BigJiang1 小时前
Cube-slam复现及报错解决
人工智能
ComputerInBook1 小时前
代数基本概念理解——特征向量和特征值
人工智能·算法·机器学习·线性变换·特征值·特征向量
漫长的~以后2 小时前
Edge TPU LiteRT V2拆解:1GB内存设备也能流畅跑AI的底层逻辑
前端·人工智能·edge
星火10242 小时前
“重生”之我用 Solo 写了一盘中国象棋
人工智能·ai编程
祝余Eleanor2 小时前
Day37 模型可视化与推理
人工智能·python·深度学习