金融领域LLM开源测试集

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference


相关推荐
敬往事一杯酒哈几秒前
OpenCV入门:第一章 图像的基本操作
人工智能
Chef_Chen5 分钟前
Agent学习--LLM--推理熵
人工智能·学习·机器学习
小鹿软件办公6 分钟前
OpenAI 面向高频用户推出全新 100 美元档 ChatGPT Pro 套餐
人工智能·chatgpt
ECT-OS-JiuHuaShan9 分钟前
科学的本来意义,是基于规范的共识逻辑,而非共识方法
人工智能·科技·学习·算法·生活
CoderJia程序员甲14 分钟前
GitHub 热榜项目 - 日榜(2026-04-09)
人工智能·ai·大模型·github·ai教程
chaofan98015 分钟前
从文字响应到动态沙盒:深度解析 Gemini 交互模拟 API 的技术实现与集成
人工智能·交互·api
hay_lee16 分钟前
匿名屠榜,阿里认领:HappyHorse 1.0 如何重写AI视频生成规则?
人工智能·音视频
无忧智库17 分钟前
某新区“十五五”智慧城市数字底座与数字孪生城市建设全栈技术深度解析(WORD)
人工智能·物联网·智慧城市
kishu_iOS&AI23 分钟前
机器学习 —— 线性回归(实例)
人工智能·python·机器学习·线性回归
天天进步201530 分钟前
[架构篇] 解构项目蓝图:Toonflow 的模块化设计与 AI 管道流转
人工智能·架构