金融领域LLM开源测试集

liliangcsdn2025-06-19 1:38

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge，对25个先进LLM进行全面评估，发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体，涵盖问答、推理、情感新粉、主题分类、NER和对话，

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference

上一篇：phpstorm无缝切换vscode

下一篇：如何在FastAPI中实现权限隔离并让用户乖乖听话？

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 052026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一