金融领域LLM开源测试集

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference


相关推荐
Mendix6 分钟前
使用 Altair RapidMiner 将机器学习引入您的 Mendix 应用程序
人工智能·机器学习
Francek Chen23 分钟前
【深度学习计算机视觉】03:目标检测和边界框
人工智能·pytorch·深度学习·目标检测·计算机视觉·边界框
九章云极AladdinEdu27 分钟前
AI集群全链路监控:从GPU微架构指标到业务Metric关联
人工智能·pytorch·深度学习·架构·开源·gpu算力
九章云极AladdinEdu35 分钟前
Kubernetes设备插件开发实战:实现GPU拓扑感知调度
人工智能·机器学习·云原生·容器·kubernetes·迁移学习·gpu算力
蒋星熠37 分钟前
深入 Kubernetes:从零到生产的工程实践与原理洞察
人工智能·spring boot·微服务·云原生·容器·架构·kubernetes
aneasystone本尊44 分钟前
学习 Chat2Graph 的多智能体协作机制
人工智能
精灵vector1 小时前
LLMCompiler:基于LangGraph的并行化Agent架构高效实现
人工智能·python·langchain
机器之心1 小时前
文心新出的推理大模型,给了我们信心
人工智能·openai
冷水鱼1 小时前
Qoder,不止是编程agent,也是文档神器
人工智能·ai编程
路旁的码农1 小时前
使用LangExtract进行医疗数据提取
人工智能