金融领域LLM开源测试集

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference


相关推荐
苍何17 分钟前
国内也有 GPT 质感的 App 了,阿里做到了。
人工智能
美团技术团队22 分钟前
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench
人工智能
top_designer34 分钟前
Firefly 样式参考:AI 驱动的 UI 资产“无限”生成
前端·人工智能·ui·aigc·ux·设计师
强盛小灵通专卖员42 分钟前
Airsim仿真、无人机、无人车、Lidar深度相机应用研究!
人工智能·无人机·sci·深度强化学习·airsim·小论文
MatrixOrigin1 小时前
矩阵起源成功登陆深圳“专精特新”专板,加速 AI 数据智能新进程!
人工智能
陈天伟教授1 小时前
人工智能技术- 语音语言- 02 机器诗人
人工智能
却道天凉_好个秋1 小时前
OpenCV(二十九):高通滤波-索贝尔算子
人工智能·opencv·计算机视觉
用户5191495848452 小时前
Go语言AI智能体开发套件(ADK) - 构建复杂AI代理的开源框架
人工智能·aigc
海底的星星fly2 小时前
【Prompt学习技能树地图】检索增强生成(RAG)核心技术剖析与实践指南
人工智能·语言模型·prompt
AI研一研2 小时前
如何快速学习知识、查找要点、把知识读“薄”、读“精”?
人工智能·学习