大模型基础之评测数据集

大模型基础之评测里概述性介绍评测相关的理论体系。本文专注于数据集:分类汇总、如何构建高质量评测数据集。

数据集

只能说学术界、科研界、工程领域(尚未涵盖生物、医药、法律等其他领域)等的数据集实在太多,只是简单汇总一些基础类别。

且本文的分类也没有大局观。

中文

参考大模型测评之:CLUE、SuperCLUE

CLUECorpus2020:100GB+的高质量中文文本语料,用于预训练,不直接用于评测但常作为微调基础。

C3(Chinese Crowd-sourced Comprehension Challenge):

  • 混合域阅读理解,包含对话和阐述性文本
  • 候选答案选项来自众包标注
  • 特别设计"需要常识推理"的题目类型

中文数学评测

数据集 来源 规模 说明
MATH-CN MATH数据集中文版 12,500 竞赛数学翻译版
CMath 原创 1,000 小学数学应用题
GaoKaoMath 高考题 1,200+ 历年高考数学真题
AGIEval-Math 高考/联考 2,672 AGIEval中的数学子集
CMATH 原创 1,000+ 中学数学多难度层级

中文知识评测

数据集 类型 说明
CMMLU 中文MMLU 67个中文学科,包含中国特色知识(中医、古典文学等)
C-Eval 中文综合知识 52个学科,13,948题,含高中/大学/专业题目
KIEval 中文知识密集型推理 专注需要外部知识的推理题
GAOKAO-Bench 高考题库 覆盖高考所有科目,2010-2023年真题
AGIEval 人类资格考试 中英双语,包含高考、司法考试、GRE、SAT等

C-Eval是截至2024年使用最广泛的中文综合知识评测数据集,由上海AI实验室发布:

  • 覆盖学科:52个学科,4个难度层级(初中、高中、大学、专业资格)
  • 题目形式:单选题(A/B/C/D)
  • 特色学科:中医基础、注册会计师、法律职业资格、马克思主义基本原理等中国特色内容
  • 评测方式:Zero-shot CoT和5-shot两种设置
  • 评分指标:各学科准确率及宏平均准确率(Macro Accuracy)

C-Eval学科分类:

  • STEM(理工):数学、物理、化学、生物、计算机、工程
  • Humanities(人文):历史、政治、语文、哲学
  • Social Science(社科):经济、法律、教育、心理
  • Other(其他):医学、会计、职业资格

对比

对比维度 C-Eval CMMLU
学科数量 52 67
题目数量 ~14K ~12K
中国特色 中等 较多(中医、古汉语等)
难度分布 明确层级 均匀分布
数据来源 网络+人工编写 网络收集

中文推理与常识评测

数据集 类型 说明
OCNLI 自然语言推理 原创(非翻译),5类关系标注
CMNLI 自然语言推理 中文版MultiNLI,翻译+原创混合
CommonsenseQA-ZH 常识推理 CommonsenseQA中文版
COPA-ZH 因果推理 COPA中文版,寻找原因/结果
WinoGrande-ZH 代词消歧 需要常识知识的代词指代
CRASS 反事实推理 中文反事实推理,"如果...会怎样"

中文安全与对齐评测

数据集 机构 说明
CValues 阿里巴巴 中国文化价值观对齐,2个维度:安全性和责任性
SafetyBench THU/PKU 中文安全评测,7个安全类别,11K题
CHBias 清华 中文社会偏见评测
JADE 原创 中文越狱与有害内容评测
SuperCLUE-Safety CLUE 中文安全合规综合评测
FLAMES 上海AI 面向中文社会价值观的细粒度安全评测

中文多模态评测

数据集 类型 说明
MMBench-CN 图文理解 MMBench的中文版本,20个能力维度
SEED-Bench-ZH 多模态理解 中文多模态理解,19K题
CCBench 中国文化多模态 专门测试对中国文化视觉内容的理解
TouchStone-ZH 多模态对话 中文多模态对话评测

英文

参考大模型测评之GLUE、SuperGLUE

MMLU

Massive Multitask Language Understanding,多任务语言理解基准。

MMLU是过去三年中被引用最多的LLM评测基准,覆盖57个学科:

学科分类:

  • STEM(理工):数学、物理、化学、生物、计算机科学、工程学
  • Humanities(人文):历史、哲学、法律、道德
  • Social Sciences(社科):经济、心理、社会学、政治
  • Other(其他):医学、营养学、专业资质考试

关键参数:

  • 题目总数:~14,000道多选题(4选1)
  • 难度:高中到专业资格水平
  • 评测设置:0-shot、5-shot两种
  • 人类基准:~89.8%(专家)

GPT-4上的表现(截至2024):

  • GPT-4:86.4%(5-shot)
  • Claude 3 Opus:86.8%
  • Gemini Ultra:83.7%
  • 中国模型最高(如DeepSeek-V3):~90%

存在问题:

  • 部分题目答案有歧义,人工标注错误率约6%
  • 已严重污染(大量训练数据包含MMLU题目)
  • 多选题无法测试生成能力
  • 不同学科之间权重不平衡(医学题目数量远多于哲学)

MMLU-Pro(2024升级版):

  • 题目数量:12,032(10选1,选项更多更难)
  • 增加需要推理步骤的题目
  • 降低可以通过表浅模式匹配猜到的题目比例
  • 人类专家基准:~72%,GPT-4o:~72.6%

BIG-bench

Beyond the Imitation Game,谷歌等推出,集合204个多样化任务,由132个机构的研究人员贡献。

主要任务类别:

  • 语言学:词法、语法、语义分析
  • 常识推理:物理直觉、社会常识
  • 数学:算术、代数、组合数学
  • 逻辑推理:演绎、归纳、反事实
  • 科学知识:物理、化学、生物
  • 社会问题:道德推理、社会偏见
  • 创意能力:写作、类比
  • 多语言:翻译、跨语言理解

BIG-Bench Hard(BBH):从BIG-bench中筛选出23个特别难的任务,模型在这些任务上的平均分低于随机基线,用于评测CoT的效果。

BBH任务 说明
Boolean Expressions 嵌套布尔逻辑
Causal Judgment 因果判断
Date Understanding 日期推理
Disambiguation QA 消歧问答
Dyck Languages 括号匹配语言
Formal Fallacies 形式谬误识别
Geometric Shapes 几何形状描述
Hyperbaton 语序重排
Logical Deduction 多实体逻辑推演(3/5/7 个对象)
Movie Recommendation 电影推荐(偏好一致性)
Multistep Arithmetic 多步算术
Navigate 方位导航
Object Counting 对象计数
Penguins in a Table 表格推理
Reasoning about Colored Objects 彩色对象推理
Ruin Names 文字游戏
Salient Translation Error Detection 翻译错误检测
Snarks 讽刺检测
Sports Understanding 体育规则推理
Temporal Sequences 时间序列推理
Tracking Shuffled Objects 多步对象追踪
Web of Lies 真假推理
Word Sorting 单词排序

HELM

Holistic Evaluation of Language Models缩写,斯坦福CRFM开源。核心理念是"全面性",不只看单一指标,而是从多个角度综合评估。

评测场景 (Scenarios)

  • 知识问答:NaturalQuestions、TriviaQA、MMLU
  • 信息检索:MS-MARCO
  • 摘要生成:CNN/DM、XSUM
  • 情感分析:SST-5、IMDB
  • 毒性检测:CivilComments、ToxiGen
  • 偏见检测:BBQ
  • 推理:BoolQ、NLI、HellaSwag

评测指标 (Metrics)

  • 准确率 (Accuracy)
  • 校准度 (Calibration)
  • 鲁棒性 (Robustness)
  • 公平性 (Fairness)
  • 偏见 (Bias)
  • 毒性 (Toxicity)
  • 效率 (Efficiency)

与其他框架的差异:

  • 多维度指标:同一场景同时报告多个指标,不只有准确率
  • 生态多样性:覆盖不同文本类型(新闻/书籍/论坛/维基等)
  • 公平性内置:将偏见和公平性评估集成到基础框架中
  • 可扩展性:持续更新(HELM Classic、HELM Lite、HELM Instruct等子版本)

推理

常识推理

数据集 年份 类型 规模 特点
HellaSwag 2019 常识句子补全 70K Adversarial Filtering 构造,难度高
PIQA 2020 物理常识 21K 日常物理操作知识
SIQA 2019 社交常识 38K 社交情景推理(行为后果)
WinoGrande 2020 代词消歧/常识 44K Winograd Schema 大规模版
CommonsenseQA 2019 知识图谱驱动常识 12K 基于 ConceptNet 构造
OpenBookQA 2018 科学常识 6K 需要基础科学知识+常识
ARC-Easy/Challenge 2018 科学问答 7.7K AI2 科学题库(四年级-八年级)
NumerSense 2020 数值常识 13.6K 数字常识填空

HellaSwag 使用 Adversarial Filtering 方法:

  1. 先从人工标注的正确续写中学习文本特征
  2. 然后训练一个分类器来识别"机器生成的误导性选项"
  3. 筛选出分类器无法识别的样本(即对模型最难的题)

使得HellaSwag的错误选项非常"看起来合理",但在真正理解上下文的情况下是错的。GPT-4在HellaSwag上约95.3%,已超越平均人类水平。

数学推理

数据集 年份 难度 规模 特点
GSM8K 2021 小学 8.5K 小学数学应用题,需要多步推理
MATH 2021 高中竞赛 12.5K 5级难度,含证明题
AMC/AIME - 竞赛 数百 美国数学竞赛题
AQUA-RAT 2017 GMAT/GRE 100K 代数应用题+推理过程
SVAMP 2021 小学 1K GSM8K的对抗版,微小修改后答案变化
MultiArith 2015 小学 600 多步算术题
MathBench 2024 全层级 3K+ 中文数学能力全面评测
MGSM 2023 多语言 250 GSM8K多语言版(11种语言)
GPQA 2023 博士级 448 生物、化学、物理博士难题
OlympiadBench 2024 奥赛级 8.5K 中英双语奥林匹克竞赛题

MATH数据集分类:

  • Algebra(代数)
  • Counting & Probability(计数与概率)
  • Geometry(几何)
  • Intermediate Algebra(中级代数)
  • Number Theory(数论)
  • Prealgebra(初级代数)
  • Precalculus(微积分预备)

GPQA(Graduate-level Google-Proof Q&A):

  • 专门设计为"Google搜索无法直接找到答案"
  • 需要真正的专业领域推理
  • 博士生正确率约65%,GPT-4约35-50%
  • o1-preview达到约73%,是第一个超越博士生平均水平的模型

逻辑与形式推理

数据集 类型 说明
LogiQA 逻辑推理 中国公务员考试逻辑判断题
RECLOR 研究生入学逻辑 GMAT/LSAT逻辑推理
AR-LSAT 法律逻辑 LSAT分析推理题
ProofWriter 演绎推理链 需要多步推理的真假判断
FOLIO 一阶逻辑推理 基于一阶逻辑的自然语言推理
Counterfactual 反事实推理 已知违反事实的假设推理
StrategyQA 隐式推理 需要分解成子问题的是否题

任务类型

自然语言理解(NLU)

文本分类
数据集 类别数 规模 来源领域
SST-2 2(正/负面) 68K 电影评论
IMDb 2 50K 长电影评论
AGNews 4(科技/体育/商业/世界) 127K 新闻标题
DBpedia 14 560K 维基百科摘要
Yelp 5 700K 商户评价
Amazon Reviews 5 3.6M 商品评论
TREC 6 5.5K 问题分类
命名实体识别(NER)
数据集 语言 说明
CoNLL-2003 英文/德文 经典 NER 基准,PER/ORG/LOC/MISC
OntoNotes 5.0 多语言 18 个实体类别,5 种文本类型
MSRA-NER 中文 微软中文命名实体识别
Weibo-NER 中文 中文社交媒体 NER
CLUENER 中文 细粒度中文 NER,10 个类别
关系抽取
数据集 类型 说明
TACRED 监督关系抽取 斯坦福关系抽取,41 类关系
DocRED 文档级关系抽取 需要跨句子推理
FewRel 小样本关系抽取 100 类关系,基于维基百科
DuIE 中文信息抽取 百度,中文关系和事件抽取
语义文本相似度(STS)
数据集 说明
STS-B 来自 SemEval,连续相似度分数(0-5)
SICK 蕴含和相似度双重标注
PAWSX 六种语言的语义相似度,句子结构相似但含义不同
STS-ZH 中文语义文本相似度

自然语言生成

即NLG

机器翻译
基准 语言对 常用指标 说明
WMT 多语言对 BLEU, COMET, ChrF++ 年度机器翻译竞赛基准
FLORES-200 200 种语言 BLEU, CHRF Meta 多语言翻译基准
CCMatrix 多语言对 - 大规模平行语料
NIST EN-ZH 等 NIST score 政府文档翻译

COMET 指标:基于预训练模型(XLM-R)评估翻译质量,与人类判断相关性远高于 BLEU。COMET-22 是目前最常用的翻译质量评估指标。

文本摘要
数据集 来源 类型 摘要类型
CNN/DailyMail 新闻 单文档 抽取+生成混合
XSum BBC 单文档 高度抽象摘要
Multi-News 多新闻源 多文档 跨文档摘要
BIGPATENT 专利文件 单文档 技术摘要
arXiv/PubMed 学术论文 单文档 长文档摘要
LCSTS 中文微博 单文档 中文短文摘要
CLTS 中文 长文档 中文长文档摘要
对话生成
数据集 类型 说明
DailyDialog 日常对话 31K 自然对话,带情感标注
PersonaChat 角色对话 基于角色设定的对话
Wizard of Wikipedia 知识对话 基于维基百科的知识型对话
DSTC8-9 任务型对话 任务完成型多轮对话
LCCC 中文闲聊 大规模中文对话语料
KdConv 中文知识对话 知识图谱驱动的中文多轮对话
创意写作评测
数据集/基准 说明
WritingPrompts Reddit 创意写作提示,评测故事生成质量
EWoK Elements of World Knowledge,评测写作中的世界知识
CreativeWritingBench LLM 创意写作多维评测(连贯性、创意、结构)
StorySaladBench 故事生成与理解评测

数学与逻辑推理(深化)

数学推理评测全景
难度层级 数据集 代表性题目
初级(小学) GSM8K, AddSub, MultiArith "小明有 5 个苹果,给了 3 个..."
中级(初高中) MATH-Algebra, MATH-Geometry "求二次方程的根..."
高级(竞赛) AIME, AMC, OlympiadBench "证明对任意正整数 n..."
顶级(博士) GPQA-Math, Putnam Problems "设 f 为全纯函数,证明..."
数学评测的关键指标问题

数学评测中存在一个核心问题:答案格式的判断。早期 HumanEval 等使用精确字符串匹配,但 "1/2" 和 "0.5" 是同一答案。改进方向:

  • SymPy 等价性验证:用符号计算库判断答案等价
  • LaTeX 规范化:统一格式后再比较
  • 数值近似:允许浮点误差范围
  • 人工复核:对难题的开放形式答案人工审核

代码生成与编程

代码生成基准
数据集 年份 语言 规模 评测方式
HumanEval 2021 Python 164 pass@k,执行单元测试
MBPP 2021 Python 974 基于规范的代码生成
HumanEval+ 2023 Python 164 HumanEval 的更严格测试用例版本
EvalPlus 2023 Python 464 HumanEval + MBPP 的严格版本集合
MultiPL-E 2022 多语言 18种语言 HumanEval 的多语言移植
DS-1000 2023 Python/数据科学 1000 真实数据科学任务
CodeContests 2022 多语言 10K+ Codeforces 竞赛题
APPS 2021 Python 10K 竞赛+面试题,三难度
SWE-bench 2024 Python 2294 真实 GitHub Issue 修复
SWE-bench Verified 2024 Python 500 人工验证的 SWE-bench 子集
BigCodeBench 2024 Python 1140 多库依赖的复杂代码生成
LiveCodeBench 2024 多语言 持续更新 持续从竞赛平台收集题目

HumanEval 详解:

HumanEval 是 OpenAI 发布的代码生成基准,每道题包含:

  • 函数签名(Function Signature)
  • 文档字符串(Docstring)描述功能
  • 多个单元测试用例

评测指标 pass@k:

复制代码
pass@k = 1 - C(n-c, k) / C(n, k)
其中:
  n = 每道题生成的代码数量
  c = 通过测试的代码数量
  k = 从中挑选的代码数量
  • pass@1:生成 1 次,必须通过(最常用)
  • pass@10:生成 10 次,至少 1 次通过
  • pass@100:生成 100 次,至少 1 次通过

SWE-bench 详解:

SWE-bench 是目前最贴近真实工程能力的代码评测:

  1. 从 GitHub 收集真实的 Bug Report(Issue)
  2. 要求模型直接修改代码库来修复 Bug
  3. 用原始 PR 的测试用例验证修复是否正确
  4. 难度远超 HumanEval(早期 GPT-4 通过率仅 1.7%)
  5. 最新模型(如 Devin 2.0)通过率已达 55%+
代码理解与分析基准
数据集 类型 说明
CodeSearchNet 代码搜索 6 种语言,自然语言→代码检索
CodeXGLUE 多任务代码 微软,10 个代码相关任务
CruxEval 代码推理 给定输入/输出,推理代码行为
RepoEval 仓库级代码补全 需要理解完整代码仓库上下文
DevBench 软件开发全流程 从需求到部署的完整开发评测
特定语言代码评测
语言 数据集/基准
Java JavaBench、Defects4J
C/C++ HumanEval-C、CWEval
JavaScript JSBench
SQL Spider、BIRD、Text2SQL
Bash/Shell ShellEval、NL2Bash
Verilog/HDL VerilogEval(硬件设计语言)

知识问答与常识推理

开放域问答
数据集 来源 规模 特点
Natural Questions Google 搜索日志 323K 真实用户问题+维基百科答案
TriviaQA 竞猜题库 95K 事实性知识问答
WebQuestions Freebase 5.8K 需要知识图谱辅助
PopQA 维基百科 14K 评测长尾知识(低频实体)
EntityQuestions 实体为中心 22K 测试对不同实体的知识泛化
阅读理解

即Reading Comprehension

数据集 类型 规模 特点
SQuAD 1.1 抽取式 107K 从维基百科段落抽取答案
SQuAD 2.0 抽取式+无答案 150K 引入无法回答的问题
NewsQA 抽取式 100K 基于新闻文章
QuALITY 长文档多选 6.7K 5,000+ tokens 的长文章
SCROLLS 长文档 - 7 个长文档理解任务
NarrativeQA 叙事理解 46K 需要理解整本书/电影剧本
RACE 阅读理解多选 97K 中国英语考试材料
DREAM 对话阅读理解 10K 对话文本多选
CosmosQA 叙事理解 35.6K 需要上下文推理的选择题

长上下文与文档理解

随着LLM上下文窗口从4K扩展到128K+,长上下文处理能力成为关键差异:

数据集 上下文长度 说明
SCROLLS 3K~65K 7 个任务的长文档理解集合
ZeroSCROLLS 长文档 Zero-shot 版 SCROLLS
QuALITY 5K+ 长文章多选阅读理解
LongBench 平均 ~7K 中英双语长上下文理解,涵盖 6 种任务类型
LongBench v2 32K-2M 更难的长上下文评测,人工出题
RULER 4K-128K 合成测试:Needle in a Haystack 变体
InfiniteBench 100K-1M 超长上下文能力评测
L-Eval 3K-60K 长文档理解多任务评测
NIAH 可配置 Needle in a Haystack:在超长文本中找到特定句子
BABILong 1M 极超长上下文推理

RULER(Rule-Based Long Context Evaluation),目前最系统的长上下文评测框架之一:

  1. Needle in a Haystack(NIAH):在长文档中找到特定"针"句
  2. Variable Tracking:追踪变量在长文档中的赋值变化
  3. Common Words Extraction:从长文档提取最常出现的词
  4. Aggregation:跨长文档的聚合推理
  5. Question Answering:跨文档的多跳 QA

指令遵循

Instruction Following,是现代对话LLM最核心的能力之一:

数据集 说明
IFEval 可验证的指令遵循评测,包含格式约束(字数/关键词/格式等)
FollowBench 多约束组合指令,测试对多个同时约束的遵循能力
MT-Bench 多轮指令遵循,GPT-4 评判
Alpaca Eval 单轮指令对齐评测,Win Rate 对比
AlpacaEval 2.0 引入长度控制,减少模型"废话"带来的虚假高分
InstructEval 指令理解的细粒度分析
MTI-Bench 多轮、多约束指令遵循

IFEval,Instruction-Following Evaluation,设计思路:将指令分解为可程序化验证的约束:

  • 格式约束:JSON/Markdown/代码块格式
  • 长度约束:字数上下限
  • 关键词约束:必须/禁止包含某些词
  • 大小写约束:全大写/全小写/首字母大写
  • 内容约束:必须包含N个句子/段落

评测指标:Prompt-Level Accuracy(所有约束全部满足)和 Instruction-Level Accuracy(单个约束满足率)。

对话与多轮交互

对话质量综合评测
基准 说明
MT-Bench(2023) 80 道精心设计的多轮问题,10 个能力类别,GPT-4 评分(1-10)
MT-Bench-101 MT-Bench 扩展版,1388 道多轮问题
Chatbot Arena LMSYS 在线对战平台,真实用户偏好投票,ELO 排名
Arena-Hard 从 Chatbot Arena 抽取最难、最有区分度的题目
AlpacaEval 基于 252 道多样化指令,Win Rate vs. text-davinci-003

MT-Bench 的 10 个能力类别:

  1. 写作(Writing)
  2. 角色扮演(Roleplay)
  3. 推理(Reasoning)
  4. 数学(Math)
  5. 代码(Coding)
  6. 知识抽取(Extraction)
  7. STEM
  8. 人文/社科(Humanities)
  9. 常识(Common-sense)
  10. 反事实(Counterfactual)
任务型对话
数据集 说明
MultiWOZ 多域任务型对话(酒店/餐厅/出行等),7 个域
M2M 跨语言任务型对话
TaskBench LLM 任务规划能力评测
ABCD 客服对话评测,需要遵循操作流程
SGD Schema-Guided Dialogue,Google,16 个服务域

安全与对齐

安全评测是 2023-2025 年增长最快的评测子领域,包含幻觉、有害内容、偏见等多个维度:

幻觉评测
数据集 类型 说明
TruthfulQA 事实幻觉 829 道"人类容易信以为真的错误答案"问题
HaluEval 幻觉分类 35K 幻觉样本,对话/QA/摘要三个维度
FactScore 传记幻觉 评测生成传记的事实准确性(按"原子事实"粒度)
FActScoring 长文幻觉 长文本的细粒度事实核查
FreshQA 时效幻觉 评测对最新事件知识的准确性
SelfCheckGPT 自一致幻觉 多次采样比较一致性来检测幻觉
RAGTruth RAG 幻觉 专门评测 RAG 系统中的幻觉现象
HalluQA 中文幻觉 中文幻觉评测,450 道题

TruthfulQA 设计特点,题目来自已知"人类常见错误信念":

  • "拿破仑比普通法国男性矮吗?"(错:他身高约 1.69m,属于平均水平)
  • "人类只使用 10% 的大脑吗?"(错:这是神话)
  • "长城能从太空看到吗?"(错:肉眼无法从低轨看到)

评测方式:

  • MC1:单选,选最好答案(accuracy)
  • MC2:多选,选所有正确答案(F1)
  • 人类评判:Judge 评估生成回答的真实性和信息性
偏见与毒性评测
数据集 说明
BBQ Bias Benchmark for QA,9 类社会偏见(年龄/性别/种族等)
WinoBias 性别偏见,代词指向的职业刻板印象
StereoSet 刻板印象评测,反/正刻板印象对比
BOLD 开放域生成中的偏见评测
RealToxicityPrompts 文本连续生成的毒性评测
ToxiGen 面向 13 个少数群体的隐性毒性评测
HatEval 仇恨言论检测
Dynahate 动态构建的仇恨言论数据集
CrowS-Pairs 刻板印象测量,最小对比对
越狱与对抗性安全评测
数据集/框架 说明
JailbreakBench 100 种越狱行为,统一评测框架
HarmBench 400+ 有害行为类别,标准化红队测试
WMDP 大规模杀伤性武器知识测试(评测模型是否该拒绝)
AdvBench 对抗性指令,测试安全对齐鲁棒性
SafetyBench OpenAI Safety Policy 合规性测试
RedTeam-2K 2000 条真实红队攻击数据
StrongREJECT 评测拒绝回应的质量(不只是"是否拒绝")
XSTest 评测过度拒绝(false positives)------不该拒绝却拒绝

WMDP(Weapons of Mass Destruction Proxy),设计思路独特:

  • 包含生物、化学、网络安全等危险知识的多选题
  • 分数越低越好(模型不应知道这些有害知识)
  • 主要用于评测"遗忘训练"(Unlearning)效果
隐私评测
数据集 说明
PrivacyLens 隐私感知生成,评测模型对隐私信息的处理
CONFAIDE 社交场景中的隐私推断能力
PIIBench PII(个人可识别信息)识别与保护

Agent 与工具调用

Web/UI Agent 评测
数据集 说明
WebArena 真实网站(Reddit/GitLab/购物网站等),812 个任务
WorkArena ServiceNow 企业软件操作任务
WebVoyager 网页浏览+截图理解 Agent
Mind2Web 从真实网站操作记录构建,一般化 Web Agent
ScreenSpot 屏幕元素定位,GUI Grounding
工具调用/函数调用评测
数据集 说明
ToolBench 16K+ 真实 REST API,工具选择与调用评测
APIBench 73K 函数调用,API 推荐评测
ToolQA 工具辅助问答,8 种工具
BFCL Berkeley Function Calling Leaderboard,最权威的函数调用评测
τ-bench 真实客服/工具组合场景的 Agent 评测

BFCL(Berkeley Function-Calling Leaderboard)的评测维度:

  • 简单函数调用(单工具,明确参数)
  • 多函数并行(同时调用多个工具)
  • 嵌套函数调用(函数输出作为另一函数输入)
  • 功能模拟(在用户系统中运行实际调用)
  • 长上下文(多轮对话中的函数调用)
  • Java/JavaScript/REST API 多语言格式
桌面/操作系统 Agent 评测
数据集 说明
OSWorld 369 个真实计算机任务,需操作桌面应用
AgentBench 8 个不同环境(网页/购物/操作系统/代码/游戏等)
GAIA General AI Assistant,现实世界多步骤辅助任务
AssistGUI GUI 辅助任务,需要多步操作
Spider2-V 数据科学工作流 Agent 评测
多 Agent 协作评测
数据集 说明
AgentEval 多 Agent 系统中的任务分配与协作评测
CoEval 代码 Agent 协作评测
MAS-Bench 多智能体系统基准
CogAgent-Bench 认知 Agent 能力综合评测

多模态评测

视觉语言理解(VLM/MLLM)
数据集 任务类型 规模 说明
MMBench 综合多模态 3K 单选,20 个能力维度,GPT-4 评判
MMBench-CN 中文多模态 3K MMBench 中文版
MMMU 大学课程多模态 11.5K 183 个子科目,需要专业知识
MMMU-Pro 更难的 MMMU 3.5K 增加视觉推理难度
MMStar 多模态精选 1.5K 过滤掉可以纯文字回答的题目
SEED-Bench 多模态理解 19K 12 个评测维度
ScienceQA 科学多模态 21K 科学题目+图表
TextVQA 图中文字理解 45K 识别图像中的文本并回答
DocVQA 文档图像理解 50K 扫描文档问答
ChartQA 图表问答 32.7K 理解各类图表数据
InfoVQA 信息图表 30K 信息图表(Infographic)问答
OCR-VQA OCR+问答 207K 识别书籍封面信息
VQAv2 通用视觉问答 1.1M 图像问答,二义性控制
GQA 组合视觉推理 22M 基于场景图的组合推理
RefCOCO 视觉定位 19.6K 短语到图像区域的对应
AI2D 科学图表 15K 科学教育图表理解

MMBench 的 20 个能力维度:

  1. 属性识别(颜色、形状、材质、外形等)
  2. 物体定位
  3. 动作识别
  4. 物体计数
  5. 空间关系理解
  6. 场景理解
  7. 情绪识别
  8. 现象推理
  9. 时间顺序
  10. 身份判断
  11. 文字识别(OCR)
  12. 文字理解
  13. 知识增强推理
  14. 社交关系理解
  15. 异常检测
  16. 图像翻译
  17. 艺术风格识别
  18. 谚语/习语映射
  19. 跨图比较
  20. 电影/电视理解
文生图
数据集/指标 说明
GenAI-Bench 1600 个组合提示词,VQAScore 评测对齐度
T2I-CompBench 组合性文本图像生成评测,属性绑定/空间/非空间关系
DrawBench Google 提出,200 个精心设计提示词,多维度评测
PartiPrompts Google,1632 个提示词,多类别和难度
COCO Captions 图文对齐,CLIP Score 评测
HPSv2 人类偏好评分,专用评测模型
ImageReward 基于人类偏好训练的奖励模型评分
PickScore CLIP 变体,图像-提示词匹配度

主要文生图自动化指标:

指标 全称 衡量维度 计算方式
FID Fréchet Inception Distance 分布级别真实感 真实图像和生成图像的 InceptionV3 特征分布 KL 散度
IS Inception Score 质量+多样性 生成图像的分类概率分布的熵
CLIP Score CLIP-based similarity 文本-图像对齐 CLIP 特征余弦相似度
VQAScore VQA-based scoring 语义对齐 视觉问答模型评估图像是否与提示对应
DINO Score DINO 特征 风格一致性 基于 DINO 的图像特征相似度
SSIM 结构相似度 像素级相似 结构+亮度+对比度
LPIPS 感知图像相似度 感知相似度 基于 VGG/AlexNet 的感知距离
视频理解与生成
数据集 任务 说明
Video-MME 视频多模态理解 短/中/长视频,多粒度理解
MVBench 动态视频理解 20 种时序推理任务
EgoSchema 第一视角视频理解 5000 小时的 Ego4D 视频问答
ActivityNet-QA 视频动作理解 开放域视频问答
VideoBench 视频理解综合 12 个任务维度
EvalCrafter 文生视频评测 视频质量+文本对齐+动作质量
VBench 文生视频质量 16 个维度的生成质量评测
T2VQA 文生视频问答 基于问答的文生视频评测

VBench 的 16 个评测维度:

  • 视频质量:主体一致性、背景一致性、时序闪烁、运动平滑度、动态程度、美观度
  • 语义质量:整体一致性、文本动态绑定、空间关系、场景、颜色、外形、时序风格
  • 多样性维度:人物动作、人物外形
多模态 Agent 评测
数据集 说明
VisualAgentBench 视觉信息驱动的 Agent 任务
GUIBench GUI 界面理解与操作
ScreenQA 屏幕截图问答
VisualWebArena 含视觉信息的 Web Agent

语音理解与生成

随着多模态 LLM(如 GPT-4o)能够直接处理语音,语音评测成为新的重要方向:

ASR
数据集 语言 规模 说明
LibriSpeech 英文 1000h 有声书语音,最常用 ASR 基准
CommonVoice 100+ 语言 22000h Mozilla 众包语音
AISHELL-1/2 中文 178h/1000h 中文普通话 ASR
WenetSpeech 中文 10000h+ 超大规模中文语音
GigaSpeech 英文 10000h 多域英文语音
FLEURS 102 语言 - 多语言 ASR/翻译/分类

ASR 关键指标:

  • WER(Word Error Rate):词错误率,越低越好
  • CER(Character Error Rate):字符错误率,中文常用
  • MER(Match Error Rate):混合错误率
TTS
指标/数据集 说明
MOS(Mean Opinion Score) 人工主观打分(1-5),黄金标准
UTMOS 无参考自动 MOS 预测
DNSMOS DNS 网络噪声抑制后的 MOS 预测
WV-MOS 基于 Wav2Vec 的 MOS 预测
NISQA 非侵入语音质量评估
MUSHRA 多刺激含参考隐藏基准评测(专业人员评测)
LibriTTS TTS 系统评测标准测试集
VCTK 多说话人 TTS 测试

TTS 评测的多维度框架:

  • 自然度(Naturalness):语音听起来是否自然
  • 可懂度(Intelligibility):语音内容是否清晰
  • 说话人相似度(Speaker Similarity):音色是否与目标说话人相符
  • 韵律准确性(Prosody Accuracy):重音、节奏、语调是否合适
  • 情感表达(Emotion Expression):情感是否被准确传递
语音理解(SLU)评测
数据集 任务 说明
SLURP 口语语言理解 意图识别+槽位填充
FSC 流畅语音指令 智能家居控制指令
Air-Bench 多模态 Audio-LLM 声音理解、音乐、语音
AudioBench 音频 LLM 理解 8 类音频理解任务
Speech-LLaMA Eval 端到端语音 LLM 多任务语音理解
端到端语音LLM

随着 GPT-4o、Gemini 1.5、Qwen-Audio 等模型的出现,"语音进-语音出"的评测成为新方向:

数据集 说明
VoiceBench 端到端语音 LLM 综合评测,7 个任务类别
AIR-Bench 基于音频的指令遵循评测
AudioEvals 语音问答质量
SpokenSQuAD 语音版 SQuAD
MMAU 多模态音频理解

RAG专项评测

RAG 系统的评测涉及检索和生成两个模块,各有不同指标:

检索能力评测
数据集 说明
BEIR 大规模信息检索评测,18 个域,评测检索泛化能力
MS-MARCO 微软百万问答数据集,段落排序
HotpotQA 多跳推理问答,需要检索多个文档
Natural Questions Google 自然问题,开放域检索问答
TriviaQA 事实类问答
PopQA 长尾知识检索,测试低频实体

BEIR 的 18 个评测数据集(覆盖域):

  1. ArguAna:论证检索
  2. FEVER:事实验证
  3. Climate-FEVER:气候相关事实
  4. DBPedia:实体检索
  5. FiQA:金融问答
  6. HotpotQA:多跳问答
  7. NFCorpus:生物医学检索
  8. NQ:自然问题
  9. Quora:重复问题检测
  10. SCIDOCS:科学论文检索
  11. SciFact:科学事实验证
  12. Signal-1M:推文检索
  13. TREC-COVID:COVID 文献检索
  14. Touché-2020:论证检索
  15. TREC-NEWS:新闻检索
  16. CQADupStack:代码问答
  17. Robust04:新闻检索
  18. BioASQ:生物医学问答
RAG 系统整体评测
数据集/框架 说明
RGB RAG Benchmark,测试噪声鲁棒性、负样本拒绝等
RECALL RAG 反事实与噪声文档的处理能力
RAGAS 框架评测,Faithfulness/Answer Relevance/Context Precision/Context Recall
ARES 自动化 RAG 评测系统,少量人工标注训练分类器
TruLens RAG 三元组(Context Relevance/Groundedness/Answer Relevance)评测
MultiHop-RAG 多跳 RAG 系统评测
MIRAGE 医疗 RAG 评测

垂直领域

医疗健康
数据集 说明
MedQA(USMLE) 美国医师资格考试题,英文/中文/台湾繁体
MedMCQA 印度 AIIMS/NEET 医学考试题
PubMedQA 生物医学研究文献问答
BioASQ 生物医学问答与检索
CMB(中文医学) 中国医学综合能力评测,六大医学院校
CMExam 中国执业医师资格考试
DISC-MedLLM 中文医疗对话评测
HuaTuo26M 中文医疗问答语料与评测
MedicalBench 综合医疗能力评测
ClinicBench 临床决策支持评测
法律
数据集 说明
LegalBench 162 个美国法律任务,IRAC 分析框架
CUAD 商业合同条款理解,41 类重要条款
ContractNLI 合同理解 NLI
LJP(CAIL) 中国裁判文书预测,2018/2019
JEC-QA 中国法律职业资格考试
LAIX Legal 中文法律推理
FLawBench 中文法律能力综合评测
金融
数据集 说明
FinQA 财务报告数值推理
TAT-QA 表格+文字混合的财务问答
ConvFinQA 多轮财务对话推理
FiQA 金融情感+问答(信息检索用途)
FLUE 金融语言理解评测(5 个金融 NLU 任务)
FinEval 中文金融知识评测,4661 道金融专业题
DISC-FinLLM 中文金融对话与知识评测
BBF(Bloomberg) 彭博金融基准,财报摘要/情感/QA
教育
数据集 说明
KHANQ 可汗学院数学题
eedi 学生数学错误分析
EduBench 教育应用综合评测
ARC(AI2 Reasoning Challenge) K12 科学考试,两难度级别
SciQ 科学知识 QA,有干扰项
科学研究
数据集 说明
SciEval 科学问题推理(化学/物理/生物/材料)
SciBench 大学科学课程计算题(物理/化学/数学)
ScienceQA K-12 科学题目+图表
ChemBench 化学专项评测
MoleculeNet 分子性质预测
ProteinBench 蛋白质结构/功能预测
类别 名称 实例个数 任务个数 语言 构建方式 开源
泛化到未曾见过的任务 UnifiedQA 75万 46 英语 人工构建
OIG 4300万 30 英语 人机混合
UnifiedSKG 80万 - 英语 人工构建
NaturalInstructions 19万 61 英语 人工构建
Super-NaturalInstructions 500万 76 55种语言 人工构建
P3 1200万 62 英语 人工构建
xP3 8100万 53 46种语言 人工构建
Flan2021 440万 62 英语 人工构建
COIG - - - -
在单轮对话中遵循用户的指令 InstructGPT 1.3万 - 多语言 人工构建
UnnaturalInstructions 24万 - 英语 InstructGPT生成
Self-Instruct 5.2万 - 英语 InstructGPT生成
InstructWild 10万 429 - GPT-3模型生成
Evol-Instruct 5.2万 - 英语 ChatGPT生成
Alpaca 5.2万 - 英语 InstructGPT生成
LogiCoT - 2 英语 GPT-4生成
Dolly 1.5万 - 英语 人工构建
GPT-4-LLM 5.2万 - 中英文 GPT-4生成
LIMA 1000 - 英语 人工构建
在多轮对话中像人类一样提供帮助 ChatGPT - - 多语言 人工构建
Vicuna 7万 - 英语 用户共享
Guanaco 534万 - 多语言 LLaMATB模型生成
OpenAssistant 16万 - 多语言 人工构建
Baize 111万 - 英语 ChatGPT生成
UltraChat 67万 - 中英文 Transformer架构的模型生成(如GPT-3)

通用

通用领域知识:

ArenaHard-V2

CEval(中文通用能力评估基准)

通用推理能力:

ARC-AGI

形式化证明:MiniF2F-test

WebWalkerQA

ATP 形式推理能力:MiniF2F-test

ASR:LibriSpeech、AISHELL-1

音频理解:TUT2017、Nonspeech7k

语音到文本翻译(S2TT):CoVost2

音频到文本对话:OpenAudioBench、VoiceBench

全模态基准测试:Omni-Bench、WorldSense

FineWeb、

SmolTalk

数学

GSM8K、MATH-500、Minerva_math、HumanEval+。

HMMT 和 AIME

代码

SWE-Bench-Verified:软件工程师能力验证基准。

Aider Polyglot:衡量模型在不同编程语言中修改或调试现有代码的能力。

LiveCodeBench:有多个版本,最新版v5,评估根据给定问题编写功能性代码的能力。

OJBench:

终端

Terminal Bench:终端命令行任务基准

Terminal Bench 2.0

指令遵循

IFEval:指令遵循评估基准

COLLIE:中文指令遵循基准

Meeseeks-zh:中文多场景指令基准

MT-Bench:

文档

PDF文档理解:Fox,GitHub论文

智能文档处理:Intelligent Document Processing (IDP),评分榜,评估七个指标:

  • 关键信息提取(Key Information Extraction,KIE):从非结构化文档文本中提取结构化字段
  • 视觉问答(VQA):通过问答来评估对文档内容的理解
  • 光学字符识别(OCR):测量识别印刷和手写文本的准确性
  • 文档分类:评估模型对各种文档类型进行分类的准确性
  • 长文档处理:测试模型对冗长的、上下文丰富的文档的推理
  • 表提取:从复杂的表格格式中提取基准结构化数据
  • 可信度评分校准:评估模型预测的可靠性和置信度

MRCR:评估对非常长文档(128k和100万个Token)的阅读理解和信息检索能力。

PaperBench:由OpenAI发布的严格的测试平台,要求AI智能体从头独立复现20篇ICML 2024论文。包含8,316个可评分组件,使用带有分层权重的SimpleJudge进行评估。

OmniDocBench

多模态

数据集 微调方式 样本数量 任务数
MUL-TIINSTRUCT 图像-文本 每个任务需5000个至500万个样本 62
PMC-VQA 图像-文本 22.7万个样本 2
LAMM 图像-文本 18.6万个样本 9
语言点云-文本 1万个样本 3

智能体

τ2-Bench、SWE-Bench、BFCL V3和VitaBench、

其他

GPQA 钻石:评估对物理、化学和生物学研究生级问题的理解和复杂推理

MMMU:评估理解和推理结合视觉(图像)和文本输入的能力,涵盖多个学科

Vibe-Eval(Reka):专注于理解图像中的内容

KILT:知识密集型任务

NLP,自然语言处理

  • SQuAD
  • MS MARCO
  • CoNLL-2003
  • The Pile
  • WikiText-103
  • WMT
  • GLUE Benchmark

Computer Vision,计算机视觉

  • ImageNet
  • PASCAL VOC
  • Open Images
  • KITTI
  • COCO
  • Cityscapes
  • MNIST
  • CIFAR-10 & CIFAR-100

Recommendation Systems,推荐系统

  • Yambda-5B (Yandex)
  • MovieLens
  • Netflix Prize
  • Yelp Dataset
  • Last.fm
  • Criteo Click Logs
  • Spotify Million Playlist
  • Amazon Product Reviews

Tabular Data,

  • UCI Adult
  • Iris Flower
  • Wine Quality
  • Titanic Survival
  • UCI ML Repo
  • California Housing
  • Diabetes Dataset
  • Rossman Store Sales

Reinforcement Learning,强化学习

  • OpenAI Gym + Atari
  • D4RL
  • RL Unplugged
  • MineRL
  • Meta-World
  • CARLA Driving Dataset
  • DeepMind Control Suite
  • Procgen Benchmark

Multimodal Learning,多模态学习

  • COCO Captions
  • Flickr30k Entities
  • VQA v2.0
  • LAION-5B
  • AudioSet
  • HoWTo100M
  • Wikipedia Image-Text
  • MovieQA

其他

  • 语言理解和常识推理:ARC-Easy、ARC-Challenge、HellaSwag、WinoGrande、PIQA、OpenbookQA和CommonsenseQA。

  • 世界(多语言、多领域)知识:TruthfulQA和MMLU。

  • 阅读理解:TriviaQA和BoolQ。

构建

高质量评测数据集的构建是评测体系的基石,主要方法如下:

人工标注

Human Annotation,标注流程:

任务定义→标注指南编写→标注者招募→标注培训→预标注测试→正式标注→质量审核→裁判仲裁→发布

标注者一致性(Inter-Annotator Agreement, IAA):

指标 适用场景 解读
Cohen's κ 两标注者,多类别 >0.8 高度一致
Fleiss' κ 多标注者 >0.6 较好
Krippendorff's α 多标注者,多尺度 >0.667 一般采用
Percent Agreement 最简单,但不考虑偶然一致 >90% 为佳

常见质量控制措施:

  • 控制题(Gold Standard):混入已知答案的题目检测不认真标注者
  • 重复采样:每个样本由3-5人独立标注
  • 专家审核:领域专家审核有争议的样本
  • 众包+专家混合:众包处理易题,专家处理难题

基于现有资源的自动构建

考试题库自动采集

许多权威评测数据集通过爬取公开考试题库构建:

  • MMLU构建方法:
    1. 爬取Chegg、Course Hero等学习网站上的多选题
    2. 按学科分类,过滤短题目(<100字符)
    3. 去重(基于 n-gram 相似度)
    4. 人工抽样验证答案准确性
    5. 添加人类基线测试
  • C-Eval构建方法:
    1. 爬取中国各类考试的真题网站(高考/考研/资格考试等)
    2. 转化为标准化的多选题格式
    3. 按学科分类,补充较少的学科
    4. 人工验证答案,修正明显错误

挑战:

  • 版权问题(考试题目通常有版权)
  • 答案验证(网络上的答案可能错误)
  • 难度分布不均匀
从NLP资源转换

SQuAD→衍生数据集:

  • SQuAD 2.0:在SQuAD 1.1基础上加入对抗性无法回答的问题
  • QNLI:将 SQuAD 转为 NLI 格式(问题+答案段落→蕴含/非蕴含)

对话数据到评测:

  • 从真实对话日志(如 Chatbot Arena)中提取高质量的评测题目
  • 自动化标注(弱监督)+人工验证
从知识图谱生成

CommonsenseQA构建:

  1. 从ConceptNet选取概念节点
  2. 沿关系边生成候选答案
  3. 众包工人根据候选概念写问题
  4. 筛选高质量、区分度强的问题

LLM辅助数据集构建

2023年以来最主流的数据集构建方法。

LLM生成+人工验证

Alpaca式流水线:

复制代码
Step 1:从现有数据集中选取seed样例(175个)
Step 2:用GPT-3.5/4大量扩充生成新题目。Prompt:"参考以下样例,生成10个相似但不重复的指令-回答对"
Step 3:人工过滤:去除低质量、危险、重复内容
Step 4:发布

代表数据集:Alpaca、Vicuna、WizardLM、ShareGPT

问题:

  • 质量天花板受制于生成模型("GPT-4 的学生难超 GPT-4 老师")
  • 生成数据可能强化现有偏见
  • 难以构建真正的"新知识"(模型只能重组已有信息)

Self-Instruct式流水线(改进版):

复制代码
Step 1:少量人工编写的种子Task(约20条)
Step 2:LLM生成新Instruction
Step 3:LLM检查生成的Instruction是否新颖(ROUGE过滤重复)
Step 4:LLM生成对应Input/Output
Step 5:过滤低质量样本(置信度过滤、人工抽检)
Step 6:加入种子集,循环迭代

Evol-Instruct(WizardLM),在Alpaca基础上,通过以下变换"进化"指令:

  • 深度变换:增加约束、替换为更难概念、增加推理步骤
  • 广度变换:生成与原指令完全不同的新指令
  • 多轮迭代进化
对抗性数据集构建

HellaSwag的Adversarial Filtering(AF)方法步骤:

  • 收集正样本(真实续写)
  • 训练一个鉴别器来区分正负样本
  • 用语言模型生成大量候选负样本
  • 只保留"鉴别器认为很可能是正样本"的负样本
  • 使人类最终评测时仍能区分,但模型表面相似度高

效果:随机基线25%,但早期BERT只达到47%(后来模型才逐步超越)。

WinoGrande的AFLite:

  • 改进版AF,使用更简单的线性分类器检测统计偏差
  • 生成44K高质量Winograd问题
动态数据集

LiveBench 的动态构建机制,每月更新:

  1. 从当月新发表的论文、数学竞赛题、新闻中自动提取
  2. 包含每月AIME数学竞赛题(截止日期后训练的模型无法见过)
  3. 新闻知识:包含最近一个月内的时事
  4. 代码:从每月Codeforces竞赛新题中提取
  5. 所有问题有程序化验证的客观答案

Chatbot Arena 的连续更新机制:

  • 每天数千对真实用户对话
  • ELO动态更新,反映最新模型能力
  • 难以被单模型刷榜(需要始终保持高水平)

红队数据集

人工红队(Red-Teaming),招募专业红队人员(安全研究员、黑客等)

  • 尝试各种越狱、诱导、操纵手段
  • 记录成功攻击的提示词
  • 分类整理为结构化数据集
  • 用于安全训练和评测

自动红队(Automated Red Teaming):

  • 攻击模型(Attacker LLM)生成攻击提示词
  • 目标模型(Target LLM)回应
  • 判断模型(Judge LLM)评估是否成功越狱
  • 优化攻击策略(强化学习/进化算法)
  • 积累有效攻击数据

代表:HarmBench(使用GCG、AutoDAN等自动攻击方法)

Anthropic提出Constitutional AI:

  • 模型自我批评:让模型找出自己输出中违反宪法的部分
  • 自我修正:根据批评重写输出
  • 生成的(批评→修正)对用于监督微调

基准污染检测方法

污染检测技术

N-gram 重叠检测:

python 复制代码
def check_contamination(test_sample, train_corpus, n=13):
    test_ngrams = get_ngrams(test_sample, n)
    for doc in train_corpus:
        doc_ngrams = get_ngrams(doc, n)
        if test_ngrams & doc_ngrams:
            return True
    return False

OpenAI早期使用13-gram重叠检测。问题:改写后的题目无法检测。

Min-K% Prob方法:

  • 选取概率最低的K%的Token
  • 计算这些Token的平均log概率
  • 训练数据中出现过的文本,即使最低概率Token也相对较高

Membership Inference Attack(MIA):

  • 判断某个样本是否出现在模型训练集中
  • 常用方法:Loss threshold(训练集样本 loss 更低),Shadow model
防污染数据集设计策略
策略 方法 代表
时间截止 只使用训练截止日期之后的数据 LiveBench、竞赛题库
私有测试集 保留完全不公开的测试集,通过接口评测 BIG-bench Lite
程序化生成 使用模板+随机化无限生成新题 RULER、MATH变体
题目变体 语义不变,改写表达方式 SVAMP 对 GSM8K
时效性内容 包含最新事件,必须实时更新知识 FreshQA
相关推荐
lhxcc_fly2 小时前
4.LangChain--Prompt提示词
langchain·llm·prompt
ServBay2 小时前
别管跑分了,2026 本地编程大模型推荐与 GitHub Copilot 免费平替
llm·ai编程·github copilot
韦胖漫谈IT3 小时前
大模型到底是什么:用最朴素的话讲清楚
llm
格桑阿sir4 小时前
14-大模型智能体开发工程师:ReAct推理-行动框架
ai·大模型·llm·agent·react·智能体·推理模型
程序员三明治5 小时前
【AI】RAG 数据分块(Chunk)策略与实践
java·人工智能·后端·ai·大模型·llm·rag
呆呆敲代码的小Y5 小时前
【最新Codex教程】 | 安装、入门和快速使用,适合新手
人工智能·gpt·ai·llm·openai·agent·codex
Lei活在当下5 小时前
【AI手记系列】2026.6.1 一周AI小结(草稿)
llm·openai
RockHopper20251 天前
智能体的《目的论》模型
人工智能·llm·智能体
XLYcmy1 天前
面向Agent权限系统的快速审计工具
python·网络安全·ai·llm·飞书·agent·字节跳动