【自然语言处理】大模型时代的数据标注(主动学习)

文章目录

      • [A 论文出处](#A 论文出处)
      • [B 背景](#B 背景)
        • [B.1 背景介绍](#B.1 背景介绍)
        • [B.2 问题提出](#B.2 问题提出)
        • [B.3 创新点](#B.3 创新点)
      • [C 模型结构](#C 模型结构)
      • [D 实验设计](#D 实验设计)
      • [E 个人总结](#E 个人总结)

A 论文出处

  • 论文题目:FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models
  • 发表情况:2023-EMNLP
  • 作者单位:浙江大学、网易

B 背景

B.1 背景介绍

传统的主动学习,降低了第一步的标注成本,通过迭代标注小部分数据,然后通过模型的Uncertainty(或Feature-based Diversity)进行校验,筛选剩余有价值的样本进行再标注。但仍存在两个问题,首先是少量标注其实很难训练很好的模型,影响后续筛选的步骤,其次传统AL还是需要大量的人力成本,目前的AL论文大部分都需要标注10%~50%以上的数据才能达到较好的性能。

B.2 问题提出

(1)大模型:可以用Zero/few-shot ICL解决下游任务,人力标注几乎为0,但光靠大模型部署成本较高,效果不总是尽如人意;

(2)小模型:直接用小模型需要收集很多标注数据,人力成本更高。但可以使用半监督、主动学习缓解一下标注成本,但总是需要一定的人力成本。

B.3 创新点

(1)在没有任何人为监督的情况下,提高大模型的泛化能力;

(2)大模型+小模型的协同学习方法FreeAL,大模型用来主动标注,小模型用来过滤和反馈。

C 模型结构

(1)LLM通过自生成的虚拟样本对未标注的数据进行打标,形成初始的标注数据集;

(2)SLM对于LLM的标注结果进行筛选过滤,得到clean set用于LLM进行ICL;

  1. 训练预热(Warm-up Training)
    SLM使用LLM生成的初始伪标签进行少量周期的标准训练(如交叉熵损失),目的是让模型初步学习数据中的简单模式,避免过早陷入噪声样本的过拟合。
  2. 损失计算与排序(Loss Calculation and Ranking)
    对每个训练样本计算交叉熵损失值 l i l_i li,并按类别对损失值进行升序排序。损失值较低的样本表明SLM对其预测置信度较高,可能对应LLM生成的更准确的伪标签。
  3. 类别内筛选(Class-wise Selection)
    对每个类别 j j j 的样本集合 D t r a i n j \mathcal{D}{train}^j Dtrainj,选择损失值最小的前 R % R\% R%(如论文中设 R = 20 R=20 R=20 )的样本,构成初步的干净子集 D c l e a n j \mathcal{D}{clean}^j Dcleanj,确保每个类别都有一定比例的"高置信度"样本被保留。
  4. 聚类去冗余(Clustering for Diversity)
    使用k-medoids算法 对 D c l e a n j \mathcal{D}{clean}^j Dcleanj 中样本的嵌入表示(如SLM的隐藏层输出)进行聚类,选择每个簇的中心样本(medoids)作为最终演示池 D d e m o j \mathcal{D}{{demo}}^j Ddemoj 。这保证了演示样本的多样性和代表性,避免冗余。
  5. 合并与反馈(Aggregation and Feedback)
    将所有类别的演示池合并为 D d e m o = ∪ D d e m o j \mathcal{D}{{demo}}=\cup\mathcal{D}{{demo}}^j Ddemo=∪Ddemoj ,并反馈给LLM用于后续的标签优化。未被选中的样本则交由 D n o i s y \mathcal{D}_{{noisy}} Dnoisy LLM通过上下文学习重新标注。

D 实验设计

(1)多次迭代性能提升

(2)相较于ICL的性能提升

E 个人总结

(1)数据标注依然重要,完全监督、弱监督的小模型在很多场景下比(未精调)大模型强;

(2)利用LLM进行标注是完全可行的,小模型可以协同进行过滤、精炼大模型的标签;

(3) 该方法的核心在于用LLM完全替代人类进行样本选择,但LLM固有的不确定性、偏见和"幻觉"问题可能导致其选择的样本质量不稳定,甚至引入错误或次优的标注,反而损害最终模型性能;

(4)论文中展示的有效性可能高度依赖于特定的数据集、任务或使用的LLM,其提出的"完全无人"流程在更复杂、动态或领域外(OOD)的真实世界场景中的鲁棒性和泛化能力尚未得到充分验证。

相关推荐
嵌入式小企鹅1 天前
CPU供需趋紧、DeepSeek V4全链适配、小米开源万亿模型
人工智能·学习·开源·嵌入式·小米·算力·昇腾
草莓熊Lotso1 天前
Vibe Coding 时代:LangChain 与 LangGraph 全链路解析
linux·运维·服务器·数据库·人工智能·mysql·langchain
快乐非自愿1 天前
RAG夺命10连问,你能抗住第几问?
人工智能·面试·程序员
千匠网络1 天前
破局出海壁垒,千匠网络新能源汽车跨境出海解决方案
人工智能
马丁聊GEO1 天前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker1 天前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.1 天前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑1 天前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金1 天前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移1 天前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言