正向生成、反向生成、正反向生成:LLM生成标注数据的几种方式

自然语言处理(NLP)中的低资源任务(例如医药文本的事件检测、关系三元组抽取等)往往缺乏大量的已标注数据,从而难以训练或微调专门的模型。在没有大量已标注数据的情况下,仅基于通用的预训练模型,采用Zero-Shot或者Few-Shot推理来完成这些任务,完成任务的效果目前来说往往较差12

获得大量标注数据的一条途径是人工标注,但是人工标注的成本一般较高。另一条途径是使用大语言模型(LLM)来生成标注数据。根据近期发布的一篇论文1,使用LLM生成标注数据有以下几种方式:正向生成(Forward Generation)、反向生成(Inverse Generation)、以及正反向生成(Forward-Inverse Generation,简称FIG)。

正向生成

正向生成(Forward Generation)比较容易理解。假设存在未标注的专门领域文本数据。正向生成就是针对未标注的文本数据,让LLM生成标注结果(或称"标签")。

正向生成可以用X→Y'来表示,其中,X表示原始的文本数据,Y'表示LLM生成的标签,'表示噪音;{(X,Y')}表示{(待标注文本,标签)}数据集。

正向生成的缺点是:所生成的标签的质量取决于LLM的推理能力;由于推理、尤其较复杂的推理目前还不是一般LLM的强项,所生成标签的准确性不高、且不容易控制。

反向生成

反向生成(Inverse Generation)根据已有的、或者已生成的标签,让LLM生成文本数据。

以一个信息抽取任务为例3,反向生成简单来说首先根据种子数据生成具有一定结构的抽取信息,然后提示LLM生成含有抽取信息的文本。

反向生成可以用Y'→X'来表示,其中,Y'表示已有的、或者已生成的标签,X'表示LLM生成的文本,'表示噪音;{(X',Y')}表示{(待标注文本,标签)}数据集。

反向生成可以发挥LLM在文本生成方面的长处。同时,反向生成也存在以下的缺点:

  • LLM所生成的文本内容分布较广,较难限制在一个专门领域之内,即使在提示语中加入限制领域的要求,问题也得不到较好的解决1
  • LLM所生成的文本中可能含有属于其它标签的内容,从而使得标注不完整,影响生成文本的准确性以及已有的、或者已生成的标签的准确性。

正反向生成

正反向生成(FIG)是一种综合了正向生成和反向生成的混合式方法,目的是提高LLM所生成的标注数据的质量。在一篇以事件检测(Event Detection)标注数据的生成为背景的论文1中,对于正反向生成的描述大致是这样的:

  1. 假设存在未标注的专门领域文本数据。首先,针对未标注文本数据,通过正向生成来提取事件类型和触发词,并将事件类型和经过筛选的触发词组织成一定的结构;
  2. 根据上一步产生的信息、以及任务指示和事件定义,通过反向生成来生成文本数据X';
  3. 针对上一步产生的文本数据X',再次通过正向生成标注出全部标签,以确保所有应该被标注的信息均被标注。

上述论文1的实验结果表明,与正向生成相比,正反向生成所生成的标签更准确;与反向生成相比,正反向生成所生成的文本可以更好地限制在一个专门领域内。

在分别使用:

  • 正向生成、
  • 反向生成、以及
  • 正反向生成

生成标注数据,并训练下游的事件检测(Event Detection)模型后,正反向生成所生成的标注数据,其训练出的下游模型在测试中的表现最优。

测试的结果还表明,正反向生成所生成的标注数据,其训练出的模型明显优于ChatGPT的直接推理,但是落后于人工标注数据所训练出的模型。

不过对于低资源任务来说,由于缺乏人工标注数据,以上最后一项比较的实际意义也许并不大。

参考文献

1 FIG: Forward-Inverse Generation for Low-Resource Domain-specific Event Detection.

arxiv.org/abs/2502.17...

2 TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction.

arxiv.org/abs/2311.09...

3 STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models.

arxiv.org/abs/2305.15...

封面图:CHUTTERSNAP、Unsplash

相关推荐
GlobalInfo3 分钟前
2026年!定制无人机市场正以17.1%增速狂飙
人工智能·无人机
captain_AIouo4 分钟前
深耕跨境赛道!autoAGC跨境AI,挖掘海外百亿增量红利
大数据·人工智能·经验分享·aigc
搬砖的前端5 分钟前
AI工具集:Git提交时使用AI进行CodeReview如何在前端应用构建NPM包
前端·人工智能·git·npm·codeview
Stick_ZYZ7 分钟前
从 Prompt 到 Context Engineering:Agent 真正稳定的关键
大数据·人工智能·算法·ai·prompt
shiyuankeyan7 分钟前
【AICsE 2026 Workshop 1 征稿】面向健康监测的多模态生物传感器——三位顶尖学者领衔,聚焦可穿戴医疗与边缘AI前沿
人工智能
码农小旋风8 分钟前
Codex中文网 | Codex CLI 中文指南
运维·服务器·ide·人工智能·chatgpt·claude
数学建模导师10 分钟前
2026第八届中青杯ABC题赛题分析【配套解题思路+代码】
大数据·人工智能·数学建模
ZHW_AI课题组11 分钟前
使用Stable Diffusion v1.5文本引导与无分类器引导(CFG)算法实现条件生成图片
人工智能·python·算法·机器学习·stable diffusion
tedcloud12311 分钟前
Dolt部署教程:打造可追踪数据变更的数据库环境
服务器·数据库·人工智能·学习·自动化·powerpoint
盼小辉丶12 分钟前
OpenCV-Python实战(25)——基于深度传感器与凸性分析打造实时手势识别系统
人工智能·python·opencv·计算机视觉