HUGGINGFACE NLP- MAIN NLP TASKS

1 Token classification

1.1 分类

1.1.1 实体命名识别 (NER): 找出句子中的实体(如人物、地点或组织)。这可以通过为每个实体或"无实体"指定一个类别的标签。

1.1.2 词性标注 (POS): 将句子中的每个单词标记为对应于特定的词性(如名词、动词、形容词等)。

1.1.3 分块(chunking): 找到属于同一实体的Token。这个任务(可结合POS或NER)可以任何将一块Token作为制定一个标签(通常是B -),另一个标签(通常I -)表示Token是否是同一块,和第三个标签(通常是O)表示Token不属于任何块。也就是标出句子中的短语块,例如名词短语(NP),动词短语(VP)等。

1.2 标签

1.2.1 不同tokenizer有不同分类标签

1.2.2 常见

O 表示这个词不对应任何实体。

B-PER/I-PER意味着这个词对应于人名实体的开头/内部。

B-ORG/I-ORG 的意思是这个词对应于组织名称实体的开头/内部。

B-LOC/I-LOC 指的是是这个词对应于地名实体的开头/内部。

B-MISC/I-MISC 表示该词对应于一个杂项实体的开头/内部。

1.3 处理数据

1.3.1 可以扩展我们的标签列表以匹配token

1.4 train

1.4.1 DataCollatorForTokenClassification. Like the DataCollatorWithPadding, it takes the tokenizer used to preprocess the inputs:

1.4.2 Metrics

To have the Trainer compute a metric every epoch,

1.5 reDefining the model

1.5.1

javascript 复制代码
id2label = {i: label for i, label in enumerate(label_names)}
label2id = {v: k for k, v in id2label.items()}


model = AutoModelForTokenClassification.from_pretrained(
    model_checkpoint,
    id2label=id2label,
    label2id=label2id,
)

1.6 Fine-tuning the model

1.6.1 TrainingArguments

1.6.2 A custom training loop

Preparing everything for training

2 微调掩码语言模型

2.1 在域内数据上微调预训练语言模型的过程通常称为 领域适应

2.2 选择用于掩码语言建模的预训练模型

相关推荐
电子科技圈31 分钟前
SmartDV展示完整的边缘与连接IP解决方案,以高速和低功耗特性赋能移动、物联网和媒体处理设备创新
人工智能·嵌入式硬件·mcu·物联网·智能家居·智能硬件·iot
Rubin智造社37 分钟前
04月17日AI每日参考:Claude Opus 4.7正式发布,智元机器人大会今日开幕
大数据·人工智能·机器学习·claude code·智元机器人·deepseek v4·claude opus 4.7
Raink老师8 小时前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx238 小时前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
码农小白AI8 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372989 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询9 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju9 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方9 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信
2501_948114249 小时前
2026模型能力分化加剧:多模型聚合架构的技术解析与工程落地思考
人工智能·ai·chatgpt·架构