大模型从入门到应用——HuggingFace:Transformers-[零基础快速上手:自然语言处理任务]

分类目录:《大模型从入门到应用》总目录


使用 pipeline() 是利用预训练模型进行推理的最简单的方式。你能够将 pipeline() 开箱即用地用于跨不同模态的多种任务,它支持的自然语言处理的任务列表:

  • TextClassificationPipeline:文本分类
  • DocumentQuestionAnsweringPipeline:文档问答
  • FillMaskPipeline:填充掩码
  • FeatureExtractionPipeline:文本特征提取
  • MaskGenerationPipeline:掩码生成
  • NerPipeline:命名实体识别
  • QuestionAnsweringPipeline:问答
  • SummarizationPipeline:摘要生成
  • TableQuestionAnsweringPipeline:表格问答
  • Text2TextGenerationPipeline:文本到文本的生成
  • TextGenerationPipeline:文本生成
  • TokenClassificationPipeline:标记分类
  • TranslationPipeline:翻译

文本分类任务PipelineTextClassificationPipeline

我们可以把 pipeline() 用在一个情感分析示例上,pipeline() 会下载并缓存一个用于情感分析的默认的预训练模型和分词器。然后我们就可以在目标文本上使用 classifier 了:

css 复制代码
from transformers import pipeline
classifier = pipeline("sentiment-analysis")
classifier("We are very happy to show you the 🤗 Transformers library.")

输出:

css 复制代码
[{'label': 'POSITIVE', 'score': 0.9997795224189758}]

如果你有不止一个输入,可以把所有输入放入一个列表然后传给pipeline(),它将会返回一个字典列表:

css 复制代码
results = classifier(["We are very happy to show you the 🤗 Transformers library.", "We hope you don't hate it."])
for result in results:
    print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

输出:

css 复制代码
label: POSITIVE, with score: 0.9998
label: NEGATIVE, with score: 0.5309

pipeline() 可以容纳 HuggingFace Hub 中的任何模型,这让 pipeline() 更容易适用于其他用例。比如,你想要一个能够处理法语文本的模型,就可以使用 Hub 上的标记来筛选出合适的模型。靠前的筛选结果会返回一个为情感分析微调的多语言的 BERT 模型,你可以将它用于法语文本并使用 AutoModelForSequenceClassification 和 AutoTokenizer 来加载预训练模型和它关联的分词器:

css 复制代码
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

pipeline() 中指定模型和分词器,现在你就可以在法语文本上使用 classifier 了:

css 复制代码
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
classifier("Nous sommes très heureux de vous présenter la bibliothèque 🤗 Transformers.")

输出:

css 复制代码
[{'label': '5 stars', 'score': 0.7272651791572571}]

对专栏中的内容有任何疑问均可联系博主微信(微信号:NeumannAI)咨询,作者也会持续优化文章叙述使得更多读者快速上手变现赚钱!

对专栏中的内容有任何疑问均可联系博主微信(微信号:NeumannAI)咨询,作者也会持续优化文章叙述使得更多读者快速上手变现赚钱!

参考文献:

1\] HuggingFace官方网站:https://huggingface.co/ \[2\] \[澳\]路易斯·汤斯顿 \[瑞士\]莱安德罗·冯·韦拉 \[法\]托马斯·沃尔夫. Transformer自然语言处理实战:使用Hugging Face Transformers库构建NLP应用\[M\]. 机械工业出版社, 2024 \[3\] 李福林. HuggingFace自然语言处理详解------基于BERT中文模型的任务实战\[M\]. 清华大学出版社, 2023

相关推荐
碧海银沙音频科技研究院24 分钟前
杰理项目开发大全课程
人工智能·深度学习·算法
Change is good39 分钟前
VS + Copilot 最简入门 AI Skill 模板
人工智能·copilot
Rubin智造社1 小时前
04月24日AI每日参考:GPT-5.5正式发布,DeepSeek获腾讯阿里争相入局
人工智能·claude code·deepseek v4·gpt-5.5·deepseek融资
imbackneverdie1 小时前
本科毕业论文自救指南
人工智能·ai·ai写作·毕业论文·ai工具·科研工具
生成论实验室1 小时前
生成态势猜想:一种统一的宇宙动力学语法
人工智能·科技·神经网络·算法·信息与通信
ZStack开发者社区1 小时前
DeepSeek-V4首发即支持,ZStack AIOS 私有化部署即刻可用
人工智能·开源·云计算
JEECG低代码平台1 小时前
四强同台!DeepSeek-V4-Pro / GPT-5.5 / GLM-5.1 / MiniMax M2.7 横评:到底该选谁?
人工智能·gpt
慧一居士1 小时前
Open WebUI 和 MaxKB 功能对比、使用场景对比、方案选型
人工智能
温迪的AI分享1 小时前
2026 AI抠图实测:4款工具效果与速度对比
图像处理·人工智能·经验分享·ai
skywalk81632 小时前
发现Kotti项目的python包Beaker 存在安全漏洞
开发语言·网络·python·安全