AI 小白也能懂:HuggingFace 轻松入门

前言

HuggingFace官网

这个开源社区平台汇集了模型工具数据集。学模型的必备。

主要包含:

  • Models(模型):模型包括CV(Computer Vision 计算机视觉)通过摄像头、图像、视频等视觉输入输出NLP(Natural Language Processing 自然语言处理) 计算机理解、解释和生成人类语言的技术

  • Datasets(数据集):数据 集合。

  • Spaces(空间):社区。

  • Posts(发表):发表圈。

  • Docs(文档):文档。


任务从上到下:多模态计算机视觉自然语言处理音频表格强化学习

  • Multimodal 多模态

    • Audio-Text-to-Text(音频-文本-到-文本)
    • Image-Text-to-Text(图像-文本-到-文本)
    • Video-Text-to-Text(视频-文本-到-文本)
    • Any-to-Any(任意-到-任意)
  • Computer Vision 计算机视觉

    • Depth Estimation(深度估计)
    • Image Classification(图像分类)
    • Object Detection(目标检测)
    • Image Segmentation(图像分割)
    • Text-to-Image(文本到图像)
    • Image-to-Text(图像到文本)
    • Image-to-Image(图像到图像)
    • Image-to-Video(图像到视频)
  • Natural Language Processing(自然语言处理)

    • Text Classification(文本分类)
    • Text Generation(文本生成)
    • Text Ranking(文本排序)
  • Audio(音频)

    • Text-to-Speech(文本转语音)
    • Text-to-Audio(文本转音频)
  • Reinforement learning(强化学习)

    • Reinforement Learning(强化学习)
    • Robotics(机器人学习)
  • Other(其他)

    • Graph Machine learning(图机器学习)

以上就是各个分类的一些模型的举例。

怎么用

模型如何去用,如何学。

Models

Qwen2-Audio-7B-Instruct

比如看上了多模态Audio-Text-to-Text这个。点击去看它的模型列表。

先看下载量和点赞量最高的,点进去,看它的介绍。

Qwen2-Audio-7B-Instruct。阿里的通义千问,开源的语音交互大模型。

Qwen2Audio官方文档使用说明书

Qwen2-Audio模型音频处理代码解析 :这是一个完整的音频描述生成流程,从加载模型到最终输出文本描述

py 复制代码
# 导入 BytesIO 去处理内存的字节流
from io import BytesIO

# 导入 urlopen 去打开url链接
from urllib.request import urlopen

# 导入 librosa 音频处理库
import librosa

# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

# 加载预训练的 Qwen2-Audio-7B 模型(一个大型音频语言模型)
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")

# 加载对应模型的处理器(处理文本和音频输入)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")

# 定义提示词模板,包含特殊标记:
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"

# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"

# 加载音频文件:
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频,采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)

# 使用处理器同时处理文本提示和音频数据:
# - text参数:提示文本
# - audios参数:加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

# 模型生成描述(限制最大长度为30个token)
generate_ids = model.generate(**inputs, max_length=30)

# 将生成的token ID解码为文本:
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果(批量处理中的第一个样本)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

其中有:推理、语言聊天推理、音频分析推理、批量推理、这几个例子。

bert-base-chinese

bert-base-chinese 是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语情感分析新闻分类识别人名识别地名基于上下文给出答案等等。

分析了基于Bert的情感分类项目结构,包括模型定义、训练和测试流程。

Dataset

里面涵盖了大量的数据集,比如说awesome-chatgpt-prompts这个数据集。

py 复制代码
from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

#或者,如果数据集有训练/验证/测试分割,则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

有了这些数据集,就可以拿去训练自己的模型,比如训练模型deberta-v3-base-prompt-injection

用datasetfka/awesome-chatgpt-prompts数据集去循环模型deberta-v3-base-prompt-injection

py 复制代码
# 导入 Hugging Face 的 AutoTokenizer,用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer

# 指定要使用的模型名称(这里是微软的 DeBERTa-v3-base 模型)
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)

# 假设数据集已经包含 "label" 列(0/1)
tokenized_dataset = dataset.map(preprocess_function, batched=True)

Spaces

模态转换

比如:图像 转 文本

css 复制代码
girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat
相关推荐
无声旅者3 小时前
深度解析 IDEA 集成 Continue 插件:提升开发效率的全流程指南
java·ide·ai·intellij-idea·ai编程·continue·openapi
zhz521415 小时前
AI数字人融合VR全景:开启未来营销与交互新篇章
人工智能·ai·交互·vr·ai编程·智能体
hongdou1991 天前
图形语言中间层:重构 AI 编程的未来之路
ai编程
是店小二呀1 天前
Trae 插件 Builder 模式:从 0 到 1 开发天气查询小程序,解锁 AI 编程新体验
人工智能·ai编程·trae
小众AI2 天前
Void: Cursor 的开源平替
人工智能·ai编程
Lilith的AI学习日记2 天前
Claude官方63组提示词模板全解析:从工作到生活的AI应用指南
人工智能·prompt·生活·ai编程·claude
hongdou1992 天前
ivx 开发者如何通过 BI 引擎实现应用功能精准优化
低代码·编辑器·ai编程
迅易科技3 天前
当数控编程“联姻”AI:制造工厂的“智能大脑”如何炼成?
人工智能·ai·知识图谱·ai编程·deepseek
shengjk13 天前
序列化和反序列化:从理论到实践的全方位指南
java·大数据·开发语言·人工智能·后端·ai编程
全栈技术负责人5 天前
cursor对话关键词技巧
ai编程