AI 小白也能懂:HuggingFace 轻松入门

前言

HuggingFace官网

这个开源社区平台汇集了模型工具数据集。学模型的必备。

主要包含:

  • Models(模型):模型包括CV(Computer Vision 计算机视觉)通过摄像头、图像、视频等视觉输入输出NLP(Natural Language Processing 自然语言处理) 计算机理解、解释和生成人类语言的技术

  • Datasets(数据集):数据 集合。

  • Spaces(空间):社区。

  • Posts(发表):发表圈。

  • Docs(文档):文档。


任务从上到下:多模态计算机视觉自然语言处理音频表格强化学习

  • Multimodal 多模态

    • Audio-Text-to-Text(音频-文本-到-文本)
    • Image-Text-to-Text(图像-文本-到-文本)
    • Video-Text-to-Text(视频-文本-到-文本)
    • Any-to-Any(任意-到-任意)
  • Computer Vision 计算机视觉

    • Depth Estimation(深度估计)
    • Image Classification(图像分类)
    • Object Detection(目标检测)
    • Image Segmentation(图像分割)
    • Text-to-Image(文本到图像)
    • Image-to-Text(图像到文本)
    • Image-to-Image(图像到图像)
    • Image-to-Video(图像到视频)
  • Natural Language Processing(自然语言处理)

    • Text Classification(文本分类)
    • Text Generation(文本生成)
    • Text Ranking(文本排序)
  • Audio(音频)

    • Text-to-Speech(文本转语音)
    • Text-to-Audio(文本转音频)
  • Reinforement learning(强化学习)

    • Reinforement Learning(强化学习)
    • Robotics(机器人学习)
  • Other(其他)

    • Graph Machine learning(图机器学习)

以上就是各个分类的一些模型的举例。

怎么用

模型如何去用,如何学。

Models

Qwen2-Audio-7B-Instruct

比如看上了多模态Audio-Text-to-Text这个。点击去看它的模型列表。

先看下载量和点赞量最高的,点进去,看它的介绍。

Qwen2-Audio-7B-Instruct。阿里的通义千问,开源的语音交互大模型。

Qwen2Audio官方文档使用说明书

Qwen2-Audio模型音频处理代码解析 :这是一个完整的音频描述生成流程,从加载模型到最终输出文本描述

py 复制代码
# 导入 BytesIO 去处理内存的字节流
from io import BytesIO

# 导入 urlopen 去打开url链接
from urllib.request import urlopen

# 导入 librosa 音频处理库
import librosa

# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

# 加载预训练的 Qwen2-Audio-7B 模型(一个大型音频语言模型)
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")

# 加载对应模型的处理器(处理文本和音频输入)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")

# 定义提示词模板,包含特殊标记:
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"

# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"

# 加载音频文件:
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频,采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)

# 使用处理器同时处理文本提示和音频数据:
# - text参数:提示文本
# - audios参数:加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

# 模型生成描述(限制最大长度为30个token)
generate_ids = model.generate(**inputs, max_length=30)

# 将生成的token ID解码为文本:
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果(批量处理中的第一个样本)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

其中有:推理、语言聊天推理、音频分析推理、批量推理、这几个例子。

bert-base-chinese

bert-base-chinese 是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语情感分析新闻分类识别人名识别地名基于上下文给出答案等等。

分析了基于Bert的情感分类项目结构,包括模型定义、训练和测试流程。

Dataset

里面涵盖了大量的数据集,比如说awesome-chatgpt-prompts这个数据集。

py 复制代码
from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

#或者,如果数据集有训练/验证/测试分割,则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

有了这些数据集,就可以拿去训练自己的模型,比如训练模型deberta-v3-base-prompt-injection

用datasetfka/awesome-chatgpt-prompts数据集去循环模型deberta-v3-base-prompt-injection

py 复制代码
# 导入 Hugging Face 的 AutoTokenizer,用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer

# 指定要使用的模型名称(这里是微软的 DeBERTa-v3-base 模型)
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)

# 假设数据集已经包含 "label" 列(0/1)
tokenized_dataset = dataset.map(preprocess_function, batched=True)

Spaces

模态转换

比如:图像 转 文本

css 复制代码
girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat
相关推荐
伟贤AI之路11 小时前
开源!纯 HTML 实现支持 0.75~2× 变速、iOS 熄屏防中断的英语点读站
人工智能·ai编程
苦瓜汤补钙11 小时前
论文阅读——Segment Anything(Meta AI)——SAM
论文阅读·图像处理·人工智能·nlp·ai编程
码间拾光・菲林斯16 小时前
AI提示词:别再把提示词当 “聊天”—— 它是人机协作的 “接口定义”
人工智能·ai编程
深藏blue4718 小时前
OpenAI Codex & Codex CLI 国内使用教程:手把手教你安装与上手
openai·ai编程
小刘鸭地下城19 小时前
AI编程工具深度解析:从底层原理到高效实践
前端·ai编程
用户40993225021219 小时前
快速入门Vue的v-model表单绑定:语法糖、动态值、修饰符的小技巧你都掌握了吗?
前端·ai编程·trae
墨舟1 天前
没想到,同样是技术方案Review,Gemini 是这样,Codex却是。。。
ai编程
麦麦麦造1 天前
Cursor 2.0碉堡了的新模型,竟然基于国产模型开发?
ai编程
清沫1 天前
规训 AI Agent 实践
前端·ai编程·cursor
花生Peadar1 天前
完整的AI编程全自动指南
ai编程