AI 小白也能懂:HuggingFace 轻松入门

前言

HuggingFace官网

这个开源社区平台汇集了模型工具数据集。学模型的必备。

主要包含:

  • Models(模型):模型包括CV(Computer Vision 计算机视觉)通过摄像头、图像、视频等视觉输入输出NLP(Natural Language Processing 自然语言处理) 计算机理解、解释和生成人类语言的技术

  • Datasets(数据集):数据 集合。

  • Spaces(空间):社区。

  • Posts(发表):发表圈。

  • Docs(文档):文档。


任务从上到下:多模态计算机视觉自然语言处理音频表格强化学习

  • Multimodal 多模态

    • Audio-Text-to-Text(音频-文本-到-文本)
    • Image-Text-to-Text(图像-文本-到-文本)
    • Video-Text-to-Text(视频-文本-到-文本)
    • Any-to-Any(任意-到-任意)
  • Computer Vision 计算机视觉

    • Depth Estimation(深度估计)
    • Image Classification(图像分类)
    • Object Detection(目标检测)
    • Image Segmentation(图像分割)
    • Text-to-Image(文本到图像)
    • Image-to-Text(图像到文本)
    • Image-to-Image(图像到图像)
    • Image-to-Video(图像到视频)
  • Natural Language Processing(自然语言处理)

    • Text Classification(文本分类)
    • Text Generation(文本生成)
    • Text Ranking(文本排序)
  • Audio(音频)

    • Text-to-Speech(文本转语音)
    • Text-to-Audio(文本转音频)
  • Reinforement learning(强化学习)

    • Reinforement Learning(强化学习)
    • Robotics(机器人学习)
  • Other(其他)

    • Graph Machine learning(图机器学习)

以上就是各个分类的一些模型的举例。

怎么用

模型如何去用,如何学。

Models

Qwen2-Audio-7B-Instruct

比如看上了多模态Audio-Text-to-Text这个。点击去看它的模型列表。

先看下载量和点赞量最高的,点进去,看它的介绍。

Qwen2-Audio-7B-Instruct。阿里的通义千问,开源的语音交互大模型。

Qwen2Audio官方文档使用说明书

Qwen2-Audio模型音频处理代码解析 :这是一个完整的音频描述生成流程,从加载模型到最终输出文本描述

py 复制代码
# 导入 BytesIO 去处理内存的字节流
from io import BytesIO

# 导入 urlopen 去打开url链接
from urllib.request import urlopen

# 导入 librosa 音频处理库
import librosa

# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

# 加载预训练的 Qwen2-Audio-7B 模型(一个大型音频语言模型)
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")

# 加载对应模型的处理器(处理文本和音频输入)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")

# 定义提示词模板,包含特殊标记:
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"

# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"

# 加载音频文件:
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频,采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)

# 使用处理器同时处理文本提示和音频数据:
# - text参数:提示文本
# - audios参数:加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

# 模型生成描述(限制最大长度为30个token)
generate_ids = model.generate(**inputs, max_length=30)

# 将生成的token ID解码为文本:
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果(批量处理中的第一个样本)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

其中有:推理、语言聊天推理、音频分析推理、批量推理、这几个例子。

bert-base-chinese

bert-base-chinese 是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语情感分析新闻分类识别人名识别地名基于上下文给出答案等等。

分析了基于Bert的情感分类项目结构,包括模型定义、训练和测试流程。

Dataset

里面涵盖了大量的数据集,比如说awesome-chatgpt-prompts这个数据集。

py 复制代码
from datasets import load_dataset

dataset = load_dataset("username/my_dataset")

#或者,如果数据集有训练/验证/测试分割,则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset  = load_dataset("username/my_dataset", split="test")

有了这些数据集,就可以拿去训练自己的模型,比如训练模型deberta-v3-base-prompt-injection

用datasetfka/awesome-chatgpt-prompts数据集去循环模型deberta-v3-base-prompt-injection

py 复制代码
# 导入 Hugging Face 的 AutoTokenizer,用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer

# 指定要使用的模型名称(这里是微软的 DeBERTa-v3-base 模型)
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

def preprocess_function(examples):
    return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)

# 假设数据集已经包含 "label" 列(0/1)
tokenized_dataset = dataset.map(preprocess_function, batched=True)

Spaces

模态转换

比如:图像 转 文本

css 复制代码
girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat
相关推荐
Captaincc3 小时前
Amazon Q 和 Claude Code 让 AI 控制开发者 CLI
ai编程·claude
Captaincc3 小时前
使用 Copilot 代理模式构建着陆页
前端·ai编程·github copilot
Captaincc3 小时前
OpenAI 的五款新模型,Hugging Face 的开源机器人,美国收紧对 AI 芯片的出口管制,以及其他新闻...
openai·ai编程
Apifox.3 小时前
Apifox 4月更新|Apifox在线文档支持LLMs.txt、评论支持使用@提及成员、支持为团队配置「IP 允许访问名单」
前端·人工智能·后端·ai·ai编程
洞窝技术6 小时前
增量代码自动Review工具:洞窝在AI上的探索和实践
jenkins·ai编程·测试
代码小学僧8 小时前
Cursor 的系统级提示词被大佬逆向出来了!一起来看看优秀 prompt是怎么写的
前端·ai编程·cursor
技术你大飞哥10 小时前
【突破数据孤岛】MCP协议进化史:从 STDIO 到全双工流式 —— AI 应用开发效率提升 90% 的秘密武器
llm·ai编程·mcp
Goboy11 小时前
零基础搞定 Trae 智能体配置 + MySQL MCP 集成!手把手教学
llm·ai编程·trae
用户40993225021211 小时前
分层架构在博客评论功能中的应用与实现
后端·ai编程·trae