前言

这个开源社区平台
汇集了模型
、工具
、数据集
。学模型的必备。

主要包含:
-
Models
(模型):模型包括CV(Computer Vision 计算机视觉)通过摄像头、图像、视频等视觉输入输出
、NLP(Natural Language Processing 自然语言处理) 计算机理解、解释和生成人类语言的技术
。 -
Datasets
(数据集):数据 集合。 -
Spaces
(空间):社区。 -
Posts
(发表):发表圈。 -
Docs
(文档):文档。


任务从上到下:多模态
、计算机视觉
、自然语言处理
、音频
、表格
、强化学习
。
-
Multimodal
多模态Audio-Text-to-Text
(音频-文本-到-文本)Image-Text-to-Text
(图像-文本-到-文本)Video-Text-to-Text
(视频-文本-到-文本)Any-to-Any
(任意-到-任意)
-
Computer Vision
计算机视觉Depth Estimation
(深度估计)Image Classification
(图像分类)Object Detection
(目标检测)Image Segmentation
(图像分割)Text-to-Image
(文本到图像)Image-to-Text
(图像到文本)Image-to-Image
(图像到图像)Image-to-Video
(图像到视频)
-
Natural Language Processing
(自然语言处理)Text Classification
(文本分类)Text Generation
(文本生成)Text Ranking
(文本排序)
-
Audio
(音频)Text-to-Speech
(文本转语音)Text-to-Audio
(文本转音频)
-
Reinforement learning
(强化学习)Reinforement Learning
(强化学习)Robotics
(机器人学习)
-
Other
(其他)Graph Machine learning
(图机器学习)
以上就是各个分类的一些模型的举例。
怎么用
模型如何去用,如何学。
Models
Qwen2-Audio-7B-Instruct
比如看上了多模态
的Audio-Text-to-Text
这个。点击去看它的模型列表。

先看下载量和点赞量最高的,点进去,看它的介绍。
Qwen2-Audio-7B-Instruct
。阿里的通义千问,开源的语音交互大模型。


Qwen2-Audio模型音频处理代码解析 :这是一个完整的音频描述生成
流程,从加载模型到最终输出文本描述
。
py
# 导入 BytesIO 去处理内存的字节流
from io import BytesIO
# 导入 urlopen 去打开url链接
from urllib.request import urlopen
# 导入 librosa 音频处理库
import librosa
# 从 transformers 库导入 自动处理器AutoProcessor 和 千问音频生成模型Qwen2AudioForConditionalGeneration
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
# 加载预训练的 Qwen2-Audio-7B 模型(一个大型音频语言模型)
model = Qwen2AudioForConditionalGeneration.from_pretrained("Qwen/Qwen2-Audio-7B")
# 加载对应模型的处理器(处理文本和音频输入)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-Audio-7B")
# 定义提示词模板,包含特殊标记:
# <|audio_bos|> - 音频序列开始标记
# <|AUDIO|> - 音频内容占位符
# <|audio_eos|> - 音频序列结束标记
# 后面跟着生成英文描述的指令
prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generate the caption in English:"
# 要处理的音频文件URL地址
url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-Audio/audio/glass-breaking-151256.mp3"
# 加载音频文件:
# 1. urlopen(url).read() 下载音频文件
# 2. BytesIO将字节数据包装成文件对象
# 3. librosa.load加载音频,采样率设置为处理器期望的采样率
audio, _ = librosa.load(BytesIO(urlopen(url).read()), sr=self.processor.feature_extractor.sampling_rate)
# 使用处理器同时处理文本提示和音频数据:
# - text参数:提示文本
# - audios参数:加载的音频数据
# - return_tensors="pt" 返回PyTorch张量格式
inputs = processor(text=prompt, audios=audio, return_tensors="pt")
# 模型生成描述(限制最大长度为30个token)
generate_ids = model.generate(**inputs, max_length=30)
# 将生成的token ID解码为文本:
# - skip_special_tokens=True 跳过特殊标记
# - clean_up_tokenization_spaces=False 保留原始空格
# [0] 取第一个结果(批量处理中的第一个样本)
processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
其中有:推理、语言聊天推理、音频分析推理、批量推理、这几个例子。
bert-base-chinese
bert-base-chinese
是专门针对中文自然语言处理(NLP)任务优化的。用来预测被遮蔽的词语
、情感分析
、新闻分类
、识别人名
、识别地名
、基于上下文给出答案
等等。
分析了基于Bert
的情感分类项目结构,包括模型定义、训练和测试流程。
Dataset
里面涵盖了大量的数据集,比如说awesome-chatgpt-prompts这个数据集。
py
from datasets import load_dataset
dataset = load_dataset("username/my_dataset")
#或者,如果数据集有训练/验证/测试分割,则加载单独的块
train_dataset = load_dataset("username/my_dataset", split="train")
valid_dataset = load_dataset("username/my_dataset", split="validation")
test_dataset = load_dataset("username/my_dataset", split="test")
有了这些数据集,就可以拿去训练自己的模型,比如训练模型deberta-v3-base-prompt-injection
:

用datasetfka/awesome-chatgpt-prompts
数据集去循环模型deberta-v3-base-prompt-injection
。
py
# 导入 Hugging Face 的 AutoTokenizer,用于自动加载预训练模型的 tokenizer
from transformers import AutoTokenizer
# 指定要使用的模型名称(这里是微软的 DeBERTa-v3-base 模型)
model_name = "microsoft/deberta-v3-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
def preprocess_function(examples):
return tokenizer(examples["prompt"], truncation=True, padding="max_length", max_length=128)
# 假设数据集已经包含 "label" 列(0/1)
tokenized_dataset = dataset.map(preprocess_function, batched=True)
Spaces


比如:图像 转 文本
:

css
girl wearing hat.
girl wearing her hat with her kids hat
a child wearing her hat
her daughter wearing a hat