技术栈
transformers
诸神缄默不语
6 天前
chatgpt
·
llm
·
论文
·
openai
·
transformers
·
大规模预训练语言模型
·
gpt-4
Re78 读论文:GPT-4 Technical Report
诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类论文全名:GPT-4 Technical Report
养一只Trapped_beast
6 天前
pip
·
transformers
pip install transformers教程
直接pip install transformers会报错,报错内容如下:重点是Cargo, the Rust package manager, is not installed or is not on PATH这句话,所以可能Rust没有安装,那我们安装Rust, 参考网址,具体步骤:
NLP工程化
1 个月前
llm
·
chat
·
transformers
·
generate
LLM模型的generate和chat函数区别
在 Hugging Face 的 transformers 库中,GPT(Generative Pre-trained Transformer)类的模型有两个常用的生成文本的方法:generate 和 chat。这两个方法在使用上有一些区别。通常公司发布的 LLM 模型会有一个基础版本,还会有一个 Chat 版本。比如,Qwen-7B(基础版本)和 Qwen-7B-Chat(Chat 版本)。
obullxl
2 个月前
人工智能
·
ai
·
pipeline
·
transformers
·
文本转音频
Transformers 框架 Pipeline 任务详解:文本转音频(text-to-audio 或 text-to-speech)
在上一篇文章(Transformers 框架任务概览:从零开始掌握 Pipeline(管道)与 Task(任务)),我们深入探讨了 Transformers 框架中的 Pipeline 和 Task 分类、配置及执行流程。今天,我们将聚焦于五大任务之一的text-to-audio或text-to-speech(TTS),探索如何利用 Transformers 将文本转换为自然流畅的语音。
money0534
2 个月前
pytorch
·
线性代数
·
矩阵
·
transformers
·
xla
XLA中生成Causal Mask上三角-inf矩阵
transformers生成CausalAttentionMask的上三角-inf矩阵: 参考transformers源码
obullxl
2 个月前
人工智能
·
gpt
·
ai
·
transformers
·
qwen2.5
·
bpe
深入解析 Transformers 框架(四):Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解
前面我们已经通过三篇文章,详细介绍了 Qwen2.5 大语言模型在 Transformers 框架中的技术细节,包括包和对象加载、模型初始化和分词器技术细节:
Hoper.J
3 个月前
transformers
·
tokenizer
·
1024程序员节
·
bpe
·
wordpiece
·
子词分割方法
BPE vs WordPiece:理解 Tokenizer 的工作原理与子词分割方法
在应用的路上“蒙着头”走了一段,是时候回过头来理解其中的工作原理了。文章将以文本处理为例,介绍数据预处理中的关键组件——Tokenizer(分词器)。需要注意的是,这里是偏概念性的讲解,不会严谨地讨论具体函数的参数细节。
HuggingFace
3 个月前
transformers
更快的辅助生成: 动态推测
⭐ 在这篇博客文章中,我们将探讨 动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法,可以加速文本生成高达 2.7 倍,具体取决于任务。从 Transformers🤗 发布的版本 4.45.0 开始,这种方法是辅助生成的默认模式⭐
ZHOU西口
4 个月前
python
·
langchain
·
大模型
·
embedding
·
transformers
·
chroma
·
all-minilm-l6
ChromaDB教程_2024最新版(下)
Embeddings(嵌入)是表示任何类型数据的AI原生方式,它非常适用于各种AI驱动的工具和算法中。它们可以表示文本、图像,很快还可以表示音频和视频。有许多创建嵌入的选项,无论是在本地使用已安装的库,还是通过调用API。
HuggingFace
5 个月前
transformers
·
diffusers
·
quanto
基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型
过去的几个月,我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image,T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 的性质,这些主干网络表现出了良好的可扩展性,模型参数量可从 0.6B 扩展至 8B。
enjoy编程
5 个月前
ai
·
大模型
·
llm
·
pipeline
·
huggingface
·
transformers
hg transformers pipeline使用
在Hugging Face的transformers库中,pipeline是一个高级API,它提供了一种简便的方式来使用预训练模型进行各种NLP任务,比如情感分析、文本生成、翻译、问答等。通过pipeline,你可以在几行代码内实现复杂的NLP任务。pipeline会自动加载用于指定任务的默认模型和tokenizer,如果需要,用户也可以指定使用特定的模型和tokenizer
MK422
6 个月前
transformers
·
学习率
·
warmup
·
lr_scheduler
·
cosine
transformers进行学习率调整lr_scheduler(warmup)
Warmup(预热)是深度学习训练中的一种技巧,旨在逐步增加学习率以稳定训练过程,特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。预热阶段通常是指在训练开始时,通过多个步长逐步将学习率从一个较低的值增加到目标值(通常是预定义的最大学习率)。
营赢盈英
6 个月前
python
·
ai
·
llm
·
nlp
·
huggingface
·
transformers
·
deepspeed
Deepspeed : AttributeError: ‘DummyOptim‘ object has no attribute ‘step‘
题意:尝试在一个名为 DummyOptim 的对象上调用 .step() 方法,但是这个对象并没有定义这个方法
华为云开发者联盟
7 个月前
rnn
·
深度学习
·
大模型
·
transformers
·
rwkv
·
华为云开发者联盟
结合RNN与Transformer双重优点,深度解析大语言模型RWKV
本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课 RWKV 模型架构深度解析》,作者:Freedom123。
华为云开发者联盟
7 个月前
大模型
·
nlp
·
llama
·
transformers
·
华为云开发者联盟
一文为你深度解析LLaMA2模型架构
本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课 大咖深度解析LLaMA2 模型架构》,作者: Freedom123。
多恩Stone
7 个月前
人工智能
·
python
·
计算机视觉
·
aigc
·
transformers
【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究
上一篇文章提到可以从两个分支来看 Stable Diffusion 1,其中:从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。
shao918516
7 个月前
huggingface
·
transformers
·
optimum
·
diffusers
·
peft
·
开源库
·
accelerate
Hugging Face系列2:详细剖析Hugging Face网站资源——实战六类开源库
本系列文章旨在全面系统的介绍Hugging Face,让小白也能熟练使用Hugging Face上的各种开源资源,并上手创建自己的第一个Space App,在本地加载Hugging Face管线训练自己的第一个模型,并使用模型生成采样数据,同时详细解决部署中出现的各种问题。后续文章会分别介绍采样器及其加速、显示分类器引导扩散模型、CLIP多模态图像引导生成、DDMI反转及控制类大模型ControlNet等,根据反馈情况可能再增加最底层的逻辑公式和从零开始训练LLM等,让您从原理到实践彻底搞懂扩散模型和大语
HuggingFace
8 个月前
transformers
用 Sentence Transformers v3 训练和微调嵌入模型
Sentence Transformers 是一个 Python 库,用于使用和训练各种应用的嵌入模型,例如检索增强生成 (RAG)、语义搜索、语义文本相似度、释义挖掘 (paraphrase mining) 等等。其 3.0 版本的更新是该工程自创建以来最大的一次,引入了一种新的训练方法。在这篇博客中,我将向你展示如何使用它来微调 Sentence Transformer 模型,以提高它们在特定任务上的性能。你也可以使用这种方法从头开始训练新的 Sentence Transformer 模型。
HuggingFace
8 个月前
transformers
·
智能体
授权调用: 介绍 Transformers 智能体 2.0
我们推出了 Transformers 智能体 2.0!⇒ 🎁 在现有智能体类型的基础上,我们新增了两种能够 根据历史观察解决复杂任务的智能体。