transformers

NLP工程化6 天前
llm·chat·transformers·generate
LLM模型的generate和chat函数区别在 Hugging Face 的 transformers 库中,GPT(Generative Pre-trained Transformer)类的模型有两个常用的生成文本的方法:generate 和 chat。这两个方法在使用上有一些区别。通常公司发布的 LLM 模型会有一个基础版本,还会有一个 Chat 版本。比如,Qwen-7B(基础版本)和 Qwen-7B-Chat(Chat 版本)。
obullxl21 天前
人工智能·ai·pipeline·transformers·文本转音频
Transformers 框架 Pipeline 任务详解:文本转音频(text-to-audio 或 text-to-speech)在上一篇文章(Transformers 框架任务概览:从零开始掌握 Pipeline(管道)与 Task(任务)),我们深入探讨了 Transformers 框架中的 Pipeline 和 Task 分类、配置及执行流程。今天,我们将聚焦于五大任务之一的text-to-audio或text-to-speech(TTS),探索如何利用 Transformers 将文本转换为自然流畅的语音。
money05341 个月前
pytorch·线性代数·矩阵·transformers·xla
XLA中生成Causal Mask上三角-inf矩阵transformers生成CausalAttentionMask的上三角-inf矩阵: 参考transformers源码
obullxl1 个月前
人工智能·gpt·ai·transformers·qwen2.5·bpe
深入解析 Transformers 框架(四):Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解前面我们已经通过三篇文章,详细介绍了 Qwen2.5 大语言模型在 Transformers 框架中的技术细节,包括包和对象加载、模型初始化和分词器技术细节:
Hoper.J2 个月前
transformers·tokenizer·1024程序员节·bpe·wordpiece·子词分割方法
BPE vs WordPiece:理解 Tokenizer 的工作原理与子词分割方法在应用的路上“蒙着头”走了一段,是时候回过头来理解其中的工作原理了。文章将以文本处理为例,介绍数据预处理中的关键组件——Tokenizer(分词器)。需要注意的是,这里是偏概念性的讲解,不会严谨地讨论具体函数的参数细节。
HuggingFace2 个月前
transformers
更快的辅助生成: 动态推测⭐ 在这篇博客文章中,我们将探讨 动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法,可以加速文本生成高达 2.7 倍,具体取决于任务。从 Transformers🤗 发布的版本 4.45.0 开始,这种方法是辅助生成的默认模式⭐
ZHOU西口3 个月前
python·langchain·大模型·embedding·transformers·chroma·all-minilm-l6
ChromaDB教程_2024最新版(下)Embeddings(嵌入)是表示任何类型数据的AI原生方式,它非常适用于各种AI驱动的工具和算法中。它们可以表示文本、图像,很快还可以表示音频和视频。有许多创建嵌入的选项,无论是在本地使用已安装的库,还是通过调用API。
HuggingFace4 个月前
transformers·diffusers·quanto
基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型过去的几个月,我们目睹了使用基于 transformer 模型作为扩散模型的主干网络来进行高分辨率文生图 (text-to-image,T2I) 的趋势。和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 的性质,这些主干网络表现出了良好的可扩展性,模型参数量可从 0.6B 扩展至 8B。
enjoy编程4 个月前
ai·大模型·llm·pipeline·huggingface·transformers
hg transformers pipeline使用在Hugging Face的transformers库中,pipeline是一个高级API,它提供了一种简便的方式来使用预训练模型进行各种NLP任务,比如情感分析、文本生成、翻译、问答等。通过pipeline,你可以在几行代码内实现复杂的NLP任务。pipeline会自动加载用于指定任务的默认模型和tokenizer,如果需要,用户也可以指定使用特定的模型和tokenizer
MK4225 个月前
transformers·学习率·warmup·lr_scheduler·cosine
transformers进行学习率调整lr_scheduler(warmup)Warmup(预热)是深度学习训练中的一种技巧,旨在逐步增加学习率以稳定训练过程,特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。预热阶段通常是指在训练开始时,通过多个步长逐步将学习率从一个较低的值增加到目标值(通常是预定义的最大学习率)。
营赢盈英5 个月前
python·ai·llm·nlp·huggingface·transformers·deepspeed
Deepspeed : AttributeError: ‘DummyOptim‘ object has no attribute ‘step‘题意:尝试在一个名为 DummyOptim 的对象上调用 .step() 方法,但是这个对象并没有定义这个方法
华为云开发者联盟6 个月前
rnn·深度学习·大模型·transformers·rwkv·华为云开发者联盟
结合RNN与Transformer双重优点,深度解析大语言模型RWKV本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课 RWKV 模型架构深度解析》,作者:Freedom123。
华为云开发者联盟6 个月前
大模型·nlp·llama·transformers·华为云开发者联盟
一文为你深度解析LLaMA2模型架构本文分享自华为云社区《【云驻共创】昇思MindSpore技术公开课 大咖深度解析LLaMA2 模型架构》,作者: Freedom123。
多恩Stone6 个月前
人工智能·python·计算机视觉·aigc·transformers
【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究上一篇文章提到可以从两个分支来看 Stable Diffusion 1,其中:从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。
shao9185166 个月前
huggingface·transformers·optimum·diffusers·peft·开源库·accelerate
Hugging Face系列2:详细剖析Hugging Face网站资源——实战六类开源库本系列文章旨在全面系统的介绍Hugging Face,让小白也能熟练使用Hugging Face上的各种开源资源,并上手创建自己的第一个Space App,在本地加载Hugging Face管线训练自己的第一个模型,并使用模型生成采样数据,同时详细解决部署中出现的各种问题。后续文章会分别介绍采样器及其加速、显示分类器引导扩散模型、CLIP多模态图像引导生成、DDMI反转及控制类大模型ControlNet等,根据反馈情况可能再增加最底层的逻辑公式和从零开始训练LLM等,让您从原理到实践彻底搞懂扩散模型和大语
HuggingFace7 个月前
transformers
用 Sentence Transformers v3 训练和微调嵌入模型Sentence Transformers 是一个 Python 库,用于使用和训练各种应用的嵌入模型,例如检索增强生成 (RAG)、语义搜索、语义文本相似度、释义挖掘 (paraphrase mining) 等等。其 3.0 版本的更新是该工程自创建以来最大的一次,引入了一种新的训练方法。在这篇博客中,我将向你展示如何使用它来微调 Sentence Transformer 模型,以提高它们在特定任务上的性能。你也可以使用这种方法从头开始训练新的 Sentence Transformer 模型。
HuggingFace7 个月前
transformers·智能体
授权调用: 介绍 Transformers 智能体 2.0我们推出了 Transformers 智能体 2.0!⇒ 🎁 在现有智能体类型的基础上,我们新增了两种能够 根据历史观察解决复杂任务的智能体。
linmoo19867 个月前
深度学习·bert·transformers·完形填空
基于transformers框架实践Bert系列6-完形填空本系列用于Bert模型实践实际场景,分别包括分类器、命名实体识别、选择题、文本摘要等等。(关于Bert的结构和详细这里就不做讲解,但了解Bert的基本结构是做实践的基础,因此看本系列之前,最好了解一下transformers和Bert等) 本篇主要讲解完形填空应用场景。本系列代码和数据集都上传到GitHub上:https://github.com/forever1986/bert_task
HuggingFace7 个月前
transformers·jat
万事通,专精部分领域的多功能 Transformer 智能体我们很高兴分享“万事通”(Jack of All Trades,简称 JAT) 项目,该项目旨在朝着通用智能体的方向发展。该项目最初是作为对 Gato (Reed 等,2022 年) 工作的公开复现启动的,Gato 提出训练一种能够执行视觉与语言以及决策任务的 Transformer。于是我们首先构建了 Gato 数据集的开放版本。随后,我们在此基础上训练了多模态 Transformer 模型,并针对处理顺序数据和连续值引入了若干改进。