transformer

木亦汐丫10 小时前
transformer·stip·半对称排列的保护方案·任何推理精度无损·安全高效·三方威胁模型·设备-云端协作
【STIP】安全Transformer推理协议论文地址:https://arxiv.org/abs/2312.00025模型参数和用户数据的安全性对于基于 Transformer 的服务(例如 ChatGPT)至关重要。虽然最近在安全两方协议方面取得的进步成功地解决了服务 Transformer 模型时的安全问题,但由于涉及高昂的加密开销,采用它们实际上是不可行的。从我们开发两个基于 Transformer 的实际服务的实践经验中汲取见解,我们确定了两方假设中固有的效率瓶颈。为了克服这一限制,我们提出了一种新的三方威胁模型。在这个框架内,我们设计了一
IMA小队长11 小时前
人工智能·深度学习·机器学习·transformer
06.概念二:神经网络参考视频:不需要懂的神经网络先回顾一下,这个transformer架构的整体框架大模型的第二个概念,就是不得不说的神经网络 但实际上,神经网络在大模型训练当中,并不是需要很深的理解和背景知识的
橙子小哥的代码世界1 天前
深度学习·神经网络·macos·大模型·transformer·chatglm·踩坑记录
【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程背景 & 踩坑记录准备工作新建 Conda 环境并安装依赖关键环境变量运行 composite_demo
L_cl2 天前
人工智能·自然语言处理·transformer
【NLP 78、手搓Transformer模型结构及实战】你以为走不出的淤泥,也迟早会云淡风轻—— 25.5.31《Attention is all you need》这篇论文可以说是自然语言处理领域的一座里程碑,它提出的 Transformer 结构带来了一场技术革命。
我不是小upper2 天前
算法·机器学习·transformer
详细到用手撕transformer下半部分之前我们讨论了如何实现 Transformer 的核心多头注意力机制,那么这期我们来完整地实现整个 Transformer 的编码器和解码器。
zhojiew3 天前
gpt·深度学习·transformer
图解gpt之Transformer架构与设计原理Transformer架构。它不仅仅是一个模型,更是一种范式,彻底改变了我们理解和处理自然语言的方式。
vlln3 天前
人工智能·深度学习·目标检测·计算机视觉·transformer
【论文解读】DETR: 用Transformer实现真正的End2End目标检测1st authors:paper: [2005.12872] End-to-End Object Detection with Transformers ECCV 2020
聚客AI3 天前
人工智能·深度学习·机器学习·语言模型·自然语言处理·transformer·知识图谱
企业知识库问答系统避坑指南:检索优化与生成一致性解决方案本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。Elasticsearch索引配置:
林林宋3 天前
人工智能·深度学习·transformer
DiTAR: Diffusion Transformer Autoregressive Modeling for Speech GenerationLLM 预测连续embedding,直接接DiT。和kaiming-Autoregressive Image Generation without Vector Quantization的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss; 离散token 更适用于文本任务,图片/视频
pen-ai3 天前
深度学习·bert·transformer
【深度学习】11. Transformer解析: Self-Attention、ELMo、Bert、GPT传统的循环神经网络(RNN)处理序列信息依赖时间步的先后顺序,无法并行,而且在捕捉长距离依赖关系时存在明显困难。为了解决这些问题,Transformer 引入了 Self-Attention(自注意力) 机制,彻底摆脱了循环结构。
小彭律师3 天前
人工智能·lstm·transformer
LSTM+Transformer混合模型架构文档本项目实现了一个LSTM+Transformer混合模型,用于超临界机组协调控制系统的数据驱动建模。该模型结合了LSTM的时序建模能力和Transformer的自注意力机制,能够有效捕捉时间序列数据中的长期依赖关系和变量间的复杂交互。
写代码的小阿帆3 天前
论文阅读·深度学习·机器学习·transformer
Attention Is All You Need论文阅读笔记Attention is All You Need是如今机器学习研究者必读的论文,该文章提出的Transformer架构是如今很多机器学习项目的基础,说该文章极大推动了机器学习领域的研究也不为过。 但这么重要,也是必读的文章对初学者来说其实并不友好,很多前置知识和背景可能因为篇幅原因并没有详细介绍,故本文参考周奕帆的解读,Transformer注意力以及illustrated transformer的同时,再补充更多基础知识,希望让机器学习的初学者也能很快读懂这篇文章。
吃鱼不卡次4 天前
人工智能·深度学习·transformer
Vision Transformer网络结构参考CSDN大佬(太阳花的小绿豆)的代码,梳理了一下vit的网络结构,代码地址如下:deep-learning-for-image-processing/pytorch_classification/vision_transformer at master · WZMIAOMIAO/deep-learning-for-image-processing · GitHub
机器学习之心4 天前
lstm·transformer·cnn-lstm
【五模型时间序列预测对比】Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNNTransformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN五模型单变量时间序列预测对比 (Matlab2023b)
layneyao4 天前
chatgpt·架构·transformer
Transformer架构详解:从Attention到ChatGPT系统化学习人工智能网站(收藏):https://www.captainbed.cn/fluTransformer架构自2017年提出以来,已成为自然语言处理(NLP)领域的核心范式,并逐步向计算机视觉、语音识别等多模态领域渗透。本文从Attention机制出发,系统解析Transformer架构的演进路径、技术细节及其在GPT系列模型中的工程化实践。通过对比原始论文《Attention Is All You Need》与ChatGPT的技术实现,揭示预训练语言模型(PLM)的核心挑战与突破方向,为AI从业
我是一言5 天前
人工智能·bert·transformer·gpt2
基于BERT和GPT2的实现来理解Transformer的结构和原理核心就是编码器和解码器,简单理解:编码器就是特征提取,解码器就是特征还原。Transformer最初是一个Encoder-Decoder架构,用于机器翻译任务:
明似水7 天前
人工智能·架构·transformer
AI时代新词-Transformer架构:开启AI新时代的关键技术Transformer架构 是一种基于自注意力机制(Self-Attention Mechanism)的深度学习模型架构,最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。它主要用于处理序列数据(如文本、语音等),在自然语言处理(NLP)和计算机视觉(CV)等领域取得了巨大的成功。Transformer架构的核心在于其强大的并行处理能力和高效的注意力机制,能够捕捉序列数据中的长距离依赖关系。
缘友一世7 天前
人工智能·深度学习·transformer
初学Transformer架构和注意力机制数学表示: X = Embedding ( i n p u t ) + PositionalEncoding X = \text{Embedding}(input) + \text{PositionalEncoding} X=Embedding(input)+PositionalEncoding
白熊1888 天前
深度学习·架构·transformer
【图像大模型】Hunyuan-DiT:腾讯多模态扩散Transformer的架构创新与工程实践Hunyuan-DiT采用分阶段的多模态扩散架构,其整体流程可形式化表示为:p θ ( x ∣ c ) = ∏ t = 1 T p θ ( x t ∣ x t + 1 , MM-Enc ( c ) ) p_\theta(x|c) = \prod_{t=1}^T p_\theta(x_t|x_{t+1}, \text{MM-Enc}(c)) pθ(x∣c)=t=1∏Tpθ(xt∣xt+1,MM-Enc(c))
橙子小哥的代码世界8 天前
人工智能·lora·transformer·prompt tuning·模型训练·pturning
PET,Prompt Tuning,P Tuning,Lora,Qlora 大模型微调的简介到2025年,虽然PET(Pattern-Exploiting Training)和Prompt Tuning在学术界仍有探讨,但在工业和生产环境中它们已基本被LoRA/QLoRA等参数高效微调(PEFT)方法取代 。LoRA因其实现简单、推理零开销,并能在大规模模型上以极少量参数达到与全量微调相当的效果,已成为最受欢迎的PEFT技术 。QLoRA在此基础上再结合4-bit量化,使得即便是65B级模型也能在单块48 GB GPU上完成微调,内存占用降低近3倍,性能几乎无损 。