transformer

高洁014 小时前
深度学习·算法·aigc·transformer·知识图谱
国内外具身智能VLA模型深度解析(2)国外典型具身智能VLA架构国内外具身智能VLA模型深度解析(2) 国外典型具身智能VLA架构 2. Physical Intelligence(PI)—— π0模型 1)模型整体架构 2)模型训练 3. Figure AI —— Helix模型 4. 英伟达 —— GR00T N1
一水鉴天6 小时前
架构·transformer·状态模式·公共逻辑
整体设计 全面梳理复盘 之40 M3 统摄三层 AI 的动态运营社区(Homepage)设计(突出核心统摄体 “M3”、关键架构 “三层 AI”、最终输出 “动态运营社区 Homepage”,体现 “设计共识 + 技术闭环” 的讨论成果,覆盖从架构提出到终局收敛的完整逻辑)
盼小辉丶7 小时前
深度学习·语言模型·bert·transformer
Transformer实战(26)——通过领域适应提升Transformer模型性能我们已经使用经典 Tansformer 模型解决了许多任务,但我们可以通过利用特定的技术来进一步提高模型性能。有多种方法可以提升 Transformer 模型的性能,在节中,我们将介绍如何通过领域适应技术将模型性能提升到超越普通训练流程的水平。领域适应是一种提高 Transformer 模型性能的方法,由于大语言模型是在通用和多样化的文本上进行训练的,因此在应用于特定领域时,可能会存在一定的差异,我们可能需要根据特定的应用领域调整这些语言模型,并考虑多种因素。
一水鉴天1 天前
人工智能·架构·transformer
整体设计 全面梳理复盘 之38 3+1 工具套件(思维工具为根)设计共识暨 DevOps 融合落地路径明确核心主体 “3+1 工具套件”,突出 “思维工具为根” 的核心定位,体现 “设计共识 + DevOps 落地” 的双重成果
Blossom.1182 天前
java·人工智能·python·深度学习·算法·机器学习·transformer
移动端部署噩梦终结者:动态稀疏视觉Transformer的量化实战摘要:本文揭示ViT模型在移动端落地的核心瓶颈,提出一套"动态Token稀疏化+重参数化+INT8量化"的三段式压缩方案。通过原创设计的注意力门控机制,在ImageNet上实现精度损失<1.5%的前提下,将模型体积压缩8.3倍,推理速度提升6.7倍。文中提供完整可复现的PyTorch代码与ONNX部署脚本,并深度剖析端侧NPU量化校准的3个致命陷阱。
wbzuo2 天前
论文阅读·人工智能·transformer
Clip:Learning Transferable Visual Models From Natural Language Supervision日期: 2025-10-22 状态: 🟢 已精读用你自己的话简要复述,不要直接复制摘要。论文要解决什么问题? 目前视觉领域已有方法,只能预测模型训练时给定的特定物体类别,即训练时只有猫和狗两种类别,即使马的图片看起来与猫或狗有些相似,模型也无法识别它是马,因为它并没有接触过马的图像或学习过马的特征。
AI即插即用2 天前
人工智能·pytorch·深度学习·目标检测·计算机视觉·transformer
即插即用涨点系列 (八):AMDNet 详解!AAAI 2025 SOTA,MLP 融合多尺度分解(MDM)与 AMS 的涨点新范式。大家好!为了方便大家在CV科研和项目中高效涨点,我创建并维护了一个即插即用模块的GitHub代码仓库。
高洁012 天前
深度学习·神经网络·aigc·transformer·知识图谱
具身智能-8家国内外典型具身智能VLA模型深度解析具身智能-8家国内外典型具身智能VLA模型深度解析 国外典型具身智能VLA架构 1.谷歌DeepMind —— RT2 1)模型架构 2)联合微调(Co-Fine-Tune) 3)动作Token化机制 2. Physical Intelligence(PI)—— π0模型 1)模型整体架构
DogDaoDao2 天前
人工智能·语言模型·架构·大模型·transformer·循环神经网络·对抗网络
大语言模型四大核心技术架构深度解析2017年,Google团队在《Attention Is All You Need》中提出的Transformer架构彻底改变了序列建模范式。与传统循环神经网络(RNN)逐 token 处理不同,Transformer 通过自注意力机制实现了序列的并行处理,这一突破使其成为 BERT、GPT 等革命性模型的基础。
shayudiandian2 天前
人工智能·深度学习·transformer
Transformer结构完全解读:从Attention到LLMTransformer 的核心在于自注意力机制(Self-Attention),它能够捕捉序列中任意位置的关系。输入序列通过嵌入层转换为向量后,加入位置编码(Positional Encoding)以保留顺序信息。编码器和解码器均由多层相同结构堆叠而成,每层包含多头注意力(Multi-Head Attention)和前馈神经网络(FFN)。
一水鉴天2 天前
开发语言·算法·transformer·公共逻辑
整体设计 全面梳理复盘 之37 元级自动化引擎三体项目(Designer/Master/Transformer)划分确定 + 自用规划工具(增强版)(明确核心成果 —— 三体项目划分落地 + 自用工具开发决策,体现 “收官讨论” 属性,覆盖从实现规划到配套工具的全流程共识)
Dyanic3 天前
人工智能·深度学习·transformer
融合尺度感知注意力、多模态提示学习与融合适配器的RGBT跟踪作者: Xiang Liu, Haiyan Li, Victor Sheng, Yujun Ma, Xiaoguo Liang, and Guanbo Wang 发表期刊: IEEE TRANSACTIONS ON MULTIMEDIA 论文地址: https://ieeexplore.ieee.org/document/11207526
carver w4 天前
人工智能·深度学习·transformer
transformer 手写数字识别上述代码在配置环境之后可以直接执行requirements.txttorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 numpy==1.24.3 pillow==10.4.0 matplotlib==3.7.5 seaborn==0.13.2 scikit-learn==1.3.2 scipy==1.10.1 pandas==2.0.3 opencv-python==4.12.0.88 tqdm==4.67.1
郭庆汝5 天前
笔记·自然语言处理·transformer
(三)自然语言处理笔记——Transformer
谏书稀6 天前
python·transformer·llama
LLaMA Factory微调大模型本文使用的环境:linux、无网离线环境安装成功后会输出版本号LLaMA Factory有web页面,也可以命令行运行。web页面的本质是图形化设置各项训练参数,生成训练命令进行执行。
wa的一声哭了6 天前
android·java·javascript·pytorch·深度学习·语言模型·transformer
hf中transformers库中generate的greedy_searchgreedy_search的返回值和GenerationMixin的generate的返回值是一样的,因为实际上generate函数是通过调用greedy_search来生成内容的。可以看到如果参数return_dict_in_generate为False,那么返回的内容应该就是一个生成的input_ids的tuple,如果为True,那么会将scores、hidden_states、attentions封装成一个字典类返回。
居7然6 天前
人工智能·分布式·架构·大模型·transformer
详解监督微调(SFT):大模型指令遵循能力的核心构建方案监督微调(SFT)作为大模型从通用预训练迈向特定任务适配的关键环节,通过特定任务的标签数据集,让预训练LLM习得指令遵循能力,无需依赖海量特定领域数据即可实现任务适配。本文将从核心概念、数据处理、模型训练到评估体系,全面拆解SFT的实践逻辑与关键要点。
高洁017 天前
深度学习·算法·aigc·transformer·知识图谱
大模型-详解 Vision Transformer (ViT) (2大模型-详解 Vision Transformer (ViT) (2)1.可学习的嵌入 (Learnable Embedding)
DatGuy8 天前
人工智能·深度学习·transformer
Week 24: 深度学习补遗:Vision Transformer (ViT) 复现本周对经典的ViT论文进行了复现,对于其Patch Embedding的相关理念进行了较为深入的理解。通过利用上周编写的Transformer模块进行快速复现,提高复现效率并且深入理解了ViT对Transformer的应用以及异同。
潘帕斯的雄鹰8 天前
python·transformer·注意力机制·自注意力机制
直观理解注意力机制传统的注意力机制在encoder-decoder架构中提出,是decoder在做输出预测的时候,考虑encoder中的输入,而不仅仅考虑当前的状态。这样优化了传统RNN模型随着序列增加信息丢失的问题。 传统注意力机制的QKV来自于跨序列,即K/V来自编码器中的输入向量,Q来自解码器中的输出向量。