transformer

欧阳小猜3 小时前
人工智能·架构·transformer
Transformer革命:从序列建模到通用人工智能的架构突破2017年,Google团队在《Attention Is All You Need》论文中提出的Transformer架构,彻底改变了自然语言处理的发展轨迹。这一革命性的模型不仅取代了RNN和LSTM在序列建模中的主导地位,更成为当今所有大语言模型(LLM)的核心基础——从BERT到GPT,从T5到ChatGPT,Transformer的身影无处不在。
小陈phd5 小时前
笔记·深度学习·学习·自然语言处理·transformer
多模态大模型学习笔记(二十一)—— 基于 Scaling Law方法 的大模型训练算力估算与 GPU 资源配置Scaling Law(缩放定律)是描述大型语言模型性能与模型规模、数据量、计算量之间关系的经验规律。它揭示了:当增加模型参数量、训练数据量或计算资源时,模型性能会如何变化。
张张123y5 小时前
深度学习·架构·transformer
#Transformer架构与微调技术深度解析解码器 Decoder编码器 EncoderTransformer架构输入嵌入层位置编码多头自注意力机制
前端摸鱼匠9 小时前
人工智能·深度学习·ai·面试·职场和发展·transformer
面试题2:Transformer的Encoder、Decoder结构分别包含哪些核心组件?对于资深大模型程序员,面试官想听的不是背书,而是你对数据流、并行化瓶颈、以及因果性约束的深度理解。下面我把这道题拆解成考点分析、标准答案(核心组件详解)、原理深度剖析、以及易错点/加分项四个部分,咱们用聊天的方式把这事儿捋清楚。
油泼辣子多加10 小时前
人工智能·深度学习·算法·机器学习·transformer
【DL】Transformer算法应用输入:输出:含义:必须解决3件事:原始 Transformer(Vaswani 2017)核心瓶颈:👉 Attention结构改变:
小超同学你好19 小时前
人工智能·语言模型·transformer
LangGraph 14. MCP:把“外部能力”标准化接入 LLM摘要:本文介绍 MCP(Model Context Protocol)作为“外部能力标准化接入层”的核心概念(resources / prompts / tools)、与常见工具函数调用的对比、传输与工程注意点,并以「合同条款风险分析」为实战案例,说明如何在 LangGraph 中集成 MCP:planner 决定 Stage1 工具、Send + reducer 实现并行调用、固定顺序执行 Stage2、stdio 客户端一次连接内完成操作,以及 MCP 不可用时的本地 fallback。文末给出完整流
_张一凡20 小时前
人工智能·深度学习·transformer
【多模态模型学习】从零手撕一个Vision Transformer(ViT)模型实战篇本文主要是通过自己构建一个VIT模型完成一个简单的分类任务。电脑配置:win10+RTX4080SX4
抓个马尾女孩1 天前
人工智能·深度学习·算法·transformer
位置编码:绝对位置编码、相对位置编码、旋转位置编码模型本身是“无状态”的,它看不到句子里单词的顺序(比如“我吃苹果”和“苹果吃我”,在模型眼里如果不做处理,输入的token是一样的),那它怎么区分语序、理解语义呢?答案就是「位置编码」——它就像给每个单词贴了一个“坐标标签”,告诉模型“这个单词在句子里排第1位、那个排第3位”,让模型能捕捉到语序带来的语义差异。 关于位置编码,主要分为三类:绝对位置编码(Absolute Positional Encoding)、相对位置编码(Relative Positional Encoding),以及近年来大火的旋转
张张123y1 天前
大数据·人工智能·transformer
AI Agent Memory:从理论到实战,掌握长短期记忆的核心技术【1】你是否遇到过这些问题?别担心!这篇文章带你深入理解AI Memory的核心原理、最新技术和实战应用,让你在面试中脱颖而出!
qq_281684211 天前
人工智能·深度学习·语言模型·重构·transformer
Transformer-XL:突破固定长度枷锁,重构长文本语言模型文章速览:本文深度解读Transformer-XL核心架构,拆解段级递归与相对位置编码两大创新,彻底解决传统Transformer上下文碎片化、长依赖建模失效难题,兼顾性能与效率,是长文本AI的奠基性工作。
华农DrLai1 天前
人工智能·深度学习·ai·prompt·bert·transformer
什么是角色扮演Prompt?为什么给AI设定身份能提升表现?🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!
张张123y1 天前
人工智能·langchain·transformer·知识图谱
知识图谱从0到1:AI应用开发的核心技术你是否遇到过这些问题?别担心!这篇文章带你从0到1彻底搞懂知识图谱,掌握其在AI应用开发中的核心价值!
张张123y1 天前
人工智能·python·langchain·transformer
AI Agent Memory:从理论到实战,掌握长短期记忆的核心技术【2】MemGPT架构是否用户请求Main Context 主上下文窗口上下文溢出?Core Memory 核心记忆
码农三叔2 天前
深度学习·机器人·大模型·transformer·人形机器人
(10-3)大模型时代的人形机器人感知:多模态Transformer在大模型时代,人形机器人面对的环境不仅包含视觉信息,还可能涉及点云、语音、触觉等多种感知模态。多模态Transformer提供了统一的架构,使来自不同模态的数据能够在同一个模型中进行联合建模、语义对齐和推理,从而支持复杂任务的执行和高层决策。多模态Transformer的核心优势是信息融合能力:它可以学习模态间的交互关系,捕捉各模态的互补信息,使机器人能够在感知、理解和决策中实现更高的准确性和鲁棒性。
xx_xxxxx_2 天前
论文阅读·机器学习·transformer·多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析4-代码架构参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
中科院提名者2 天前
线性代数·矩阵·transformer
从数学和矩阵运算的底层逻辑来透视 仅解码器 Transformer (Decoder-only Transformer) 预填充阶段的全过程LLaMA、Mistral 和 GPT 等生成式大模型,全部采用的是 Decoder-only Transformer 架构 。理解它,就是理解至当今所有大模型的基础。
张张123y3 天前
人工智能·python·学习·面试·架构·langchain·transformer
RAG从0到1学习:技术架构、项目实践与面试指南在大语言模型(LLM)快速发展的今天,如何让模型能够准确回答特定领域的问题,成为了一个关键挑战。RAG(Retrieval-Augmented Generation,检索增强生成)技术应运而生,它巧妙地将信息检索与文本生成相结合,成为了解决这一问题的主流方案。本文将从零开始,系统性地介绍RAG技术的核心概念、架构设计、项目实践以及面试要点。
renhongxia13 天前
运维·人工智能·深度学习·机器学习·架构·自动化·transformer
PostTrainBench:LLM 代理能否自动化 LLM 后培训?在过去的一年中,AI智能体在软件工程领域的能力已变得出奇地娴熟,这主要归功于其推理能力的提升。这引发了一个更深层次的问题:这些系统能否将其能力扩展到自动化进行人工智能研究本身?在本文中,我们探讨了后训练——这个将基础大语言模型转变为有用助手的关键阶段。
小超同学你好3 天前
语言模型·架构·transformer·llama
Transformer 14. DeepSeekMoE 架构解析:与 LLaMA 以及 Transformer 架构对比摘要:本文在 Decoder-only Transformer 与 Mixture-of-Experts(MoE)的基础上,系统介绍 DeepSeekMoE 的架构设计及与 LLaMA、标准 Transformer、GShard 的对比。内容包括:MoE 在 Transformer 中的位置(用 MoE 层替代 FFN)、DeepSeekMoE 的两大策略(细粒度专家切分、共享专家隔离)、数学形式与负载均衡、不同规模配置(2B / 16B / 145B)及与稠密模型的计算/性能对比、以及与 Transfo
小超同学你好3 天前
语言模型·架构·transformer·llama
Transformer 15: DeepSeek-V2 架构解析:MLA + DeepSeekMoE 与主流架构对比摘要:本文在 Decoder-only Transformer、LLaMA 架构 与 DeepSeekMoE 架构 的基础上,系统介绍 DeepSeek-V2 的架构设计及与 MHA/GQA/MQA、LLaMA、Mixtral 等主流架构的对比。内容包括:DeepSeek-V2 的整体定位(236B 总参数、21B 激活、128K 上下文)、Multi-head Latent Attention(MLA) 的低秩 K-V 联合压缩与解耦 RoPE、DeepSeekMoE 在 V2 中的使用及设备受限路由与