技术栈
transformer
欧阳小猜
3 小时前
人工智能
·
架构
·
transformer
Transformer革命:从序列建模到通用人工智能的架构突破
2017年,Google团队在《Attention Is All You Need》论文中提出的Transformer架构,彻底改变了自然语言处理的发展轨迹。这一革命性的模型不仅取代了RNN和LSTM在序列建模中的主导地位,更成为当今所有大语言模型(LLM)的核心基础——从BERT到GPT,从T5到ChatGPT,Transformer的身影无处不在。
小陈phd
5 小时前
笔记
·
深度学习
·
学习
·
自然语言处理
·
transformer
多模态大模型学习笔记(二十一)—— 基于 Scaling Law方法 的大模型训练算力估算与 GPU 资源配置
Scaling Law(缩放定律)是描述大型语言模型性能与模型规模、数据量、计算量之间关系的经验规律。它揭示了:当增加模型参数量、训练数据量或计算资源时,模型性能会如何变化。
张张123y
5 小时前
深度学习
·
架构
·
transformer
#Transformer架构与微调技术深度解析
解码器 Decoder编码器 EncoderTransformer架构输入嵌入层位置编码多头自注意力机制
前端摸鱼匠
9 小时前
人工智能
·
深度学习
·
ai
·
面试
·
职场和发展
·
transformer
面试题2:Transformer的Encoder、Decoder结构分别包含哪些核心组件?
对于资深大模型程序员,面试官想听的不是背书,而是你对数据流、并行化瓶颈、以及因果性约束的深度理解。下面我把这道题拆解成考点分析、标准答案(核心组件详解)、原理深度剖析、以及易错点/加分项四个部分,咱们用聊天的方式把这事儿捋清楚。
油泼辣子多加
10 小时前
人工智能
·
深度学习
·
算法
·
机器学习
·
transformer
【DL】Transformer算法应用
输入:输出:含义:必须解决3件事:原始 Transformer(Vaswani 2017)核心瓶颈:👉 Attention结构改变:
小超同学你好
19 小时前
人工智能
·
语言模型
·
transformer
LangGraph 14. MCP:把“外部能力”标准化接入 LLM
摘要:本文介绍 MCP(Model Context Protocol)作为“外部能力标准化接入层”的核心概念(resources / prompts / tools)、与常见工具函数调用的对比、传输与工程注意点,并以「合同条款风险分析」为实战案例,说明如何在 LangGraph 中集成 MCP:planner 决定 Stage1 工具、Send + reducer 实现并行调用、固定顺序执行 Stage2、stdio 客户端一次连接内完成操作,以及 MCP 不可用时的本地 fallback。文末给出完整流
_张一凡
20 小时前
人工智能
·
深度学习
·
transformer
【多模态模型学习】从零手撕一个Vision Transformer(ViT)模型实战篇
本文主要是通过自己构建一个VIT模型完成一个简单的分类任务。电脑配置:win10+RTX4080SX4
抓个马尾女孩
1 天前
人工智能
·
深度学习
·
算法
·
transformer
位置编码:绝对位置编码、相对位置编码、旋转位置编码
模型本身是“无状态”的,它看不到句子里单词的顺序(比如“我吃苹果”和“苹果吃我”,在模型眼里如果不做处理,输入的token是一样的),那它怎么区分语序、理解语义呢?答案就是「位置编码」——它就像给每个单词贴了一个“坐标标签”,告诉模型“这个单词在句子里排第1位、那个排第3位”,让模型能捕捉到语序带来的语义差异。 关于位置编码,主要分为三类:绝对位置编码(Absolute Positional Encoding)、相对位置编码(Relative Positional Encoding),以及近年来大火的旋转
张张123y
1 天前
大数据
·
人工智能
·
transformer
AI Agent Memory:从理论到实战,掌握长短期记忆的核心技术【1】
你是否遇到过这些问题?别担心!这篇文章带你深入理解AI Memory的核心原理、最新技术和实战应用,让你在面试中脱颖而出!
qq_28168421
1 天前
人工智能
·
深度学习
·
语言模型
·
重构
·
transformer
Transformer-XL:突破固定长度枷锁,重构长文本语言模型
文章速览:本文深度解读Transformer-XL核心架构,拆解段级递归与相对位置编码两大创新,彻底解决传统Transformer上下文碎片化、长依赖建模失效难题,兼顾性能与效率,是长文本AI的奠基性工作。
华农DrLai
1 天前
人工智能
·
深度学习
·
ai
·
prompt
·
bert
·
transformer
什么是角色扮演Prompt?为什么给AI设定身份能提升表现?
🚀 本文收录于Github:AI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助,欢迎 ⭐ Star 支持!
张张123y
1 天前
人工智能
·
langchain
·
transformer
·
知识图谱
知识图谱从0到1:AI应用开发的核心技术
你是否遇到过这些问题?别担心!这篇文章带你从0到1彻底搞懂知识图谱,掌握其在AI应用开发中的核心价值!
张张123y
1 天前
人工智能
·
python
·
langchain
·
transformer
AI Agent Memory:从理论到实战,掌握长短期记忆的核心技术【2】
MemGPT架构是否用户请求Main Context 主上下文窗口上下文溢出?Core Memory 核心记忆
码农三叔
2 天前
深度学习
·
机器人
·
大模型
·
transformer
·
人形机器人
(10-3)大模型时代的人形机器人感知:多模态Transformer
在大模型时代,人形机器人面对的环境不仅包含视觉信息,还可能涉及点云、语音、触觉等多种感知模态。多模态Transformer提供了统一的架构,使来自不同模态的数据能够在同一个模型中进行联合建模、语义对齐和推理,从而支持复杂任务的执行和高层决策。多模态Transformer的核心优势是信息融合能力:它可以学习模态间的交互关系,捕捉各模态的互补信息,使机器人能够在感知、理解和决策中实现更高的准确性和鲁棒性。
xx_xxxxx_
2 天前
论文阅读
·
机器学习
·
transformer
·
多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析4-代码架构
参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
中科院提名者
2 天前
线性代数
·
矩阵
·
transformer
从数学和矩阵运算的底层逻辑来透视 仅解码器 Transformer (Decoder-only Transformer) 预填充阶段的全过程
LLaMA、Mistral 和 GPT 等生成式大模型,全部采用的是 Decoder-only Transformer 架构 。理解它,就是理解至当今所有大模型的基础。
张张123y
3 天前
人工智能
·
python
·
学习
·
面试
·
架构
·
langchain
·
transformer
RAG从0到1学习:技术架构、项目实践与面试指南
在大语言模型(LLM)快速发展的今天,如何让模型能够准确回答特定领域的问题,成为了一个关键挑战。RAG(Retrieval-Augmented Generation,检索增强生成)技术应运而生,它巧妙地将信息检索与文本生成相结合,成为了解决这一问题的主流方案。本文将从零开始,系统性地介绍RAG技术的核心概念、架构设计、项目实践以及面试要点。
renhongxia1
3 天前
运维
·
人工智能
·
深度学习
·
机器学习
·
架构
·
自动化
·
transformer
PostTrainBench:LLM 代理能否自动化 LLM 后培训?
在过去的一年中,AI智能体在软件工程领域的能力已变得出奇地娴熟,这主要归功于其推理能力的提升。这引发了一个更深层次的问题:这些系统能否将其能力扩展到自动化进行人工智能研究本身?在本文中,我们探讨了后训练——这个将基础大语言模型转变为有用助手的关键阶段。
小超同学你好
3 天前
语言模型
·
架构
·
transformer
·
llama
Transformer 14. DeepSeekMoE 架构解析:与 LLaMA 以及 Transformer 架构对比
摘要:本文在 Decoder-only Transformer 与 Mixture-of-Experts(MoE)的基础上,系统介绍 DeepSeekMoE 的架构设计及与 LLaMA、标准 Transformer、GShard 的对比。内容包括:MoE 在 Transformer 中的位置(用 MoE 层替代 FFN)、DeepSeekMoE 的两大策略(细粒度专家切分、共享专家隔离)、数学形式与负载均衡、不同规模配置(2B / 16B / 145B)及与稠密模型的计算/性能对比、以及与 Transfo
小超同学你好
3 天前
语言模型
·
架构
·
transformer
·
llama
Transformer 15: DeepSeek-V2 架构解析:MLA + DeepSeekMoE 与主流架构对比
摘要:本文在 Decoder-only Transformer、LLaMA 架构 与 DeepSeekMoE 架构 的基础上,系统介绍 DeepSeek-V2 的架构设计及与 MHA/GQA/MQA、LLaMA、Mixtral 等主流架构的对比。内容包括:DeepSeek-V2 的整体定位(236B 总参数、21B 激活、128K 上下文)、Multi-head Latent Attention(MLA) 的低秩 K-V 联合压缩与解耦 RoPE、DeepSeekMoE 在 V2 中的使用及设备受限路由与