transformer

Jmayday8 小时前
人工智能·自然语言处理·transformer
NLP第四章:Transformer架构目录一、认识Transformer架构二、输入部分实现三、编码器部分实现四、解码器部分实现五、输出部分实现
大梦谁先觉i10 小时前
transformer·guava
Milvus 向量数据库:原理详解、离线部署、可视化配置与全套实操教程随着大模型、RAG 检索增强生成、人工智能检索业务快速发展,传统关系型数据库无法处理高维向量数据的相似度匹配场景。Milvus 作为开源、高性能、分布式的向量数据库,专为海量高维向量检索设计,支撑万亿级向量毫秒级查询,是目前 AI 应用落地的核心中间件。
猫先生Mr.Mao11 小时前
人工智能·架构·大模型·llm·transformer
一文梳理主流 LLM 架构技术演进经典文章回顾:写在前面 【从零走向AGI】旨在深入了解通用人工智能(AGI)的发展路径,从最基础的概念起,逐步构建完整的知识体系。
z小猫不吃鱼12 小时前
学习·bert·transformer
08 BERT 论文精读:双向 Transformer 如何学习语言表示?在上一篇文章中,我们精读了 GPT-1。GPT-1 的核心思想是:先使用 Transformer Decoder 在大规模无标注文本上进行生成式预训练,然后再把预训练模型迁移到下游 NLP 任务中进行微调。它走的是 从左到右的自回归语言模型路线。
小程故事多_8013 小时前
人工智能·transformer
深入解析FlashAttention,大模型长序列训练的底层优化核心技术随着大语言模型、生成式人工智能技术的快速发展,超长文本理解、长对话生成、长文档摘要等场景逐渐成为行业主流。而支撑这些场景的核心网络结构,就是Transformer模型的自注意力机制。自注意力机制具备强大的全局特征捕捉能力,是所有主流大模型的核心基石,但原生自注意力算法存在显存占用过高、运算效率低下的致命问题,严重限制了长序列模型的训练和推理效率。FlashAttention的出现,彻底解决了这一行业痛点,如今已经成为各大主流大模型训练与推理的标配底层技术。本文将从基础原理、硬件瓶颈、核心优化逻辑、前后向传
西西弗Sisyphus14 小时前
transformer·attention·注意力·self-attention·nanogpt
构建中文版的 nanoGPT - 断点续训(resume from checkpoint)flyfish参考网址断点续训(resume from checkpoint)是指在训练过程中中断后,能够从上次中断的位置继续训练,而不是从头开始。这对于大规模数据集训练尤为重要,可以:
高洁0116 小时前
人工智能·python·数据挖掘·transformer·知识图谱
智能体如何改变工作流一、工作流的“痛点智能体如何改变工作流 一、工作流的“痛点”:繁琐、重复、易出错 二、智能体如何“潜入”工作流:三个关键角色 三、真实场景:智能体改造工作流的三大案例 四、工作流被“刷新”:不可逆的变化趋势 五、迎接智能体工作流:挑战与准备
weixin_4684668516 小时前
人工智能·架构·transformer·ssm·注意力机制·mamba·状态空间方程
Mamba 架构新手入门与实战指南在深度学习领域,Transformer 架构凭借自注意力机制统治了自然语言处理多年,但随着序列长度的增加,其计算复杂度呈平方级增长,显存占用和推理延迟成为难以忽视的瓶颈。许多开发者在面对长文本任务时,常常陷入“算力不够”或“速度太慢”的困境,迫切寻找一种既能保持高性能又能线性扩展的新方案。Mamba 模型的出现恰好击中了这一痛点,它基于状态空间模型(SSM),实现了线性时间的推理速度和恒定的内存占用,为长序列建模打开了新的大门。
西西弗Sisyphus16 小时前
transformer·attention·注意力·self-attention·nanogpt
构建中文版的 nanoGPT - 中文版 nanoGPT 的分词(tokenization)flyfish 参考网址token 是模型用来表示自然语言文本的基本单位,即是模型用来表示自然语言文本的的最小单位。可以直观的理解为字或词;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token,不同的分词器有不同的分法,有的可能一个汉字为0点几个token。
z小猫不吃鱼17 小时前
gpt·深度学习·transformer
05 Transformer Decoder 详解:GPT 为什么使用 Decoder?在前面几章中,我们已经依次介绍了大语言模型的基本背景、从 RNN 到 Transformer 的演进过程,以及 Self-Attention 中 Q、K、V 的具体含义。
z小猫不吃鱼18 小时前
人工智能·语言模型·自然语言处理·transformer
06 Tokenizer 详解:BPE、WordPiece、SentencePiece 有什么区别?在前面几章中,我们已经介绍了 Transformer、Self-Attention 和 GPT 为什么使用 Decoder-only 架构。到这里,一个非常基础但容易被忽略的问题出现了:
weixin_4684668518 小时前
人工智能·python·深度学习·机器学习·transformer·热力图·注意力机制
Transformer 模型新手入门与实战指南很多刚接触深度学习的开发者,往往被环境配置劝退。明明只是想跑通一个文本情感分析的 Demo,却在安装 CUDA、匹配 PyTorch 版本、解决依赖冲突上耗费了整整两天。这种“还没开始学算法,先成了运维专家”的挫败感,让不少人望而却步。其实,随着工具链的成熟,搭建深度学习环境的门槛已经大幅降低。只要理清思路,利用现成的生态工具,我们完全可以在半小时内从零构建起可用的开发环境,并直接上手核心任务。
君为先-bey1 天前
深度学习·音视频·transformer·扩散模型
CogVideoX——Transformer从文本到视频的扩散模型论文标题:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
这是谁的博客?1 天前
深度学习·ai·架构·transformer·ssm·mamba·状态空间模型
Mamba 状态空间模型深度解析:挑战 Transformer 的新一代架构本文深入解析 Mamba 状态空间模型(SSM)的核心原理,探讨其如何通过选择性状态空间机制实现线性时间复杂度的序列处理,并与 Transformer 架构进行全面对比。读者将理解 Mamba 的数学基础、架构设计及其在长序列建模中的优势与局限。
AndrewHZ1 天前
人工智能·深度学习·ai·语言模型·大模型·llm·transformer
【大模型技术博客】什么是大语言模型(LLM)?从零认识AI新范式摘要:本文是《大模型技术博客》系列的开篇之作。我们将从零开始,系统性地介绍什么是大语言模型(Large Language Model, LLM),它的发展历程、核心技术特点,以及它为什么是人工智能领域的一场"范式革命"。无论你是AI初学者,还是希望转型的开发者,这篇文章都将为你打开大模型技术的大门。
名字不好奇2 天前
llm·transformer
多模态大模型原理:一切皆向量,一切皆可生成这个系列前文讲了好几篇,全是纯文本大模型——输入是文字,输出也是文字,一切都是 token。但你有没有好奇过:为什么 ChatGPT 能回答"这张图里有什么"?为什么你发给它一张手绘数学题,它能帮你解题?
sugar__salt2 天前
开发语言·python·ai·prompt·transformer·ai编程
从Python列表切片到LLM接口实战:零基础AI编程落地教程本文将从底层基础出发,依次讲解Python核心数据结构List、切片语法、AI开发常用工具平台、Notebook开发范式,最后结合DeepSeek大模型接口,完成电商Prompt工程+LLM接口调用完整实战案例,全程干货无废话,适合新手学习、技术复盘与公开分享。
我滴老baby2 天前
深度学习·架构·transformer
Transformer深入详解-现代大模型核心架构📝 本章学习目标:通过本章学习,你将深入理解 Transformer 架构的每一个组件——从自注意力机制到位置编码,从多头注意力到前馈网络,掌握其数学原理与工程实现,并理解为何它成为 GPT、BERT、Claude 等所有现代大模型的基石。
Mem0rin2 天前
android·深度学习·transformer
[LLM基础] Transformer 库的使用画师:竹取工坊 大佬们好!我是Mem0rin!现在正在准备自学转码。 如果我的文章对你有帮助的话,欢迎关注我的主页Mem0rin,一起进步!
学习中.........2 天前
语言模型·架构·transformer
万字硬核解析:从零看透 Transformer 与大语言模型(架构、数学与工程实践)在当前 AI 工程落地的浪潮中,大语言模型(LLM)的底层逻辑不仅是算法工程师的专属,更是每一位后端架构师和研发人员必须掌握的工程基础。本文旨在帮助从零开始的技术人员系统入门 LLM 基础架构 Transformer。