transformer

Loo国昌3 小时前
人工智能·后端·深度学习·自然语言处理·架构·transformer·embedding
【垂类模型数据工程】第四阶段:高性能 Embedding 实战:从双编码器架构到 InfoNCE 损失函数详解“Good representations are the foundation of AI.” —— 优秀的表示层是人工智能的基石。本章将从零开始,深入探讨如何构建用于语义检索(Semantic Search)和 RAG 的高性能嵌入模型。
dawdo2224 小时前
缓存·llm·transformer·qwen·kv cache
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化在大语言模型的推理过程中,生成每个token都需要计算之前所有token的注意力权重。如果不使用缓存,每次生成都需要重新计算所有历史token的Key和Value,这会导致巨大的计算开销。KV缓存(Key-Value Cache)技术通过缓存历史token的K和V,在后续生成中只计算新token的K和V,从而大幅提升推理性能。
LCG米5 小时前
pytorch·cnn·transformer
基于PyTorch的Transformer-CNN时序预测实战:从特征工程到服务化部署时序预测是工业生产、金融风控、能源调度等领域的核心需求,传统的ARIMA、LSTM等方法在处理长序列依赖和局部特征提取时存在局限性。本文将结合Transformer的长序列建模能力和CNN的局部特征提取优势,基于PyTorch实现一个端到端的时序预测系统,完整覆盖从数据预处理、特征工程、模型构建、训练验证到最终服务化部署的全流程。
副露のmagic1 天前
深度学习·bert·transformer
草履虫级 Transformer code by hand以一个比较简单的例子写一写transformer的代码,数据来源是《鲁迅全集》,简要展示一下:目的是续写后面的内容,或者说是生成类似风格的一段话吧(= -=) 效果也展示一下:最后会把整体代码贴上来
香芋Yu1 天前
深度学习·架构·transformer
【大模型教程——第二部分:Transformer架构揭秘】第2章:模型家族谱系:从编码器到解码器 (Model Architectures)“The best way to predict the future is to invent it.” - Alan Kay
飞鹰511 天前
c++·人工智能·深度学习·学习·transformer
深度学习算子CUDA优化实战:从GEMM到Transformer—Week4学习总结副标题:系统掌握DL算子优化技术,构建高性能Transformer经过前三周的CUDA基础学习,这周我们终于要进入深度学习领域的核心战场了。说实话,当我第一次看到Transformer的GEMM优化能提升10倍性能时,那种震撼感至今难忘。这周我们会深入三个最关键的深度学习算子:GEMM、Softmax和LayerNorm,最后把它们组装成一个完整的Transformer Layer。
shangjian0071 天前
人工智能·语言模型·transformer
AI-大语言模型LLM-Transformer架构7-模型参数量计算为避免一学就会、一用就废,这里做下笔记给出HuggingFace上模型Langboat/bloom-1b4-zh的结构信息如下:
斐夷所非1 天前
transformer
Jay Alammar | 图解 Transformer注:本文为 “图解 Transformer” 相关译文。 英文引文,机翻未校。 如有内容异常,请看原文。
人工智能培训2 天前
人工智能·深度学习·机器学习·transformer·知识图谱·数字孪生·大模型幻觉
基于Transformer的人工智能模型搭建与fine-tuning
人工智能培训2 天前
人工智能·深度学习·机器学习·大模型·transformer·企业数字化转型
基于Transformer的人工智能模型搭建与fine-tuning二
缘友一世2 天前
分布式·架构·transformer·ray·vllm
大模型分布式推理:Ray 与 vLLM/Transformers 的协同架构深度解析官方资源导航:启动阶段的资源编排: 当执行 vllm serve 命令并指定 --distributed-executor-backend ray 时,系统触发以下初始化流程。
Loo国昌3 天前
人工智能·后端·深度学习·算法·语言模型·自然语言处理·transformer
【Transformer解析】第二阶段:深度解析Encoder、Decoder与Encoder-Decoder架构了解不同架构的特长,选择最适合你任务的模型。在第1阶段中,我们深入学习了Transformer的核心机制——注意力、位置编码、前馈网络。但你是否好奇:为什么BERT擅长理解文本,而GPT擅长生成文本?为什么有的模型既能理解又能生成?
错把套路当深情3 天前
人工智能·tensorflow·transformer
通俗易懂的 TensorFlow 和 TransformersTensorFlow:是由 Google 开发的一个开源机器学习框架,是一个功能全面的深度学习框架,不仅支持 NLP,还支持图像、语音等任务,适用于各种机器学习任务的模型训练和推理。用来训练自定义模型
Wilber的技术分享3 天前
人工智能·深度学习·transformer·大语言模型·大模型面试题·面试八股
【大模型面试八股 1】Transformer注意力机制:MHA、MQA、GQA、MLA原理解析与对比在自然语言处理(NLP)、计算机视觉(CV)等领域的突破性进展中,Transformer架构作为核心模型之一,已经成为众多任务的标准框架。然而,随着模型规模的持续增长,传统的多头注意力机制(MHA)在计算效率和内存消耗方面逐渐暴露出瓶颈。为了解决这些问题,研究者提出了新型的注意力机制,如多查询注意力(MQA)、分组查询注意力(GQA)和多头潜在注意力(MLA),它们通过不同的优化策略提升了Transformer的效率。
咚咚王者3 天前
人工智能·深度学习·transformer
人工智能之核心技术 深度学习 第五章 Transformer模型第五章 Transformer模型自 2017 年 Google 提出 Transformer 以来,它彻底重塑了自然语言处理(NLP)乃至整个深度学习领域。凭借其强大的并行化能力和长距离依赖建模能力,Transformer 不仅取代了 RNN/CNN 成为 NLP 主流架构,还成功跨界到计算机视觉、语音、生物信息学等领域。
范桂飓3 天前
人工智能·gpt·语言模型·transformer
Transformer 大模型架构深度解析(5)GPT 与 LLM 大语言模型技术解析自 2017 年 Transformer 架构面世之后,NLP 领域就进入了 PLM(Pretrain Language Model,预训练语言模型)时代,典型代表是 Decoder-Only 流派的 GPT-1/2 和 Encoder-Only 流派的 BERT。
shangjian0073 天前
人工智能·语言模型·transformer
AI-大语言模型LLM-Transformer架构6-输出层为避免一学就会、一用就废,这里做下笔记Linear也是一种前馈神经网络,但相比Transformer内部的多层非线性神经网络(多层感知机),Linear没有隐藏层和激活函数,是一种简单的线性神经网络(单层感知机)
机器学习之心3 天前
深度学习·gru·transformer
TCN-Transformer-GRU组合模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析MATLAB代码
shangjian0073 天前
人工智能·语言模型·transformer
AI-大语言模型LLM-Transformer架构5-残差连接与前馈网络为避免一学就会、一用就废,这里做下笔记简单说:如果注意力层是让每个词"看到"其他词,那么前馈网络就是让每个词"深入思考"自己。两者结合,才能实现真正的理解。