transformer

高洁014 小时前
算法·机器学习·数据挖掘·transformer·知识图谱
基于物理交互的具身智能决策框架设计基于物理交互的具身智能决策框架设计一、 为什么物理交互是决策的关键? 二、 决策框架的核心设计原则#物理交互#具身智能决策框架#决策闭环#物理常识#力控制
Sherlock Ma5 小时前
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
强化学习入门(2):DQN、Reinforce、AC、PPODQN(Deep Q-Network)是一种将深度学习与强化学习中的Q-learning算法相结合的方法,用于解决高维状态空间下的决策问题。DQN能够在诸如Atari游戏等复杂任务中取得人类水平甚至超越人类的表现,成为深度强化学习发展中的一个重要里程碑。
盼小辉丶7 小时前
深度学习·自然语言处理·transformer
Transformer实战(35)——跨语言相似性任务跨语言模型能够以统一的形式表示文本,即使句子来自不同的语言,只要它们的意义相近,就会被映射到向量空间中的相似向量,XLM-R (XLM-Robust) 是流行跨语言模型之一。接下来,我们使用 XLM-R 模型进行实际应用,应用跨语言模型来衡量不同语言之间的相似性。
power 雀儿1 天前
人工智能·深度学习·transformer
Transformer输入嵌入与绝对位置编码输入嵌入的核心作用是将离散的词汇token转化为连续的向量表示,便于模型进行后续的语义计算,其维度计算逻辑遵循固定规则:嵌入矩阵维度 = 词汇表大小 × 隐藏层维度。
攒了一袋星辰1 天前
人工智能·深度学习·transformer
Transformer词向量与自注意力机制Transformer是由Google在2017年当中的论文提出的,其主要核心是通过词向量与自注意力机制缓解传统RNN算法对长时间序列在反向传播过程当中对于cell的梯度下降问题。
铁手飞鹰1 天前
人工智能·pytorch·python·深度学习·transformer
[深度学习]Vision Transformer
皮肤科大白1 天前
深度学习·transformer
超轻量SAM模型部署:ONNX量化与Transformer剪枝全攻略以下是超轻量SAM模型部署的技术方案,涵盖ONNX量化与Transformer剪枝的完整实施流程:导出基础ONNX模型
Loo国昌1 天前
人工智能·后端·深度学习·自然语言处理·transformer
【大模型应用开发】第三阶段:深度解析检索增强生成(RAG)原理本章定位: 构建基于外部知识库的增强生成系统核心内容: RAG标准架构 → Chunking策略 → 检索技术 → 重排序 → 高级RAG变体
查无此人byebye1 天前
人工智能·pytorch·python·深度学习·音视频·transformer
深度解析:当前AI视频生成为何普遍“短小精悍”?随着AIGC技术的爆发,文本生成图像、语音合成已经实现“即输即得”,但视频生成领域始终存在一个普遍痛点——绝大多数工具(无论是即梦、Runway Gen-2,还是国内的各类文生视频平台),都只能生成几秒到十几秒的短视频,超过30秒的生成不仅难度陡增,还常出现画面卡顿、逻辑断裂、质量崩坏等问题。
power 雀儿1 天前
深度学习·架构·transformer
Transformer 整体架构核心定位:Transformer说白了就是现在所有大模型(比如Llama2、Qwen-2)的“骨架”,它最核心的地方就是抛开了传统的RNN、CNN,改用自注意力机制,既能实现并行计算提速,又能精准抓住长文本里的语义关联,而后续需要学的C++大模型推理,全程都要围着它的“仅Decoder架构”。
落雨盛夏1 天前
人工智能·深度学习·transformer
深度学习|李哥考研——transformerFNN:feedforward Neural Network:最基础最经典的人工神经网络——传统神经网络
Network_Engineer1 天前
人工智能·pytorch·深度学习·transformer
从零手写Transformer:基于每一步shape变化拆解与PyTorch实现本文将用PyTorch从零实现一个完整的Transformer模型,并通过张量形状变化和广播机制详解其内部工作原理。
马武寨山的猴子2 天前
架构·transformer·moe·ktransformers·sglang
【KTransformers+SGLang】:异构推理架构融合与性能实测全解析期望使用KTransformers的将部分模型加载到内存和cpu上,达到在GPU资源比较匮乏的情况下运行一些超过显存的模型,并且达到一定的token数,可以多人同时使用
Mr. zhihao2 天前
人工智能·transformer·word2vec
从 Word2Vec 到 Transformer:Attention 是如何被“逼出来的”?在上一篇文章中,我们分析了 Word2Vec 的定位与三大核心缺点:这些缺点决定了:Word2Vec 只能用于表示学习,而无法支撑真正高质量的文本生成。
机器学习之心HML2 天前
pytorch·回归·transformer
GCN-TCN-Transformer回归模型 + SHAP 可解释性分析 Pytorch实现模型架构:GCN-TCN-Transformer 回归模型GCN 模块:深度空间特征提取与交互 该模型首先引入图卷积网络(GCN),将输入特征之间的潜在关系建模为图结构,利用邻接矩阵定义特征节点的连接强度。通过多层图卷积操作,每个特征节点动态聚合其邻居节点的信息,生成富含局部上下文的高维嵌入表示。这一过程使模型能够捕捉特征间深层的、非线性的空间依赖模式,超越传统方法对特征独立处理的局限,显著提升对复杂结构数据的表征能力。
Loo国昌3 天前
人工智能·后端·深度学习·自然语言处理·架构·transformer·embedding
【垂类模型数据工程】第四阶段:高性能 Embedding 实战:从双编码器架构到 InfoNCE 损失函数详解“Good representations are the foundation of AI.” —— 优秀的表示层是人工智能的基石。本章将从零开始,深入探讨如何构建用于语义检索(Semantic Search)和 RAG 的高性能嵌入模型。
dawdo2223 天前
缓存·llm·transformer·qwen·kv cache
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化在大语言模型的推理过程中,生成每个token都需要计算之前所有token的注意力权重。如果不使用缓存,每次生成都需要重新计算所有历史token的Key和Value,这会导致巨大的计算开销。KV缓存(Key-Value Cache)技术通过缓存历史token的K和V,在后续生成中只计算新token的K和V,从而大幅提升推理性能。
LCG米3 天前
pytorch·cnn·transformer
基于PyTorch的Transformer-CNN时序预测实战:从特征工程到服务化部署时序预测是工业生产、金融风控、能源调度等领域的核心需求,传统的ARIMA、LSTM等方法在处理长序列依赖和局部特征提取时存在局限性。本文将结合Transformer的长序列建模能力和CNN的局部特征提取优势,基于PyTorch实现一个端到端的时序预测系统,完整覆盖从数据预处理、特征工程、模型构建、训练验证到最终服务化部署的全流程。
副露のmagic4 天前
深度学习·bert·transformer
草履虫级 Transformer code by hand以一个比较简单的例子写一写transformer的代码,数据来源是《鲁迅全集》,简要展示一下:目的是续写后面的内容,或者说是生成类似风格的一段话吧(= -=) 效果也展示一下:最后会把整体代码贴上来