transformer

DisonTangor7 小时前
人工智能·语言模型·自然语言处理·开源·aigc·transformer
谷歌开源首个扩散大语言模型——DiffusionGemmaHugging Face | GitHub | 发布博客 | 文档 许可证: Apache 2.0 | 作者: Google DeepMind
AndrewHZ14 小时前
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?摘要:本文是《LLM技术全景:从Token到部署》系列第六篇。随着LLaMA开源引爆生态,现在已有数十个开源大模型可供选择。但"选择困难症"也随之而来:LLaMA、ChatGLM、Qwen、DeepSeek、Mistral……到底哪个更适合我的项目?本期将系统对比主流开源模型的技术特点、中文能力、部署成本,并提供一套"模型选择决策树",帮助开发者在2026年做出最合适的技术选型。
机器学习之心16 小时前
回归·lstm·transformer·扩散模型
扩散模型数据增强 + Transformer-LSTM 回归预测:小样本场景下的工业级解决方案摘要:在小样本回归任务中,数据稀缺往往是制约模型性能的核心瓶颈。本文将扩散模型(Diffusion Model)作为数据生成引擎与 Transformer-LSTM 深度回归网络深度融合,构建了一套端到端的小样本增强预测框架。实验结果表明,经扩散模型数据增强后,Transformer-LSTM 回归模型在测试集上取得了 MAE = 1.0122、RMSE = 1.2945、R² = 0.9007 的优异性能,充分验证了该技术路线在工业小样本场景中的实用价值。
谷哥的小弟18 小时前
人工智能·深度学习·神经网络·大模型·transformer·大语言模型
大模型核心基础知识(18)—Transformer模型的提出背景Transformer模型是现代大模型发展过程中的重要转折点。它改变了自然语言处理领域长期依赖循环结构进行序列建模的技术路径,使模型在并行计算能力、长距离依赖建模能力和大规模预训练适配性方面取得了明显进展。正是从Transformer开始,预训练模型的能力提升进入更快的发展阶段,后续BERT、GPT等代表性模型也大多建立在这一架构基础之上。
盼小辉丶19 小时前
深度学习·计算机视觉·transformer
视觉Transformer实战 | Twins空间注意力机制详解与实现视觉任务里,标准全局自注意力在高分辨率输入上代价太高;纯局部窗口注意力虽然更省算力,但跨窗口信息不足,对检测、分割这类密集预测任务并不友好。Twins 因此提出了两条路线:Twins-PCPVT 和 Twins-SVT,前者重点改位置编码,后者重点改空间注意力设计。本文将详细介绍 Twins 网络的技术原理,并提供完整的 PyTorch 实现。
吴佳浩 Alben2 天前
人工智能·ai·transformer
Hermes vs OpenClaw:基于源码的 Agent Loop 全面分析作者:吴佳浩撰稿时间:2026-6-7最后更新:2026-6-10声明:本文所有结论均来自俺对两个仓库源码的分析和测(转载请注明出处 吴佳浩Alben) Hermes: github.com/NousResearch/hermes-agent OpenClaw: github.com/openclaw/openclaw
装不满的克莱因瓶2 天前
人工智能·python·深度学习·数学·ai·transformer
掌握多头自注意力机制(Multi-Head Self-Attention)——Transformer 强大表达能力的核心来源目录一、前言二、为什么需要多头自注意力(一)单头Attention的问题(二)现实语言关系非常复杂1、语法关系
高洁012 天前
深度学习·机器学习·transformer·virtualenv·知识图谱
知识图谱与推荐系统实战知识图谱与推荐系统实战一、传统推荐系统的“天花板” 二、知识图谱:推荐系统的“第二只眼” 三、实战方法:图谱怎么“喂”给推荐系统 四、实战案例:电商与内容平台的落地 五、落地挑战与实战建议
啦啦啦_99992 天前
人工智能·深度学习·transformer
4. Transformer_4_输出部分2️⃣ 输出部分:输出部分包含:linear线性层、softmax层;经过 Linear层:对于分类任务,如 18分类的人名分类器,则Linear最后输出层即为18,再进行 softmax;
CV-deeplearning3 天前
gpt·大模型·transformer·李沐·论文精读·ai学习路线
李沐论文精读合集:67 篇深度学习经典论文逐段精读,从 AlexNet 到 Sora,B 站播放百万级的 AI 自学圣经💡 学深度学习读不懂论文?跟着李沐逐段精读!从 AlexNet 到 Sora,从 Transformer 到 GPT-4,67 篇经典论文逐段拆解,每篇 40-90 分钟深度讲解,B 站百万播放量的论文精读项目。涵盖 CNN 架构演进、Transformer 全家桶、生成模型、分布式训练、大语言模型、多模态等 8 大方向,配套《研究的艺术》4 讲教你做科研。全网最系统的 AI 论文学习路线,没有之一。
啦啦啦_99993 天前
android·深度学习·transformer
4. Transformer_3_解码器部分作为解码器的组成单元,每个解码器层根據给定的输入向目标方向进行特征提取操作,即解码过程;init中:参数:size, self_attn, src_attn, feed_forward, dropout;size词嵌入维度、self_attn自注意力机制、src_attn一般注意力、feed_forward前馈全连接层对象、dropout随机失活的系数; forward中:参数: x, memory, source_mask, target_mask;x是来自解码器端的输入、memory来自编码器的输出结
Henry Zhu1233 天前
transformer
大语言模型地基模块-Transformer详解本文根据 Jay Alammar 的 The Illustrated Transformer 整理。图片来自原文正文,文字部分改写为中文教程,目标是让没有编程和机器学习背景的读者也能一步步理解 Transformer 的核心原理,并在关键地方补上必要的数学解释。
AI探索先锋3 天前
人工智能·transformer·wwdc
[特殊字符] Siri AI 炸场 WWDC!苹果联手谷歌 Gemini 打造“真·AI助手“,13人公司掀翻Transformer|AI科技热线📅 2026.06.09 星期二 🎯 今日关键词:WWDC Siri AI · 苹果×谷歌合体 · ChatGPT超级应用 · SubQ掀翻Transformer · 阿里AI重组 · AI自发形成人类认知
zcg19423 天前
计算机视觉·transformer
开源+轻量的文生图模型——z-imagetext-to-image (T2I)generation图像生成领域中表现最好的是商业闭源proprietary方案,如Nano Banana Pro 和Seedream 4.0,在开源方案中,如Qwen-Image, Hunyuan-Image-3.0 ,FLUX.2,参数也要20B~80B,而z-image只需要6B参数,显存VRAM也只需要16GB。效果可以达到照片级生成和双语渲染photorealistic generation and bilingual text rendering。效果逼近
程序员小嬛3 天前
人工智能·深度学习·神经网络·transformer·论文笔记
2026年因果推断与多目标优化结合的前沿思路小伙伴们好,我是小嬛。专注于人工智能、计算机视觉、AI大模型领域相关分享研究。【目标检测、图像分类、图像分割、目标跟踪等项目都可做,相关领域论文辅导也可以找我;需要的可联系(备注来意)】
大江东去浪淘尽千古风流人物4 天前
深度学习·计算机视觉·transformer·slam·vio·3d重建
【VGGT-Ω】前馈式3D重建的规模化之路:Register Attention、自监督训练与10B参数Scaling Law深度解析现有前馈式3D重建模型(如VGGT、DUSt3R、MASt3R)虽然摆脱了后优化流程,但模型规模和数据规模对重建精度的影响尚未被系统探索。VGGT-Ω 在架构、数据和训练三个维度同时做了规模化改进:引入 Register Attention 替代部分全局注意力以降低计算开销,用单一 Dense Head + Pixel Shuffle 替代多头 DPT 以节省显存,并构建了覆盖4M序列(含动态场景)的高质量标注流水线。最终在 Sintel 上相机位姿估计 AUC@3° 从22.5提升到40.0(+77%)
大江东去浪淘尽千古风流人物4 天前
网络·数码相机·3d·transformer·slam·3d重建·cvpr2025
【VGGT】统一3D重建:单网络同时预测相机位姿、深度图、点云与3D轨迹的前馈Transformer架构深度解析VGGT(Visual Geometry Grounded Transformer)是Meta Research提出的1.2B参数前馈Transformer,能在1秒内从1~100+张图像中同时推断相机参数、点云图、深度图和3D点轨迹。通过Alternating Attention机制(帧内与全局自注意力交替)替代传统Cross-Attention,在相机估计、多视图深度、稠密重建和3D跟踪四项任务上均达到SOTA,且无需迭代优化。论文发表于CVPR 2025。
zhangfeng11334 天前
深度学习·架构·transformer
思维链 ,Anthropic Mythos模型的 Looped Transformer架构解析,claud为什么厉害性能优越的研究视频来源 https://www.bilibili.com/video/BV1DY7C6nEWM/?spm_id_from=333.1007.tianma.1-1-1.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef
SiYuanFeng4 天前
人工智能·面试·transformer·agent·rag
大模型 / RAG / Agent 面试高频题这篇文章《大模型 / RAG / Agent 面试基础高频题》,适合准备以下方向:(这里主要是介绍自己的项目,这里就不给出标准答案了)