transformer

大龄程序员狗哥1 小时前
深度学习·chatgpt·transformer
第20篇:Transformer架构革命——从“注意力”到ChatGPT的基石(原理解析)几年前,我在处理一个机器翻译项目时,被一个顽固的问题困扰了很久:无论我怎么调优基于RNN或LSTM的模型,它在处理长句子时,总是会“忘记”开头的部分。比如翻译“那个穿着红色外套、戴着黑色帽子、手里拿着一本厚书的男人走进了图书馆”这样的长句,模型对“男人”的翻译(是“man”还是“man who…”)常常在句子末尾变得模糊不清。这本质上是传统序列模型在处理长距离依赖时的天然缺陷。直到Transformer架构的出现,这个问题才被一种名为“自注意力”的机制优雅地解决了。今天,从ChatGPT到BERT,几乎所
代码AI弗森2 小时前
gpt·开源·transformer
OpenMUSE 全面详解:非扩散Transformer文生图开源基座(对标GPT Image 2)当前主流文生图模型(Stable Diffusion、DALL·E系列)均基于Diffusion扩散架构,普遍存在文字渲染崩坏、构图逻辑差、推理步骤多、上下文语义丢失等痛点。而OpenAI最新闭源生图模型GPT Image 2彻底抛弃扩散路线,采用Transformer自回归Token生成范式,在密集文字、复杂构图、现实世界还原上实现断层领先,但全程闭源无法本地部署与二次改造。
speop4 小时前
人工智能·深度学习·transformer
TASK09 | Reasoning Kingdom | Transformer : 动态拓扑的注意力革命每一个 Attention Head 都在问:此刻,哪些部分对哪些部分重要?2017年6月12日,Google Brain的Ashish Vaswani等八位作者在arXiv上传了一篇论文,标题是”Attention Is All You Need”。这个标题很狂妄。当时机器翻译的主流架构是RNN(循环神经网络)和LSTM(长短期记忆网络)——它们统治NLP领域已经超过二十年。而这篇论文说:你们都不需要了,注意力机制就够了。 更狂妄的是,他们是对的。五个月后,这篇论文被NIPS 2017接收。两年后,BE
人工小情绪5 小时前
人工智能·gpt·大模型·transformer
GPT-1 论文深度解读论文标题:Improving Language Understanding by Generative Pre-Training 论文作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever (OpenAI) 发布时间:2018年 核心贡献:提出了“半监督学习”框架,即在大规模无标注文本上进行生成式预训练(Generative Pre-Training),然后在特定下游任务上进行有监督微调(Supervised Fine-Tunin
li星野21 小时前
深度学习·架构·transformer
词嵌入技术、注意力机制、MoE架构、主流Transformer架构Word2Vec通过浅层神经网络,利用滑动窗口内的局部上下文预测目标词(CBOW)或通过目标词预测上下文(Skip‑gram),将每个词映射为一个固定长度的稠密向量。
Aray12341 天前
transformer·qwen3.6·27b
Qwen3.6‑27B 开源发布:27B 稠密模型,实现旗舰级智能体编码能力2026年4月22日,通义千问团队正式开源Qwen3.6‑27B——一款270亿参数稠密多模态大模型,在主流智能体编码基准上全面超越上代开源旗舰Qwen3.5‑397B‑A17B,兼顾顶级性能与轻量化部署,成为开发者的理想选择。
ACCELERATOR_LLC1 天前
人工智能·学习·语言模型·transformer
【DataWhale组队学习】DIY-LLM Task3 语言模型架构和训练的技术细节原文链接这一章表面上是在讲Transformer和介绍一些现代大模型结构,但是重点是要理解现代LLM在归一化、FFN、激活函数、位置编码、注意力机制这些模块上到底改了什么,为什么要改,以及这些改动分别解决了哪些问题,比如训练稳定性、显存、上下文长度。
weixin_贾1 天前
深度学习·transformer·私有化部署·ai agent·本地模型·openclaw·pytorch基础
【科研AI实战】Python高阶+PyTorch+OpenClaw智能体,全栈技术详解随着观测技术、数值模拟与计算基础设施的迅猛发展,科学研究的范式正经历从"人工编程"到"智能体自动化"的深刻变革。无论您从事生命科学、环境科学、材料研究还是社会科学,都面临着共同的挑战:海量异构数据的处理耗时、复杂模型的编程门槛、以及从Idea到论文的漫长转化链条。本课程正是为突破这些瓶颈而生。我们不仅提供从Python基础到PyTorch深度学习的完整技术栈,更前瞻性地引入大模型工程化与自动化智能体(Agents)技术,打造"AI赋能的科研全链条":
Code-keys1 天前
深度学习·音视频·transformer
基于 Transformer 的时序生成:从音频到量化交易的统一时序建模近年来,Transformer 逐渐取代传统 RNN/CNN,成为时序建模的“万金油”。本文基于 nn.Transformer,总结一套可快速落地于音频生成、量化交易和通用时序预测的实践路径。 AudioZoom工程:见文末
serve the people1 天前
人工智能·lstm·transformer
XGBoost、LSTM、Transformer 在时序异常检测中的原理与选型在构建基于机器学习的异常流量识别系统时,常见的模型选择包括 XGBoost、LSTM 和 Transformer。三者的适用场景、资源要求和数据预处理方式差异显著。本文从原理出发,结合实际工程约束,给出清晰的选型依据和预处理方案。
小超同学你好2 天前
人工智能·深度学习·transformer
Transformer 27. Vision Transformer(ViT):把图像当作「词序列」的编码器摘要:本文解读 Google Research 提出的 Vision Transformer(ViT)(Dosovitskiy et al., 2021):在不改动 Transformer 编码器主干的前提下,将图像切成固定大小的 Patch,经线性嵌入与 可学习位置编码 组成序列,配合 类别 Token(class token) 做图像分类。文中说明 ViT 与 CNN 在 归纳偏置 上的差异、为何依赖 大规模预训练、序列长度与 patch 尺寸 对算力的影响,并给出与张量形状、单层计算相对应的直觉与公
高洁012 天前
人工智能·python·深度学习·机器学习·transformer
计算机视觉实战:图像去噪模型训练与应用计算机视觉实战:图像去噪模型训练与应用一、 图像噪声是什么?从哪来? 二、 从传统方法到深度学习 三、 从CNN到Transformer 四、 训练一个去噪模型:关键环节 五、 去噪模型的应用场景
j_xxx404_3 天前
人工智能·ai·transformer
大语言模型 (LLM) 零基础入门:核心原理、训练机制与能力全解上篇文章:面试官灵魂拷问:Linux软链接与硬链接到底有什么区别?(附底层Inode级深度图解)下篇文章:【AI大模型入门(二)】提示词工程进阶
<-->3 天前
人工智能·pytorch·python·深度学习·transformer
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)都是目前训练大规模语言模型(LLM)最主流的开源框架,但它们的核心设计思路和侧重点有着本质的区别。
melonbo3 天前
rnn·lstm·transformer
RNN LSTM seq2seq 注意力机制 Transformer ,演化路径它们之间的关系本质上是一段如何让模型更好地理解和生成序列数据的探索史。下图清晰地勾勒了这一发展主线与核心思想:
爱编程的小吴3 天前
人工智能·pytorch·transformer
PyTorch+Transformer大模型入门到精通:LLM训练、推理、量化、部署全攻略先一句话讲清楚:这篇文章就是你的完整学习地图,从环境搭建到上线服务,一步到位。你只需要装两个核心工具,其他依赖我会一次性给你命令。
AI医影跨模态组学3 天前
人工智能·深度学习·论文·transformer·医学·医学影像
Eur Radiol(IF=4.7)山西医科大学第一医院核磁影像科王效春等团队:基于Transformer增强型卷积神经网络的多中心MRI评估膀胱癌肌层浸润01文献学习今天分享的文献是由山西医科大学第一医院核磁影像科王效春教授等团队于2026年4月4日在《European Radiology》(中科院2区,IF=4.7)上发表的研究“Application of transformer-enhanced convolutional neural network: multicenter MRI assessment of muscle invasion in bladder cancer”即基于Transformer增强型卷积神经网络的多中心MRI评估膀胱癌
YuanDaima20483 天前
开发语言·人工智能·python·语言模型·架构·transformer
大语言模型生命周期全链路解析:从架构基石到高效推理🔗 查看完整专栏(LLM 学习笔记)特别说明: 本专栏文章为个人学习笔记,内容仅供学习与交流使用,禁止转载或用于商业用途。笔记为个人理解与总结,可能存在疏漏或偏差,欢迎读者参考并自行甄别。
code_pgf3 天前
transformer
HLE测评LLM下面是一版单文件、可直接跑的 Python 测评代码。它兼容 OpenAI-compatible API,支持:
code_pgf3 天前
transformer
LLM高难度测评体系-Humanity’s Last Exam(HLE)及与其它测评对比Humanity’s Last Exam(HLE) 是一个面向专家级闭卷学术能力的高难度评测基准,目标是在传统 benchmark 逐渐饱和后,继续衡量前沿模型在高阶知识、深度推理和多学科综合能力上的真实差距。HLE 正式公开集包含 2,500 道题,覆盖 100+ 学科,由近 1,000 名专家贡献,贡献者来自 500+ 机构、50 个国家;题型包括 exact-match 短答案与多选题,并包含一定比例的多模态题。([Nature][1])