transformer

kebijuelun5 小时前
人工智能·深度学习·算法·transformer
Learning Personalized Agents from Human Feedback:用人类反馈训练可持续个性化智能体很多 AI 助手在 初次见面 和 用户偏好变化 时会掉链子。传统方法依赖历史数据或静态用户画像,一旦用户换了口味、场景变了,系统就会“自信但错误”。这篇论文提出 PAHF(Personalized Agents from Human Feedback),把互动本身当作学习信号,让智能体在 行动前问清楚、行动后及时纠错,并把这些信息写入显式记忆,从而实现 持续个性化。
homelook8 小时前
人工智能·自然语言处理·transformer
Transformer架构,这是现代自然语言处理和人工智能领域的核心技术。Transformer由Vaswani等人在2017年的论文《Attention Is All You Need》中提出,彻底改变了深度学习领域。
Ethan Hunt丶1 天前
人工智能·深度学习·算法·transformer·脑机接口
MSVTNet: 基于多尺度视觉Transformer的运动想象EEG分类模型本文围绕脑机接口(BCI)中的核心问题——运动想象(MI)脑电(EEG)解码展开。由于 EEG 信号信噪比低、非平稳性强、个体差异明显,同时又包含复杂的多尺度时空特征,使得高精度解码始终具有挑战性。 传统方法依赖神经生理先验与手工特征设计,泛化能力有限;深度学习方法虽然提升了自动特征学习能力,但仍存在不足:CNN 更擅长局部特征提取,却难以建模长时依赖;Transformer 具备全局建模能力,却往往忽略不同时间尺度之间的特征交互。 为此,本文提出 MSVTNet(Multi-Scale Vision T
AI浩1 天前
人工智能·深度学习·transformer
ViT-5:面向2020年代中期的视觉Transformer作者: Feng Wang, Sucheng Ren, Tiezheng Zhang, Predrag Neskovic, Anand Bhattad, Cihang Xie, Alan Yuille 论文链接:https://arxiv.org/pdf/2602.08071
昵称是6硬币1 天前
transformer·特征匹配·配准·图像匹配·loftr
LoFTR论文精读(逐段解析)LoFTR: Detector-Free Local Feature Matching with Transformers(基于Transformer的无检测器局部特征匹配)
Hali_Botebie1 天前
人工智能·深度学习·transformer
CVPR 2025的最佳论文(VGGT):VGGT: Visual Geometry Grounded Transformer论文链接:VGGT:https://arxiv.org/abs/2503.11651 Code:https://github.com/facebookresearch/vggt 参考:https://zhuanlan.zhihu.com/p/31907061782
nudt_qxx1 天前
语言模型·transformer
讲透Transformer(六):FlashAttention 1→4 进化史:从在线Softmax到硬件极致利用FlashAttention 系列算法是近年来Transformer加速领域最重要的突破之一。它通过IO感知(IO-Awareness)的设计理念,将注意力计算的速度提升了数十倍,同时将内存占用从 O ( N 2 ) O(N^2) O(N2) 降低到接近 O ( N ) O(N) O(N)。本文将详细解析 FlashAttention V1 到 V4 的核心原理、数学推导、技术演进以及性能对比。
深度之眼1 天前
人工智能·深度学习·transformer
热点创新!基于Transformer与KAN网络的三种高阶玩法现在KAN+Transformer这块,有点像2017年Transformer刚提出时的状态,大家都在尝试把新模块装进旧框架。最近的一些研究也证实了,这个领域确实还在快速发展。
光的方向_2 天前
人工智能·深度学习·chatgpt·transformer
04-Tokenization实战-从BPE到Hugging-Face应用摘要: 本文深入讲解大语言模型的第一步——分词(Tokenization),从经典的Byte Pair Encoding(BPE)算法到WordPiece、SentencePiece等主流方案,详解GPT、BERT、LLaMA等模型的分词策略。通过Hugging Face Tokenizers库的实战代码,帮助读者掌握分词器训练、词表构建、特殊token处理等工程实践,理解分词对模型性能的深远影响。
sponge'2 天前
笔记·学习·transformer
opencv学习笔记14:transformer目录一.transformer整体框架1.自注意力计算(1)翻译要找联系(2)初始向量加位置编码 得到词向量
风栖柳白杨2 天前
人工智能·深度学习·transformer
【Transformer】核心思想与原理Transformer最早来自论文:Attention Is All You Need 核心结论一句话:   不用RNN/CNN,仅用Self-Attention(自注意力机制)+前馈网络 就能建模序列。
带娃的IT创业者2 天前
人工智能·深度学习·transformer·脑机接口·nct·硅基生命·意识编码
预测编码=Decoder 训练?Friston 自由能的 Transformer 实现NCT 技术博客专栏:《解码意识:NeuroConscious Transformer 深度解析》专栏定位:面向中高级 AI 工程师、神经网络研究者和脑机接口爱好者的技术专栏,从脑科学原理到硅基生命的意识计算框架
带娃的IT创业者2 天前
人工智能·深度学习·神经网络·transformer·ai智能体·硅基生命·意识编程实现
STDP+Transformer:当局部可塑性遇见全局语义NCT 技术博客专栏:《解码意识:NeuroConscious Transformer 深度解析》专栏定位:面向中高级 AI 工程师、神经网络研究者和脑机接口爱好者的技术专栏,从脑科学原理到硅基生命的意识计算框架
高洁012 天前
人工智能·python·深度学习·机器学习·transformer
多模态大模型的统一表征与推理范式多模态大模型的统一表征与推理范式一、 为何需要“统一表征”? 二、 统一表征的三大技术路径 三、 统一推理:从感知到认知的跃迁 四、 挑战与前沿方向 五、 国产实践:中国团队的多模态探索 六、 结语
一个努力编程人2 天前
人工智能·计算机视觉·transformer
计算机视觉CV领域————Swin TransformerSwin Transformer(Shifted Window Transformer)是专为视觉任务设计的 Transformer 变体,解决了原始 Transformer 在处理高分辨率图像时计算量爆炸的问题,核心创新是分层结构和移位窗口注意力机制。
光的方向_3 天前
人工智能·chatgpt·prompt·transformer
从原理到实践:深度解析Transformer架构——大模型时代的核心基石在生成式AI席卷全球的今天,Transformer早已不是2017年论文中小众的序列建模方案,而是贯穿自然语言处理、计算机视觉、多模态大模型的通用基础架构。无论是GPT系列、LLaMA、BERT,还是ViT、Stable Diffusion,底层均以Transformer为核心骨架。
DeepModel3 天前
人工智能·深度学习·transformer
第14章 注意力机制与Transformer注意力机制(Attention Mechanism)是深度学习领域的一次革命性突破,而基于它构建的 Transformer 模型,彻底改变了自然语言处理(NLP)乃至计算机视觉(CV)的格局。
沪漂阿龙3 天前
人工智能·深度学习·transformer
LLM底层机制深度解析:从Transformer到推理优化的完整技术地图导读:当你调用API或使用大模型时,你是否好奇过——模型内部究竟是如何工作的?为什么同样的输入,有时候快有时候慢?上下文窗口到底受什么限制?采样参数Temperature和Top-p又有什么区别?本文将带你深入LLM的底层机制,从Transformer架构到推理优化,从Tokenization到对齐技术,全面解析大模型的核心原理。无论你是AI应用开发者,还是想深入理解LLM的技术爱好者,这篇文章都能帮你建立起完整的知识框架。
光的方向_3 天前
人工智能·深度学习·transformer
02-Transformer核心架构详解-自注意力与多头注意力本文深度剖析Transformer的核心机制——自注意力(Self-Attention)和多头注意力(Multi-Head Attention)。通过数学推导、可视化图表和PyTorch代码实现,详细讲解QKV矩阵计算、注意力分数、缩放点积注意力等关键技术。涵盖Transformer Block完整结构、残差连接、层归一化等工程实践要点,是理解现代大语言模型架构的必读教程。
nudt_qxx3 天前
语言模型·transformer·embedding
讲透Transformer(二):深入解析EmbeddingEmbedding确实是理解 Transformer 架构的关键基础,需要各位读者详细掌握!让我详细解释两者的区别和实现方式。