transformer

张瑞杰(Jerry)2 小时前
transformer
大模型技术发展与应用概览最近在B站刷到了一个关于大模型科普的视频,做得不错,所以将视频音频提取使用Deepseek做了下总结便于日后查看。原视频:速览大模型100词
机器学习之心4 小时前
cnn·gru·transformer·cnn-gru·五模型分类预测
Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型分类预测Matlab实现本研究背景旨在对比不同深度学习模型在多特征分类任务上的性能。通过对比Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五种主流的深度学习模型,帮助研究者和工程师快速选择适用于自身数据特点的模型。代码支持数据预处理、模型训练、评估和可视化分析,适用于数据分类任务。
高洁0121 小时前
深度学习·算法·机器学习·transformer·知识图谱
CLIP 的双编码器架构是如何优化图文关联的?(3)CLIP 的双编码器架构是如何优化图文关联的?(3)四、前沿进展与未来方向 五、总结#人工智能#具身智能#VLA#大模型#AI#LLM#Transformer 架构#AI技术前沿
sinat_286945191 天前
人工智能·算法·prompt·transformer
AI Coding LSPAI coding越来越火,相关的工具也也越来越成熟,程序员好像距离失业越来越近了。但是好的工具还是要学习的,这里介绍下LSP,主要之前有些AI coding工具,让人很困惑,比如仅仅支持某些语言,LSP这个工具就是让AI更好的理解代码的,能够更好地进行AI辅助编程。
机器学习之心1 天前
cnn·transformer·cnn-bilstm·bilstm
Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型分类预测Matlab实现BiLSTM: ht=LSTM(xt,ht−1)(正向) h_t = \text{LSTM}(x_t, h_{t-1}) \quad \text{(正向)} ht=LSTM(xt,ht−1)(正向) ht′=LSTM(xt,ht+1′)(反向) h_t' = \text{LSTM}(x_t, h_{t+1}') \quad \text{(反向)} ht′=LSTM(xt,ht+1′)(反向) Ht=[ht;ht′] H_t = [h_t; h_t'] Ht=[ht;ht′]
果粒蹬i1 天前
人工智能·cnn·transformer
当CNN遇见Transformer:混合模型的特征可视化与融合攻略引言:在计算机视觉领域,CNN(卷积神经网络)曾是绝对的“顶流”,凭借强大的局部特征提取能力,在图像分类、目标检测等任务中称霸多年;而Transformer的横空出世,以其卓越的全局上下文建模能力,打破了CNN的垄断格局。如今,“强强联合”的混合视觉模型已成为研究与落地的主流,而特征可视化则是解锁其“黑箱”奥秘、优化融合策略的关键钥匙。本文将从“为什么要融合”“如何通过可视化看懂融合逻辑”“主流融合策略”到“实战应用与未来趋势”,用通俗的语言拆解这一前沿技术,帮你快速掌握CNN-Transformer混合
北山小恐龙2 天前
深度学习·cnn·transformer
卷积神经网络(CNN)与Transformer在深度学习领域,卷积神经网络(Convolutional Neural Networks, CNN)和Transformer是两种极具影响力且广泛应用的架构。它们在处理不同类型的数据和任务上各具特色,推动了计算机视觉、自然语言处理等领域的飞速发展。
机器学习之心2 天前
cnn·lstm·transformer
Transformer-LSTM、Transformer、CNN-LSTM、LSTM、CNN五模型多变量分类预测Matlab实现该代码针对多特征分类问题,系统对比了五种深度学习模型(包括混合模型和单一模型)的性能,旨在为研究者或工程师提供一个快速评估不同模型在特定数据集上表现的自动化工具,适用于模型选型、性能对比与教学研究。
Blossom.1182 天前
人工智能·python·深度学习·react.js·架构·aigc·transformer
Transformer架构优化实战:从MHA到MQA/GQA的显存革命摘要:本文深度解析Transformer多头注意力机制的演进之路,揭秘从MHA到MQA(Multi-Query Attention)再到GQA(Grouped Query Attention)的核心原理与工程实现。通过自定义注意力层改造,在LLaMA-2-70B模型上实现显存占用降低73%,推理速度提升2.8倍,精度损失<0.5%。提供完整的HF模型改造、量化感知训练、生产级部署代码,已在某大模型服务平台稳定承载百万级DAU。
小明_GLC2 天前
论文阅读·人工智能·深度学习·transformer
Falcon-TST: A Large-Scale Time Series Foundation ModelPrediction过程:① 输入长度大于固定长度2880会截断,小于2880会进行前置padding
没学上了2 天前
人工智能·深度学习·transformer
VLM—Transformer核心结论:=自注意力机制中「生成注意力权重」的核心步骤,本质是对 Query 和 Key 的点积结果做缩放 + Softmax 归一化,最终得到衡量特征间关联度的权重矩阵。
悟道心2 天前
人工智能·transformer
6. 自然语言处理NLP - 迁移学习迁移学习,简单说就是:把在一个任务上学到的知识,迁移到另一个相关任务上,少走弯路,快出成果。在NLP中,这通常意味着:
fantasy_arch2 天前
深度学习·stable diffusion·transformer
Transformer vs Stable Diffusion vs LLM模型对比1 Transformer是一个基础架构,是许多现代AI模型的发送机2 LLM和Stable Diffusion是两种不同的顶级车型,分别用于处理语言和图像
Blossom.1182 天前
开发语言·人工智能·python·深度学习·机器学习·stable diffusion·transformer
工业级扩散模型优化实战:从Stable Diffusion到LCM的毫秒级生成摘要:本文揭秘扩散模型在电商、广告等工业场景落地的核心优化技术。通过LCM(Latent Consistency Model)蒸馏+INT8量化+动态分辨率调度,在RTX 4090上实现512×512图像12ms生成,显存占用降低65%,商用素材合格率从58%提升至89%。提供完整的蒸馏、量化、服务化部署代码,已在某电商广告平台日均生成500万张创意图,替代摄影外包团队,单图成本从¥15降至¥0.03。
机器学习之心3 天前
transformer·gwo-transformer·多输入多输出回归预测·改进nsgaiii的多目标优化
MATLAB基于GWO优化Transformer多输入多输出回归预测与改进NSGA III的多目标优化MATLAB基于GWO优化Transformer多输入多输出回归预测与改进NSGA-III多目标优化的完整框架。
ekkoalex3 天前
人工智能·深度学习·transformer
强化学习中参数的设置GRPO原理:通过生成多个候选答案,基于奖励函数对它们进行排序,学习相对优势而非绝对分数,这样更稳定。
悟道心3 天前
人工智能·自然语言处理·transformer
5. 自然语言处理NLP - Transformer🌟 想象一下:你正在读一本小说,突然看到一句话:“他把钥匙插进锁孔,门开了。” 你会立刻明白“钥匙”和“锁孔”是关联的,“门开”是因为“插钥匙”。 这种“理解词与词之间的关系”的能力,就是 Transformer 要做的事儿。
楚来客4 天前
人工智能·算法·transformer
AI基础概念之八:Transformer算法通俗解析Transformer是2017年Google团队在论文《Attention Is All You Need》中提出的神经网络架构,核心创新是“自注意力机制”——简单说就是让模型能像人一样“关注”序列中重要的信息,彻底摆脱了传统模型对“逐字处理”或“局部观察”的依赖。如今它已是大语言模型(GPT、文心一言)、视觉大模型(ViT)等前沿AI的“底层骨架”,撑起了当前AI技术的半壁江山。
雍凉明月夜4 天前
笔记·深度学习·transformer
深度学习网络笔记Ⅳ(Transformer + VIT)根据之前的文章学习我们清楚的了解了注意力机制中的实现过程深度学习网络笔记Ⅲ(注意力机制)-CSDN博客
victory04314 天前
深度学习·transformer
llama2 MLP 门控FFN图源https://docs.pytorch.org/docs/stable/generated/torch.nn.SiLU.html 你想深入理解LLaMA2的MLP(也叫FFN层)中矩阵的流转过程,并且对比它和传统Transformer的FFN层的核心差异,这个问题问到了LLaMA2架构设计的关键细节上。