transformer

DA树聚12 小时前
人工智能·深度学习·算法·机器学习·语言模型·分类·transformer
人工智能-机器学习-深度学习-分类与算法梳理目前人工智能的概念层出不穷,容易搞混,理清脉络,有益新知识入脑。为便于梳理,本文只有提纲,且笔者准备仓促,敬请勘误,不甚感激。 请看右边目录索引 。
DA树聚15 小时前
人工智能·深度学习·自然语言处理·chatgpt·bert·transformer·产品经理
深度学习经典模型之BERT(下)深度学习经典模型之BERT(上)在"深度学习经典模型之BERT(上)"我们描述了BERT基本信息、意义、与GPT和Transformer的区别、预训练、自监督等相关信息后,本章节将介绍BERT的输入、Encoder、微调及两个主流变种。
玩转AI大模型17 小时前
人工智能·学习·语言模型·自然语言处理·langchain·transformer·产品经理
AI产品经理学习路径:从零基础到精通,从此篇开始!市面上不同的公司对产品经理的定位有很大的差别,一名合格的产品经理是能对软件产品整个生命周期负责的人。思考框架相同: AI产品经理和通用型软件产品经理的底层思考框架是一样的,都是要经历产品立项、需求分析、产品设计、产品执行管理(研发测试)、验收、分析迭代这几个阶段。
余生H19 小时前
前端·人工智能·transformer·embedding·web·word2vec·rag
前端大模型入门:使用Transformers.js实现纯网页版RAG(一)我将使用两篇文章的篇幅,教大家如何实现一个在网页中运行的RAG系统。本文将其前一半功能:深度搜索。通过这篇文章,你可以了解如何在网页中利用模型实现文本相似度计算、问答匹配功能,所有的推理都在浏览器端本地执行,无需依赖服务器。
网安打工仔20 小时前
人工智能·大模型·transformer·大语言模型·agent·rag·ai agent
探索RAG、AI Agents和Agentic RAG的架构、应用程序和主要区别人工智能催生了能够执行各种任务的强大模型。该领域最具影响力的两项进步是检索增强生成 (RAG) 和Agents,它们在改进AI驱动的应用程序中发挥着独特的作用。然而,新兴的Agentic RAG概念提出了一种利用两种系统优势的混合模型。Agentic RAG是什么?与RAG、Agents有什么区别?接下来,本文将全面分析这三种技术的概念与联系,探索它们的架构、应用程序和主要区别。
余生H1 天前
前端·javascript·深度学习·机器学习·transformer
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革除了调用别人的api接口使用transformer技术,你是否想过将大模型在浏览器中运行呢?尤其是WebGPU的出现,性能比WebGL高不少,很多小任务真的不再需要在一个中心运行了。
IRevers1 天前
图像处理·人工智能·深度学习·目标检测·机器学习·计算机视觉·transformer
【论文速看】DL最新进展20240927-目标检测、Transformer[2024小目标检测] A DeNoising FPN With Transformer R-CNN for Tiny Object Detection
DA树聚1 天前
人工智能·深度学习·语言模型·自然语言处理·bert·transformer·easyui
深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性目前24个较小的BERT模型的发布版本,现在只有英语,采用WordPiece掩码。 笔者翻译水平有限,有误之处请指正,万分感激。
南 阳1 天前
人工智能·深度学习·transformer
3D生成技术再创新高:VAST发布Tripo 2.0,提升AI 3D生成新高度随着《黑神话·悟空》的爆火,3D游戏背后的AI 3D生成技术也逐渐受到更多的关注。虽然3D大模型的热度相较于语言模型和视频生成技术稍逊一筹,但全球的3D大模型玩家们却从未放慢脚步。无论是a16z支持的Yellow,还是李飞飞创立的World Labs,3D大模型的迭代速度一直在稳步前进。近日,国内3D大模型的领军者VAST发布了最新版本的大模型——Tripo 2.0。这个基于千万级高质量原生数据库训练的超强模型支持文字、单图、多图输入,并在几何精细度和图像还原度上表现出色。
DA树聚2 天前
人工智能·深度学习·程序人生·语言模型·bert·transformer·llama
大语言模型之LlaMA系列-LlaMA 2及LlaMA_chat(下)接 Llama系列-Llama 2及LLaMA_chat(上)在对话设置中,某些指示应适用于所有对话轮次。 例如,简洁地响应,或"充当"某个公众人物。当我们向Llama 2-Chat提供此类指示时,后续应响应始终遵守约束。然而,我们最初的RLHF模型往往会在几轮对话后忘记最初的指令,如图9(左)所示。为了解决这个问题,我们提出了Ghost Attention(GAtt),这是一种受上下文蒸馏启发的非常简单的方法,它对微调数据进行破解(hacks),以帮助注意力集中在多阶段过程中。如图9(右)所示,GAtt
DA树聚2 天前
人工智能·深度学习·语言模型·自然语言处理·chatgpt·bert·transformer
深度学习经典模型之BERT(上)深度学习经典模型之BERT(下)BERT(Bidirectional Encoder Representations from Transformers)是一个双向transformer编码器的言表示模型。来自论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 。由Google公司的研发,BERT的出现使得我们能够在一个大的数据集上面训练好一个比较深的神经网络,简化了NLP任务的训练,又提升
DA树聚3 天前
人工智能·深度学习·语言模型·自然语言处理·transformer·产品经理·llama
大语言模型之LlaMA系列- LlaMA 2及LLaMA2_chat(上)LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs,参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。 在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型,此外Llama 2-Chat还做了可用性与安全性评估。 Meta官方推荐可将其作为大部分的闭源模型替代品。
AI大模型_学习君4 天前
人工智能·gpt·深度学习·自然语言处理·大模型·llm·transformer
什么是 GPT?通过图形化的方式来理解 Transformer 架构GPT 是 Generative Pre-trained Transformer 的缩写。首个单词较为直接,它们是用来生成新文本的机器人。“Pre-trained” 指的是模型经历了从大量数据中学习的过程,这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而,最后一个词,才是真正重要的部分。Transformer 是一种特定类型的神经网络,一个机器学习模型,它是现今 AI 高速发展的核心创新。我希望通过这个视频和接下来的章节,以一种便于理解的方式,阐述 Transformer 内部实际发
请站在我身后4 天前
人工智能·深度学习·算法·语言模型·transformer
读论文《OmniGen: Unified Image Generation》论文地址:2409.11340v1 (arxiv.org)项目地址:GitHub - VectorSpaceLab/OmniGen
深度学习实战训练营4 天前
人工智能·深度学习·transformer
transformer模型写诗词加入会员社群,免费获取本项目数据集和代码:点击进入>>该项目是基于A035-transformer模型的诗词生成系统,旨在通过深度学习技术实现古诗词的自动化创作。项目的背景源自当前自然语言处理领域的迅速发展,特别是Transformer模型在序列生成任务中的出色表现。Transformer模型通过自注意力机制,能够在处理长文本时有效捕捉上下文信息,使其非常适合古诗词这种结构化语言的生成。本项目利用大规模古诗词数据集进行模型训练,确保生成的诗句不仅符合古诗词的韵律结构,还具备一定的文学性。
深度学习炼丹师-CXD4 天前
pytorch·深度学习·神经网络·计算机视觉·transformer·超分辨率重建
超分之SPINSPIN模型架构:编码器模块SPI模块(Super-Pixel Interaction):全局残差模块
DA树聚4 天前
人工智能·深度学习·学习·程序人生·语言模型·transformer·easyui
Transformer模型-5-Multi-Head Attention上图红色圈中的部分为 Multi-Head Attention,是由多个Self-Attention组成的,虽然Encoder与Decoder中都有Multi-Head Attention,但他们略有区别。Encoder block包含一个 Multi-Head Attention, 而Decoder block包含两个 Multi-Head Attention。
我.佛.糍.粑4 天前
人工智能·pytorch·python·深度学习·自然语言处理·transformer
Pytorch实现Transformer首先实现这个部分是因为不论解码器还是编码器都需要这一部分。 首先我们假设归一化(LayerNorm)已经做好了。
明志刘明5 天前
人工智能·深度学习·自然语言处理·transformer·机器翻译
基于MindSpore实现Transformer机器翻译(下)因本文内容较长,故分为上下两部分。上部分可点击以下链接查看 基于MindSpore实现Transformer机器翻译(上)
机器学习之心5 天前
lstm·transformer·plo·极光优化算法·多变量时间序列光伏功率预测
中秋献礼!2024年中科院一区极光优化算法+分解对比!VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测1.中秋献礼!2024年中科院一区极光优化算法+分解组合对比!VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测,变分模态分解+极光优化算法优化Transformer结合长短期记忆神经网络多变量时间序列预测(程序可以作为核心级论文代码支撑,目前尚未发表);极光优化算法 Polar Lights Optimization (PLO)的元启发式算法,该成果于2024年8月最新发表在国际顶级JCR 1区、中科院 Top SCI期刊 Neurocomputing。 2.麻雀搜索算法优化参数