大语言模型

一只会铲史的猫2 天前
大语言模型
关于Transformer中Decoder模块是如何预测下一个字符的算法关于Transformer模型的Encoder-Decoder模块网上介绍的文章非常多,写的非常详尽,可谓汗牛充栋,尤其关于注意力计算这块,不仅给出了公式而且还有具体的计算步骤。关于Transformer模型我觉得大部分文章语焉不详的有两块(可能是我的理解力比较差):
一支王同学3 天前
nlp·大语言模型·llama
使用LLama-Factory的简易教程(Llama3微调案例+详细步骤)引言:一套快速实现 Llama3 中文微调的教程主要参考:胖虎遛二狗的 B 站教学视频《【大模型微调】使用Llama Factory实现中文llama3微调》
小白跃升坊4 天前
ai·大语言模型·it运维·gpu
Ubuntu安装GPU驱动+CUDA+cuDNN的安装方法一台有GPU的虚拟机如果没有安装CUDA的驱动,是需要我们手动去进行安装的,介绍Ubuntu操作系统的安装教程。
mzgong5 天前
人工智能·大语言模型·deepseek
DeepSeek面试——模型架构和主要创新点本文将介绍DeepSeek的模型架构多头潜在注意力(MLA)技术,混合专家(MoE)架构, 无辅助损失负载均衡技术,多Token 预测(MTP)策略。
kngines6 天前
人工智能·线性代数·大语言模型·概率论·强化学习·rlhf
从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.2核心数学基础:线性代数、概率论与梯度优化👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路线性代数是描述高维数据与模型结构的核心工具,其核心概念包括:
youcans_6 天前
人工智能·大语言模型·多模态·技术报告·gemma
【技术报告】谷歌开源多模态大模型 Gemma-32025年 3月12日,谷歌推出最新多模态大模型 Gemma-3。这是一组轻量级、最先进的开源模型,是迄今为止最先进、便携且负责任开发的开源模型,可以直接在手机、PC、工作站上快速运行。
AI_Auto6 天前
前端·人工智能·python·大语言模型·智能体·deepseek
AI Agent系列(六) -基于ReAct架构搭建LLM Agent(Deepseek)ReAct 是 Reseaning 和 Action 两个词的前缀合成,代表着先推理再行动的一种架构设计模式。 ReAct 有3个重要的组成部分:Planning(规划)、Action(行动)、Observation(观测),参考文件给出如下图所示的基于ReAct模式的Agent架构流程: ReAct 模式是一种新型的人机交互模式,它结合了人类的推理能力和大语言模型的生成能力,实现了更加智能的对话。
玩AI的小胡子7 天前
人工智能·aigc·大语言模型·ai教程·deepseek
开源集成资源库-DeepSeek 的 300 多种玩法!最近很多人在问 DeepSeek 怎么用,在哪用,其实这些问题根本不用问,因为官方已经整理好了一个超全的开源集成资源库——awesome-deepseek-integration,直接看这里,你就能搞明白 DeepSeek 的各种应用方式
一只会铲史的猫7 天前
ai·大语言模型·agent
关于普通程序员该如何参与AI学习的三个建议以及自己的实践大部分程序员在学习大语言模型的时候都比较痛苦,感觉AI是如此之近又如此之远,仿佛能搞明白一点,又好像什么也没明白。就像我们在很远的地方看珠穆拉玛峰,感觉它就像一个不大的山包,感觉只要自己做足准备咬咬牙还是能登顶的。但当你越走越近,试图接近它并翻越它时就会发现它的庞大和自己的渺小,以至于你每走一步都无法呼吸、都会大脑缺氧。学习大模型的过程也是如此。那么对于大部分程序员来说该如何参与AI的学习呢?下面就是我的个人建议(仅个人想法):
CS创新实验室12 天前
人工智能·语言模型·自然语言处理·llm·大语言模型
LLM(1):了解大语言模型大型语言模型(Large language models,LLMs),如 OpenAI 的 ChatGPT ,或者 DeepSeek 等,是过去几年中开发出来的深度神经网络模型。它们为自然语言处理(natural language processing,NLP)开启了一个新的时代。在 LLMs 出现之前,传统方法擅长于像电子邮件垃圾信息分类和简单的模式识别这样的分类任务,这些任务可以通过手工编写的规则或更简单的模型来捕捉。然而,对于那些需要复杂理解和生成能力的语言任务,比如解析详细指令、进行上下文分析以及
小白跃升坊16 天前
ai·大语言模型·max kb
如何基于大语言模型和MaxKB实现PPT自动生成方案利用讯飞大模型智能 PPT 生成接口实现,具体参见:讯飞开放平台智能PPT生成 https://www.xfyun.cn/services/aippt#anchor4503211
RuizhiHe16 天前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十四):高阶训练技巧预训练大语言模型的流程与训练普通神经深度网络模型本质上并没有任何不同。可以使用深度学习实践中已经被证明非常有效的高阶训练技巧,优化大语言模型预训练流程,使大语言模型预训练效率更高,训练过程更稳定。
weixin_贾17 天前
目标检测·大语言模型·图神经网络·深度学习模型·自编码·物理信息神经网络
2025最新Transformer模型及深度学习前沿技术应用1、注意力机制的背景和动机(为什么需要注意力机制?注意力机制的起源和发展里程碑)。2、注意力机制的基本原理(什么是注意力机制?注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重?)
RuizhiHe18 天前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十三):预训练大语言模型GPTModel使用梯度下降算法通过下一个token预测任务预训练大语言模型GPTModel,前向传播流程每次会输入一个batch的长度均为context_len的训练样本,执行 batch_size × context_len \text{batch\_size}\times\text{context\_len} batch_size×context_len次下一个token预测任务,共预测输出 batch_size × context_len \text{batch\_size}\times\text{context
deephub19 天前
人工智能·语言模型·自然语言处理·大语言模型·强化学习
Visual-RFT:基于强化学习的视觉语言模型微调技术研究Visual-RFT 代表了视觉语言模型微调领域的技术创新,通过将基于规则的可验证奖励与强化学习相结合,有效克服了传统监督微调 (SFT) 在数据稀缺场景下的局限性。本文将深入剖析 Visual-RFT 的技术原理,结合原始研究论文中的图表解释其架构设计,并探讨该方法在实际应用场景中的潜力。 Visual-RFT 的核心理念在于促进模型通过渐进式推理进行学习,而非简单地记忆标准答案。该方法鼓励模型生成多样化的响应并进行自主推理,随后基于答案正确性的验证信号调整学习方向。这种强化微调机制在对象检测和图像分类
gz7seven21 天前
大模型·大语言模型·llama·llama 3
大模型学习笔记------Llama 3模型架构简介Llama 3模型基于标准的Transformer架构进行了多项改进,包括更高的效率和更好的性能。两个架构的对比如下图所示:     从上图整体可以看出,Llama 3模型实质上去掉了Transformer部分的编码部分,是Transformer解码部分的改进版本,即Transformer Decoder-Only,采用仅解码器架构,专注于生成式任务(文本续写、对话等)。
deephub24 天前
人工智能·pytorch·python·深度学习·大语言模型·内存优化
PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型在大规模深度学习模型训练过程中,GPU内存容量往往成为制约因素,尤其是在训练大型语言模型(LLM)和视觉Transformer等现代架构时。由于大多数研究者和开发者无法使用配备海量GPU内存的高端计算集群,因此掌握有效的内存优化技术变得尤为关键。本文将系统性地介绍多种内存优化策略,这些技术组合应用可使模型训练的内存消耗降低近20倍,同时不会损害模型性能和预测准确率。以下大部分技术可以相互结合,以获得更显著的内存效率提升。
小白跃升坊1 个月前
ai·大语言模型·rag
基于RAG的MaxKB知识库问答系统如何选择向量模型在MaxKB中替换向量模型前,我们需要先了解向量相关的原理和技术,此处不做赘述,大家可以自行学习。可以了解下Embedding、Embedding核心,向量库等内容。
CPU NULL1 个月前
ai·语言模型·chatgpt·大语言模型
ChatGPT各模型版本对比分析
小白跃升坊1 个月前
ai·大语言模型·rag
【最佳方案】RAG 技术深度剖析及 MaxKB 在企业 AI 落地中的应用策略RAG 已经成为 LLM 大语言模型在企业落地的最佳方案,其中主要是因为 RAG 能够解决幻觉问题、时效性问题以及数据安全问题。