大语言模型

小白跃升坊8 小时前
ai·大语言模型·rag·max kb·提示词模版
让 AI 对接 MySQL 数据库实现快速问答对话通过 AI 连接 MySQL 结构化数据库表,预期实现通过AI对话数据库表,快速了解数据情况,能够进行简单的汇总统计,快是实现问答。
小白跃升坊1 天前
大语言模型·max kb
在MaxKB中实现准确的Chat TO SQL(BI)主要面向考试成绩管理系统(目前支持旭日图、仪表盘柱状图、桑基图、漏斗图、河流图、数据聚合图、散点图、南丁格尔玫瑰图、饼状图、环形图、堆叠柱状图、堆叠折线图、堆叠面积图、面积图、折线图)
arbboter9 天前
人工智能·自然语言处理·大语言模型·分词技术·嵌入层原理·大模型输入·子词分词
【AI模型核心流程】(一)大语言模型输入处理机制详解与常见误解辨析大语言模型(LLM)如GPT、BERT、LLaMA等,已成为自然语言处理领域的核心技术。然而,许多开发者对其底层输入处理机制存在误解,尤其是从自然语言文本到模型可理解的向量表示这一过程。本文将从技术细节出发,解析大语言模型处理用户输入的真实流程,并澄清常见的理解误区。
小白跃升坊14 天前
ai·大语言模型·max kb
如何优化和提高MaxKB回答的质量和准确性?目前 ChatGPT、GLM等生成式人工智能在文本生成、文本到图像生成等在各行各业的都有着广泛的应用,但是由于大模型训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或离线的数据是无法获取到的,这个导致了在实际应用场景中会发现,通用的基础大模型基本无法满足我们的实际业务需求,普遍都存在着知识的局限性比如专业领域知识缺失,上下文词不达意(一本正经地胡说八道)等。为了解决这些问题,目前主要有两种解决方案:
deephub16 天前
人工智能·大语言模型·强化学习
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。
塞大花17 天前
人工智能·microsoft·语言模型·大语言模型·rag·knowledge graph·graphrag
微软 GraphRAG 项目学习总结微软2024年4月份发布了一篇《From Local to Global: A GraphRAG Approach to Query-Focused Summarization》(GraphRAG:从局部到全局的查询式摘要方法)论文,提出了一种名为GraphRAG的检索增强生成(RAG)方法,用于查询式摘要任务。传统的RAG方法主要基于局部检索和生成,可能会忽略不同检索片段之间的全局关系,导致生成的摘要缺乏整体连贯性和深度。GraphRAG 结合了知识图谱构建、检索增强生成和查询聚焦摘要技术,将检索到的文
小白跃升坊20 天前
ai·大语言模型·向量模型·max kb
如何替换对接使用本地向量模型在对接向量模型之前,先去下载好对应的模型:[(https://huggingface.co/)] (注意:下载模型需要使用魔法,最好使用网络稳定一点的。)
一只会铲史的猫22 天前
大语言模型
关于Transformer中Decoder模块是如何预测下一个字符的算法关于Transformer模型的Encoder-Decoder模块网上介绍的文章非常多,写的非常详尽,可谓汗牛充栋,尤其关于注意力计算这块,不仅给出了公式而且还有具体的计算步骤。关于Transformer模型我觉得大部分文章语焉不详的有两块(可能是我的理解力比较差):
一支王同学23 天前
nlp·大语言模型·llama
使用LLama-Factory的简易教程(Llama3微调案例+详细步骤)引言:一套快速实现 Llama3 中文微调的教程主要参考:胖虎遛二狗的 B 站教学视频《【大模型微调】使用Llama Factory实现中文llama3微调》
小白跃升坊24 天前
ai·大语言模型·it运维·gpu
Ubuntu安装GPU驱动+CUDA+cuDNN的安装方法一台有GPU的虚拟机如果没有安装CUDA的驱动,是需要我们手动去进行安装的,介绍Ubuntu操作系统的安装教程。
mzgong25 天前
人工智能·大语言模型·deepseek
DeepSeek面试——模型架构和主要创新点本文将介绍DeepSeek的模型架构多头潜在注意力(MLA)技术,混合专家(MoE)架构, 无辅助损失负载均衡技术,多Token 预测(MTP)策略。
kngines1 个月前
人工智能·线性代数·大语言模型·概率论·强化学习·rlhf
从零构建大语言模型全栈开发指南:第一部分:数学与理论基础-1.1.2核心数学基础:线性代数、概率论与梯度优化👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路线性代数是描述高维数据与模型结构的核心工具,其核心概念包括:
youcans_1 个月前
人工智能·大语言模型·多模态·技术报告·gemma
【技术报告】谷歌开源多模态大模型 Gemma-32025年 3月12日,谷歌推出最新多模态大模型 Gemma-3。这是一组轻量级、最先进的开源模型,是迄今为止最先进、便携且负责任开发的开源模型,可以直接在手机、PC、工作站上快速运行。
AI_Auto1 个月前
前端·人工智能·python·大语言模型·智能体·deepseek
AI Agent系列(六) -基于ReAct架构搭建LLM Agent(Deepseek)ReAct 是 Reseaning 和 Action 两个词的前缀合成,代表着先推理再行动的一种架构设计模式。 ReAct 有3个重要的组成部分:Planning(规划)、Action(行动)、Observation(观测),参考文件给出如下图所示的基于ReAct模式的Agent架构流程: ReAct 模式是一种新型的人机交互模式,它结合了人类的推理能力和大语言模型的生成能力,实现了更加智能的对话。
玩AI的小胡子1 个月前
人工智能·aigc·大语言模型·ai教程·deepseek
开源集成资源库-DeepSeek 的 300 多种玩法!最近很多人在问 DeepSeek 怎么用,在哪用,其实这些问题根本不用问,因为官方已经整理好了一个超全的开源集成资源库——awesome-deepseek-integration,直接看这里,你就能搞明白 DeepSeek 的各种应用方式
一只会铲史的猫1 个月前
ai·大语言模型·agent
关于普通程序员该如何参与AI学习的三个建议以及自己的实践大部分程序员在学习大语言模型的时候都比较痛苦,感觉AI是如此之近又如此之远,仿佛能搞明白一点,又好像什么也没明白。就像我们在很远的地方看珠穆拉玛峰,感觉它就像一个不大的山包,感觉只要自己做足准备咬咬牙还是能登顶的。但当你越走越近,试图接近它并翻越它时就会发现它的庞大和自己的渺小,以至于你每走一步都无法呼吸、都会大脑缺氧。学习大模型的过程也是如此。那么对于大部分程序员来说该如何参与AI的学习呢?下面就是我的个人建议(仅个人想法):
CS创新实验室1 个月前
人工智能·语言模型·自然语言处理·llm·大语言模型
LLM(1):了解大语言模型大型语言模型(Large language models,LLMs),如 OpenAI 的 ChatGPT ,或者 DeepSeek 等,是过去几年中开发出来的深度神经网络模型。它们为自然语言处理(natural language processing,NLP)开启了一个新的时代。在 LLMs 出现之前,传统方法擅长于像电子邮件垃圾信息分类和简单的模式识别这样的分类任务,这些任务可以通过手工编写的规则或更简单的模型来捕捉。然而,对于那些需要复杂理解和生成能力的语言任务,比如解析详细指令、进行上下文分析以及
小白跃升坊1 个月前
ai·大语言模型·max kb
如何基于大语言模型和MaxKB实现PPT自动生成方案利用讯飞大模型智能 PPT 生成接口实现,具体参见:讯飞开放平台智能PPT生成 https://www.xfyun.cn/services/aippt#anchor4503211
RuizhiHe1 个月前
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
从零开始实现大语言模型(十四):高阶训练技巧预训练大语言模型的流程与训练普通神经深度网络模型本质上并没有任何不同。可以使用深度学习实践中已经被证明非常有效的高阶训练技巧,优化大语言模型预训练流程,使大语言模型预训练效率更高,训练过程更稳定。
weixin_贾1 个月前
目标检测·大语言模型·图神经网络·深度学习模型·自编码·物理信息神经网络
2025最新Transformer模型及深度学习前沿技术应用1、注意力机制的背景和动机(为什么需要注意力机制?注意力机制的起源和发展里程碑)。2、注意力机制的基本原理(什么是注意力机制?注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重?)