llm

爱听歌的周童鞋18 分钟前
llm·policy gradient·grpo·cs336·baselines·advantage funcs
斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 17: Alignment - RL 2学习斯坦福的 CS336 课程,本篇文章记录课程第十七讲:对齐 - RL(下),记录下个人学习笔记,仅供自己参考😄
牛奶咖啡.85412 小时前
语言模型·llm·llama·rl·ppo
基于Llama-Factory/Qwen2.5-1.5b自定义数据集LoRA微调实战【PPO/RLHF/训练/评估】目标是整合主流高校效训练微调技术,如增量预训练、多模态指令监督微调、奖励模型训练、PPO训练、DPO训练、KTO训练、ORPO训练
人工干智能14 小时前
llm
LLM大模型的付费管理流程(以OpenAI 为例)本文以OpenAI 为例,说明LLM大模型的付费管理流程OpenAI的付费管理核心是以API Key为唯一身份标识,在云服务端完成全链路管控:客户端仅需携带API Key发起请求,无需感知计费细节;云服务端是付费管理的核心枢纽,负责校验付费状态、计量资源消耗、结算费用、管控使用限额;大模型端仅上报算力/资源消耗数据,不直接参与计费规则决策。以下从完整流程视角拆解付费管理的每一个环节,结合前文(OpenAI 的核心架构范式)三层架构的交互逻辑说明:
智泊AI14 小时前
llm
大语言模型之AI Agent:Multi-Agent架构一、引言在 Agent 系统的构建过程中,随着系统演进,其复杂度往往持续攀升,进而显著增加管理与扩展的难度。典型挑战包括:
Mintopia15 小时前
人工智能·llm·aigc
量子计算会彻底改变 AI 的运算方式吗?一场关于"量子幽灵"与"硅基大脑"的深夜对话 🎭💻深夜的实验室里,经典计算机的风扇嗡嗡作响,像一位疲惫的老管家在叹息。此时的你,或许正训练着第127个epoch的神经网络,看着loss曲线像蜗牛一样爬行,心里默念:"这世上一定存在一条计算捷径!"
mubei-12316 小时前
人工智能·llm·rag·检索增强生成
Self-RAG:通过自我反思学习检索、生成和批判在使用RAG辅助LLM完成知识问答任务时,无论检索是否必要或者段落是否相关,不加选择地检索和合并固定数量的检索段落,都会降低LM的通用性,或者可能生成无益的反应。
hzp66618 小时前
人工智能·深度学习·神经网络·llm·aigc·dnn·反向传播
招牌红烧肉版-深度神经网络本文以 “开餐厅学做招牌菜” 的完整故事,来比喻深度神经网络的整个工作原理,包括:输入层、隐藏层、输出层、反向传播、权重、梯度、学习率等概念。
AI大模型19 小时前
langchain·llm·agent
免费自学 AI?这 10 个 GitHub 宝藏项目就够了!建议收藏本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在这里。如果你也想入门 AI,但不知道该从哪里开始——别担心,这几乎是每个开发者都会经历的阶段。
PenguinLeee19 小时前
llm·大语言模型·推理
LLM推理或者思考的一些本质性问题原文为Denny Zhou(Google Deepmind负责人)在Stanford为CS25课程做的一个报告。这篇博客是其笔记。
人工干智能20 小时前
服务器·python·llm
调用client.beta.threads.runs.create后交由OpenAI云服务器端的处理前文“Run如何撮合需求、能力与流程”中,调用client.beta.threads.runs.create后,任务提交给了OpenAI云服务器端。本文讨论OpenAI云服务器端的处理流程:任务入队、等待调度、状态逐步转换,到最终完成并写入结果并返回给客户端。
夏日白云21 小时前
pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 11 章|图像路线的工程现实:DPI、分辨率和内存炸裂点此进入系列专栏如果你在 PDF 解析里走过图像路线,大概率都经历过某个时刻:一开始我也以为问题出在模型上。
mubei-12321 小时前
人工智能·llm·rag·检索增强生成
万字RAG综述:大语言模型的检索增强生成大型语言模型(LLM)展示了令人印象深刻的能力,但也遇到了幻觉、过时的知识以及不透明、无法追踪的推理过程等挑战。
风雨中的小七1 天前
人工智能·llm
解密Prompt系列67. 智能体的经济学:从架构选型到工具预算导读:2025年是智能体爆发的一年。然而,随着模型能力的提升,工业界开始反思:盲目增加智能体、盲目增加工具调用次数真的能“大力出奇迹”吗?本文串联两篇Google论文,从宏观的架构选择到微观工具预算感知,探讨如何科学构建Agent系统。
彼岸花开了吗1 天前
人工智能·python·llm
构建AI智能体:六十九、Bootstrap采样在大模型评估中的应用:从置信区间到模型稳定性在我们选择使用一个模型时,我们经常需要评估模型的性能。通常,我们会将数据集分为训练集和测试集,用测试集来评估模型的泛化能力。然而,单次划分的测试集可能不能完全代表模型在未知数据上的表现,特别是当数据集较小的时候。Bootstrap采样是一种强大的统计方法,可以通过重采样来估计统计量的分布,从而更稳健地评估模型性能,其基本思想是通过从原始数据集中随机抽取n个样本(允许重复抽取)形成一个新的数据集,称为Bootstrap样本,然后,我们可以基于这些Bootstrap样本计算统计量(如均值、标准差等)的分布。
一个处女座的程序猿1 天前
llm·prompt·fabric
LLMs之Prompt:Fabric的简介、安装和使用方法、案例应用之详细攻略LLMs之Prompt:Fabric的简介、安装和使用方法、案例应用之详细攻略目录Fabric的简介1、特点
Baihai_IDP1 天前
人工智能·llm·ai编程
大家都可以调用LLM API,AI套壳产品的护城河在哪里?编者按: AI 套壳应用究竟只是“调个 API 就上线”的投机产物,还是隐藏着被忽视的创业机会与产品逻辑?
mubei-1232 天前
人工智能·llm·检索增强生成·文本检索算法
DPR:用于开放域问答的密集段落检索(1)开放域问答中的检索通常使用TF-IDF或BM25来实现,它通过倒排索引有效地匹配关键字,可以看作是用高维稀疏向量(带加权)表示问题和上下文。
亚里随笔2 天前
深度学习·llm·rl·agentic·grpo
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色,如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO(Explore Residual Prompts in Policy Optimization),通过巧妙利用训练过程中被"遗忘"的残余提示,显著提升了模型的数学推理性能,在多个基准测试中取得了显著改进。
智泊AI2 天前
llm
一文讲清:AI大模型的并行训练方式:DP、PP、TP、EP大家都知道AI计算,特别是模型训练与推理环节,核心依赖于并行计算架构。在AI的底层算法中,诸如矩阵乘法、卷积运算、循环结构以及梯度反传等关键操作,均需调动成千上万块GPU,通过高度并行的任务调度来高效推进,从而显著压缩整体耗时。
夏日白云2 天前
pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 8 章|融合策略:不是兜底,而是信息利用率最大化点此进入系列专栏如果前几章解决的是“用什么能力”“怎么组织能力”,那这一章要回答的,是一个更现实的问题: