llm

leo03086 小时前
llm·sft·huggingface·trl
【LLM微调】拒绝“假装聪明”:SFTTrainer 中 completion_only_loss 新旧版本用法详解在指令微调(SFT)大模型时,你是否遇到过:训练 Loss 迅速降到 0.0x,准确率飙升到 99%,但模型实际推理效果却很差?
ariesjzj6 小时前
大模型·llm·deepseek·推理优化·大规模ep
DeepSeek时代的Large-scale LLM推理2025年底DeepSeek V3发布炸场,几乎为业界之后的LLM优化方向定了调,尤其是大规模推理优化方面。去年快年底时对LLM的推理优化技术做过一个简单的总结:《LLM时代中的AI推理优化》,现在看来已有很多变化。在DeepSeek V3问世快一年之际,这里简单整理总结一下业界与之相关的推理优化技术。
智泊AI7 小时前
llm
长上下文、Agent记忆、Text2SQL中,谁会取代RAG?长上下文处理能力、Agent的记忆机制、Text2SQL技术的演进,是否终将取代RAG?换句话来说:RAG是否仅是技术演进中的"阶段性方案"?
CoderJia程序员甲16 小时前
git·ai·开源·llm·github
GitHub 热榜项目 - 日榜(2025-12-7)生成于:2025-12-7共发现热门项目: 16 个榜单类型:日榜本期GitHub热榜显示AI工程与高性能基础设施成为核心热点。微软开源语音AI项目VibeVoice与生物分子基础模型平台Foundry展现了AI技术向语音和科学计算前沿的快速拓展。同时,开发者正积极解决AI实际应用问题,AI工程实践指南和Claude\nAPI快速入门项目为构建生产级应用提供了可直接复现的代码方案。在基础设施层,Rust语言项目表现抢眼,RustFS对象存储性能远超MinIO,Bun运行时持续引领JavaScript工具链
大模型教程17 小时前
程序员·llm·agent
小猫都能懂的大模型原理 3 - 自注意力机制本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。Transformer 的核心创新就是自注意力机制,如果忽略数学层面的问题,其实不难理解。
大模型教程17 小时前
程序员·llm·agent
小猫都能懂的大模型原理 2 - 初见大语言模型本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。现在大家遇到问题,第一反应都不是使用搜索引擎,而是问 chatGPT,chat 大家都知道是聊天的意思,但是 GPT 它到底是个什么呢?
leo030817 小时前
pytorch·大模型·llm·ddp
深度解析Hugging Face Accelerate:`Trainer`背后的“隐形”分布式引擎标题:PyTorch分布式训练太复杂?Accelerate:三行代码搞定,告别DDP“天书”还在为PyTorch原生的DistributedDataParallel(DDP)训练而头疼吗?init_process_group, DistributedSampler, if rank==0:… 这些繁琐的配置劝退了无数开发者。本文将为你介绍 Hugging Face 的 Accelerate 库,并与原生DDP做清晰对比,让你明白它如何用最少的代码,实现最优雅的多卡训练。
AI大模型18 小时前
程序员·llm·agent
2025最新大模型技术学习路线:从入门到精通,一篇文章全掌握本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。大模型技术的基础学习,是未来在大模型领域能否站稳脚跟的关键
AI大模型18 小时前
程序员·llm·agent
AI大模型学习路线,带你6周成为大模型工程师!本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。自学AI大模型需要扎实的基础知识、系统的学习路线和持续的实践与探索。希望这条学习路线能为新手小白们提供一个清晰的方向,帮助大家更好地进入和发展在AI大模型领域。祝大家学习顺利,早日成为AI领域的专家!
flying_131419 小时前
语言模型·llm·微调·推荐系统·对比学习·notellm·推荐大模型
推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(一)目录一、摘要二、介绍三、相关工作I2I 推荐技术概述内容驱动的I2I推荐大语言模型(LLMs)的应用潜力
flying_131419 小时前
语言模型·自然语言处理·llm·推荐系统·对比学习·协同微调·推荐大模型
推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(二)目录一、方法论1.1 NoteLLM框架1.2 笔记压缩提示编辑特殊令牌与占位符说明分类生成的具体内容定义
flying_131420 小时前
自然语言处理·大模型·llm·推荐系统·对比学习·notellm·协同微调
推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(三)目录一、实验1.1 数据集与实验设置1.2 离线性能评估1.3 不同曝光量笔记的效果1.4 消融实验1.5 CSFT模块中数据多样性的影响
带刺的坐椅20 小时前
ai·chatgpt·llm·solon·deepseek
Solon AI 开发学习18 - generate - 生成示例参考GenerateModel 是非常自由的一个接口,本质是组装一个 http post 请求,并尝试解析响应内容。但仍然有大量的 ai 模型无法覆盖(花样太多了),可使用 HttpUtils 直接请求。
小霖家的混江龙21 小时前
人工智能·python·llm
Token 到底怎么来的? 一文读懂大模型分词的核心逻辑, 看完秒懂!在 AI 技术遍地开花的今天, Token (词元) 绝对是你绕不开的核心概念. 你大概率知道大模型按 Token 计费,也听说过它是模型处理信息的基础单元.
leo030821 小时前
llm·dp·huggingface·ddp
Hugging Face多卡训练“假快”?一文讲透`per_device_train_batch_size`的“陷阱”刚配好多卡机器,想用Hugging Face微调模型,觉得只要用python命令直接跑,卡多速度就快。结果一看nvidia-smi,发现只有一块卡在100%忙活,其他的都在“摸鱼”。更奇怪的是,训练时长和用单卡跑竟然差不多!
吴佳浩21 小时前
人工智能·llm·gpu
什么?大模型部署需要多少显存你都不知道?虽然大模型出来有段时间了,但是依然有很多的开发者不知道如何下手去部署一个自己的本地模型,甚至不知道,自己本地的资源适合部署什么模型 ,什么模型需要多少资源。今天我们就来讲讲这个常规的基础问题。
AI大模型1 天前
程序员·llm·agent
小白 & 程序员速看!快速入行大模型应用开发的完整实战指南,建议收藏本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。在人工智能技术飞速迭代的当下,大语言模型(如ChatGPT、Claude、文心一言等)早已跳出科研实验室的范畴,成为普通开发者触手可及的技术工具。随着AI浪潮的席卷,越来越多职场人渴望借势转型,尤其是初次接触AI领域的新手,常常在知乎、CSDN、掘金等技术社区频繁提问:“怎样才能快速踏入大模型应用开发领域?”
阿正的梦工坊1 天前
人工智能·算法·大模型·llm
DreamGym:通过经验合成实现代理学习的可扩展化今天,我们来聊聊一篇刚刚发布的论文:《Scaling Agent Learning via Experience Synthesis》(通过经验合成实现代理学习的扩展)。这篇论文由Meta Superintelligence Labs和FAIR团队主导,发表于2025年11月7日(arXiv:2511.03773v2)。如果你已经熟悉PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)等RL算法,这篇论文会特别
山顶夕景1 天前
大模型·llm·ai编程
【LLM应用】Codex & Codex CLI使用Codex Cli、对标 Claude Code 适合:喜欢命令行、自动化脚本、批量处理任务。 特点:轻量、快速、可集成 CI/CD。 ✅ 在您的 IDE 中尝试 支持 VS Code、Cursor、Windsurf 等。 特点:图形界面友好,适合日常开发、边写边问。
yaocheng的ai分身2 天前
llm
AI现状报告——基于OpenRouter的100万亿Token实证研究转载2025年12月过去一年标志着大型语言模型(LLM)发展和实际应用的转折点。随着2024年12月5日首个广泛采用的推理模型_o1_的发布,该领域从单次模式生成转向多步骤审议推理,加速了部署、实验和新应用类别的出现。随着这一转变的快速展开,我们对这些模型在实际中如何使用的实证理解滞后了。在这项工作中,我们利用OpenRouter平台(一个跨各种LLM的AI推理提供商)分析了超过100万亿token的真实世界LLM交互,涵盖任务、地理和时间维度。在我们的实证研究中,我们观察到开源模型的广泛采用、创意角色扮