llm

mubei-1234 小时前
人工智能·llm·检索增强生成·文本检索算法
DPR:用于开放域问答的密集段落检索(1)开放域问答中的检索通常使用TF-IDF或BM25来实现,它通过倒排索引有效地匹配关键字,可以看作是用高维稀疏向量(带加权)表示问题和上下文。
亚里随笔6 小时前
深度学习·llm·rl·agentic·grpo
激活被遗忘的训练信号:ERPO框架如何让大模型在数学推理中更进一步随着大型语言模型在数学、编程等复杂推理任务中的表现日益出色,如何进一步提升其推理能力成为研究热点。本文介绍了一种创新的训练框架——ERPO(Explore Residual Prompts in Policy Optimization),通过巧妙利用训练过程中被"遗忘"的残余提示,显著提升了模型的数学推理性能,在多个基准测试中取得了显著改进。
智泊AI6 小时前
llm
一文讲清:AI大模型的并行训练方式:DP、PP、TP、EP大家都知道AI计算,特别是模型训练与推理环节,核心依赖于并行计算架构。在AI的底层算法中,诸如矩阵乘法、卷积运算、循环结构以及梯度反传等关键操作,均需调动成千上万块GPU,通过高度并行的任务调度来高效推进,从而显著压缩整体耗时。
夏日白云9 小时前
pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 8 章|融合策略:不是兜底,而是信息利用率最大化点此进入系列专栏如果前几章解决的是“用什么能力”“怎么组织能力”,那这一章要回答的,是一个更现实的问题:
阿正的梦工坊10 小时前
人工智能·深度学习·机器学习·大模型·llm
WebArena:一个真实的网页环境,用于构建更强大的自主智能体最近,在 ICLR 2024 上发表了一篇来自卡内基梅隆大学的论文——WebArena: A Realistic Web Environment for Building Autonomous Agents(arXiv: 2307.13854)。这篇论文提出并实现了一个高度逼真、可复现的网页环境,专门用于开发和评估基于自然语言指令的自主智能体(Autonomous Agents)。今天这篇博客就来详细介绍这篇论文:它到底想解决什么问题、如何解决,以及其中的关键细节。
Mintopia11 小时前
人工智能·llm·图片资源
容器化部署 Flux.1-dev 文生图模型应用 | 共绩算力作为2024年最强的开源文生图模型,Flux.1在文字渲染、人物细节和画面构图上全面超越SDXL。最重要的是,现在有现成的容器化方案,让你跳过繁琐的环境配置,一键部署即可使用。
CoderJia程序员甲11 小时前
ai·开源·llm·github
GitHub 热榜项目 - 日榜(2025-12-29)生成于:2025-12-29共发现热门项目: 12 个榜单类型:日榜本期GitHub热榜显示AI应用开发持续爆发,热点集中在智能代理与RAG技术实战。Awesome-LLM-Apps汇集了基于OpenAI、Anthropic等模型的AI代理应用,而Agents和RAG-Anything项目则提供了多智能体编排与一体化检索增强生成框架,助力开发者快速构建生产级AI解决方案。同时MediaCrawler等数据爬虫工具支撑了非结构化数据获取,SkyReels-V2展示了开源视频生成模型的突破。整体趋势表明,开发
悟乙己11 小时前
人工智能·信息可视化·llm·数据可视化
LLM+数据可视化的终点?蚂蚁AntV 的AI新玩法:Text2Graph此处申明,非广告贴,纯带货不收钱… 要是有AntV员工看到了,请帮我申报下推广费…对于 AntV 而言,AI 不应只是一个工具,而应成为一种全新的研发范式。数据可视化也可以跟LLM结合的很深入。 它应该能听懂需求,理解困惑,成为开发者身边最得力的可视化专家。 AntV 将 AI 能力深度集成到开发者的工作流中,旨在提供一个全天候、智能化的可视化助手。它以 MCP-Server-AntV 为底座,主要通过研发、答疑两大核心场景,重塑开发体验。
mubei-12311 小时前
人工智能·llm·rag·检索增强生成
FiD:利用具有生成模型的段落检索进行开放域问答(1)开放域问答的生成模型已被证明具有相当竞争力的性能,可以无需借助外部知识完成任务。本工作研究了这些生成模型从检索到的可能包含证据的文本段落中能受益多少;
悟乙己12 小时前
java·llm·pptx·skills·anthropics
anthropics Skills pptx深度解读:从官方规范到实战案例(二)本文将深度解读 Anthropic pptx Skill 的设计与应用,内容主要基于以下两份材料:图片来源:《年底 PPT 杀疯了?别慌!让 CodeBuddy “外挂”帮你光速写完》
nvd1112 小时前
llm·ocr
PDFLoader 中的 OCR 文字提取实现详解默认的 langchain_community.document_loaders.PyPDFLoader 虽然支持 extract_images 参数,但在某些场景下,它并不会自动将 OCR 识别后的文字合并到 page_content 中。为了确保能够百分之百提取出 PDF 页面中嵌入的图像文字(如电路图标签、截图文字等),我们采用了 Mix-in (混合) 模式:在保留原生文本层提取能力的同时,手动插入自定义的 OCR 处理流程。
WitsMakeMen12 小时前
人工智能·缓存·语言模型·自然语言处理·llm·transformer
训练时开启 KV 缓存会和is_causal=False 冲突训练时开启 KV 缓存(Key-Value Cache)与 is_causal=False 冲突的核心原因是:KV 缓存的设计逻辑完全依赖「因果掩码(is_causal=True)+ 自回归逐 token 生成」,而 is_causal=False 打破了这一核心前提,从「逻辑设计、维度计算、场景适配」三个层面产生不可调和的矛盾。以下结合 Qwen3 等 Decoder 模型的底层逻辑,拆解冲突本质:
WitsMakeMen12 小时前
人工智能·语言模型·自然语言处理·llm·qwen3
qwen3 训练loss 出现nan在 Qwen3 的训练 / 微调过程中,loss 变为 NaN(Not a Number,非数字) 是数值计算完全失效的核心标志,意味着模型在损失函数计算、梯度传播环节出现了无法被计算机解析的无效数值运算—— 这不是 “模型学不好(loss 高)”,而是 “训练流程本身崩溃”,继续训练会导致参数更新完全失效(参数也会变成 NaN),必须立即停止并排查问题。
熊猫钓鱼>_>12 小时前
大数据·人工智能·ai·llm·提示词·智能体·tbox
Tbox使用教程与心得体验:智能体驱动我的“2025年大模型发展工作总结及企业智能办公场景应用前景“深度报告生成Tbox是一款基于智能体驱动的内容生成平台,它通过精心设计的多轮对话系统,将复杂的工作总结报告生成过程分解为多个步骤,确保最终产出的内容既专业又全面。
沛沛老爹12 小时前
前端·人工智能·llm·agent·rag·web转型
Web开发者实战AI Agent:基于Dify的多模态文生图与文生视频智能体项目图片来源网络,侵权联系删。在传统的Web开发中,图像和视频通常是通过设计师或预先录制的内容来提供的。然而,随着人工智能技术的发展,尤其是多模态模型的应用,我们现在可以实现根据文本描述自动生成图像或视频,这为Web开发者提供了新的创意空间。
夏日白云15 小时前
pdf·llm·大语言模型·多模态·rag·文档解析
《PDF解析工程实录》第 9 章|端到端多模态模型:不是接不住,而是要看业务能接受什么点此进入系列专栏如果你一路写到了 pipeline、融合、阅读顺序,再回头看端到端多模态模型,视角其实会发生明显变化。
骚戴21 小时前
人工智能·python·大模型·llm·api·ai gateway
2025 Python AI 实战:零基础调用 LLM API 开发指南摘要:在 AI 重塑行业的今天,掌握 大模型(LLM)开发技能是核心竞争力。本文作为保姆级 Python AI 教程,将带你从零开始,用 20 行代码完成对全球主流 AI 大模型(GPT-4o/Claude)的 API 调用。我们将深入解析 LLM API 聚合原理,助你低成本构建企业级 AI 系统。
EdisonZhou1 天前
llm·aigc·agent·.net core
MAF快速入门(9)多路分支路由工作流大家好,我是Edison。最近我一直在跟着圣杰的《.NET+AI智能体开发进阶》课程学习MAF的开发技巧,我强烈推荐你也上车跟我一起出发!
dawdo2221 天前
llm·推理引擎·xllm·tokenizer管理器
自己动手从头开始编写LLM推理引擎(3)在前两篇文章中,我们分别搭建了一个Demo推理引擎,并设计了自研的xLLM推理引擎架构。在Demo阶段,我们使用了简单的PD(Prompt Engineering + Decoding)分离架构,将提示工程和解码过程分离。然而,当我们从Demo走向生产级系统时,需要一个更加完善的Tokenizer管理器来处理复杂的推理场景。本文将深入介绍Tokenizer管理器的设计与实现,解释为什么需要专门的Tokenizer管理器,实现的原则和要点,并结合实际代码展示最佳实践。