llm

智泊AI6 分钟前
llm
一文讲清:RAG的7种优化方法,看完简直醍醐灌顶!大规模语言模型(LLMs)已深度融入日常生活与职场实践,凭借其卓越的多功能性和智能水平,彻底重塑了人类与信息交互的模式。
CoderJia程序员甲3 小时前
ai·开源·llm·github·ai教程
GitHub 热榜项目 - 日榜(2025-12-8)生成于:2025-12-8共发现热门项目: 14 个榜单类型:日榜本期GitHub热榜深度聚焦AI工程化落地与核心基础设施升级,微软VibeVoice开启语音交互新纪元,配合英伟达GPU并行计算库,为多模态开发构筑坚实底座。Rust生态持续高能,RustFS以超两倍性能挑战存储极限,终端编辑器fresh则展示了极致效率。AI智能体领域全面爆发,从OpenCode编程助手到覆盖多行业的五百个Agent实战案例,标志着技术应用从单纯对话迈向自主决策。涵盖Claude开发与NotebookLM开源替代的项目热度
大模型教程5 小时前
llm·agent·ollama
零基础上手 Ollama:教你3分钟跑通本地大模型本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在这里。Ollama 是一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。
大模型教程6 小时前
langchain·llm·agent
GitHub 12w Star神器!一文详解大模型集成框架LangChain本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在这里。随着ChatGPT、DeepSeek等大模型(LLM)的崛起,开发者已不满足于简单的对话框交互,而是迫切希望将其深度集成到自己应用中,以构建更强大的智能应用。因此,市场上涌现出诸多大模型集成框架,如LangChain(LangChain4j、LangChainJS)、LlamaIndex、Spring AI、Semantic Kernel、Eino等。其中,其中LangChain是这些框架中出现最早,且最成熟的框架,已成为LLM开发中最
懒猫gg6 小时前
大模型·llm·gtp
大规模语言模型(LLM)2018 年OpenAI 在论文题为《Improving Language Understanding by Generative Pre-Training》提出的首个 GPT 系列模型, 其核心思想无监督预训练 + 有监督微调的两阶段范式,提升模型在多种自然语言理解(NLU)任务上的表现。
AI大模型6 小时前
程序员·llm·agent
AI大模型调优工程:突破显存墙与灾难性遗忘的双重挑战本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。面对万亿参数模型,传统全参数微调已成为资源黑洞。本文提出动态混合稀疏微调框架(DySparse),通过结构感知参数选择、梯度稀疏化压缩、神经路径蒸馏三大核心技术,在Llama3-405B模型实现调显存占用下降89% (8xA100可微调)、多任务遗忘率低于4.7% ,推理延迟仅增加0.3ms。
AI大模型6 小时前
程序员·llm·agent
关于智能体(AI Agent)入门,一篇超详细的总结本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。AI 正以前所未有的速度发展,新的机遇不断涌现,如果你希望:与技术专家、产品经理和创业者深度交流,一起探索 AI如何改变各行各业。
java1234_小锋7 小时前
深度学习·语言模型·llm·transformer·大语言模型
Transformer 大语言模型(LLM)基石 - Transformer简介锋哥原创的Transformer 大语言模型(LLM)基石视频教程:https://www.bilibili.com/video/BV1X92pBqEhV
Stara05117 小时前
python·langchain·llm·agent·提示工程·rag
LangChain—大语言模型应用开发框架的体系化架构解析🍋LangChain是一个基于大语言模型的开发框架,旨在帮助开发者构建端到端的语言模型应用。它提供丰富的工具套件和接口,支持实现文本生成图像、智能问答、聊天机器人等多种复杂任务。类似于 Java 中的 Spring,Python 中的 Django
Mintopia8 小时前
人工智能·llm·全栈
🤖 大模型AI对话系统:消息结构展示设计猜想我们常以为和AI“对话”,只是在聊天。 但在系统底层,每一条消息都是一个复杂的数据结构, 它穿过模型接口、经过Prompt工程、再被格式化成人类可读的语言界面。
AI大模型产品经理8 小时前
人工智能·ai·语言模型·大模型·llm·ai大模型
混合专家模型MoE的全面指南(二)路由机制、负载均衡既然我们有了这么一帮专家,那模型咋知道该用哪个专家呢?在专家前面加了个门控网络,它会学着挑出给定词用哪个专家。
程序员miki9 小时前
人工智能·python·llm·多模态·vlm
多模态模型演变仅供学习参考监督学习:输入+模型+求损失(预测值,标签)自监督学习:输入+模型+求损失(预测值,输入中找标签)
16324015419 小时前
llm
回顾-LLM基础模块,分类,架构,训练等小汇总备注:回顾看过的论文与之前总结的内容,对目前这个系列做个小小的汇总。虽然LLM现在更新层出不穷+各种paper漫天飞舞,不过目前回顾看的各种结构改变并不是特别大,掌握基础的不变的才可以能更好的适应变化。(注:笔者水平有限,若有描述不当之处,欢迎大家留言。后期会继续更新LLM系列,文生图系列,VLM系列,agent系列等。如果看完有收获,可以【点赞】【收藏】【加粉】)
阿正的梦工坊9 小时前
人工智能·算法·大模型·llm
FlowBench论文阅读:Workflow-Guided Planning for LLM-based Agents今天,我们来聊聊一篇来自EMNLP 2024的论文:《FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents》。这篇工作由浙江大学和阿里巴巴的研究者联合完成,针对LLM-based Agents在复杂任务规划中的“幻觉”问题,提出首个全面的工作流引导规划基准测试。面对当前Agent研究领域的快速发展,这项工作为我们提供了宝贵的洞见和工具。如果你是从事LLM代理规划、知识增强或多模态表示的研究者
leo030818 小时前
llm·sft·huggingface·trl
【LLM微调】拒绝“假装聪明”:SFTTrainer 中 completion_only_loss 新旧版本用法详解在指令微调(SFT)大模型时,你是否遇到过:训练 Loss 迅速降到 0.0x,准确率飙升到 99%,但模型实际推理效果却很差?
ariesjzj18 小时前
大模型·llm·deepseek·推理优化·大规模ep
DeepSeek时代的Large-scale LLM推理2025年底DeepSeek V3发布炸场,几乎为业界之后的LLM优化方向定了调,尤其是大规模推理优化方面。去年快年底时对LLM的推理优化技术做过一个简单的总结:《LLM时代中的AI推理优化》,现在看来已有很多变化。在DeepSeek V3问世快一年之际,这里简单整理总结一下业界与之相关的推理优化技术。
智泊AI20 小时前
llm
长上下文、Agent记忆、Text2SQL中,谁会取代RAG?长上下文处理能力、Agent的记忆机制、Text2SQL技术的演进,是否终将取代RAG?换句话来说:RAG是否仅是技术演进中的"阶段性方案"?
CoderJia程序员甲1 天前
git·ai·开源·llm·github
GitHub 热榜项目 - 日榜(2025-12-7)生成于:2025-12-7共发现热门项目: 16 个榜单类型:日榜本期GitHub热榜显示AI工程与高性能基础设施成为核心热点。微软开源语音AI项目VibeVoice与生物分子基础模型平台Foundry展现了AI技术向语音和科学计算前沿的快速拓展。同时,开发者正积极解决AI实际应用问题,AI工程实践指南和Claude\nAPI快速入门项目为构建生产级应用提供了可直接复现的代码方案。在基础设施层,Rust语言项目表现抢眼,RustFS对象存储性能远超MinIO,Bun运行时持续引领JavaScript工具链
大模型教程1 天前
程序员·llm·agent
小猫都能懂的大模型原理 3 - 自注意力机制本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。Transformer 的核心创新就是自注意力机制,如果忽略数学层面的问题,其实不难理解。
大模型教程1 天前
程序员·llm·agent
小猫都能懂的大模型原理 2 - 初见大语言模型本文较长,建议点赞收藏。更多AI大模型应用开发学习视频及资料,在智泊AI。现在大家遇到问题,第一反应都不是使用搜索引擎,而是问 chatGPT,chat 大家都知道是聊天的意思,但是 GPT 它到底是个什么呢?