大语言模型

程序员爱德华8 小时前
大语言模型·知识蒸馏
深度学习模型最基础的神经网络,用于简单分类、回归擅长图像、语音、时序等网格数据传统序列模型,处理文本、时间序列ResNet / DenseNet:图像分类backbone ViT(Vision Transformer):用Transformer做视觉 YOLO / Faster R-CNN:目标检测 U-Net:医学图像分割 GAN / StyleGAN:图像生成 Stable Diffusion / Flux:文生图、图生图扩散模型
deephub5 天前
人工智能·深度学习·大语言模型·rag·检索
RAG 文本分块:七种主流策略的原理与适用场景检索是 RAG 系统的搜索引擎,分块则是这个搜索引擎的基础。分块太长、太短、有噪声、切错了位置——随便犯哪个错LLM 都会有问题。行业里有句话流传很广:“分块决定了 RAG 质量的 70%。”
deephub6 天前
人工智能·prompt·大语言模型
LLM创造力可以被度量吗?一个基于提示词变更的探索性实验大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了:不稳定、不可预测,甚至直接不可用。
司南OpenCompass6 天前
人工智能·大语言模型·多模态模型·大模型评测·司南评测
Gemini-3-Pro-Preview登顶,大模型迈入Agent元年丨大语言模型1月最新榜单揭晓进入 2026 年,全球大模型技术持续加速演进,新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标,转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力,在编程、推理、工具调用与信息检索等关键方向不断提升,全面增强解决实际问题的能力。与此同时,中国大模型在全球舞台上持续受到关注,越来越多模型在海外社区引发热议,展现出中国在大模型日益增强的技术实力与创新活力。
zhangfeng11336 天前
python·大语言模型
GitHub博主hiyouga与LlamaFactory项目研究报告本研究聚焦于GitHub知名博主hiyouga及其明星项目LlamaFactory,旨在全面了解该博主的技术影响力,并深入分析其核心项目的技术价值。
SunnyRivers6 天前
人工智能·大语言模型
理解人工智能与大语言模型(LLMs)学习什么是大语言模型(LLMs)、它们的工作原理,并比较最新的 AI 模型,如 GPT-4.1、Claude 4、Gemini 2.5 和 Llama 4。本教程全面覆盖初学者在 2025 年需要了解的所有 AI 基础知识。
deephub7 天前
人工智能·microsoft·langchain·大语言模型·agent·强化学习
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用Agent 搭建起来之后怎么让它真正变得越来越好?搭建完成后的优化就很少有人认真说过。Agent Lightning 号称能把任何 AI Agent 变成"可优化的猛兽",而且几乎不用改代码。那问题来了,市面上 Agent 框架满天飞这个凭什么就不一样呢?
deephub8 天前
人工智能·python·软件工程·大语言模型·ai智能体
软件工程原则在多智能体系统中的应用:分层与解耦ChatGPT 发布之后,AI 智能体的概念就一直牵动着整个行业的想象力。它描绘的场景很诱人:给 AI 系统一个目标,让它自行拆解问题、调用工具、收集信息,最终综合出结果。
prog_610311 天前
笔记·大语言模型·agent·cursor
【笔记】思路分享:各种大模型免费当agent后台虽然有cursor协助,但是还是得居安思危,先准备好没有cursor的时候该用什么,然后继续思考如果没有大模型,能用什么做替代。不想得过远,我们先想想如果cursor没有了该怎么办。
deephub12 天前
人工智能·深度学习·大语言模型·推理时计算
LLM推理时计算技术详解:四种提升大模型推理能力的方法2025年LLM领域有个有意思的趋势:与其继续卷模型训练,不如在推理阶段多花点功夫。这就是所谓的推理时计算(Test-Time / Inference-Time Compute):在推理阶段投入更多计算资源,包括更多Token、更多尝试、更深入的搜索,但不会改动模型权重。
北京地铁1号线15 天前
大数据·人工智能·深度学习·大语言模型
4.2 幻觉抑制策略目录第一部分:理解幻觉第二部分:通过Prompt引导抑制幻觉(事前干预)1. 提高输入信息质量2. 结构化Prompt工程
中杯可乐多加冰16 天前
人工智能·大模型·llm·大语言模型·rag·检索增强生成
RAG 深度实践系列(七):从“能用”到“好用”——RAG 系统优化与效果评估在 RAG 深度实践系列的前几篇文章中,我们已经完成了从理论架构到动手搭建,再到企业级平台部署的全过程。RAG(Retrieval-Augmented Generation,检索增强生成)技术,作为连接大语言模型(LLM)与企业私域知识的桥梁,无疑是当前 AI 领域最具潜力的应用范式之一。
小艳加油16 天前
大语言模型·水文水资源·水文模型
AI革新水文水资源:从时间序列分析、空间数据处理到水文模型优化、科学写作、优化算法与RAG微调,一站式掌握大语言模型在水文领域的深度应用随着人工智能技术的迅猛发展,大语言模型(如GPT)正以其卓越的自然语言理解与生成能力,全面革新水文水资源领域的科研与实践方式。GPT在数据分析、模式识别与复杂任务处理中展现出前所未有的精准性与效率,不仅突破了传统技术的瓶颈,更显著提升了研究决策的智能化水平。从海量水文数据的快速提取到环境模型的智能优化,AI正成为推动领域创新的核心驱动力。
deephub17 天前
人工智能·深度学习·大语言模型·agent
让 AI 智能体学会自我进化:Agent Lightning 实战入门当前主流 AI 智能体框架有一个共同的局限:智能体只能按预设逻辑执行任务,无法从运行时反馈中持续学习。模型权重是静态的,提示词需要人工迭代,整个系统缺乏自我优化的闭环。
Jackson@ML17 天前
python·大语言模型·kimi
Kimi K2.5横空出世!K2.5模型功能详解By Jackson@ML2026年1月27日,月之暗面技术有限公司(MoonShot AI)正式发布Kimi K2.5,它是迄今为止 Kimi 最智能的模型,在 Agent、代码、视觉理解以及一系列通用智能任务中实现了开源的最先进性能。
五点钟科技18 天前
人工智能·llm·ocr·论文·大语言模型·deepseek·deepseek-ocr
Deepseek-OCR:《DeepSeek-OCR: Contexts Optical Compression》 论文要点解读最近幻方又在搞事情了,一篇关于通过视觉进行语言理解的论文火遍圈子。迫不及待看了看论文,发现他们真是一支十分聪明又十分善于思考的团队,不得不佩服!
deephub18 天前
人工智能·pytorch·python·深度学习·大语言模型
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入这篇文章从头实现 LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures。需要说明的是,这里写的是一个简洁的最小化训练脚本,目标是了解 JEPA 的本质:对同一文本创建两个视图,预测被遮蔽片段的嵌入,用表示对齐损失来训练。
yuanlulu18 天前
人工智能·大语言模型·agent·智能体·skill·claude code·opencode
Agent_Skills_完全教程「AI生成」在opencode中使用kimi2.5生成的skil教程。Agent Skills 是由Anthropic开发并开源的一种轻量级、开放式格式,专门用于扩展AI智能体的能力。它是一种标准化的方式,让开发者可以将专业知识、工作流程和特定领域的操作封装成可复用的"技能包"。
大熊猫侯佩20 天前
llm·swiftui·大语言模型·foundationmodel·apple ai·apple 人工智能·summarize
赛博深渊(上):用 Apple Foundation Models 提炼“禁忌知识”的求生指南新九龙城的雨从未停过。霓虹灯的废气在湿漉漉的街道上晕染开来,像极了那个死于代码过载的倒霉蛋老王流出的脑浆。
小爷毛毛(卓寿杰)20 天前
人工智能·自动化·powerpoint·大语言模型
SlideFlow: AI 驱动的 PPT 自动化生成引擎重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》本专栏系统介绍了大语言模型(LLM)及其相关技术的系列文章。第一章从LLM基础概念入手,涵盖文本向量化、ChatGPT应用、模型架构等基础知识,并针对Qwen3模型进行了6篇技术报告的深度解读。第二章聚焦RAG(检索增强生成)与Agent技术,包括RAG架构实践、知识图谱应用和多篇行业案例解析,同时包含17篇Dify框架核心源码的模块化解读。文章内容涵盖从基础理论到行业应用的全方位技术解析,为开发者提供了大语言模型技术落地的完整知识体系。