大语言模型

J_bean12 小时前
人工智能·ai·llm·大语言模型·token
大语言模型 API Token 消耗深度剖析在调用大语言模型(LLM)API 时,Token 统计不仅是计费的唯一依据,更是评估模型推理深度、响应延迟及上下文窗口管理的关键指标。本文旨在通过源码解析,帮助开发者彻底理解 Token 的消耗逻辑。
BE东欲19 小时前
大语言模型·ai模型部署·视觉推理
Llama-3.2V-11B-cot镜像部署一文详解:解决torch版本冲突与依赖兼容问题你是不是也遇到过这种情况?好不容易找到一个功能强大的AI模型镜像,比如这个支持图像理解和逐步推理的Llama-3.2V-11B-cot,结果一运行就报错,各种版本冲突、依赖问题让人头疼。
deephub20 小时前
人工智能·大语言模型·agent·记忆
为生产级 AI Agent 构建持久化记忆:五阶段流水线与四种设计模式每一次 LLM 调用都是无状态的。模型读上下文窗口,生成响应然后忘掉一切。这对单轮问答没问题。对下列任何一类 Agent,这都是致命的:
deephub2 天前
人工智能·prompt·大语言模型·claude
【无标题】Claude 4.7刚发布不久他的Prompt就已经被Hack出来了,仔细看 Claude 的系统设计会发现一件有意思的事:它不只追求聪明,还在试图约束自身的行为。
_张一凡3 天前
llm·aigc·大语言模型·大语言模型微调
【大语言模型学习】2026年最适合新手的小型LLM训练项目全指南:从26M到1B,3块钱就能从头训练在大模型动辄千亿参数、训练成本动辄百万的今天,小型大语言模型 (Small LLMs) 已经成为 AI 学习者和个人开发者的最佳切入点。它们不仅训练成本极低、速度快,还能让你完整掌握从预训练到对齐的全流程,真正理解大模型的内部工作原理。
mpr0xy3 天前
人工智能·ai·大语言模型·qwen·deepseek
《AI怎么一步步变聪明的?》系列(六)中国大模型崛起之路:从“追赶者”到“解题人”站在2026年4月的春光里,当我们翻开最新的行业简报,一个足以载入史册的数据跃然纸上:中国AI大模型的周Token调用量,已经连续四周碾压美国,甚至在OpenRouter这类全球聚合平台上,中国大模型的消耗占比高达61%。
带娃的IT创业者3 天前
大语言模型·性能测试·opus·anthropic·token成本
Opus 4.6 vs 4.7:社区匿名实测揭示Token成本差异在大语言模型(LLM)的应用开发与部署中,Token不仅是计费的基本单位,更是衡量模型性能与资源消耗的核心指标。对于企业级应用而言,哪怕是微小的Token计数差异,在规模化调用下都会被无限放大,最终转化为巨额的账单差异。
墨心@4 天前
pytorch·语言模型·大语言模型·datawhale·组队学习
pytorch 与资源核算问题: 假设你是一个 AI 工程师,老板问你:“在 1024 张 H100 显卡上,训练一个 70B(700亿参数)的模型,数据量是 15T(15万亿 tokens),大概要多久?” 直接跑去写代码测试,那可能几天甚至几个月都出不来结果。因此,我们需要学会“Napkin math”(餐巾纸计算,即快速估算)。
亿风行6 天前
大语言模型·多轮对话·推理优化·sglang
实测SGLang的RadixAttention技术,缓存效率飙升SGLang不是又一个LLM推理框架的简单复刻,而是一次针对真实部署瓶颈的精准手术。当多数框架还在优化单请求延迟时,SGLang把刀锋对准了更隐蔽也更致命的问题:KV缓存的重复计算与内存浪费。尤其在多轮对话、批量API调用、结构化输出等高频场景中,传统注意力机制像一辆不断空转的发动机——算力在反复咀嚼相同的历史token,GPU显存被冗余缓存填满,吞吐量卡在瓶颈线上纹丝不动。
Lucy-Fintech社区6 天前
大语言模型·gemma·ai部署·显存管理
Gemma-3-12b-it显存精细化管理实战:动态释放+缓存清理自动化脚本如果你正在本地运行像Gemma-3-12b-it这样的大模型,可能已经遇到了一个头疼的问题:显存不够用。刚开始对话时一切正常,但随着对话轮次增加,或者处理了几张图片后,程序开始报错,提示显存不足,甚至直接崩溃。
明月夜&7 天前
git·vscode·ubuntu·docker·大语言模型·智能体
Ubuntu 20.04 Docker 部署 Ollama + DeepSeek-Coder:本地 AI 编程助手实战想在本地拥有一套完全属于自己的 AI 编程助手,无需联网、无惧数据隐私问题?本文手把手带你从零开始在 Ubuntu 20.04 上搭建基于 Docker 的 Ollama 运行环境,并部署 DeepSeek-Coder-V2 模型。内容涵盖 Docker 安装、国内镜像加速配置、Ollama 容器化部署、模型数据持久化、Python 调用环境(LangChain + Chroma),以及通过 SSH 连接 Gitee 仓库的完整流程。
偏偏无理取闹7 天前
大语言模型·ai部署·多语言对话
Llama-3.2-3B开箱体验:Ollama部署+多语言对话实测Llama-3.2-3B是Meta最新推出的轻量级多语言大模型,专门针对对话场景进行了优化。这个3B参数的模型在保持较小体积的同时,提供了相当不错的文本生成能力,特别适合本地部署和快速响应场景。
李大锤同学7 天前
大语言模型·ai推理·gpu优化
Qwen3.5-4B-Claude-Opus部署教程:GPU显存监控与llama.cpp参数调优Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF是基于Qwen3.5-4B的推理蒸馏模型,特别强化了结构化分析、分步骤回答、代码与逻辑类问题的处理能力。该版本以GGUF量化形态交付,适合本地推理和Web镜像部署。
Shen Planck8 天前
nlp·大语言模型·baai·语义相似度
BAAI/bge-m3部署磁盘不足?模型缓存清理操作指南你刚拉取完 BAAI/bge-m3 镜像,兴冲冲启动服务,准备测试语义相似度分析——结果系统突然报错:“No space left on device”? 或者更隐蔽些:WebUI能打开,但第一次点击“分析”就卡住十几秒,接着提示加载失败、内存溢出,甚至容器自动退出?
deephub8 天前
人工智能·大语言模型·embedding·rag
无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析PageIndex 是一种无向量、基于推理的检索增强生成(RAG)方法,无需 Embedding、分块或向量数据库即可从长文档中检索答案。
deephub9 天前
人工智能·python·大语言模型·向量检索·rag
从检索到回答:RAG 流水线中三个被忽视的故障点RAG 流水线部署完毕、检索正常运行、LLM 按部就班地生成回答、用户也在持续收到响应,这一切看上去运转良好。但有一个问题大多数工程师从来不问:这些回答真的对吗?
deephub10 天前
人工智能·大语言模型·知识库·rag
Karpathy的LLM Wiki:一种将RAG从解释器模式升级为编译器模式的架构Andrej Karpathy在GitHub上发布了一份名为LLM Wiki的文档引起了巨大的关注,一派认为"这不就是多绕了几步的RAG",另一派已经打开编辑器着手搭建测试。
deephub12 天前
人工智能·prompt·大语言模型·context
Prompt、Context、Harness:AI Agent 工程的三层架构解析2023 年"Prompt Engineering"无处不在;到 2025 年中"Context Engineering"成为了主流;而 2026 年 4月反复提及的词是"Harness Engineering"。这三个术语描述的是同一问题在不同深度上的结构。搞清楚它们各自的边界,是眼下最有实用价值的认知框架。
deephub14 天前
人工智能·python·大语言模型·embedding·向量检索
向量数据库对比:Pinecone、Chroma、Weaviate 的架构与适用场景向量数据库存储 Embedding,也就是文本、图像或音频的数值表示,并在查询时检索语义上最接近的结果。RAG 系统正是基于这一机制运作。本文对比三个主流方案,每个都附有 Python 代码,均来自实际在生产环境中使用三者的经验。 三种选择:Pinecone 用于生产级规模,Chroma 用于本地原型开发,Weaviate 用于混合搜索。
deephub16 天前
人工智能·python·大语言模型·agent
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析单个智能体的专业化程度有上限,真正的工作需要团队:一个角色接收订单,一个检查库存,一个安排生产,一个验证质量。ADK 的编排模式:SequentialAgent、ParallelAgent、LoopAgent可以将多个智能体组合成工作流,流程只定义一次,状态在智能体之间自动传递,故障由系统托管。本文讲介绍每种模式的适用场景、状态的流转机制,以及如何在不编写编排逻辑的前提下搭建一条完整的从订单到交付的流水线。