大语言模型

明月夜&19 小时前
git·vscode·ubuntu·docker·大语言模型·智能体
Ubuntu 20.04 Docker 部署 Ollama + DeepSeek-Coder:本地 AI 编程助手实战想在本地拥有一套完全属于自己的 AI 编程助手,无需联网、无惧数据隐私问题?本文手把手带你从零开始在 Ubuntu 20.04 上搭建基于 Docker 的 Ollama 运行环境,并部署 DeepSeek-Coder-V2 模型。内容涵盖 Docker 安装、国内镜像加速配置、Ollama 容器化部署、模型数据持久化、Python 调用环境(LangChain + Chroma),以及通过 SSH 连接 Gitee 仓库的完整流程。
偏偏无理取闹1 天前
大语言模型·ai部署·多语言对话
Llama-3.2-3B开箱体验:Ollama部署+多语言对话实测Llama-3.2-3B是Meta最新推出的轻量级多语言大模型,专门针对对话场景进行了优化。这个3B参数的模型在保持较小体积的同时,提供了相当不错的文本生成能力,特别适合本地部署和快速响应场景。
李大锤同学1 天前
大语言模型·ai推理·gpu优化
Qwen3.5-4B-Claude-Opus部署教程:GPU显存监控与llama.cpp参数调优Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF是基于Qwen3.5-4B的推理蒸馏模型,特别强化了结构化分析、分步骤回答、代码与逻辑类问题的处理能力。该版本以GGUF量化形态交付,适合本地推理和Web镜像部署。
Shen Planck2 天前
nlp·大语言模型·baai·语义相似度
BAAI/bge-m3部署磁盘不足?模型缓存清理操作指南你刚拉取完 BAAI/bge-m3 镜像,兴冲冲启动服务,准备测试语义相似度分析——结果系统突然报错:“No space left on device”? 或者更隐蔽些:WebUI能打开,但第一次点击“分析”就卡住十几秒,接着提示加载失败、内存溢出,甚至容器自动退出?
deephub2 天前
人工智能·大语言模型·embedding·rag
无 Embedding、无向量数据库的 RAG 方法:PageIndex 技术解析PageIndex 是一种无向量、基于推理的检索增强生成(RAG)方法,无需 Embedding、分块或向量数据库即可从长文档中检索答案。
deephub3 天前
人工智能·python·大语言模型·向量检索·rag
从检索到回答:RAG 流水线中三个被忽视的故障点RAG 流水线部署完毕、检索正常运行、LLM 按部就班地生成回答、用户也在持续收到响应,这一切看上去运转良好。但有一个问题大多数工程师从来不问:这些回答真的对吗?
deephub4 天前
人工智能·大语言模型·知识库·rag
Karpathy的LLM Wiki:一种将RAG从解释器模式升级为编译器模式的架构Andrej Karpathy在GitHub上发布了一份名为LLM Wiki的文档引起了巨大的关注,一派认为"这不就是多绕了几步的RAG",另一派已经打开编辑器着手搭建测试。
deephub6 天前
人工智能·prompt·大语言模型·context
Prompt、Context、Harness:AI Agent 工程的三层架构解析2023 年"Prompt Engineering"无处不在;到 2025 年中"Context Engineering"成为了主流;而 2026 年 4月反复提及的词是"Harness Engineering"。这三个术语描述的是同一问题在不同深度上的结构。搞清楚它们各自的边界,是眼下最有实用价值的认知框架。
deephub8 天前
人工智能·python·大语言模型·embedding·向量检索
向量数据库对比:Pinecone、Chroma、Weaviate 的架构与适用场景向量数据库存储 Embedding,也就是文本、图像或音频的数值表示,并在查询时检索语义上最接近的结果。RAG 系统正是基于这一机制运作。本文对比三个主流方案,每个都附有 Python 代码,均来自实际在生产环境中使用三者的经验。 三种选择:Pinecone 用于生产级规模,Chroma 用于本地原型开发,Weaviate 用于混合搜索。
deephub10 天前
人工智能·python·大语言模型·agent
ADK 多智能体编排:SequentialAgent、ParallelAgent 与 LoopAgent 解析单个智能体的专业化程度有上限,真正的工作需要团队:一个角色接收订单,一个检查库存,一个安排生产,一个验证质量。ADK 的编排模式:SequentialAgent、ParallelAgent、LoopAgent可以将多个智能体组合成工作流,流程只定义一次,状态在智能体之间自动传递,故障由系统托管。本文讲介绍每种模式的适用场景、状态的流转机制,以及如何在不编写编排逻辑的前提下搭建一条完整的从订单到交付的流水线。
天空之城_tsf11 天前
大语言模型·mcp服务
配置MCP服务CherryStudio和Chatbox都是两款热门的AI对话工具,支持多个大语言模型对话、配置API Key使用,同时支持MCP服务。MCP服务就是模型上下文协议,你可以简单理解成是一个服务,同时也是一个协议,大模型或者agent根据这个服务/协议的标准,去调用相关的工具,例如打开浏览器、地图、创建文件等等,你可以理解为MCP管理了一大堆资源和软件,我们可以通过MCP去更好的、更加精细化的去操控这些资源和软件,从而满足特定的需求。
prog_610311 天前
人工智能·笔记·大语言模型·agent
【笔记】用cursor手搓cursor(五)再见claude最近lmarena也全面下线了opus 4.x high的模型使用。感谢claude对三方的封禁,让我开始正视没有它强的模型。虽然还是可以用,但是opus已经不是以前一个loop可以跑50M token而且才用quota的约0.2%的opus了,我估计一次20M token的使用就能用完quota。
deephub12 天前
人工智能·python·深度学习·大语言模型·vllm
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程HuggingFace 的是个黑盒,而且这个黑盒藏了一个代价很高的问题,每一个解码步骤它都从头开始对整个 prompt 做一次完整的注意力计算。每一个 token 都是如此。注意力的开销以 O(N²) 的速度随序列长度增长,在小规模下完全察觉不到,一旦上了真实负载就会出现问题。
deephub13 天前
人工智能·大语言模型·embedding·rag
多 Aspect Embedding:将上下文信号编入向量相似性计算的检索架构向量数据库的核心任务是对文本或其他非结构化数据生成的 Embedding 做相似性搜索。时间戳、文档类型、所有权一类的上下文约束,一般以外部过滤器的形式在向量搜索前后进行。多数场景下这一架构运作正常,但当上下文信号需要参与排序就会有问题。本文分析传统向量数据库架构的过滤与检索机制,并介绍 Aspected 的 Aspect Database:一个面向 AI 系统的上下文感知检索引擎,将上下文属性经由多 Aspect Embedding 直接编码进相似性计算所用的表示中。
prog_610314 天前
人工智能·笔记·大语言模型·agent
【笔记】用cursor手搓cursor(四)最近claude实行了新的定价,导致cursor也跟着改价格表。 claude的使用额度开始减少,于是尝试了一下让gemini-3-pro这样的便宜模型。 发现cursor是强绑定claude,一方面是claude的编程知识是真的丰富,它在解决问题的时候如果文档不齐全它会尽可能去猜测完成任务,而gemini-3-pro更像一个等待指令的worker,cursor和gemini的集成简直差到极点了。 原本如果cursor认真去做各种模型集成,然后让不同模型能取长补短。但现在是cursor专注于和claude
tkokof115 天前
游戏·ai·大语言模型·汉化·卡牌之声
漫漫游戏汉化路本文简述了自己在汉化游戏 《卡牌之声:残次的巫女(Voice of Cards: The Forsaken Maiden)》过程中的经历和感想
deephub15 天前
人工智能·python·prompt·大语言模型
不依赖对话日志检测Prompt注入,一套隐私优先的实现方案检测 Prompt 注入和越狱攻击的方法,大多建立在系统可以访问对话日志这个前提上。但是如果设计一个系统,每段对话只处理一次以提取特征,不保留原始文本可以吗?:
诸神缄默不语16 天前
论文阅读·笔记·大模型·llm·大语言模型·claude·大规模预训练语言模型
论文阅读笔记:Claude如何思考诸神缄默不语-个人技术博文与视频目录 诸神缄默不语的论文阅读笔记和分类本笔记涉及对如下2篇Anthropic公司对其旗下大模型Claude可解释性探索的论文:
deephub17 天前
人工智能·深度学习·大语言模型·agent
多 Agent 验证架构实战:从输出评分到过程验证多 Agent 流水线在每一次演示中都表现正常。但是到了生产环境,它可能在第四步之前就悄悄积累了三个错误决策,最终输出自信、流畅但是完全错误。并且最后没有人发现问题,因为根本没有信号可以捕捉链条末端只剩下一个看起来干干净净的结果。
QC·Rex20 天前
人工智能·langchain·大语言模型·rag·企业应用·ai 助手
国产大模型应用实践:从 0 到 1 搭建企业级 AI 助手本文详细介绍如何使用国产大模型(通义千问、文心一言、Kimi 等)从零开始搭建一个企业级 AI 助手。内容涵盖技术选型、架构设计、核心功能实现、RAG 检索增强、多轮对话管理、部署运维等完整流程。通过本文,读者可以独立完成一个支持文档问答、任务执行、数据分析的智能助手系统。全文约 5800 字,包含 8 个可运行代码示例和 6 张技术图解。