前言
LangChain V1.x 在 2025 年完成全版本迭代(V1.0→V1.1→V1.2),对比旧版 V0.3 进行生产级大规模重构,API 大幅精简、架构工程化升级,是当前落地 LLM 应用、RAG 知识库、Agent 智能体项目首选开发框架。本文结合官方架构,系统梳理 LangChain V1 核心能力、组件原理与代码实操,适合想入门新版 LangChain、做私有化大模型应用开发的开发者。
前置环境要求:Python3.11/3.12,开发工具推荐 VSCode、PyCharm、Cursor
一、LangChain V1.x 版本迭代与整体定位
- 版本发布时间
- V1.0:2025.10.20 正式发布
- V1.1:2025.11.25 迭代更新
- V1.2:2025.12.15 最新稳定版
- 核心升级亮点 相较于 0.3 老旧版本,V1 主打生产可用:简化 API 设计、优化模块化架构、增强运行稳定性、拓展中间件、统一多模型输出格式、原生支持结构化返回,搭配 LangGraph 实现图结构 Agent,大幅降低复杂 AI 应用开发成本。
- 官方文档
- 英文官网:https://python.langchain.com/docs/introduction/
- 中文文档:https://www.langchain.com.cn/docs/introduction/
框架定位:开源 LLM 应用开发框架,模块化封装提示词、模型调用、链路编排、知识库检索、智能体等能力,对接市面上几乎所有大模型厂商接口,快速搭建 RAG、对话机器人、工具调用 Agent。
二、LangChain V1 四大核心基础组件
整套开发链路围绕 Model I/O、Chain(LCEL)、RAG 检索增强、Agent 智能体 四大模块构成,也是 LLM 项目开发标准流水线。
2.1 Model I/O:模型输入输出层
整个框架最底层交互模块,分为三部分:Prompt 提示词模板、LLM/ChatModel 模型调用、OutputParser 输出解析。
- 流程:变量填充提示词模板→格式化 Prompt 传入大模型→接收模型返回内容→解析格式化输出
- 作用:统一封装各大厂商模型入参出参逻辑,更换模型不用大幅改动业务代码。
2.2 Chain 链路:LCEL 表达式语言
LCEL(LangChain Expression Language)是 V1 版本链路编排标准,Chain 本质是流水线,将提示词、模型、解析器、自定义逻辑串联,按顺序执行任务。开发逻辑:自定义 Prompt→接入 LLM→绑定输出解析器→组装链路,实现一问一答标准化业务逻辑,是简易问答、文案生成类项目核心。
2.3 RAG 检索增强生成
LangChain 原生封装完整 RAG 全链路,标准 7 步流程:
- 原始文档加载
- Embedding 向量编码
- 向量数据库入库构建索引
- 用户 Query 查询向量化
- 向量相似度检索召回相关文档
- 召回文档拼接至 Prompt
- 大模型结合知识库内容生成答案V1 优化了向量库适配逻辑,对接主流向量库(FAISS、Chroma、Milvus),私有化知识库落地首选方案。
2.4 Agent 智能体(搭配 LangGraph)
Agent 核心逻辑:用户输入→模型判断→选择对应工具→执行工具拿到观测结果→再次入模迭代,循环直到生成最终答案。V1 废弃老旧 Agent 创建方式,统一使用create_agent生产级 API,底层依托 LangGraph 图引擎实现循环调度,支持工具自动选择、多工具组合调用(计算器、联网搜索、文件读写、SQL 查询等自定义 Tool)。
# V1标准Agent伪代码示例
from langchain.agents import create_agent
agent = create_agent(
model="gpt-4o",
tools=[天气工具,计算器工具]
)
三、V1 重磅新特性 1:Middleware 中间件系统(细粒度流程管控)
中间件是 V1 版本标志性新增功能,无需修改 Agent 与工具源码,在请求前后、模型调用前后、工具执行前后挂载钩子函数,拦截、修改、增强全链路逻辑。内置两大高频实用中间件:
3.1 SummarizationMiddleware 对话自动摘要中间件
使用场景:超长多轮对话、上下文长度逼近模型 token 上限,自动压缩历史会话,避免上下文溢出报错。
-
配置规则:到达指定 token 阈值自动触发摘要,保留指定条数原始消息
示例代码
agent = create_agent(
model="gpt-4o",
tools=[weather_tool,cal_tool],
middleware=[
SummarizationMiddleware(
model="gpt-4o-mini",
trigger=("tokens",4000), # 4000token触发摘要
keep=("messages",20) # 保留最后20条原始消息
)
]
)
3.2 HumanInTheLoopMiddleware 人工介入审批中间件
使用场景:高风险操作(数据库写入、文件修改、金融运算),工具调用前暂停流程,人工审批通过 / 驳回 / 修改指令后再执行。
-
自定义管控:指定工具开启 / 关闭人工审核
agent = create_agent(
model="gpt-4o",
tools=[写文件工具,执行SQL工具,只读查询工具],
middleware=[
HumanInTheLoopMiddleware(
interrupt_on={
"writefile":True, # 文件写入需要人工审批
"executesql":True, # SQL执行需要审批
"read_data":False # 只读无需审批
}
)
]
)
四、V1 重磅新特性 2:统一 content_blocks 标准化输出
痛点:不同厂商大模型返回格式不统一(OpenAI、Anthropic、国内 MiniMax / 通义千问字段结构各不相同),旧项目需要单独做字段适配。V1 新增content_blocks属性,全模型输出统一结构化解析,自动区分推理思考段(reasoning)、正文文本(text),厂商差异化返回被框架屏蔽,业务层统一取值。
from langchain.messages import AIMessage
msg = AIMessage(...)
# 统一结构化字段,无视底层模型来源
blocks = msg.content_blocks
# 可直接遍历reasoning、text字段
五、V1 重磅新特性 3:原生结构化输出(Pydantic 自动映射 JSON)
V1 把结构化返回集成进 Agent 主循环,支持三种配置策略,直接绑定 Pydantic 模型,模型自动按照定义字段返回结构化数据,不用手动正则、字符串切割解析 JSON。
三种返回策略
ProviderStrategy:利用模型厂商原生 JSON 格式能力(GPT 系列、Grok 等)ToolStrategy:通过工具调用实现结构化,兼容全品类大模型(含国内开源模型)- 自动策略:传入 Pydantic 实体,框架自动择优选用上述两种方式
实战示例:会议任务提取
from pydantic import BaseModel, Field
# 定义数据结构
class MeetingAction(BaseModel):
task: str = Field(description="待执行任务")
assignee: str = Field(description="负责人")
priority: str = Field(description="优先级:Low/Mid/High")
# Agent绑定结构化返回
agent = create_agent(
model="gpt-4o",
tools=[],
response_format=ToolStrategy(schema=MeetingAction)
)
# 调用后agent返回结果自动为MeetingAction对象
六、落地拓展:适配国内大模型开发思路
基于本框架可快速改造源码对接 MiniMax、通义千问、文心一言等国产模型:
- 基于 Model I/O 层封装国产模型自定义 LLM 类,适配国内 API 鉴权、入参格式;
- 通过 content_blocks 统一抹平国产模型返回字段差异;
- 使用 ToolStrategy 结构化输出,解决部分国产模型原生 JSON 能力不足问题;
- 中间件复用现有组件,实现国产大模型超长对话压缩、高危操作人工审核。
七、总结
LangChain V1.x 从玩具级框架转向企业生产级开发方案,中间件、统一输出、原生结构化、标准化 Agent 四大更新解决旧版落地难、适配杂、格式混乱的痛点。
- 做知识库问答:优先 RAG 模块 + LCEL 链路
- 做自主决策工具机器人:优先 create_agent+LangGraph + 中间件
- 对接国内大模型:依托 ModelI/O+content_blocks 做自定义封装
**Note:**对AI 技术感兴趣的小伙伴,可以关注我下方,私信我发送"AI资料",可获取AI相关资料和源码。