AI学习笔记整理（49）——大模型应用开发框架：LangChain

Langchain简介

参考链接：https://developer.aliyun.com/article/1502323

LangChain 是一个开源的编程框架，用于简化使用大语言模型（LLM）构建应用程序的过程‌，通过模块化组件（如数据连接、代理系统和任务编排）实现与外部数据源和计算工具的集成，简化智能应用的构建过程。‌目前，它提供了 Python 和 JavaScript（确切地说是 TypeScript）的软件包。

本质‌：基于大型语言模型（如GPT-4）的开发框架，提供标准化接口和工具链，降低构建AI应用的技术门槛。‌‌
核心目标‌：解决LLM的局限性（如数据时效性、计算准确性），通过集成外部数据源（数据库、API）和工具（如计算器、搜索），扩展模型能力。‌‌

‌核心功能与架构：‌

参考链接：https://cloud.tencent.com/developer/article/2592832

LangChain 的核心功能包括将语言模型链接以处理复杂任务，其架构包含多个关键模块：

模型接口‌：统一接口支持多种LLM（如OpenAI、Watsonx、GPT、LLaMa 等主流模型），无需重写代码即可切换模型。‌‌
提示管理‌：提供提示模板和优化工具。Prompt Templates：这些模板让你避免硬编码文本输入。你可以动态地将用户输入插入到模板中，并发送给语言模型。
链与代理‌：支持链（Chains）和代理（Agents）以编排多步操作。‌链允许你将多个组件组合在一起，解决特定的任务，并构建完整的语言模型应用程序。代理允许语言模型与外部API交互。
数据增强‌：集成外部数据加载、索引和向量检索功能。索引帮助你从语言模型中提取相关信息。
- 检索增强生成（RAG）：集成文档加载器、矢量数据库（如Redis），实现实时数据检索。‌‌
- 文本处理：通过TextSplitters分割文档，优化计算效率。‌‌
记忆与回调‌：管理对话状态和事件处理。保存对话上下文，支持多轮交互。‌‌

该框架采用分层设计（如模型抽象层、数据增强层等），并引入LCEL表达式语言实现声明式编程，同时通过LangGraph支持有向状态图任务路由。

Langchain 的工作流程可以概括为以下几个步骤：

提问：用户提出问题。
向语言模型查询：问题被转换成向量表示，用于在向量数据库中进行相似性搜索。
获取相关信息：从向量数据库中提取相关信息块，并将其输入给语言模型。
生成答案或执行操作：语言模型现在拥有了初始问题和相关信息，能够提供答案或执行操作。

解析器

LangChain中的解析器（OutputParser）用于将大语言模型（LLM）的原始输出转换为结构化格式，便于后续程序处理，例如将文本转换为JSON、列表或自定义数据模型。‌

‌解析器的核心作用是确保LLM输出格式化‌，因为直接获取的文本可能包含冗余内容或非预期格式，而解析器通过预定义规则（如Pydantic模型）提取关键信息，提升应用可靠性。常见场景包括从非结构化文本中提取实体、转换列表或生成特定JSON结构。‌

模型链

LangChain 的模型链（Chains）是其核心组件之一，用于将多个处理步骤（如提示模板、语言模型调用、输出解析等）串联起来，形成可复用的工作流，从而简化复杂任务的构建。‌

‌模型链的核心作用是通过模块化设计提升开发效率‌，它允许开发者将语言模型的交互过程分解为标准化步骤，例如输入提示格式化、模型预测和输出解析，这些步骤可灵活组合以适应不同场景，如问答系统或多步骤推理任务。‌

LangChain 提供了多种链类型，包括简单的序列链（SimpleSequentialChain）和更灵活的序列链（SequentialChain），前者按顺序执行链式调用，每个步骤的输出作为下一个输入，后者支持多输入多输出，便于处理复杂参数依赖。‌

‌链的构建基于组件化原则‌，典型流程包括定义提示模板（Prompt Template）指定输入格式、配置语言模型（如 OpenAI 或本地模型）执行生成、并通过输出解析器（Output Parser）标准化结果，例如在多模态应用中，链可整合图像描述生成与文本处理步骤。‌此外，链的设计强调可扩展性，支持与外部数据源（如数据库或API）集成，使开发者能快速构建功能丰富的应用而无需从底层细节入手。‌

‌发展历程与生态：‌

LangChain 于 2022 年 10 月以 Python 工具形式萌芽，2023 年扩展至 TypeScript 和多种 JavaScript 环境，同年发展为四层技术栈并推出LangSmith开发平台；截至 2023 年 8 月，其开源框架在GitHub获 5.82 万个星标，拥有活跃开发者社区。公司层面，由哈里森·蔡斯与安库什·戈拉于 2022 年创立，2025 年完成 B 轮融资后估值达 10 亿美元。生态方面，框架兼容超过 30 种主流 AI 工具（如OceanBase的seekdb），并持续扩展对多语言模型和边缘计算环境的支持。‌

‌应用场景：‌

LangChain 广泛应用于智能客服、法律文书生成、医疗诊断辅助、数据分析及个人助手等领域，例如Vodafone 基于 LangGraph 构建的智能运维系统将故障解决时间从 45 分钟缩短至 15 分钟，同时支持连接企业数据库或文件实现个性化问答。‌

LangChain与RAG系统关系

LangChain与RAG系统的关系可以概括为‌框架与应用模式‌的关系：LangChain是一个开源的开发框架，提供模块化组件来简化大语言模型应用的构建，而RAG（检索增强生成）是一种技术范式，通过检索外部知识来增强模型生成的准确性。两者结合能高效实现知识密集型应用。‌

‌在具体协作中，‌ LangChain通过其模块化设计支持RAG的全流程实现：

文档加载与预处理‌：使用LangChain的文档加载器从多种数据源（如文本文件、数据库）读取内容，并通过文本分割器将文档分块。
向量化与存储‌：集成嵌入模型将文本块转换为向量，并存储到向量数据库中，形成可检索的知识库。
检索与生成链构建‌：LangChain的检索器根据用户查询从向量库中匹配相关文档片段，再通过链（Chain）将检索结果与原始问题结合，输入大语言模型生成最终回答。
这种协作使开发者能快速搭建端到端的RAG系统，避免从零开发。‌

‌此外，‌ LangChain的适用性不仅限于RAG，还支持Agent、记忆管理等其他应用模式；而RAG技术本身也可脱离LangChain独立实现，但使用框架会显著提升开发效率。在实际场景中，例如企业私有知识库问答系统，这种组合能有效解决大语言模型的"幻觉"问题，提升回答的专业性和实时性。‌

使用国内外主流大模型

参考链接：https://blog.csdn.net/qq_39903567/article/details/156866302
https://zhuanlan.zhihu.com/p/1924858106099246124

‌全球主流大模型‌主要包括以下代表性模型：

ChatGPT（OpenAI）‌：支持多轮对话、语音、图像和文档处理，通用性强，适用于写作、编程、翻译等任务。
- 核心特点：采用基于Transformer的混合专家模型等先进架构，在保持强大能力的同时优化推理效率。GPT-4o等版本实现了对文本、图像、音频的原生多模态理解与生成。
- 优势：具备顶尖的通用任务处理能力和强大的开发者生态，API成熟稳定。
- 局限：API调用成本相对较高，且对于国内开发者存在跨境网络访问、数据合规等潜在门槛。模型有时会产生"幻觉"。
- 适用场景：适用于对输出质量要求极高的场景，如高端代码生成助手、复杂逻辑的AI产品原型、多模态内容创作工具等。
Claude（Anthropic）‌：以超长上下文处理见长，适合分析长文档、法律或金融推理，且输出风格严谨可靠。
- 核心特点：其核心创新包括**"Constitutional AI"训练方法**和针对长上下文优化的架构。Claude 3.5 Sonnet支持高达200K tokens的上下文窗口，擅长消化和分析整本书、长篇法律合同或大量代码库。
- 优势：在长文档深度总结、复杂指令遵循、逻辑推理方面表现出色，安全性设计考量周全。
- 局限：在多模态能力、全球知名度和第三方生态集成方面略逊于GPT系列。同样面临国内接入的合规与网络挑战。
- 适用场景：非常适合法律文档审阅、学术论文分析、长篇幅报告撰写等需要处理大量文本信息的场景。
Gemini（Google）‌：深度整合谷歌生态，擅长网页和文档分析，多模态能力突出，但国内访问可能受限。‌
- 核心特点：采用Pathways等架构，旨在从底层实现文本、图像、音频、视频等多种信息的统一理解与生成。Gemini 1.5 Pro版本支持高达100万tokens的惊人上下文长度。
- 优势：在多模态任务（如图像描述、跨模态搜索）中表现卓越，与Google搜索、Workspace等服务的结合潜力巨大。
- 局限：部分高级功能与Google Cloud生态绑定较深。在纯文本推理等特定任务上，性能可能与顶级模型有细微差距。
- 适用场景：是构建跨模态应用（如智能图文分析、视频内容理解）或需要与Google服务深度集成的产品的理想选择。
Llama系列（Meta）‌：作为开源模型代表，支持私有部署，广泛用于中小企业和研究场景。‌
- 核心特点：基于Transformer架构，提供了从70亿到700亿参数的不同规模版本。最新的Llama 3系列在性能上已接近GPT-4等商业模型。
- 优势：完全开源，允许商业用途和定制化微调，拥有活跃的社区和丰富的衍生工具，部署灵活。
- 局限：作为通用开源模型，在开箱即用的复杂商业任务处理能力上，通常需要微调才能媲美顶尖闭源模型。同时，开源模型的安全性需要使用者投入额外精力进行管控。
- 适用场景：非常适合技术实力较强的团队进行私有化部署、定制化开发，或用于学术研究。对于希望完全掌控数据和模型的企业，它是基础首选。
Grok（马斯克团队）‌：与X平台（前Twitter）联动，能实时获取社会舆情，回答风格直接甚至"毒舌"。‌

‌中国主流大模型‌以免费或低成本为主，注重中文场景优化和行业落地：

通义千问（阿里）‌：语义理解能力强，办公自动化和企业服务集成度高。
豆包（字节跳动）‌：轻量化设计，响应速度快，适合日常对话和短文本生成。
Kimi（月之暗面）‌：长文本处理能力优秀，适用于内容创作和资料总结。
文心一言（百度）‌：在中文理解上接近国际先进水平，行业应用覆盖广泛。
讯飞星火（科大讯飞）‌：在教育和语音交互领域表现突出。
深度求索DeepSeek：DeepSeek是近年来表现非常突出的开源模型，以其优异的推理能力和开放性获得了广泛关注。
- 核心特点：在数学、代码和逻辑推理方面能力强劲，部分评测接近GPT-4水平。采用MoE等高效架构，性能与成本效益平衡出色。
- 优势：完全开源免费，支持商用，性能强大。支持长上下文，并且对中英文的处理较为均衡。
- 局限：作为较新的玩家，其企业级服务生态和长期支持的成熟度尚在建设中。
- 适用场景：是替代国际商业模型进行私有化部署的绝佳选择，尤其适合用于构建企业内部知识库、代码助手和需要强推理能力的应用。

国产模型在文生视频、文生音乐等垂直领域创新活跃，且开源阵营（如通义千问、ChatGLM）加速生态建设。‌

Llama-index介绍

LlamaIndex（前身为GPT Index）是一个专为构建基于大型语言模型（LLM）的应用程序而设计的开源数据管理框架，核心功能是帮助开发者高效处理、构建和查询自定义知识库。‌

‌LlamaIndex的核心原理是通过构建高效索引和优化检索机制，增强LLM对私有或领域特定数据的访问与利用能力。‌ 它通过检索增强生成（RAG）系统实现这一目标：首先在索引阶段将文档（如PDF、Excel、文本等）转换为向量嵌入并存储，然后在查询阶段利用这些索引快速检索相关信息，供LLM生成准确响应，从而无需重新训练模型即可集成最新数据。‌

‌数据处理流程：‌ LlamaIndex 的工作流程始于数据接入，通过‌Document Reader‌组件读取和解析多种数据源（如文件、数据库或API），将其转换为统一的内部表示；随后在索引层，框架将数据分割为‌节点‌（如文本块），并基于不同策略（如向量索引或树形索引）构建索引结构，以优化后续检索效率；最后在应用层，‌Query Engine‌接收用户查询，结合‌Retriever‌从索引中提取相关节点，并通过上下文增强机制生成最终答案。‌

‌该框架支持多种数据源和灵活的查询方式。‌ 它提供数据连接器，可直接从API、数据库、文件等多种格式加载数据，并允许用户通过自然语言进行查询，而无需学习复杂查询语言。此外，LlamaIndex还支持向量数据库集成和持久化存储，以优化检索效率和成本。‌

‌核心技术机制：‌ LlamaIndex 的核心技术包括：

索引优化‌：支持多种索引类型（如GPTSimpleVectorIndex和TreeIndex），通过分层或向量化存储提升大规模数据的查询速度。
检索增强‌：采用相似度搜索、语义匹配等方法，结合嵌入模型将查询与文档节点映射到共享向量空间，确保检索结果的相关性。‌
模块化架构‌：分层设计（数据层、索引层、应用层）使组件可插拔，便于集成自定义嵌入模型、重排序器或LLM，适应不同场景需求。‌
与LLM的协同‌：通过将检索到的上下文动态注入LLM提示（Prompt），实现"检索-生成"闭环，减少幻觉并提升答案准确性。‌

在实际应用中，LlamaIndex广泛用于问答系统、文档检索和数据代理等场景。‌ 例如，开发者可快速搭建基于私有文档的聊天机器人或知识库查询工具，其设计兼顾易用性与可扩展性，适合从初学者到高级用户的各类需求。‌

Llama-index、LangChain与RAG系统关系

LlamaIndex 和 LangChain 都是用于构建基于大语言模型（LLM）应用的开源框架，RAG系统通过将外部知识检索与语言生成结合，提升LLM回答的准确性与相关性，而这两个框架提供了不同的实现路径。

‌LlamaIndex 专精于 RAG 系统，‌ 它是一个‌专门针对 RAG 构建的框架‌，核心设计围绕数据连接、索引和查询优化。其关键特性包括：

高级抽象‌：简化了从文档加载到向量存储的流程，隐藏了底层细节（如无需显式选择数据库后端）。
‌高效查询引擎‌：直接封装了检索与生成的管道，使开发者能快速构建支持文件问答的聊天机器人。
本地文件集成‌：内置对本地文件（如文本、Markdown）的读取和处理支持。

这种设计降低了 RAG 应用的开发门槛，尤其适合需要快速原型验证或专注于知识库集成的场景。‌

‌LangChain 是通用 LLM 开发框架，‌ 它提供了一个‌更通用的生态系统‌，支持 RAG 但不专精于此。其特点包括：

模块化与灵活性‌：将 RAG 流程分解为独立组件（如文档加载器、文本分割器、向量存储和提示模板），允许开发者精细控制每个环节。
‌复杂管道管理‌：支持高级功能（如记忆管理、多步骤推理），但学习曲线较陡峭。
‌企业级功能‌：侧重于生产部署、监控和协作，适合需要高度定制化或企业级支持的项目。

LangChain 的通用性使其不仅限于 RAG，还可用于对话系统、自动化工作流等场景，但构建 RAG 应用时需处理更多配置细节。‌

‌选择框架需权衡抽象层次与控制需求，‌ LlamaIndex 通过高级抽象简化了 RAG 开发，适合初学者或追求快速迭代的项目；而 LangChain 的模块化设计提供了更强的灵活性和可扩展性，适合需要精细控制或集成复杂逻辑的场景。两者均可与本地或云端 LLM（如通过 OpenAI 兼容 API）结合使用，但 LlamaIndex 在 RAG 任务上的开箱即用体验更突出，而 LangChain 更适合通用 LLM 应用开发。‌

知识图谱与 Llama-index

知识图谱是一种结构化数据模型，以节点（代表实体）和边（代表关系）的形式存储事实和概念，支持精确查询和复杂推理；而Llama-Index是一个数据编排框架，用于高效集成私有或公共数据源，简化数据摄取、索引构建和查询流程，特别适用于检索增强生成（RAG）应用。‌

‌在RAG系统中，知识图谱的核心作用是提供事实性知识以减少大语言模型的幻觉。‌ 通过存储明确的实体关系（如"巴黎是法国的首都"），知识图谱允许基于逻辑运算符进行复杂查询和间接推断（例如推断"埃菲尔铁塔位于欧洲"），从而生成更准确、一致的文本。‌

Llama-Index通过其KnowledgeGraphIndex组件无缝集成知识图谱，自动化从文档中提取关系三元组（如<实体1, 关系, 实体2>）并构建可查询的图结构，简化了数据处理流程。‌

‌知识图谱与向量数据库的关键区别在于数据表示和查询能力。‌ 向量数据库将实体编码为高维向量，通过向量距离衡量相似性（例如"巴黎"与"法国"的向量接近度），但无法显式表示关系或支持复杂推理；知识图谱则显式捕捉实体间的一对一关系，允许基于图遍历的多样化查询（如查找"共同联系人"），并能进行逻辑推断。‌在RAG中，这种差异意味着知识图谱更适合需要高精度和推理能力的场景，而向量数据库更侧重于基于相似性的快速检索。

‌Llama-Index与知识图谱的结合通过自动化流程提升RAG性能。‌ 具体实现包括：

数据摄取与索引‌：Llama-Index的SimpleDirectoryReader加载文档，嵌入模型（如Transformer模型）将文本转换为向量，KnowledgeGraphIndex从文档中提取三元组（通过设置max_triplets_per_chunk控制粒度）并存储于图数据库中。‌
查询与推理‌：用户通过自然语言提问（如"What is ESOP?"），Llama-Index将问题转换为图遍历查询（例如使用Cypher语言），结合大语言模型生成答案，同时利用图结构支持多跳推理（如通过中间节点推断间接关系）。‌
优势与挑战‌：该结合提升了RAG的准确性、多样性和逻辑一致性，但知识图谱的构建依赖于文档中清晰的关系表达，若关系模糊则效果受限；相比之下，向量数据库更易部署但缺乏显式推理能力。‌