LangChain核心知识点

LangChain 核心模块 + 执行流程 + 面试高频题(Java/Python通用,面试直接背)

一、LangChain 五大核心功能模块

  1. Models 模型层
    • 大模型LLM:文本输入→文本输出
    • ChatModel:对话模型(优先用)
    • Embedding 嵌入模型:文本转向量
  2. Prompts 提示词
    • PromptTemplate 模板、FewShotPrompt 少样本提示
    • 统一规范输入格式,统一喂给大模型
  3. Chains 链路
    • 把多个能力串行组合
    • 常用:LLMChain、RetrievalQA、ConversationChain
  4. Memory 记忆
    • 会话记忆:保存上下文聊天记录
    • 类型:ShortTerm、LongTerm、SummaryBuffer 摘要记忆
  5. Indexes & Retrievers 检索知识库
    • 文档加载→分割→向量化→存入向量库
    • 检索相似文本,实现RAG检索增强
  6. Agents 智能代理
    • 让大模型自己思考、选工具、自主调用
    • 可调用接口、数据库、计算器、联网搜索

二、LangChain 标准执行流程(RAG最主流)

  1. 文档预处理
    加载PDF/MD/Excel → 文本拆分 TextSplitter
  2. 向量化
    调用Embedding模型 → 文本转向量
  3. 入库存储
    存入向量数据库(FAISS、Milvus、Chroma、Redis)
  4. 用户提问
    用户输入问题
  5. 问题向量化
    问题转向量,相似度检索知识库
  6. 拼接上下文
    把检索到的参考文档 + 问题 + 提示词模板拼接
  7. 送入大模型
    LLM整合内容生成答案输出
  8. 记忆存入 (对话场景)
    对话内容存入Memory,维持上下文

最简流程:

文档分片 → 向量化入库 → 问题检索 → 拼接Prompt → LLM生成回答


三、LangChain 面试高频题+标准答案

1. 说说你理解的 LangChain 是什么?

LangChain 是大语言模型应用开发框架,用来快速搭建基于LLM的智能应用,封装了模型调用、提示词管理、对话记忆、知识库检索、智能代理等能力,降低大模型业务开发成本,主流用于RAG知识库问答、智能客服、文档助手、AI工作流编排。

2. LLM 和 ChatModel 区别?

  • LLM:纯文本输入输出,无对话角色区分
  • ChatModel:支持系统角色、用户角色、助手角色,适配对话场景,企业开发优先用ChatModel

3. 什么是RAG?RAG解决什么问题?

RAG=检索增强生成

流程:检索私有知识库+大模型生成

解决两大痛点:

  1. 大模型知识过时
  2. 大模型幻觉问题、不知道私有业务数据
  3. 不用微调大模型,低成本接入内部文档

4. 文本分割常用策略有哪些?

  • 固定字符分割 CharacterTextSplitter
  • 语义分割 SemanticSplitter
  • 递归字符分割 RecursiveCharacterTextSplitter(最常用)
  • 按标题/章节结构化分割
    重点:设置chunkSize块大小 + overlap重叠值,防止上下文断裂

5. Embedding 向量模型作用?

将自然语言文本转为低维浮点向量,语义相近文本向量距离近,用于向量库相似度匹配检索。

6. 常用向量数据库有哪些?

  • 轻量测试:FAISS、Chroma
  • 生产商用:Milvus、RedisVector、Elasticsearch、PGVector

7. LangChain Memory 几种常用类型?

  1. ConversationBufferMemory:完整保存所有对话
  2. ConversationSummaryMemory:自动摘要压缩对话,节省token
  3. SummaryBufferMemory:摘要+近期消息结合(生产最优)
  4. VectorStoreRetrieverMemory:知识库记忆

8. Chain 链路作用是什么?

Chain 是LangChain业务流程编排,把提示词、模型、检索、工具组合成一条完整执行链路,一行调用完成复杂逻辑,如RetrievalQA直接实现知识库问答。

9. Agent 代理原理是什么?

Agent 赋予大模型自主思考决策能力

流程:

思考意图 → 判断需要调用哪个工具 → 调用工具获取结果 → 整理结果回答用户

可实现联网搜索、查数据库、调用接口、代码执行等自主行为。

10. 怎么解决大模型上下文超长、token超限?

  1. 文本合理分片,控制单块长度
  2. 使用摘要记忆压缩历史对话
  3. 多路检索只取高相似度内容
  4. 改用更大上下文窗口模型
  5. 分层检索+重排Rerank精简内容

11. LangChain 怎么自定义提示词模板?

通过PromptTemplate指定变量占位符,绑定输入参数,统一格式化输入内容,规范大模型回答格式(JSON、固定话术等)。

12. 项目中遇到过 LangChain 什么坑?

  1. 分片不合理导致答案断章取义
  2. 向量检索精度低,匹配无关文档
  3. 对话记忆过多造成token暴涨、响应变慢
  4. 大模型幻觉,编造不存在业务数据
  5. 并发场景下上下文记忆错乱

13. 简述 RetrievalQA 执行流程

用户提问→向量检索知识库文档→文档+问题组装Prompt→传入LLM→模型结合私有数据生成答案返回。

14. LangChain4j 和原生 LangChain 区别(Java面试必问)

  • LangChain:Python生态最早最成熟
  • LangChain4j:Java 专属版本,语法贴近Java,适配Spring生态,可整合SpringBoot、SpringAI,后端Java项目首选,功能对齐原版核心能力。

15. Spring AI 和 LangChain4j 怎么选?

  • 纯AI流程、重RAG、Agent复杂编排:选LangChain4j
  • 微服务项目、快速接入大模型、贴合Spring全家桶:选Spring AI

相关推荐
yindeshuiketang1 小时前
《AI驱动上下五千年:从结绳记事到智能纪元》-结绳记事
人工智能
黎阳之光1 小时前
应急管理一张图|黎阳之光全域实景技术,支撑突发事件快速响应
大数据·人工智能
黎阳之光1 小时前
数智孪生,全景可视——黎阳之光透明仓库,重构智慧仓储新范式
大数据·人工智能·算法·安全·数字孪生
在繁华处1 小时前
从零搭建轻灵(二):Agent Loop 核心循环
人工智能
美港探案1 小时前
DAA横空出世!百度按下AI时代格局重绘键
人工智能·百度
GISer_Jing1 小时前
BOSS上AIAgent|前端AI所需要技能
前端·人工智能·ai·前端框架
minhuan1 小时前
基于OpenCV人脸检测与DeepFace视觉识别实现情绪抓拍、数据分析智能研判系统.178
人工智能·大模型应用·opencv人脸检测·deepface视觉识别·情绪健康识别
瑞华丽PLM1 小时前
瑞华丽 AI 智能体赋能研发数字化落地实战
人工智能·cae·工业软件·国产软件·国产plm·瑞华丽plm·瑞华丽