大模型学习之书生·浦语大模型3——基于InternLM和LangChain搭建知识库

基于InternLM和LangChain搭建知识库

1 大模型开发范式

LLM的局限性

  • 知识受限:最新知识无法实时获取
  • 专业能力有限:有广度无深度
  • 定制化成本高:训练成本高

RAG VS Finetune

RAG:

  • 无需重新训练
  • 组织外挂加入知识
  • 容易受基座模型的影响
  • 问题+回答一起送入大模型,占据token长度

Finetune

  • 个性化微调:风格,领域知识
  • 知识面覆盖广:新的数据集及通用数据集按照比例混合
  • 训练成本高
  • 无法实时更新

RAG检索增强

2 LangChain简介

  • 开源
  • 通用
  • 核心模块:
    • chains
    • agent

基于LangChain搭建RAG应用

3 构建向量数据库


  • 加载源文件
    • 不同的文件有不同的加载方式
  • 文档分块chunk
    • 字符串长度分割
    • 重叠区间
    • 代码的话就是代码块 类等
  • 文档向量化
    • 文档embedding
    • 存入向量数据库

4 搭建知识库助手




限制:

  • 检索精度
  • prompt性能

5 Web Demo部署


6 动手实战环节

创建开发机




新建虚拟环境


安装相关依赖


下载模型文件

本机有,可以先复制

  • internLM-7B
  • modelscope
  • huggfingace:sentence-transformer
  • nltk
  • punkt
  • tagger

搭建自己知识库

  • 克隆opencompass项目
  • 构建向量数据库
    • 导入数据md,txt文件
    • 获取文件中的文本
    • 对文本进行分块
    • 词向量模型进行编码
    • 加载数据到向量库Chroma
    • 向量库保存到本地磁盘


将InternLM接入LangChain

构建检索问答链

  • 加载词向量模型
  • 加载LLM模型
  • 定义Prompt 模板
    • 不懂的要回答说不知道,缓解幻觉问题
  • 运行chain
  • 存储检索问答链的对象

  • 实例化核心功能对象

  • gradio创建聊天机器人页面

执行代码

bash 复制代码
python web_demo.py

自己部署,知识库为kkndme关于房价的



  • 注意:demo要在本地打开,不然显示界面乱码;本地打开需要进行端口映射

参考

相关推荐
win4r38 分钟前
🚀 SuperClaude让Claude Code编程能力暴增300%!小白秒变顶尖程序员!19个专业命令+9大预定义角色,零编程经验也能开发复杂项目,完全碾
aigc·ai编程·claude
redreamSo3 小时前
AI Daily | AI日报:Nature:超14%生物医学论文或由AI代写; Grok 4测试成绩优异,数据真实性引争议; 李飞飞:攻克空间智能,为AGI补拼图
程序员·aigc·资讯
PetterHillWater4 小时前
阿里云CodeUp集成大模型自动代码审查
aigc
砖厂小工4 小时前
向量数据库——移动 AI 搜图,分类的新助手
aigc
ResponsibilityAmbiti4 小时前
AI 发展 && MCP
人工智能·llm·aigc
AI大模型5 小时前
LangGraph官方文档笔记(6)——时间旅行
程序员·langchain·llm
中杯可乐多加冰5 小时前
【AI落地应用实战】AIGC赋能职场PPT汇报:从效率工具到辅助优化
人工智能·深度学习·神经网络·aigc·powerpoint·ai赋能
正在走向自律5 小时前
第二章-AIGC入门-开启AIGC音频探索之旅:从入门到实践(6/36)
人工智能·aigc·音视频·语音识别·ai音乐·ai 音频·智能语音助手
Trent19855 小时前
影楼精修-智能修图Agent
图像处理·人工智能·计算机视觉·aigc
墨风如雪17 小时前
三十亿参数的小宇宙:Ovis-U1-3B,AI界的新晋“全能选手”!
aigc