大模型应用开发rag-第1个rag应用

文章目录

【README】

  1. 本文内容代码总结自《大模型应用开发-rag实战课》,作者黄佳;
    1. 作者源代码地址: https://github.com/huangjia2019/rag-in-action/tree/master/00-简单RAG-SimpleRAG
  2. 本文记录了第1个rag应用,该应用基于langchain,deepseek实现。
  3. 本文python应用使用poetry管理依赖包;
  4. python版本是3.11.9 ;
    1. 注意:python版本不能太高,否则可能导致兼容性问题; (经测试,python3.14.3无法与sentence-transformers依赖包最新版本兼容)

【1】第1个rag应用

  1. 源码参见: https://github.com/TomJourney/python/tree/main/third_poetry_demo

  2. 本文所有依赖包由poetry管理,依赖包定义在 third_poetry_demo/pyproject.toml文件中。 安装好poetry后,执行运行 poetry install 即可(根据pyproject.toml中定义的依赖包进行安装)

【1.1】rag应用具体逻辑

  1. 背景:根据黑神话悟空的wiki介绍,基于rag实现关于黑神话悟空的QA系统;

rag_01_p11_langchain.py

python 复制代码
# 1. 加载文档
import os
from dotenv import load_dotenv

# 加载环境变量
load_dotenv()

from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader(
    web_paths=("https://zh.wikipedia.org/wiki/黑神话:悟空",)
)
docs = loader.load()

# 2. 文档分块
from langchain_text_splitters import RecursiveCharacterTextSplitter

#  创建文本分割器
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
doc_split_result = text_splitter.split_documents(docs)

# 3. 设置嵌入模型
from langchain_huggingface import HuggingFaceEmbeddings

embed_model = HuggingFaceEmbeddings(
    model_name="BAAI/bge-small-zh-v1.5",
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

# 4. 创建向量存储
from langchain_core.vectorstores import InMemoryVectorStore

vector_store = InMemoryVectorStore(embed_model)
vector_store.add_documents(doc_split_result)

# 5. 构建用户查询
question = "黑悟空有哪些游戏场景?"

# 6. 6. 在向量存储中搜索相关文档,并准备上下文内容
retrieved_docs = vector_store.similarity_search(question, k=3)
joined_retrieved_docs = "\n\n".join(doc.page_content for doc in retrieved_docs)
print("joined_retrieved_docs = ", joined_retrieved_docs)

# 7. 构建提示模版
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("""
                    基于以下上下文,回答问题。如果上下文中没有相关信息,
                    请说"我无法从提供的上下文中找到相关信息"。
                    上下文: {context}
                    问题: {question}
                    回答:"""
)

# 8. 使用大模型生成回答
from langchain_deepseek import ChatDeepSeek
llm = ChatDeepSeek(
    model="deepseek-chat",
    temperature=0.7,
    max_tokens=2048,
    api_key=os.getenv("DEEPSEEK_API_KEY")
)

answer = llm.invoke(prompt.format(question=question, context=joined_retrieved_docs))
print(answer)

【1.2】deepseek响应效果

json 复制代码
content='根据提供的上下文,黑神话:悟空的游戏场景融合了中国的文化和自然地标。具体提到的取景地包括:\n\n*   重庆的大足石刻\n*   山西省的小西天、南禅寺、铁佛寺、广胜寺和鹳雀楼\n\n此外,上下文还提及游戏共有36个取景地,其中27个位于山西省。' 
相关推荐
冉冰学姐9 小时前
基于ssm的技能比赛报名管理系统29817vn0(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面
java·数据库·spring·ssm 框架应用
小小码农Come on12 小时前
Qt Creator + MSVC 2022 64bit 配置 Dump 文件生成与分析流程
数据库·qt
qiuyuyiyang12 小时前
【MySQL】环境变量配置
数据库·mysql·adb
jgyzl13 小时前
2026.3.11MyBatis-Plus基本使用与思考
java·数据库·mybatis
RDCJM13 小时前
【MySQL】在MySQL中STR_TO_DATE()以及其他用于日期和时间的转换
android·数据库·mysql
vanvivo13 小时前
redis 使用
数据库·redis·缓存
加成BUFF14 小时前
解决MySQL/MariaDB忘记root密码:完整重置教程(XAMPP/Windows版)
数据库·mysql·xampp
杰克尼14 小时前
苍穹外卖--day10
java·数据库·spring boot·mybatis·notepad++
dreamread14 小时前
完美解决phpstudy安装后mysql无法启动
数据库·mysql
小江的记录本14 小时前
【SQL】多表关系与冷热数据(全维度知识体系)
数据库·sql·mysql·数据库开发·数据库架构