【AI赋能软件测试】6RAG知识库基础

Token = 大模型能读懂的最小"文字碎片"

不再按汉字/字符算，按模型拆分后的碎片计费、算长度。

体验：阿里百炼平台->应用->侧栏知识库

绿色：数据的嵌入embedding

红色：数据的召回（检索）

用户提问->嵌入模型先对用户问题进行向量转换->根据数字到向量数据库进行相似度查询->返回相关的块数据（top_k=20这个数大一些保证需要的答案在召回数据里、1表示最相似但不一定正确、足够大如果还不行引入模型重排）->把用户的问题+返回的所有数据（上下文）一起发送给大模型

大模型智能体：把用户问题拆分成很多子问题、多次查询，增大召回准确率7

还可以做混合检索（语义+全文检索）

知识图谱：构建文档之间的关系

加载：不同格式的文档加载器加载各种各样的数据

使用嵌入模型的方式：

huggingface

企业用8b，自己用0.6b

嵌入模型一旦使用不能修改（如果换模型纬度不一样数据都作废）

运行模型的框架：

Ubuntu安装Ollama（服务器/虚拟机内存4G以上）

（1）在Linux终端粘贴命令

（2）下载模型

在Linux终端粘贴命令

bash 复制代码

ollama pull qwen3-embedding:0.6b

查看

bash 复制代码

ollama list

（3）修改配置支持ollama远程访问

bash 复制代码

vi

bash 复制代码

Environment="OLLAMA_HOST=0.0.0.0:11434"

（4）重启服务

bash 复制代码

sudo systemctl daemon-reload
sudo systemctl restart ollama

（5）放开端口（本机）

bash 复制代码

ufw allow 11434

（云服务器）到官网后台

（6）用另一台电脑访问 http://你的服务器IP:11434，能返回结果就成功了

后续：部署和使用RAG系统，开发MCP server对接用例生成系统

关注"用例采纳率"