langchainrust：构建一个高效智能体

Rust 凭借零开销抽象、编译期安全、超高并发性能 成为生产级 AI 应用的首选语言，而 langchainrust 正是 Rust 生态中最活跃、功能最完整的 LLM 应用开发框架------它完美复刻了 Python LangChain 的核心设计，同时依托 Rust 原生异步能力，解决了传统 AI 框架性能瓶颈、部署笨重的问题。

本文将从环境搭建、核心概念、基础实战、进阶 RAG、高阶 Agent、LangGraph 工作流 六大维度，带你从零到一掌握 langchainrust，所有案例均附带可直接运行的代码，通俗易懂且覆盖企业级常用场景。

一、前置准备：环境搭建与基础配置

在开始实战前，我们先完成开发环境的搭建，langchainrust 基于 Rust 异步运行时开发，配置非常简单。

1.1 安装 Rust 环境

如果你的电脑还没有 Rust 环境，执行官方一键安装命令：

bash 复制代码

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

安装完成后，重启终端，验证安装：

bash 复制代码

rustc --version
cargo --version

1.2 创建项目并添加依赖

创建一个新的 Rust 项目，并引入核心依赖：

bash 复制代码

cargo new langchainrust_demo
cd langchainrust_demo

打开 Cargo.toml，添加以下依赖（包含框架、异步运行时、环境变量管理）：

toml 复制代码

[package]
name = "langchainrust_demo"
version = "0.1.0"
edition = "2021"

[dependencies]
# 核心框架：最新稳定版
langchainrust = "0.2.20"
# 异步运行时（必须，框架全异步设计）
tokio = { version = "1.0", features = ["full"] }
# 环境变量：管理 API Key、模型配置
dotenv = "0.15"
# 异步日志：方便调试
tracing = "0.1"
tracing-subscriber = "0.3"

1.3 配置模型凭证

创建 .env 文件，存储大模型密钥（支持 OpenAI、Ollama 本地模型、DeepSeek 等），新手推荐用 Ollama 本地模型，免费无门槛：

env 复制代码

# OpenAI 配置（可选）
OPENAI_API_KEY=your-api-key
OPENAI_MODEL=gpt-3.5-turbo

# Ollama 本地模型配置（推荐新手）
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3.2:3b

拓展：Ollama 是本地开源大模型运行工具，一键启动 Llama/Qwen/通义千问等模型，无需云端 API，安装命令：curl -fsSL https://ollama.com/install.sh | sh，启动模型：ollama run llama3.2:3b

二、核心概念扫盲：一分钟看懂框架设计

langchainrust 的设计非常直观，核心组件就 6 个，用生活化的比喻就能理解：

LLM：AI 大脑，负责调用大模型生成回答；
Prompt 模板：给 AI 的标准化指令，支持动态填充变量；
Memory：AI 的记性，存储对话历史，解决多轮对话遗忘问题；
Chain：任务流水线，把多个步骤串联成自动化任务；
RAG：AI 的知识库，让 AI 基于本地文档回答问题；
Agent：智能助理，自主判断、调用工具解决复杂问题；
LangGraph：工作流蓝图，支持分支、循环、人机交互的复杂任务编排。

三、基础实战 1：最简单的大模型调用

我们从最基础的功能开始：调用大模型生成文本 ，同时实现流式输出（像 ChatGPT 一样逐字返回结果）。

3.1 完整代码

rust 复制代码

use dotenv::dotenv;
use langchainrust::llm::Ollama;
use langchainrust::traits::LLM;
use tracing::info;

#[tokio::main] // 异步主函数（框架核心）
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    // 加载环境变量
    dotenv().ok();
    // 初始化日志
    tracing_subscriber::fmt::init();

    // 1. 初始化本地 Ollama 大模型
    let llm = Ollama::new()
        .base_url(&std::env::var("OLLAMA_BASE_URL")?)
        .model(&std::env::var("OLLAMA_MODEL")?)
        .temperature(0.7) // 温度值：0=严谨，1=创意
        .build()?;

    // 2. 非流式调用：一次性返回完整结果
    let prompt = "用 Rust 写一句 Hello World 的解释";
    let response = llm.generate(prompt).await?;
    info!("非流式回答：\n{}", response);

    // 3. 流式调用：逐字输出结果（更流畅）
    info!("\n流式回答：");
    let mut stream = llm.stream(prompt).await?;
    // 逐帧读取流式数据
    while let Some(chunk) = stream.next().await {
        print!("{}", chunk?);
        std::io::Write::flush(&mut std::io::stdout())?;
    }

    Ok(())
}

3.2 代码解读

#[tokio::main]：Rust 异步注解，langchainrust 全异步设计，高并发无阻塞；
Ollama::new()：初始化本地模型，切换 OpenAI 仅需替换为 OpenAI::new()；
temperature：控制 AI 输出的随机性，数值越低越严谨；
流式输出：适合聊天界面、实时生成场景，是生产环境的首选。

四、基础实战 2：带记忆的多轮对话机器人

AI 最大的问题是遗忘上下文 ，langchainrust 提供 5 种记忆策略，我们用最常用的滑动窗口记忆（只保留最近 N 轮对话，控制上下文长度）实现多轮对话。

4.1 完整代码

rust 复制代码

use dotenv::dotenv;
use langchainrust::{
    chains::ConversationChain,
    llm::Ollama,
    memory::{WindowBufferMemory, Memory},
    traits::Chain,
};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    // 初始化模型
    let llm = Ollama::from_env()?;

    // 1. 初始化滑动窗口记忆：保留最近 5 轮对话
    let memory = WindowBufferMemory::new(5);
    // 2. 初始化对话链：绑定模型 + 记忆
    let mut chain = ConversationChain::new(llm, memory);

    // 第一轮对话
    let res1 = chain.invoke("我叫小明，我是一名 Rust 开发者").await?;
    println!("AI：{}\n", res1);

    // 第二轮对话：AI 会记住我的名字和职业
    let res2 = chain.invoke("我叫什么？我是做什么的？").await?;
    println!("AI：{}\n", res2);

    // 第三轮对话
    let res3 = chain.invoke("给我推荐一个 Rust AI 框架").await?;
    println!("AI：{}", res3);

    Ok(())
}

4.2 拓展：记忆策略选型

BufferMemory：存储全部对话（适合短对话）；
WindowBufferMemory：滑动窗口（推荐长对话）；
SummaryMemory：自动总结对话（适合超长上下文）；
PersistentMemory：持久化记忆（文件/数据库存储，跨会话保留）。

五、进阶实战 3：RAG 本地知识库问答（核心功能）

RAG（检索增强生成）是企业最常用的功能：让 AI 基于你的本地 PDF/CSV 文档回答问题，杜绝幻觉。

langchainrust 提供完整 RAG 链路：文档加载 → 文本分割 → 向量生成 → 向量存储 → 检索问答。

5.1 前置准备

在项目根目录创建一个 docs 文件夹，放入一个测试 PDF 文件（比如 rust_guide.pdf）。

5.2 完整代码

rust 复制代码

use dotenv::dotenv;
use langchainrust::{
    chains::RetrievalQAChain,
    document_loaders::PDFLoader,
    embeddings::OllamaEmbeddings,
    memory::BufferMemory,
    splitters::RecursiveCharacterSplitter,
    vector_stores::InMemoryVectorStore,
    traits::VectorStore,
};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    // 1. 初始化模型 + 向量嵌入模型
    let llm = Ollama::from_env()?;
    let embeddings = OllamaEmbeddings::from_env()?;

    // 2. 加载 PDF 文档
    let loader = PDFLoader::new("./docs/rust_guide.pdf");
    let mut docs = loader.load().await?;
    println!("加载文档完成，共 {} 页", docs.len());

    // 3. 文本分割：递归分割长文本（避免上下文超限）
    let splitter = RecursiveCharacterSplitter::new(1000, 200); // 块大小1000，重叠200
    splitter.split_documents(&mut docs).await?;
    println!("分割完成，共 {} 个文本块", docs.len());

    // 4. 初始化内存向量库（新手友好，生产可换 PGVector/Qdrant）
    let mut vector_store = InMemoryVectorStore::new(embeddings);
    vector_store.add_documents(&docs).await?;
    println!("向量入库完成");

    // 5. 初始化 RAG 问答链
    let retriever = vector_store.as_retriever(); // 检索器
    let rag_chain = RetrievalQAChain::new(llm, retriever, BufferMemory::new(3));

    // 6. 基于本地文档提问
    let question = "Rust 的核心优势是什么？";
    let answer = rag_chain.invoke(question).await?;
    println!("\n问题：{}", question);
    println!("AI 回答：{}", answer);

    Ok(())
}

5.3 生产级拓展

向量库替换 ：内存库仅用于测试，生产推荐 PGVector（PostgreSQL 插件）、Qdrant（云原生向量库）；
文档格式：支持 PDF/CSV/TXT/Markdown 等主流格式；
高级检索：框架内置混合检索（语义+关键词）、HyDE、结果重排，大幅提升回答准确率。

六、高阶实战 4：智能 Agent + 工具自动调用

Agent 是 langchainrust 的王牌功能：AI 自主判断是否需要调用工具，自动传参执行，比如计算、查时间、爬网页。

我们实现一个能自动计算、查询日期的智能 Agent。

6.1 完整代码

rust 复制代码

use dotenv::dotenv;
use langchainrust::{
    agents::{AgentExecutor, FunctionCallingAgent},
    llm::Ollama,
    tools::{Calculator, DateTimeTool},
};
use std::sync::Arc;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    // 初始化支持函数调用的模型
    let llm = Ollama::from_env()?;

    // 1. 注册工具：计算器 + 日期时间工具
    let tools = vec![
        Arc::new(Calculator::new()),    // 数学计算
        Arc::new(DateTimeTool::new()),  // 查询日期/星期/时间
    ];

    // 2. 初始化函数调用 Agent（推荐，适配所有主流模型）
    let agent = FunctionCallingAgent::new(llm, tools);
    // 3. 初始化 Agent 执行器：最大迭代 5 次
    let executor = AgentExecutor::new(agent).with_max_iterations(5);

    // 测试：复杂问题 → Agent 自动调用工具
    let query = "计算 3.14 * 25 的结果，并且告诉我今天是星期几";
    let result = executor.invoke(query).await?;

    println!("用户问题：{}", query);
    println!("Agent 最终回答：{}", result);

    Ok(())
}

6.2 工作原理

AI 分析问题：需要计算 + 查询日期；
自动调用 Calculator 计算结果；
自动调用 DateTimeTool 获取日期；
整合工具结果，生成最终回答；
无需人工干预，完全自动化。

6.3 拓展：自定义工具

你可以基于 BaseTool trait 自定义任意工具：数据库查询、API 调用、文件读写、爬虫等。

七、高阶实战 5：LangGraph 复杂工作流编排

对于多分支、循环、人机交互的复杂 AI 应用，langchainrust 提供 LangGraph 图式工作流，对标 Python 官方 LangGraph，是企业级 Agent 系统的核心。

我们实现一个简单的分支工作流：根据用户问题类型，分流到「普通对话」或「知识库问答」。

rust 复制代码

// 注：LangGraph 为框架高阶功能，核心 API 基于状态机设计
use dotenv::dotenv;
use langchainrust::{
    llm::Ollama,
    graph::{Graph, Node, NodeType},
    chains::LLMChain,
    prompts::PromptTemplate,
};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    let llm = Ollama::from_env()?;

    // 1. 创建两个节点：普通对话 + 专业问答
    let normal_node = Node::new(
        "normal",
        NodeType::Chain(LLMChain::new(
            llm.clone(),
            PromptTemplate::new("回答用户问题：{{input}}")
        ))
    );

    let professional_node = Node::new(
        "professional",
        NodeType::Chain(LLMChain::new(
            llm,
            PromptTemplate::new("用专业严谨的语气回答：{{input}}")
        ))
    );

    // 2. 创建工作流图，添加分支路由
    let mut graph = Graph::new();
    graph.add_node(normal_node);
    graph.add_node(professional_node);
    // 路由规则：问题包含"专业""技术"→专业节点，否则→普通节点
    graph.add_router("start", |input| {
        if input.contains("专业") || input.contains("技术") {
            "professional"
        } else {
            "normal"
        }
    });

    // 3. 执行工作流
    let res1 = graph.invoke("Rust 好用吗？").await?;
    println!("普通回答：{}", res1);

    let res2 = graph.invoke("用专业技术角度分析 Rust 的优势").await?;
    println!("专业回答：{}", res2);

    Ok(())
}

八、四大高阶落地场景实战

生产环境落地最常用的4个核心拓展场景，全部基于 langchainrust 0.2.20 编写可运行源码；先更新项目Cargo.toml补充新增依赖，原有依赖保留不变：

toml 复制代码

[package]
name = "langchainrust_demo"
version = "0.1.0"
edition = "2021"

[dependencies]
# 原有基础依赖
langchainrust = "0.2.20"
tokio = { version = "1.0", features = ["full"] }
dotenv = "0.15"
tracing = "0.1"
tracing-subscriber = "0.3"
# 新增依赖：自定义工具HTTP请求、Milvus向量库SDK
reqwest = { version = "0.11", features = ["json", "native-tls"] }
milvus-sdk-rust = "0.12"

.env追加Milvus环境配置（后续场景使用）：

env 复制代码

# Milvus配置
MILVUS_HOST=127.0.0.1
MILVUS_PORT=19530
MILVUS_COLLECTION=rust_docs_rag

8.1 场景一：自定义工具开发（自研业务工具接入Agent）

原理说明

langchainrust所有内置工具均实现**BaseTool异步Trait**，自定义工具只需实现3个必选方法：

name()：工具唯一名称（LLM识别调用标识）
description()：工具功能描述（大模型依靠描述判断何时触发调用）
run_async()：工具核心业务逻辑（异步执行真实业务）

实战需求

自定义城市天气查询工具，模拟第三方HTTP接口查询天气，Agent识别用户提问后自动调用该工具获取数据。

rust 复制代码

use dotenv::dotenv;
use langchainrust::agents::{AgentExecutor, FunctionCallingAgent};
use langchainrust::tools::{BaseTool, ToolError};
use std::any::Any;
use std::sync::Arc;

// 自定义天气查询工具结构体
pub struct WeatherQueryTool;

// 实现基础工具Trait
#[async_trait::async_trait]
impl BaseTool for WeatherQueryTool {
    // 工具名称
    fn name(&self) -> &str {
        "city_weather_query"
    }
    // 工具描述：关键！大模型靠这段文字判断是否需要调用
    fn description(&self) -> &str {
        "用于查询指定城市今日天气，入参为中文城市名称，例如：北京、上海"
    }
    // 工具异步执行逻辑
    async fn run_async(&self, input: &str) -> Result<String, ToolError> {
        // 模拟HTTP接口请求，真实项目替换为第三方天气API
        let mock_data = match input {
            "北京" => "北京：晴，22~30℃，微风",
            "上海" => "上海：小雨，20~26℃，东南风3级",
            _ => format!("暂无{}天气数据", input),
        };
        Ok(mock_data)
    }
    fn as_any(&self) -> &dyn Any { self }
}

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    let llm = langchainrust::llm::Ollama::from_env()?;

    // 组装工具列表：内置计算器 + 自定义天气工具
    let tools = vec![
        Arc::new(langchainrust::tools::Calculator::new()),
        Arc::new(WeatherQueryTool),
    ];

    // 初始化FC智能Agent
    let agent = FunctionCallingAgent::new(llm, tools);
    let executor = AgentExecutor::new(agent).with_max_iterations(5);

    // 用户提问，Agent自动判断调用天气工具
    let res = executor.invoke("帮我查上海今天天气，顺带计算128*25等于多少").await?;
    println!("Agent回复：{}", res);
    Ok(())
}

拓展落地

数据库查询工具 ：在run_async中封装SQL语句，入参为查询条件，实现Agent自主查库；
本地文件读取工具：接收文件路径，自动读取txt/md内容返回给LLM；
爬虫工具：对接reqwest实现网页正文抓取，替代内置URLFetch。

8.2 场景二：多Agent分工协作系统

业务设计

复杂问题拆分三级Agent架构，各司其职：

检索子Agent：只负责从Milvus/内存向量库检索知识库原文；
计算子Agent：只负责数学数值运算；
主控路由Agent：接收用户原始问题，拆分需求、分发任务、汇总子Agent结果生成最终答案。

实战需求

提问：从Rust性能文档中查询Rust与C++单次内存分配耗时，计算二者差值再乘以5，主控自动分流检索+计算。

rust 复制代码

use dotenv::dotenv;
use langchainrust::agents::{AgentExecutor, FunctionCallingAgent};
use langchainrust::llm::Ollama;
use langchainrust::tools::{Calculator, BaseTool};
use std::sync::Arc;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    let llm = Ollama::from_env()?;

    // ========== 1. 构建子Agent1：计算专用Agent（仅绑定计算器工具）
    let calc_tool = Arc::new(Calculator::new());
    let calc_agent = FunctionCallingAgent::new(llm.clone(), vec![calc_tool]);
    let calc_executor = Arc::new(AgentExecutor::new(calc_agent).with_max_iterations(3));

    // ========== 2. 构建子Agent2：知识库检索Agent（简化模拟检索逻辑）
    struct DocSearchTool;
    #[async_trait::async_trait]
    impl BaseTool for DocSearchTool {
        fn name(&self) -> &str {"doc_search"}
        fn description(&self) -> &str {"查询Rust和C++性能数据，返回具体数值，入参：查询关键词"}
        async fn run_async(&self, _input:&str)->Result<String,langchainrust::tools::ToolError>{
            Ok("Rust单次内存分配耗时：12ns；C++单次内存分配耗时：28ns".to_string())
        }
        fn as_any(&self)->&dyn std::any::Any {self}
    }
    let search_tool = Arc::new(DocSearchTool);
    let search_agent = FunctionCallingAgent::new(llm.clone(), vec![search_tool]);
    let search_executor = Arc::new(AgentExecutor::new(search_agent).with_max_iterations(2));

    // ========== 3. 主控Agent：封装子Agent调用逻辑（自定义工具形式把子Agent包装成工具）
    struct MasterRouter{calc:Arc<AgentExecutor>,search:Arc<AgentExecutor>}
    #[async_trait::async_trait]
    impl BaseTool for MasterRouter {
        fn name(&self)->&str{"task_router"}
        fn description(&self)->&str{"拆分任务：需要查文档就调用文档子Agent，需要计算就调用计算子Agent，汇总全部结果"}
        async fn run_async(&self,input:&str)->Result<String,langchainrust::tools::ToolError>{
            // 第一步检索文档
            let doc_data = self.search.invoke(input).await.map_err(|e|langchainrust::tools::ToolError::Custom(e.to_string()))?;
            // 第二步基于文档数据发起计算
            let calc_query = format!("根据数据{}，计算(28-12)*5",doc_data);
            let calc_res = self.calc.invoke(&calc_query).await.map_err(|e|langchainrust::tools::ToolError::Custom(e.to_string()))?;
            Ok(format!("原始文档数据：{}\n最终计算结果：{}",doc_data,calc_res))
        }
        fn as_any(&self)->&dyn std::any::Any{self}
    }

    // 顶层主Agent
    let master_tool = Arc::new(MasterRouter{calc:calc_executor,search:search_executor});
    let top_agent = FunctionCallingAgent::new(llm,vec![master_tool]);
    let top_executor = AgentExecutor::new(top_agent);

    // 用户提问
    let ans = top_executor.invoke("从Rust性能文档中查询Rust与C++单次内存分配耗时，计算二者差值再乘以5").await?;
    println!("多Agent协作结果：{}",ans);
    Ok(())
}

拓展优化

引入RouterChain做动态路由，根据问题关键词自动切换不同业务子Agent；
结合LangGraph实现循环协作、异常重试、人工介入修正数据。

8.3 场景三：Milvus向量数据库接入（生产级持久化RAG）

前置部署

Docker一键启动单机Milvus服务（本地测试）：

bash 复制代码

docker run -d --name milvus-standalone \
-p 19530:19530 -p 9091:9091 \
-v ~/milvus-data:/var/lib/milvus \
milvusdb/milvus:v2.4.0-standalone

接入说明

替换前文RAG案例中的InMemoryVectorStore内存向量库，改用MilvusVectorStore实现向量持久化，支持百万级文档向量存储、断电不丢失数据。

rust 复制代码

use dotenv::dotenv;
use langchainrust::{
    document_loaders::TextLoader,
    embeddings::OllamaEmbeddings,
    splitters::RecursiveCharacterSplitter,
    vector_stores::MilvusVectorStore,
    chains::RetrievalQAChain,
    llm::Ollama,
    memory::BufferMemory,
};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    // 初始化大模型与向量嵌入
    let llm = Ollama::from_env()?;
    let embed = OllamaEmbeddings::from_env()?;

    // 1.初始化Milvus向量库（自动创建集合，不存在则新建）
    let milvus = MilvusVectorStore::new()
        .host(std::env::var("MILVUS_HOST")?)
        .port(std::env::var("MILVUS_PORT")?.parse()?)
        .collection_name(std::env::var("MILVUS_COLLECTION")?)
        .embedding(embed.clone())
        .build()
        .await?;

    // 2.加载本地测试文档（新建rust_info.txt写入Rust相关资料）
    let loader = TextLoader::new("./rust_info.txt");
    let mut docs = loader.load().await?;

    // 3.文本切块
    let splitter = RecursiveCharacterSplitter::new(800, 150);
    splitter.split_documents(&mut docs).await?;

    // 4.向量写入Milvus持久化
    milvus.add_documents(&docs).await?;
    println!("{}条文本向量已存入Milvus",docs.len());

    // 5.构建RAG检索链
    let retriever = milvus.as_retriever().top_k(3); //每次检索返回Top3相关文档
    let rag_chain = RetrievalQAChain::new(llm, retriever, BufferMemory::new(2));

    // 6.知识库问答
    let res = rag_chain.invoke("Rust语言的内存安全特性是什么？").await?;
    println!("RAG答案：{}",res);

    Ok(())
}

生产拓展

Milvus集群：生产环境改用Milvus分布式集群，适配千万/亿级向量；
混合检索：开启Milvus+BM25稀疏关键词混合检索，大幅提升召回准确率；
向量TTL管理：配置Milvus集合生命周期，自动清理过期文档向量。

8.4 场景四：流式RAG（实时打字输出，Chat产品必备）

特性说明

常规RAG是全量检索→全量生成→一次性返回答案 ；流式RAG：检索完成后，LLM分片逐字符流式吐出结果，和ChatGPT打字效果一致，对接前端SSE接口。

langchainrust所有Chain统一提供.stream()异步流式接口，RAG链路原生支持流式输出。

rust 复制代码

use dotenv::dotenv;
use futures::StreamExt;
use langchainrust::{
    chains::RetrievalQAChain,
    document_loaders::TextLoader,
    embeddings::OllamaEmbeddings,
    llm::Ollama,
    memory::BufferMemory,
    splitters::RecursiveCharacterSplitter,
    vector_stores::InMemoryVectorStore,
};

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    dotenv().ok();
    let llm = Ollama::from_env()?;
    let embed = OllamaEmbeddings::from_env()?;

    // 构建向量库+文档
    let mut store = InMemoryVectorStore::new(embed);
    let mut docs = TextLoader::new("./rust_info.txt").load().await?;
    RecursiveCharacterSplitter::new(800,150).split_documents(&mut docs).await?;
    store.add_documents(&docs).await?;

    // 初始化RAG链
    let ret = store.as_retriever().top_k(2);
    let rag_stream_chain = RetrievalQAChain::new(llm, ret, BufferMemory::default());

    // 流式RAG核心：调用stream获取异步数据流
    println!("【流式RAG实时输出】：");
    let mut stream = rag_stream_chain.stream("Rust对比Go有哪些独有优势").await?;
    // 循环读取分片数据，实时打印
    while let Some(chunk) = stream.next().await {
        match chunk {
            Ok(text) => {
                print!("{}",text);
                std::io::stdout().flush()?;
            }
            Err(e) => eprintln!("流式异常：{}",e),
        }
    }
    Ok(())
}

落地拓展

对接前端SSE：把流式分片封装为HTTP-SSE接口，前端接收分片实时渲染打字动画；
边检索边流式：超大知识库场景实现分片检索+分片输出，优化首包响应耗时；
流式记忆 ：搭配WindowBufferMemory实现多轮对话持续流式问答。

九、生产环境优化建议

异步优先 ：langchainrust全异步设计，禁止使用同步代码阻塞运行时；
错误处理：生产环境务必捕获 LLM 调用、向量库、文档加载的异常；
模型选型：边缘设备用 Ollama 本地模型，云端用 OpenAI/DeepSeek 等 API 模型；
向量库：小数据量用内存库，中大数据Milvus/PGVector/Qdrant；
上下文控制：使用滑动窗口/总结记忆，避免大模型上下文超限；
部署：Rust 编译为单二进制文件，无依赖，直接部署在服务器/边缘设备。

十、总结

langchainrust是目前 Rust 生态中最活跃、功能最完整 的 LLM 开发框架，覆盖基础对话、多轮记忆、常规RAG、智能Agent、LangGraph工作流、自定义工具、多Agent集群、Milvus生产向量库、流式RAG全链路落地场景。

相比于 Python LangChain，它的优势：

✅ Rust 原生高性能，高并发低延迟；

✅ 编译期安全，规避大部分运行时异常；

✅ 单文件编译部署，无Python依赖环境；

✅ 内置HyDE/混合检索/重排等高级RAG能力，领先同类rust框架。

从个人AI小工具、企业知识库系统、云端高并发AI服务，到嵌入式边缘离线大模型应用，均可基于本框架快速落地。