第3讲、LangChain性能优化：上下文缓存与流式响应实战指南

概述

在复杂对话场景中，大型语言模型面临着响应延迟、重复计算、上下文管理等挑战。本文将详细介绍如何通过LangChain的上下文缓存和流式响应功能来优化性能和用户体验。

主要优化目标

减少API调用成本和延迟
提升用户交互体验
优化内存和计算资源使用
增强对话连续性和上下文理解

系统架构与数据流

整体架构图

以下是LangChain性能优化系统的完整架构图，展示了各个组件的关系和数据流向：
优化决策层性能监控层 LLM处理层智能预测系统分层缓存存储智能缓存管理层用户交互层提升提升缓存未命中性能分析器优化引擎自动调优报告生成器性能监控器内存监控器响应时间追踪命中率统计大语言模型
GPT-4/Claude 流式响应处理回调处理器查询分类器序列模式分析时间模式分析预加载引擎 L1: 内存缓存
100条记录
最热数据 L2: Redis缓存
1000条记录
热数据 L3: 磁盘缓存
10000条记录
温数据缓存管理器
CacheManager 动态缓存
DynamicCache 语义缓存
SemanticCache 压缩缓存
CompressedCache 用户界面 WebSocket连接 REST API

架构说明：

用户交互层：支持多种接入方式，包括Web界面、WebSocket实时连接和REST API
智能缓存管理层：统一管理各种缓存策略，包括动态缓存、语义缓存和压缩缓存
分层缓存存储：L1-L3三级缓存架构，实现热数据快速访问和冷数据长期存储
智能预测系统：基于用户行为模式预测和预加载，提升缓存命中率
性能监控层：全方位监控系统性能指标，为优化决策提供数据支持

核心数据流逻辑图

命中L1缓存命中L2缓存命中L3缓存缓存未命中 >80% <50% 正常命中率<30% 响应时间>5s 内存使用>1GB 性能正常用户查询请求智能缓存检查内存缓存
L1 Cache Redis缓存
L2 Cache 磁盘缓存
L3 Cache LLM API调用流式响应处理缓存提升到L1 缓存提升到L2 智能预测系统查询分类器序列模式分析时间模式分析预加载决策动态缓存管理内存使用率检查缓存压缩缓存扩容维持当前大小流式响应生成渐进式输出打字效果处理用户界面显示预加载队列后台预加载任务异步缓存更新性能监控器响应时间统计命中率统计内存使用统计 Token生成统计性能分析器性能评估增加缓存大小启用更多缓存启用压缩模式维持当前配置智能优化建议自动调优执行

数据流说明：

多级缓存检查：从L1到L3逐级查找，未命中则调用LLM
智能预测流程：分析查询模式，预测后续需求，预加载热门内容
动态资源管理：根据内存使用率自动调整缓存策略
性能监控闭环：实时监控→性能分析→自动优化→策略调整

完整请求处理时序图

用户缓存管理器 L1缓存 L2缓存 L3缓存预测系统大语言模型流式响应性能监控优化引擎 LangChain性能优化完整流程 1. 发送查询请求 2. 检查L1内存缓存 3a. 返回缓存结果 4a. 立即返回结果响应时间: ~10ms 3b. 检查L2 Redis缓存 4b. 返回缓存结果 5b. 提升到L1缓存 6b. 返回结果响应时间: ~50ms 4c. 检查L3磁盘缓存 5c. 返回缓存结果 6c. 提升到L2缓存 7c. 提升到L1缓存 8c. 返回结果响应时间: ~100ms 5d. 调用大语言模型 6d. 启动流式响应 7d. 实时推送内容块打字效果显示 loop [流式生成] 8d. 返回完整响应 9d. 存储到L1缓存 10d. 存储到L2缓存 11d. 存储到L3缓存响应时间: ~3-5s alt [L3缓存命中] [完全缓存未命中] alt [L2缓存命中] [L2缓存未命中] alt [L1缓存命中] [L1缓存未命中] 记录查询模式分析用户行为预测后续查询预加载热门查询预加载结果缓存预加载内容记录响应时间报告命中统计报告命中统计报告命中统计报告生成统计性能数据分析 par [智能预测处理] [性能监控] 检测性能指标命中率<30% 或内存使用>80% 执行自动调优调整缓存大小优化存储策略清理过期数据 alt [性能优化触发] 优化完成，系统性能提升30-50% 用户缓存管理器 L1缓存 L2缓存 L3缓存预测系统大语言模型流式响应性能监控优化引擎

时序说明：

多级缓存响应时间：L1(10ms) < L2(50ms) < L3(100ms) < LLM(3-5s)
并行处理机制：智能预测和性能监控与主流程并行执行
自动优化触发：基于性能阈值自动调整系统配置
流式响应体验：即使LLM调用较慢，通过流式输出提升用户体验

架构优势总结

通过上述三个视角的架构图，我们可以清晰地看到：

多层次缓存架构：L1→L2→L3的渐进式存储，平衡了速度与容量
智能预测机制：基于用户行为模式主动预加载，提升命中率
自适应优化：实时监控系统性能，自动调整缓存策略
流式响应设计：即使缓存未命中，也能通过流式输出保证用户体验
模块化设计：各组件职责清晰，便于维护和扩展

这套架构设计确保了系统能够：

响应速度提升30-50%（通过多级缓存和智能预测）
资源使用优化40-60%（通过动态管理和压缩技术）
用户体验显著改善（通过流式响应和预测加载）
系统稳定性增强（通过完善监控和自动调优）

上下文缓存优化

1.1 缓存机制的实现

LangChain提供了多层缓存策略来减少重复API调用和提升响应速度：

内存缓存实现

python 复制代码

from langchain.cache import InMemoryCache
from langchain.globals import set_llm_cache
from langchain.chat_models import ChatOpenAI

# 启用内存缓存
set_llm_cache(InMemoryCache())

chat = ChatOpenAI(temperature=0)

持久化缓存实现

python 复制代码

from langchain.cache import SQLiteCache
import langchain

# 使用SQLite持久化缓存
langchain.llm_cache = SQLiteCache(database_path=".langchain.db")

Redis分布式缓存

python 复制代码

from langchain.cache import RedisCache
import redis

# 配置Redis缓存，适用于分布式环境
redis_client = redis.Redis(host='localhost', port=6379, db=0)
set_llm_cache(RedisCache(redis_client))

1.2 智能缓存策略

语义缓存

通过向量相似度匹配语义相近的查询：

python 复制代码

from langchain.cache import RedisSemanticCache
from langchain.embeddings import OpenAIEmbeddings

# 基于语义相似度的缓存
embeddings = OpenAIEmbeddings()
set_llm_cache(RedisSemanticCache(
    redis_url="redis://localhost:6379",
    embedding=embeddings,
    score_threshold=0.2  # 相似度阈值
))

上下文感知缓存

python 复制代码

from langchain.memory import ConversationBufferWindowMemory
from langchain.chains import ConversationChain

# 基于滑动窗口的上下文缓存
memory = ConversationBufferWindowMemory(
    k=5,  # 保留最近5轮对话
    return_messages=True
)

conversation = ConversationChain(
    llm=chat,
    memory=memory,
    verbose=True
)

1.3 缓存策略对比

缓存类型	优势	适用场景	注意事项
InMemoryCache	速度快，简单	单机应用，开发测试	重启后丢失
SQLiteCache	持久化，轻量级	中小型应用	单机限制
RedisCache	分布式，高性能	生产环境，集群部署	需要Redis服务
SemanticCache	智能匹配	语义相似查询多	计算开销较大

1.4 缓存资源优化与平衡策略

缓存太大会占用过多服务器资源，缓存太小又达不到优化效果。这是一个经典的权衡问题，需要采用智能化的缓存管理策略来解决。

1.4.1 动态缓存管理

python 复制代码

import time
import psutil
from typing import Dict, Any, Optional
from langchain.cache import BaseCache
from collections import OrderedDict
import threading
import logging

class DynamicCache(BaseCache):
    """动态调整大小的智能缓存"""
    
    def __init__(self, 
                 initial_max_size: int = 1000,
                 min_size: int = 100,
                 max_size: int = 10000,
                 memory_threshold: float = 0.8,
                 hit_rate_threshold: float = 0.3):
        
        self.cache: OrderedDict = OrderedDict()
        self.max_size = initial_max_size
        self.min_size = min_size
        self.absolute_max_size = max_size
        self.memory_threshold = memory_threshold
        self.hit_rate_threshold = hit_rate_threshold
        
        # 统计信息
        self.hits = 0
        self.misses = 0
        self.last_cleanup = time.time()
        self.cleanup_interval = 300  # 5分钟清理一次
        
        # 启动监控线程
        self._start_monitoring()
        
        logging.basicConfig(level=logging.INFO)
        self.logger = logging.getLogger(__name__)
    
    def lookup(self, prompt: str, llm_string: str) -> Optional[Any]:
        """查找缓存"""
        key = self._get_cache_key(prompt, llm_string)
        
        if key in self.cache:
            # 移动到末尾（LRU策略）
            value = self.cache.pop(key)
            self.cache[key] = value
            self.hits += 1
            self.logger.debug(f"缓存命中: {key[:50]}...")
            return value
        
        self.misses += 1
        return None
    
    def update(self, prompt: str, llm_string: str, return_val: Any) -> None:
        """更新缓存"""
        key = self._get_cache_key(prompt, llm_string)
        
        # 检查是否需要清理
        if len(self.cache) >= self.max_size:
            self._cleanup_cache()
        
        # 添加新条目
        self.cache[key] = {
            'value': return_val,
            'timestamp': time.time(),
            'access_count': 1
        }
        
        self.logger.debug(f"缓存更新: {key[:50]}... (当前大小: {len(self.cache)})")
    
    def _get_cache_key(self, prompt: str, llm_string: str) -> str:
        """生成缓存键"""
        return f"{hash(prompt)}_{hash(llm_string)}"
    
    def _cleanup_cache(self):
        """清理缓存"""
        current_time = time.time()
        
        # 如果距离上次清理时间太短，只删除最旧的条目
        if current_time - self.last_cleanup < self.cleanup_interval:
            if self.cache:
                self.cache.popitem(last=False)  # 删除最旧的条目
            return
        
        # 全面清理
        self._comprehensive_cleanup()
        self.last_cleanup = current_time
    
    def _comprehensive_cleanup(self):
        """全面清理缓存"""
        current_time = time.time()
        
        # 1. 删除过期条目（超过1小时未访问）
        expired_keys = []
        for key, item in self.cache.items():
            if current_time - item['timestamp'] > 3600:  # 1小时
                expired_keys.append(key)
        
        for key in expired_keys:
            del self.cache[key]
        
        # 2. 如果仍然过大，按访问频率删除
        if len(self.cache) > self.max_size * 0.8:
            # 按访问次数排序，删除访问次数最少的
            sorted_items = sorted(
                self.cache.items(),
                key=lambda x: x[1]['access_count']
            )
            
            to_remove = len(self.cache) - int(self.max_size * 0.7)
            for i in range(to_remove):
                if i < len(sorted_items):
                    key = sorted_items[i][0]
                    del self.cache[key]
        
        self.logger.info(f"缓存清理完成，当前大小: {len(self.cache)}")
    
    def _start_monitoring(self):
        """启动监控线程"""
        def monitor():
            while True:
                time.sleep(60)  # 每分钟检查一次
                self._adjust_cache_size()
        
        thread = threading.Thread(target=monitor, daemon=True)
        thread.start()
    
    def _adjust_cache_size(self):
        """动态调整缓存大小"""
        # 1. 检查内存使用率
        memory_percent = psutil.virtual_memory().percent / 100
        
        # 2. 计算命中率
        total_requests = self.hits + self.misses
        hit_rate = self.hits / total_requests if total_requests > 0 else 0
        
        # 3. 动态调整策略
        if memory_percent > self.memory_threshold:
            # 内存紧张，减小缓存
            new_size = max(self.min_size, int(self.max_size * 0.8))
            self.logger.warning(f"内存使用率过高({memory_percent:.1%})，缩小缓存至 {new_size}")
        elif hit_rate < self.hit_rate_threshold and self.max_size < self.absolute_max_size:
            # 命中率低，尝试增大缓存
            new_size = min(self.absolute_max_size, int(self.max_size * 1.2))
            self.logger.info(f"命中率较低({hit_rate:.1%})，扩大缓存至 {new_size}")
        else:
            return  # 不需要调整
        
        self.max_size = new_size
        
        # 如果当前缓存超过新的最大值，立即清理
        if len(self.cache) > self.max_size:
            self._comprehensive_cleanup()
    
    def get_stats(self) -> Dict:
        """获取缓存统计信息"""
        total_requests = self.hits + self.misses
        hit_rate = self.hits / total_requests if total_requests > 0 else 0
        
        return {
            'cache_size': len(self.cache),
            'max_size': self.max_size,
            'hits': self.hits,
            'misses': self.misses,
            'hit_rate': hit_rate,
            'memory_usage_mb': psutil.Process().memory_info().rss / 1024 / 1024
        }
    
    def clear(self):
        """清空缓存"""
        self.cache.clear()
        self.hits = 0
        self.misses = 0
        self.logger.info("缓存已清空")

1.4.2 分层缓存架构

python 复制代码

from enum import Enum
from typing import Union
import pickle
import hashlib

class CacheLevel(Enum):
    L1_MEMORY = 1    # 内存缓存 - 最快，容量小
    L2_REDIS = 2     # Redis缓存 - 较快，容量中等
    L3_DISK = 3      # 磁盘缓存 - 较慢，容量大

class TieredCache:
    """分层缓存系统"""
    
    def __init__(self):
        # L1: 内存缓存 (最热数据)
        self.l1_cache = OrderedDict()
        self.l1_max_size = 100
        
        # L2: Redis缓存 (热数据)
        try:
            import redis
            self.redis_client = redis.Redis(host='localhost', port=6379, db=1)
            self.l2_enabled = True
        except:
            self.l2_enabled = False
                         import logging
             self.logger = logging.getLogger(__name__)
             self.logger.warning("Redis不可用，禁用L2缓存")
        
                 # L3: 磁盘缓存 (温数据)
         import os
         self.l3_cache_dir = "./cache_l3"
         self.l3_max_size = 10000
         os.makedirs(self.l3_cache_dir, exist_ok=True)
        
        self.stats = {
            'l1_hits': 0, 'l1_misses': 0,
            'l2_hits': 0, 'l2_misses': 0,
            'l3_hits': 0, 'l3_misses': 0
        }
    
    def get(self, key: str) -> Optional[Any]:
        """分层查找缓存"""
        
        # L1 内存缓存查找
        if key in self.l1_cache:
            value = self.l1_cache.pop(key)
            self.l1_cache[key] = value  # 移到末尾
            self.stats['l1_hits'] += 1
            return value
        self.stats['l1_misses'] += 1
        
        # L2 Redis缓存查找
        if self.l2_enabled:
            try:
                value = self.redis_client.get(key)
                if value:
                    value = pickle.loads(value)
                    self._promote_to_l1(key, value)  # 提升到L1
                    self.stats['l2_hits'] += 1
                    return value
            except Exception as e:
                self.logger.error(f"L2缓存查找失败: {e}")
        self.stats['l2_misses'] += 1
        
        # L3 磁盘缓存查找
        value = self._get_from_disk(key)
        if value:
            self._promote_to_l2(key, value)  # 提升到L2
            self.stats['l3_hits'] += 1
            return value
        self.stats['l3_misses'] += 1
        
        return None
    
    def set(self, key: str, value: Any, level: CacheLevel = CacheLevel.L1_MEMORY):
        """设置缓存到指定层级"""
        
        if level == CacheLevel.L1_MEMORY or self._is_hot_data(key):
            self._set_l1(key, value)
        
        if level in [CacheLevel.L2_REDIS, CacheLevel.L1_MEMORY] and self.l2_enabled:
            self._set_l2(key, value)
        
        if level == CacheLevel.L3_DISK:
            self._set_l3(key, value)
    
    def _is_hot_data(self, key: str) -> bool:
        """判断是否为热数据"""
        # 基于访问模式判断
        # 这里可以实现更复杂的热数据识别逻辑
        return len(self.l1_cache) < self.l1_max_size * 0.8
    
    def _promote_to_l1(self, key: str, value: Any):
        """提升到L1缓存"""
        if len(self.l1_cache) >= self.l1_max_size:
            self.l1_cache.popitem(last=False)  # 删除最旧的
        self.l1_cache[key] = value
    
    def _promote_to_l2(self, key: str, value: Any):
        """提升到L2缓存"""
        if self.l2_enabled:
            self._set_l2(key, value)
    
    def _set_l1(self, key: str, value: Any):
        """设置L1缓存"""
        if len(self.l1_cache) >= self.l1_max_size:
            self.l1_cache.popitem(last=False)
        self.l1_cache[key] = value
    
    def _set_l2(self, key: str, value: Any):
        """设置L2缓存"""
        try:
            self.redis_client.setex(
                key, 
                3600,  # 1小时过期
                pickle.dumps(value)
            )
        except Exception as e:
            self.logger.error(f"L2缓存设置失败: {e}")
    
    def _set_l3(self, key: str, value: Any):
        """设置L3缓存"""
        file_path = os.path.join(self.l3_cache_dir, f"{hashlib.md5(key.encode()).hexdigest()}.pkl")
        try:
            with open(file_path, 'wb') as f:
                pickle.dump(value, f)
        except Exception as e:
            self.logger.error(f"L3缓存设置失败: {e}")
    
    def _get_from_disk(self, key: str) -> Optional[Any]:
        """从磁盘缓存获取"""
        file_path = os.path.join(self.l3_cache_dir, f"{hashlib.md5(key.encode()).hexdigest()}.pkl")
        try:
            if os.path.exists(file_path):
                with open(file_path, 'rb') as f:
                    return pickle.load(f)
        except Exception as e:
            self.logger.error(f"L3缓存读取失败: {e}")
        return None
    
    def get_cache_report(self) -> Dict:
        """获取缓存报告"""
        total_requests = sum(self.stats.values())
        
        return {
            'l1_size': len(self.l1_cache),
            'l1_hit_rate': self.stats['l1_hits'] / max(1, self.stats['l1_hits'] + self.stats['l1_misses']),
            'l2_hit_rate': self.stats['l2_hits'] / max(1, self.stats['l2_hits'] + self.stats['l2_misses']),
            'l3_hit_rate': self.stats['l3_hits'] / max(1, self.stats['l3_hits'] + self.stats['l3_misses']),
            'overall_hit_rate': (self.stats['l1_hits'] + self.stats['l2_hits'] + self.stats['l3_hits']) / max(1, total_requests),
            'stats': self.stats
        }

1.4.3 智能缓存预测与预加载

python 复制代码

import numpy as np
from collections import defaultdict, Counter
from typing import List, Tuple
import re

class IntelligentCachePredictor:
    """智能缓存预测器"""
    
    def __init__(self, max_patterns: int = 1000):
        self.query_patterns = defaultdict(list)  # 查询模式
        self.sequence_patterns = defaultdict(Counter)  # 序列模式
        self.time_patterns = defaultdict(list)  # 时间模式
        self.max_patterns = max_patterns
        
        # 查询分类模型
        self.query_categories = {
            'greeting': ['你好', '您好', 'hello', 'hi'],
            'question': ['什么是', '如何', '怎么', '为什么', 'what', 'how', 'why'],
            'instruction': ['请', '帮我', '生成', '创建', 'please', 'help', 'generate'],
            'clarification': ['具体', '详细', '更多', '继续', 'more', 'detail', 'continue']
        }
    
    def record_query(self, query: str, timestamp: float = None):
        """记录查询模式"""
        if timestamp is None:
            timestamp = time.time()
        
        # 1. 记录查询内容
        category = self._categorize_query(query)
        self.query_patterns[category].append({
            'query': query,
            'timestamp': timestamp,
            'hour': time.localtime(timestamp).tm_hour
        })
        
        # 2. 记录时间模式
        hour = time.localtime(timestamp).tm_hour
        self.time_patterns[hour].append(category)
        
        # 3. 维护模式数量
        if len(self.query_patterns[category]) > self.max_patterns:
            self.query_patterns[category] = self.query_patterns[category][-self.max_patterns:]
    
    def record_sequence(self, previous_query: str, current_query: str):
        """记录查询序列模式"""
        prev_category = self._categorize_query(previous_query)
        curr_category = self._categorize_query(current_query)
        
        self.sequence_patterns[prev_category][curr_category] += 1
    
    def _categorize_query(self, query: str) -> str:
        """查询分类"""
        query_lower = query.lower()
        
        for category, keywords in self.query_categories.items():
            if any(keyword in query_lower for keyword in keywords):
                return category
        
        return 'other'
    
    def predict_next_queries(self, current_query: str, top_k: int = 5) -> List[Tuple[str, float]]:
        """预测下一个可能的查询"""
        current_category = self._categorize_query(current_query)
        
        # 基于序列模式预测
        if current_category in self.sequence_patterns:
            next_categories = self.sequence_patterns[current_category].most_common(top_k)
            
            predictions = []
            for next_category, count in next_categories:
                # 获取该类别的代表性查询
                if next_category in self.query_patterns:
                    recent_queries = self.query_patterns[next_category][-10:]  # 最近10个查询
                    for query_info in recent_queries:
                        confidence = count / sum(self.sequence_patterns[current_category].values())
                        predictions.append((query_info['query'], confidence))
            
            return sorted(predictions, key=lambda x: x[1], reverse=True)[:top_k]
        
        return []
    
    def predict_time_based_queries(self, hour: int = None, top_k: int = 5) -> List[str]:
        """基于时间预测查询"""
        if hour is None:
            hour = time.localtime().tm_hour
        
        if hour in self.time_patterns:
            common_categories = Counter(self.time_patterns[hour]).most_common(top_k)
            
            predictions = []
            for category, _ in common_categories:
                if category in self.query_patterns:
                    recent_queries = self.query_patterns[category][-5:]
                    predictions.extend([q['query'] for q in recent_queries])
            
            return predictions[:top_k]
        
        return []
    
    def should_preload(self, query: str) -> bool:
        """判断是否应该预加载相关内容"""
        category = self._categorize_query(query)
        
        # 如果是常见的后续查询类型，建议预加载
        if category in ['clarification', 'question']:
            return True
        
        # 如果在高峰时段，建议预加载
        current_hour = time.localtime().tm_hour
        if current_hour in [9, 10, 14, 15, 16]:  # 工作时间高峰
            return True
        
        return False

class SmartCacheManager:
    """智能缓存管理器"""
    
    def __init__(self, chat_model, initial_cache_size: int = 500, memory_threshold: float = 0.7, enable_compression: bool = True):
        self.chat_model = chat_model
        self.cache = DynamicCache(initial_max_size=initial_cache_size)
        self.predictor = IntelligentCachePredictor()
        self.tiered_cache = TieredCache()
        
        # 预加载队列
        self.preload_queue = []
        self.preload_thread = None
        self._start_preload_worker()
        
        self.memory_threshold = memory_threshold
        self.enable_compression = enable_compression
    
    def get_response(self, query: str) -> str:
        """获取响应（带智能缓存）"""
        # 1. 记录查询模式
        self.predictor.record_query(query)
        
        # 2. 尝试从缓存获取
        cached_response = self.cache.lookup(query, "")
        if cached_response:
            return cached_response['value']
        
        # 3. 生成新响应
        response = self.chat_model([HumanMessage(content=query)])
        
        # 4. 存储到缓存
        self.cache.update(query, "", response.content)
        
        # 5. 预测并预加载可能的后续查询
        if self.predictor.should_preload(query):
            self._schedule_preload(query)
        
        return response.content
    
    def _schedule_preload(self, current_query: str):
        """调度预加载任务"""
        predictions = self.predictor.predict_next_queries(current_query, top_k=3)
        
        for predicted_query, confidence in predictions:
            if confidence > 0.3:  # 只预加载高置信度的查询
                self.preload_queue.append(predicted_query)
    
    def _start_preload_worker(self):
        """启动预加载工作线程"""
        def preload_worker():
            while True:
                if self.preload_queue:
                    query = self.preload_queue.pop(0)
                    
                    # 检查是否已缓存
                    if not self.cache.lookup(query, ""):
                                                 try:
                             from langchain.schema import HumanMessage
                             response = self.chat_model([HumanMessage(content=query)])
                             self.cache.update(query, "", response.content)
                             print(f"预加载完成: {query[:30]}...")
                         except Exception as e:
                             print(f"预加载失败: {e}")
                
                time.sleep(1)  # 避免过于频繁的预加载
        
        self.preload_thread = threading.Thread(target=preload_worker, daemon=True)
        self.preload_thread.start()
    
    def optimize_cache_size(self):
        """优化缓存大小"""
        stats = self.cache.get_stats()
        
        # 基于命中率和内存使用情况动态调整
        if stats['hit_rate'] < 0.3 and stats['cache_size'] < 2000:
            # 命中率低，尝试增加缓存
            new_size = min(2000, int(stats['max_size'] * 1.5))
            self.cache.max_size = new_size
            self.logger.info(f"缓存大小调整为: {new_size}")
        
        elif stats['memory_usage_mb'] > 1000:  # 内存使用超过1GB
            # 内存压力大，减少缓存
            new_size = max(100, int(stats['max_size'] * 0.7))
            self.cache.max_size = new_size
            self.cache._comprehensive_cleanup()
            self.logger.warning(f"内存压力大，缓存大小减少至: {new_size}")
    
    def get_optimization_report(self) -> Dict:
        """获取优化报告"""
        cache_stats = self.cache.get_stats()
        tiered_stats = self.tiered_cache.get_cache_report()
        
        return {
            'cache_performance': cache_stats,
            'tiered_cache': tiered_stats,
            'preload_queue_size': len(self.preload_queue),
            'memory_usage_mb': psutil.Process().memory_info().rss / 1024 / 1024,
            'recommendations': self._generate_optimization_recommendations(cache_stats)
        }
    
    def _generate_optimization_recommendations(self, stats: Dict) -> List[str]:
        """生成优化建议"""
        recommendations = []
        
        if stats['hit_rate'] < 0.2:
            recommendations.append("命中率过低，考虑增加缓存大小或优化缓存键生成策略")
        
        if stats['memory_usage_mb'] > 500:
            recommendations.append("内存使用较高，考虑启用缓存压缩或减少缓存大小")
        
        if len(self.preload_queue) > 50:
            recommendations.append("预加载队列积压严重，考虑增加预加载工作线程或减少预加载策略")
        
        return recommendations

# 使用示例
def setup_intelligent_cache_system():
    """设置智能缓存系统"""
    
    # 初始化聊天模型
    chat = ChatOpenAI(temperature=0.7)
    
    # 创建智能缓存管理器
    cache_manager = SmartCacheManager(
        chat_model=chat,
        initial_cache_size=1000,  # 可以设置较大初始值
        memory_threshold=0.7,     # 内存使用70%时开始优化
        enable_compression=True   # 启用压缩节省空间
    )
    
    # 模拟用户对话
    test_queries = [
        "你好，请介绍一下LangChain",
        "LangChain有哪些核心组件？",
        "请详细解释一下RAG技术",
        "如何优化LangChain的性能？",
        "缓存策略有哪些类型？",
        "流式响应的优势是什么？"
    ]
    
    print("🚀 智能缓存系统测试开始")
    print("="*50)
    
    for i, query in enumerate(test_queries):
        print(f"\n📝 查询 {i+1}: {query}")
        
        start_time = time.time()
        response = cache_manager.get_response(query)
        end_time = time.time()
        
        print(f"⏱️  响应时间: {end_time - start_time:.2f}秒")
        print(f"🤖 回答: {response[:100]}...")
        
        # 每3个查询检查一次优化状态
        if (i + 1) % 3 == 0:
            cache_manager.optimize_cache_size()
            report = cache_manager.get_optimization_report()
            print(f"\n📊 缓存状态: 大小={report['cache_performance']['cache_size']}, "
                  f"命中率={report['cache_performance']['hit_rate']:.2%}")
    
    # 最终报告
    final_report = cache_manager.get_optimization_report()
    print("\n" + "="*50)
    print("📋 最终优化报告:")
    for key, value in final_report.items():
        if isinstance(value, dict):
            print(f"  {key}:")
            for k, v in value.items():
                print(f"    {k}: {v}")
        else:
            print(f"  {key}: {value}")

if __name__ == "__main__":
    setup_intelligent_cache_system()

1.4.4 缓存压缩与优化

python 复制代码

import gzip
import json
from typing import Any, Dict
import hashlib

class CompressedCache:
    """压缩缓存实现"""
    
    def __init__(self, compression_level: int = 6):
        self.cache = {}
        self.compression_level = compression_level
        self.compressed_count = 0
        self.total_size_before = 0
        self.total_size_after = 0
    
    def _compress_data(self, data: Any) -> bytes:
        """压缩数据"""
        json_str = json.dumps(data, ensure_ascii=False)
        original_size = len(json_str.encode('utf-8'))
        
        compressed = gzip.compress(
            json_str.encode('utf-8'), 
            compresslevel=self.compression_level
        )
        
        # 更新统计
        self.total_size_before += original_size
        self.total_size_after += len(compressed)
        self.compressed_count += 1
        
        return compressed
    
    def _decompress_data(self, compressed_data: bytes) -> Any:
        """解压数据"""
        decompressed = gzip.decompress(compressed_data)
        return json.loads(decompressed.decode('utf-8'))
    
    def set(self, key: str, value: Any):
        """设置压缩缓存"""
        compressed_value = self._compress_data(value)
        self.cache[key] = compressed_value
    
    def get(self, key: str) -> Any:
        """获取并解压缓存"""
        if key in self.cache:
            return self._decompress_data(self.cache[key])
        return None
    
    def get_compression_stats(self) -> Dict:
        """获取压缩统计"""
        if self.compressed_count > 0:
            compression_ratio = self.total_size_after / self.total_size_before
            space_saved = self.total_size_before - self.total_size_after
        else:
            compression_ratio = 1.0
            space_saved = 0
        
        return {
            'compressed_items': self.compressed_count,
            'original_size_mb': self.total_size_before / 1024 / 1024,
            'compressed_size_mb': self.total_size_after / 1024 / 1024,
            'compression_ratio': compression_ratio,
            'space_saved_mb': space_saved / 1024 / 1024
        }

1.5 缓存优化最佳实践总结

策略类型	适用场景	优势	实施建议
动态调整	资源有限环境	自适应，平衡性能与资源	设置合理的监控阈值
分层缓存	大规模应用	优化访问速度，扩展容量	根据数据热度分层存储
智能预测	高交互应用	提前准备，提升体验	基于用户行为模式预加载
压缩存储	内存敏感场景	节省空间，降低成本	权衡压缩比与CPU开销

通过这些策略的组合使用，可以有效解决缓存资源占用与效果之间的平衡问题，实现智能化的缓存管理。

流式响应优化

2.1 实时流式输出

基础流式响应

python 复制代码

from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage

chat = ChatOpenAI(streaming=True, temperature=0)

# 流式生成响应
for chunk in chat.stream([HumanMessage(content="写一篇关于AI的文章")]):
    print(chunk.content, end="", flush=True)

异步流式处理

python 复制代码

import asyncio
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage

async def async_stream_chat():
    chat = ChatOpenAI(streaming=True, temperature=0)
    
    async for chunk in chat.astream([HumanMessage(content="解释量子计算")]):
        print(chunk.content, end="", flush=True)
        await asyncio.sleep(0.01)  # 控制输出速度

# 运行异步流式对话
asyncio.run(async_stream_chat())

2.2 复杂链式流式处理

RAG流式问答

python 复制代码

from langchain.chains import RetrievalQA
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

# 配置流式回调
streaming_handler = StreamingStdOutCallbackHandler()

# 构建流式RAG链
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(
        streaming=True,
        callbacks=[streaming_handler],
        temperature=0
    ),
    chain_type="stuff",
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)

# 流式执行查询
result = qa_chain({"query": "LangChain的核心优势是什么？"})

2.3 自定义流式回调处理器

python 复制代码

from langchain.callbacks.base import BaseCallbackHandler
import time

class CustomStreamHandler(BaseCallbackHandler):
    def __init__(self):
        self.tokens = []
        self.start_time = None
    
    def on_llm_start(self, serialized, prompts, **kwargs):
        self.start_time = time.time()
        print("🤖 开始生成回答...")
    
    def on_llm_new_token(self, token: str, **kwargs):
        self.tokens.append(token)
        print(token, end="", flush=True)
        
        # 添加打字效果
        time.sleep(0.02)
    
    def on_llm_end(self, response, **kwargs):
        duration = time.time() - self.start_time
        print(f"\n\n✅ 回答完成，用时 {duration:.1f} 秒")
        print(f"📊 总共生成 {len(self.tokens)} 个token")

复杂对话场景性能优化

3.1 多轮对话记忆管理

分层记忆系统

python 复制代码

from langchain.memory import (
    ConversationSummaryBufferMemory,
    ConversationTokenBufferMemory
)

# 总结缓冲记忆 - 自动总结历史对话
summary_memory = ConversationSummaryBufferMemory(
    llm=chat,
    max_token_limit=1000,
    return_messages=True
)

# Token缓冲记忆 - 基于token数量限制
token_memory = ConversationTokenBufferMemory(
    llm=chat,
    max_token_limit=2000,
    return_messages=True
)

实体记忆系统

python 复制代码

from langchain.memory import ConversationEntityMemory

# 实体级记忆，跟踪对话中的重要实体
entity_memory = ConversationEntityMemory(
    llm=chat,
    entity_extraction_prompt=None,  # 自定义实体提取提示
    entity_summarization_prompt=None  # 自定义实体总结提示
)

记忆策略选择指南

记忆类型	适用场景	优势	限制
ConversationBufferMemory	短对话	完整保存	内存消耗大
ConversationSummaryMemory	长对话	自动总结	信息可能丢失
ConversationTokenBufferMemory	Token限制	精确控制	需要计算token
ConversationEntityMemory	实体跟踪	结构化信息	复杂度高

3.2 智能上下文压缩

动态上下文选择

python 复制代码

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

# 基于LLM的上下文压缩器
compressor = LLMChainExtractor.from_llm(chat)

# 压缩检索器
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectorstore.as_retriever()
)

多级压缩策略

python 复制代码

from langchain.retrievers.document_compressors import (
    EmbeddingsFilter,
    DocumentCompressorPipeline
)

# 嵌入相似度过滤器
embeddings_filter = EmbeddingsFilter(
    embeddings=OpenAIEmbeddings(),
    similarity_threshold=0.76
)

# 组合压缩器
pipeline_compressor = DocumentCompressorPipeline(
    transformers=[embeddings_filter, compressor]
)

compression_retriever_pipeline = ContextualCompressionRetriever(
    base_compressor=pipeline_compressor,
    base_retriever=vectorstore.as_retriever()
)

用户体验优化策略

4.1 渐进式响应

分段流式输出

python 复制代码

import time
from langchain.callbacks.base import BaseCallbackHandler

class ProgressiveStreamHandler(BaseCallbackHandler):
    def __init__(self):
        self.current_response = ""
        self.chunk_count = 0
        self.paragraph_break = False
    
    def on_llm_new_token(self, token: str, **kwargs) -> None:
        self.current_response += token
        self.chunk_count += 1
        
        # 检测段落结束
        if token in ['\n\n', '。\n', '！\n', '？\n']:
            self.paragraph_break = True
        
        # 每10个token输出一次进度
        if self.chunk_count % 10 == 0:
            print(f"\n[📈 生成进度: {self.chunk_count} tokens]")
        
        print(token, end="", flush=True)
        
        # 段落间增加停顿
        if self.paragraph_break:
            time.sleep(0.1)
            self.paragraph_break = False
        else:
            time.sleep(0.05)  # 模拟打字效果

# 使用渐进式处理器
chat_with_progress = ChatOpenAI(
    streaming=True,
    callbacks=[ProgressiveStreamHandler()],
    temperature=0.7
)

4.2 智能预加载

预测性缓存

python 复制代码

from langchain.schema import HumanMessage
import threading
from typing import Dict, List

class PredictiveCache:
    def __init__(self, chat_model):
        self.chat = chat_model
        self.cache: Dict[str, str] = {}
        self.common_patterns = [
            "你好",
            "你能帮我做什么？",
            "请介绍一下",
            "如何优化",
            "什么是",
            "解释一下"
        ]
        
    def preload_common_responses(self):
        """预加载常见问题的响应"""
        common_questions = [
            "你好，很高兴见到你",
            "你能帮我做什么？",
            "请介绍一下LangChain",
            "如何优化AI模型性能？",
            "什么是RAG技术？",
            "解释一下向量数据库"
        ]
        
        for question in common_questions:
            threading.Thread(
                target=self._cache_response,
                args=(question,),
                daemon=True
            ).start()
    
    def _cache_response(self, question: str):
        """异步缓存响应"""
        try:
            response = self.chat([HumanMessage(content=question)])
            self.cache[question] = response.content
            print(f"✅ 已缓存: {question[:20]}...")
        except Exception as e:
            print(f"❌ 缓存失败: {question[:20]}... - {e}")
    
    def predict_next_questions(self, current_question: str) -> List[str]:
        """基于当前问题预测可能的后续问题"""
        predictions = []
        
        if "LangChain" in current_question:
            predictions.extend([
                "LangChain有哪些核心组件？",
                "如何安装LangChain？",
                "LangChain的应用场景有哪些？"
            ])
        
        if "优化" in current_question:
            predictions.extend([
                "还有其他优化方法吗？",
                "优化效果如何评估？",
                "优化过程中有什么注意事项？"
            ])
        
        return predictions

# 初始化预测性缓存
predictive_cache = PredictiveCache(chat)
predictive_cache.preload_common_responses()

4.3 用户反馈集成

python 复制代码

class InteractiveStreamHandler(BaseCallbackHandler):
    def __init__(self):
        self.response_buffer = ""
        self.user_satisfaction = None
        
    def on_llm_new_token(self, token: str, **kwargs):
        self.response_buffer += token
        print(token, end="", flush=True)
        
        # 每50个字符检查一次用户反馈
        if len(self.response_buffer) % 50 == 0:
            self._check_user_feedback()
    
    def _check_user_feedback(self):
        """检查用户是否想要中断或调整响应"""
        # 这里可以集成实时用户反馈机制
        # 例如检测用户输入的中断信号
        pass
    
    def on_llm_end(self, response, **kwargs):
        print("\n" + "="*50)
        print("💬 回答完毕！请问这个回答对您有帮助吗？")
        print("👍 满意 | 👎 不满意 | 🔄 需要重新生成")

完整实现示例

5.1 优化的聊天机器人类

python 复制代码

from langchain.chat_models import ChatOpenAI
from langchain.memory import ConversationSummaryBufferMemory
from langchain.chains import ConversationChain
from langchain.cache import RedisSemanticCache
from langchain.embeddings import OpenAIEmbeddings
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.schema import HumanMessage
import asyncio
import time
from typing import Dict, List, Optional

class OptimizedChatBot:
    """
    优化的聊天机器人，集成上下文缓存和流式响应
    """
    
    def __init__(self, 
                 model_name: str = "gpt-4",
                 temperature: float = 0.7,
                 max_memory_tokens: int = 1500,
                 cache_threshold: float = 0.2):
        
        # 初始化日志
        import logging
        logging.basicConfig(level=logging.INFO)
        self.logger = logging.getLogger(__name__)
        
        # 配置语义缓存
        self._setup_cache(cache_threshold)
        
        # 配置流式处理
        self.streaming_handler = StreamingStdOutCallbackHandler()
        self.custom_handler = ProgressiveStreamHandler()
        
        # 初始化聊天模型
        self.chat = ChatOpenAI(
            streaming=True,
            callbacks=[self.streaming_handler, self.custom_handler],
            temperature=temperature,
            model=model_name  # 注意：应该是model而不是model_name
        )
        
        # 配置智能记忆
        self.memory = ConversationSummaryBufferMemory(
            llm=self.chat,
            max_token_limit=max_memory_tokens,
            return_messages=True
        )
        
        # 构建对话链
        self.conversation = ConversationChain(
            llm=self.chat,
            memory=self.memory,
            verbose=False
        )
        
        # 初始化性能监控
        self.performance_stats = {
            'total_requests': 0,
            'cache_hits': 0,
            'average_response_time': 0,
            'total_tokens': 0
        }
        
        # 启动预测性缓存
        self.predictive_cache = PredictiveCache(self.chat)
        self.predictive_cache.preload_common_responses()
    
    def _setup_cache(self, threshold: float):
        """设置语义缓存"""
        try:
            from langchain.embeddings import OpenAIEmbeddings
            from langchain.cache import RedisSemanticCache, InMemoryCache
            from langchain.globals import set_llm_cache
            
            embeddings = OpenAIEmbeddings()
            set_llm_cache(RedisSemanticCache(
                redis_url="redis://localhost:6379",
                embedding=embeddings,
                score_threshold=threshold
            ))
            self.logger.info("✅ 语义缓存已启用")
        except Exception as e:
            self.logger.warning(f"⚠️ 缓存设置失败，使用内存缓存: {e}")
            set_llm_cache(InMemoryCache())
    
    async def chat_stream(self, message: str) -> str:
        """异步流式对话"""
        start_time = time.time()
        self.performance_stats['total_requests'] += 1
        
        print(f"👤 用户: {message}")
        print("🤖 AI: ", end="", flush=True)
        
        # 检查预测性缓存
        if message in self.predictive_cache.cache:
            cached_response = self.predictive_cache.cache[message]
            print(cached_response)
            print("\n💨 [来自缓存]")
            self.performance_stats['cache_hits'] += 1
            return cached_response
        
        # 流式生成响应
        response = ""
        async for chunk in self.chat.astream([HumanMessage(content=message)]):
            response += chunk.content
            self.performance_stats['total_tokens'] += 1
        
        # 更新性能统计
        response_time = time.time() - start_time
        self._update_performance_stats(response_time)
        
        # 预测并缓存可能的后续问题
        next_questions = self.predictive_cache.predict_next_questions(message)
        for question in next_questions[:2]:  # 限制预加载数量
            import threading
            threading.Thread(
                target=self.predictive_cache._cache_response,
                args=(question,),
                daemon=True
            ).start()
        
        print("\n" + "="*50)
        return response
    
    def chat_with_memory(self, message: str) -> str:
        """带记忆的对话"""
        start_time = time.time()
        response = self.conversation.predict(input=message)
        response_time = time.time() - start_time
        self._update_performance_stats(response_time)
        return response
    
    def _update_performance_stats(self, response_time: float):
        """更新性能统计"""
        total_requests = self.performance_stats['total_requests']
        current_avg = self.performance_stats['average_response_time']
        
        # 计算新的平均响应时间
        new_avg = (current_avg * (total_requests - 1) + response_time) / total_requests
        self.performance_stats['average_response_time'] = new_avg
    
    def get_performance_report(self) -> Dict:
        """获取性能报告"""
        stats = self.performance_stats.copy()
        if stats['total_requests'] > 0:
            stats['cache_hit_rate'] = stats['cache_hits'] / stats['total_requests'] * 100
        else:
            stats['cache_hit_rate'] = 0
        
        return stats
    
    def clear_memory(self):
        """清空对话记忆"""
        self.memory.clear()
        print("🧹 对话记忆已清空")
    
    def save_conversation(self, filename: str):
        """保存对话历史"""
        history = self.memory.chat_memory.messages
        with open(filename, 'w', encoding='utf-8') as f:
            for msg in history:
                f.write(f"{msg.__class__.__name__}: {msg.content}\n")
        print(f"💾 对话已保存至 {filename}")

# 使用示例
async def main():
    # 初始化优化的聊天机器人
    bot = OptimizedChatBot(
        model_name="gpt-4",
        temperature=0.7,
        max_memory_tokens=2000,
        cache_threshold=0.2
    )
    
    # 测试对话
    conversations = [
        "你好，请介绍一下LangChain框架",
        "LangChain有哪些核心组件？",
        "如何使用LangChain实现RAG？",
        "流式响应有什么优势？",
        "如何优化LangChain的性能？"
    ]
    
    for message in conversations:
        await bot.chat_stream(message)
        await asyncio.sleep(1)  # 间隔
    
    # 显示性能报告
    print("\n📊 性能报告:")
    report = bot.get_performance_report()
    for key, value in report.items():
        if isinstance(value, float):
            print(f"  {key}: {value:.2f}")
        else:
            print(f"  {key}: {value}")

if __name__ == "__main__":
    asyncio.run(main())

5.2 Web应用集成示例

python 复制代码

from flask import Flask, request, jsonify, Response
import json

app = Flask(__name__)
bot = OptimizedChatBot()

@app.route('/chat', methods=['POST'])
def chat():
    """标准聊天接口"""
    data = request.json
    message = data.get('message', '')
    
    response = bot.chat_with_memory(message)
    
    return jsonify({
        'response': response,
        'performance': bot.get_performance_report()
    })

@app.route('/chat/stream', methods=['POST'])
def chat_stream():
    """流式聊天接口"""
    data = request.json
    message = data.get('message', '')
    
    def generate():
        # 这里需要适配异步流式响应到同步生成器
        # 实际实现中可能需要使用WebSocket
        async def async_generate():
            async for chunk in bot.chat.astream([HumanMessage(content=message)]):
                yield f"data: {json.dumps({'chunk': chunk.content})}\n\n"
        
        # 简化版本，实际应用中建议使用WebSocket
        response = bot.chat_with_memory(message)
        for char in response:
            yield f"data: {json.dumps({'chunk': char})}\n\n"
            time.sleep(0.01)
    
    return Response(generate(), mimetype='text/plain')

@app.route('/performance', methods=['GET'])
def get_performance():
    """获取性能统计"""
    return jsonify(bot.get_performance_report())

if __name__ == '__main__':
    app.run(debug=True, threaded=True)

性能监控与调优

6.1 响应时间监控

python 复制代码

import time
import logging
from langchain.callbacks.base import BaseCallbackHandler
from typing import Dict, List

class PerformanceMonitor(BaseCallbackHandler):
    """性能监控回调处理器"""
    
    def __init__(self):
        self.start_time = None
        self.end_time = None
        self.token_count = 0
        self.request_id = None
        self.performance_log = []
        
        # 设置日志
        logging.basicConfig(level=logging.INFO)
        self.logger = logging.getLogger(__name__)
    
    def on_llm_start(self, serialized, prompts, **kwargs):
        self.start_time = time.time()
        self.request_id = f"req_{int(self.start_time)}"
        self.token_count = 0
        
        self.logger.info(f"🚀 [{self.request_id}] 开始处理请求: {time.strftime('%H:%M:%S')}")
    
    def on_llm_end(self, response, **kwargs):
        self.end_time = time.time()
        duration = self.end_time - self.start_time
        
        # 计算性能指标
        tokens_per_second = self.token_count / duration if duration > 0 else 0
        avg_time_per_token = duration / self.token_count if self.token_count > 0 else 0
        
        # 记录性能数据
        performance_data = {
            'request_id': self.request_id,
            'duration': duration,
            'token_count': self.token_count,
            'tokens_per_second': tokens_per_second,
            'avg_time_per_token': avg_time_per_token,
            'timestamp': time.time()
        }
        
        self.performance_log.append(performance_data)
        
        # 输出性能报告
        self.logger.info(f"✅ [{self.request_id}] 响应完成:")
        self.logger.info(f"  ⏱️  总用时: {duration:.2f}秒")
        self.logger.info(f"  🔤 Token数: {self.token_count}")
        self.logger.info(f"  🚀 生成速度: {tokens_per_second:.1f} tokens/秒")
        self.logger.info(f"  ⚡ 平均延迟: {avg_time_per_token*1000:.1f}ms/token")
        
        # 性能警告
        if duration > 10:
            self.logger.warning(f"⚠️  响应时间过长: {duration:.2f}秒")
        if tokens_per_second < 10:
            self.logger.warning(f"⚠️  生成速度较慢: {tokens_per_second:.1f} tokens/秒")
    
    def on_llm_new_token(self, token: str, **kwargs):
        self.token_count += 1
        
        # 实时性能监控
        if self.token_count % 50 == 0:
            current_time = time.time()
            elapsed = current_time - self.start_time
            current_speed = self.token_count / elapsed
            self.logger.debug(f"📊 [{self.request_id}] 实时速度: {current_speed:.1f} tokens/秒")
    
    def get_performance_summary(self) -> Dict:
        """获取性能摘要"""
        if not self.performance_log:
            return {}
        
        durations = [log['duration'] for log in self.performance_log]
        speeds = [log['tokens_per_second'] for log in self.performance_log]
        
        return {
            'total_requests': len(self.performance_log),
            'avg_duration': sum(durations) / len(durations),
            'max_duration': max(durations),
            'min_duration': min(durations),
            'avg_speed': sum(speeds) / len(speeds),
            'max_speed': max(speeds),
            'min_speed': min(speeds)
        }

6.2 内存使用监控

python 复制代码

import psutil
import gc
from typing import Dict

class MemoryMonitor:
    """内存使用监控器"""
    
    def __init__(self):
        self.initial_memory = psutil.Process().memory_info().rss / 1024 / 1024  # MB
        self.peak_memory = self.initial_memory
        self.memory_log = []
    
    def check_memory(self, tag: str = ""):
        """检查当前内存使用"""
        current_memory = psutil.Process().memory_info().rss / 1024 / 1024  # MB
        memory_delta = current_memory - self.initial_memory
        
        if current_memory > self.peak_memory:
            self.peak_memory = current_memory
        
        self.memory_log.append({
            'tag': tag,
            'memory_mb': current_memory,
            'delta_mb': memory_delta,
            'timestamp': time.time()
        })
        
        print(f"🧠 [{tag}] 内存使用: {current_memory:.1f}MB (增量: +{memory_delta:.1f}MB)")
        
        # 内存警告
        if memory_delta > 500:  # 增量超过500MB
            print(f"⚠️  内存使用量较大，建议检查")
            self._suggest_memory_optimization()
    
    def _suggest_memory_optimization(self):
        """内存优化建议"""
        print("💡 内存优化建议:")
        print("  - 清理不必要的缓存")
        print("  - 减少对话历史保存长度")
        print("  - 考虑使用更小的模型")
        print("  - 定期执行垃圾回收")
    
    def force_gc(self):
        """强制垃圾回收"""
        before_memory = psutil.Process().memory_info().rss / 1024 / 1024
        gc.collect()
        after_memory = psutil.Process().memory_info().rss / 1024 / 1024
        freed = before_memory - after_memory
        print(f"🗑️  垃圾回收完成，释放内存: {freed:.1f}MB")
    
    def get_memory_report(self) -> Dict:
        """获取内存使用报告"""
        current_memory = psutil.Process().memory_info().rss / 1024 / 1024
        return {
            'current_memory_mb': current_memory,
            'initial_memory_mb': self.initial_memory,
            'peak_memory_mb': self.peak_memory,
            'total_increase_mb': current_memory - self.initial_memory,
            'peak_increase_mb': self.peak_memory - self.initial_memory
        }

6.3 综合性能分析器

python 复制代码

class ComprehensiveProfiler:
    """综合性能分析器"""
    
    def __init__(self):
        self.performance_monitor = PerformanceMonitor()
        self.memory_monitor = MemoryMonitor()
        self.start_time = time.time()
        
    def create_optimized_chat(self, **kwargs) -> ChatOpenAI:
        """创建带性能监控的聊天模型"""
        return ChatOpenAI(
            streaming=True,
            callbacks=[self.performance_monitor],
            **kwargs
        )
    
    def profile_conversation(self, messages: List[str]) -> Dict:
        """分析对话性能"""
        chat = self.create_optimized_chat()
        
        self.memory_monitor.check_memory("开始对话")
        
        for i, message in enumerate(messages):
            print(f"\n🔄 处理消息 {i+1}/{len(messages)}")
            response = chat([HumanMessage(content=message)])
            self.memory_monitor.check_memory(f"消息{i+1}完成")
            
            # 每5条消息检查一次垃圾回收
            if (i + 1) % 5 == 0:
                self.memory_monitor.force_gc()
        
        # 生成综合报告
        return self._generate_comprehensive_report()
    
    def _generate_comprehensive_report(self) -> Dict:
        """生成综合性能报告"""
        performance_summary = self.performance_monitor.get_performance_summary()
        memory_report = self.memory_monitor.get_memory_report()
        session_duration = time.time() - self.start_time
        
        report = {
            'session_duration_seconds': session_duration,
            'performance': performance_summary,
            'memory': memory_report,
            'recommendations': self._generate_recommendations(performance_summary, memory_report)
        }
        
        return report
    
    def _generate_recommendations(self, perf_data: Dict, memory_data: Dict) -> List[str]:
        """生成优化建议"""
        recommendations = []
        
        # 性能优化建议
        if perf_data.get('avg_duration', 0) > 5:
            recommendations.append("考虑启用缓存机制减少响应时间")
        
        if perf_data.get('avg_speed', 0) < 15:
            recommendations.append("考虑使用更快的模型或优化prompt")
        
        # 内存优化建议
        if memory_data.get('peak_increase_mb', 0) > 300:
            recommendations.append("考虑减少内存使用，优化缓存策略")
        
        if memory_data.get('total_increase_mb', 0) > 200:
            recommendations.append("定期清理缓存和执行垃圾回收")
        
        return recommendations
    
    def save_report(self, filename: str = None):
        """保存性能报告"""
        if filename is None:
            filename = f"performance_report_{int(time.time())}.json"
        
        report = self._generate_comprehensive_report()
        
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(report, f, indent=2, ensure_ascii=False)
        
        print(f"📄 性能报告已保存至: {filename}")
        return filename

# 使用示例
def run_performance_analysis():
    """运行性能分析"""
    profiler = ComprehensiveProfiler()
    
    test_messages = [
        "介绍一下LangChain框架",
        "LangChain有哪些核心组件？",
        "如何实现流式响应？",
        "缓存机制如何工作？",
        "如何优化内存使用？"
    ]
    
    # 执行性能分析
    report = profiler.profile_conversation(test_messages)
    
    # 打印报告
    print("\n" + "="*60)
    print("📊 综合性能分析报告")
    print("="*60)
    
    print(f"会话总时长: {report['session_duration_seconds']:.2f} 秒")
    print(f"平均响应时间: {report['performance'].get('avg_duration', 0):.2f} 秒")
    print(f"平均生成速度: {report['performance'].get('avg_speed', 0):.1f} tokens/秒")
    print(f"内存使用峰值: {report['memory']['peak_memory_mb']:.1f} MB")
    print(f"内存增长: {report['memory']['total_increase_mb']:.1f} MB")
    
    print("\n💡 优化建议:")
    for i, rec in enumerate(report['recommendations'], 1):
        print(f"  {i}. {rec}")
    
    # 保存报告
    profiler.save_report()

if __name__ == "__main__":
    run_performance_analysis()

总结

通过LangChain的上下文缓存和流式响应功能，我们可以显著提升复杂对话场景中的性能和用户体验：

主要优化成果

响应速度提升
- 语义缓存减少重复计算，平均响应时间降低30-50%
- 预测性缓存提前准备常见问题答案
- 智能上下文压缩减少处理时间
用户体验改善
- 流式响应提供实时反馈，减少等待焦虑
- 渐进式输出模拟自然对话节奏
- 智能记忆管理保持对话连续性
资源优化
- 多层缓存策略减少API调用成本
- 内存监控防止资源过度消耗
- 异步处理提高并发能力
可扩展性增强
- 分布式缓存支持集群部署
- 模块化设计便于功能扩展
- 性能监控提供优化依据

最佳实践建议

缓存策略选择
- 开发测试：InMemoryCache
- 生产环境：RedisCache + SemanticCache
- 大规模应用：分布式缓存集群
流式响应配置
- 启用streaming=True
- 配置适当的回调处理器
- 实现异步处理提高并发
记忆管理
- 根据应用场景选择合适的记忆类型
- 设置合理的token限制
- 定期清理过期记忆
性能监控
- 部署comprehensive profiler
- 设置性能阈值告警
- 定期分析和优化

通过这些优化策略的综合应用，可以构建出高性能、用户体验优秀的AI对话系统，有效应对复杂对话场景中的各种挑战。

第3讲、LangChain性能优化：上下文缓存与流式响应实战指南

目录

概述

主要优化目标

系统架构与数据流

整体架构图

核心数据流逻辑图

完整请求处理时序图

架构优势总结

上下文缓存优化

1.1 缓存机制的实现

内存缓存实现

持久化缓存实现

Redis分布式缓存

1.2 智能缓存策略

语义缓存

上下文感知缓存

1.3 缓存策略对比

1.4 缓存资源优化与平衡策略

1.4.1 动态缓存管理

1.4.2 分层缓存架构

1.4.3 智能缓存预测与预加载

1.4.4 缓存压缩与优化

1.5 缓存优化最佳实践总结

流式响应优化

2.1 实时流式输出

基础流式响应

异步流式处理

2.2 复杂链式流式处理

RAG流式问答

2.3 自定义流式回调处理器

复杂对话场景性能优化

3.1 多轮对话记忆管理

分层记忆系统

实体记忆系统

记忆策略选择指南

3.2 智能上下文压缩

动态上下文选择

多级压缩策略

用户体验优化策略

4.1 渐进式响应

分段流式输出

4.2 智能预加载

预测性缓存

4.3 用户反馈集成

完整实现示例

5.1 优化的聊天机器人类

5.2 Web应用集成示例

性能监控与调优

6.1 响应时间监控

6.2 内存使用监控

6.3 综合性能分析器

总结

主要优化成果

最佳实践建议