Advanced RAG实战：评估闭环与持续优化体系

本文是《Advanced RAG进阶指南》系列的第四篇，也是总结篇。将深入探讨如何建立完整的RAG系统评估闭环，通过量化指标和业务验证，确保系统优化有据可依、持续改进。

引言：从"感觉不错"到"数据说话"的质变

在之前的文章中，我们系统介绍了检索前优化、检索优化和检索后优化的各种先进技术。但一个关键问题始终悬而未决：我们如何知道这些优化真的有效？

想象一下这个场景：

团队花费数周实现了复杂的混合检索和RAG-Fusion
开发人员感觉系统"明显变好了"
产品经理却问："具体好了多少？在哪些方面？有什么数据支撑？"
业务方关心："这种优化能带来多少业务价值？"

评估闭环 就是要解决这个"效果量化"的问题：建立科学的评估体系，让每一次优化都有数据支撑，让系统改进有明确方向。

评估闭环的核心价值

在深入技术细节前，我们先通过一个对比表格了解评估闭环的核心价值：

评估阶段	传统开发的困境	评估闭环解决方案	业务价值
技术选型	凭经验选择，缺乏数据支撑	量化对比不同技术方案	决策科学性↑300%
参数调优	手动试错，效率低下	自动化评估与参数搜索	调优效率↑250%
版本发布	无法预知改动影响	预发布评估与回归测试	发布风险↓80%
业务验证	技术指标与业务价值脱节	业务指标与技术指标关联	业务对齐度↑200%

一、RAGAS评估框架：RAG系统的"体检中心"

核心原理

RAGAS（RAG Assessment）是一个专门为RAG系统设计的评估框架，它基于一个深刻洞察：RAG系统的质量需要从多个维度综合评估，而不能只看最终答案的对错。

四大核心指标解析

1. Context Precision（上下文精度）

定义：检索到的上下文中，真正相关文档的比例和排序质量。

计算原理：

python 复制代码

# ragas_context_precision.py 核心算法
def _calculate_average_precision(verdict_list) -> float:
    """计算平均精度 - RAGAS上下文精度核心算法"""
    denominator = sum(verdict_list) + 1e-10
    numerator = sum([
        (sum(verdict_list[: i + 1]) / (i + 1)) * verdict_list[i]
        for i in range(len(verdict_list))
    ])
    return numerator / denominator

# 示例：文档相关性序列 [1, 0, 1, 1, 0]
# 1表示相关，0表示不相关
# 计算结果 ≈ 0.8056

业务意义：

高上下文精度：系统能找到真正相关的资料
低上下文精度：检索结果噪声大，影响答案质量

2. Context Recall（上下文召回率）

定义：系统能够检索到的相关文档占所有相关文档的比例。

计算原理：

ini 复制代码

Context Recall = 检索到的相关文档数 / 总相关文档数

业务意义：

高召回率：系统不容易遗漏重要信息
低召回率：可能存在信息缺失风险

3. Faithfulness（忠实度）

定义：生成答案与检索上下文的一致性程度。

计算原理：基于LLM判断答案中的陈述是否都能在上下文中找到支持。

业务意义：

高忠实度：答案可靠，有据可查
低忠实度：可能存在幻觉或编造内容

4. Answer Relevancy（答案相关性）

定义：生成答案与原始问题的匹配程度。

计算原理：基于LLM判断答案是否直接、完整地回答了问题。

业务意义：

高相关性：答案切题、有用
低相关性：答案可能跑题或信息不足

完整评估流水线

python 复制代码

# 医疗评估.py 核心架构
class RAGASEvaluator:
    def __init__(self, llm, embeddings):
        self.llm = LangchainLLMWrapper(llm)
        self.embeddings = LangchainEmbeddingsWrapper(embeddings)
    
    def prepare_dataset(self, questions, answers, contexts, ground_truths):
        """准备RAGAS评估数据集"""
        return Dataset.from_dict({
            "question": questions,
            "answer": answers, 
            "contexts": contexts,
            "ground_truth": ground_truths
        })
    
    def evaluate_rag_system(self, dataset):
        """执行完整的RAGAS评估"""
        result = evaluate(
            dataset=dataset,
            llm=self.llm,
            embeddings=self.embeddings,
            metrics=[
                context_precision,
                context_recall, 
                faithfulness,
                answer_relevancy,
            ],
            raise_exceptions=False
        )
        return result
    
    def generate_report(self, result, output_path='ragas_evaluation.csv'):
        """生成评估报告"""
        df = result.to_pandas()
        df.to_csv(output_path, index=True)
        return df

实际评估案例

医药领域评估示例：

python 复制代码

# 初始化评估器
evaluator = RAGASEvaluator(llm, embeddings)

# 准备测试数据
test_data = {
    "questions": [
        "坤泰胶囊的性状",
        "如何鉴别三七三醇皂替", 
        "板蓝根茶能干什么？"
    ],
    "answers": [
        "坤泰胶囊的性状为：硬胶囊，内容物为黄褐色或棕褐色的粉末；味苦。",
        "要鉴别三七三醇皂替，可以通过色谱分析...",
        "板蓝根茶的主要功效包括清热解毒、凉血利咽..."
    ],
    "contexts": [
        ["【性状】 本品为硬胶囊，内容物为黄褐色或棕褐色的粉末;味苦。"],
        ["【鉴别】取本品，照〔含量测定〕项下的方法试验..."],
        ["板蓝根茶:【功能与主治】清热解毒，凉血利咽..."]
    ],
    "ground_truths": [
        "坤泰胶囊的性状是外表为硬胶囊，内容物为黄褐色或棕褐色的粉末,味苦。",
        "要鉴别三七三醇皂替，可以按照以下步骤进行...", 
        "板蓝根茶能清热解毒，凉血利咽。用于肺胃热盛所致的咽喉肿痛..."
    ]
}

# 执行评估
dataset = evaluator.prepare_dataset(**test_data)
results = evaluator.evaluate_rag_system(dataset)
report = evaluator.generate_report(results)

print("评估结果摘要:")
print(f"平均上下文精度: {results['context_precision']:.4f}")
print(f"平均上下文召回率: {results['context_recall']:.4f}") 
print(f"平均忠实度: {results['faithfulness']:.4f}")
print(f"平均答案相关性: {results['answer_relevancy']:.4f}")

二、F1分数：综合评估的"平衡艺术"

核心原理

F1分数基于一个重要洞察：在信息检索中，精度和召回率往往需要权衡，单一指标无法全面反映系统性能。

数学原理

python 复制代码

# f1_score.py 核心计算
def calculate_f1_score(precision, recall):
    """计算F1分数 - 精度与召回率的调和平均"""
    if precision + recall == 0:
        return 0
    return (2 * precision * recall) / (precision + recall)

# 实际应用示例
precision = 0.6667  # 上下文精度
recall = 0.4511     # 上下文召回率
f1 = calculate_f1_score(precision, recall)
print(f"F1分数: {f1:.4f}")  # 输出: 0.5381

F1分数的业务意义

高F1分数场景：

系统既能找到相关文档，又不引入太多噪声
答案既全面又精准

低F1分数场景分析：

高精度低召回：过于保守，可能遗漏信息
低精度高召回：过于宽松，噪声干扰严重

在RAG评估中的应用

python 复制代码

class F1ScoreAnalyzer:
    def __init__(self):
        self.history = []
    
    def analyze_rag_performance(self, evaluate_result):
        """分析RAG系统性能"""
        context_precisions = evaluate_result["context_precision"]
        context_recalls = evaluate_result["context_recall"]
        
        # 计算平均指标
        avg_precision = sum(context_precisions) / len(context_precisions)
        avg_recall = sum(context_recalls) / len(context_recalls)
        f1_score = self.calculate_f1_score(avg_precision, avg_recall)
        
        analysis = {
            'avg_precision': avg_precision,
            'avg_recall': avg_recall, 
            'f1_score': f1_score,
            'performance_type': self.classify_performance(avg_precision, avg_recall)
        }
        
        self.history.append(analysis)
        return analysis
    
    def classify_performance(self, precision, recall):
        """分类系统性能类型"""
        if precision > 0.8 and recall > 0.8:
            return "优秀"
        elif precision > 0.6 and recall > 0.6:
            return "良好" 
        elif precision < 0.4 or recall < 0.4:
            return "需要优化"
        else:
            return "一般"
    
    def track_improvement(self, baseline, current):
        """跟踪改进效果"""
        improvement = {
            'precision_improvement': current['avg_precision'] - baseline['avg_precision'],
            'recall_improvement': current['avg_recall'] - baseline['avg_recall'],
            'f1_improvement': current['f1_score'] - baseline['f1_score']
        }
        return improvement

三、Chunk Size优化：找到文档切分的"甜蜜点"

问题背景

文档切分是RAG系统的基础，chunk size的选择直接影响：

检索精度：太小可能丢失上下文，太大可能引入噪声
召回率：影响相关文档的匹配能力
生成质量：影响LLM理解文档内容

系统性评估方法

python 复制代码

# chunk_size_eval.py 核心逻辑
class ChunkSizeOptimizer:
    def __init__(self, documents, embeddings, llm):
        self.documents = documents
        self.embeddings = embeddings
        self.llm = llm
        self.results = {}
    
    def evaluate_chunk_sizes(self, chunk_sizes, questions, ground_truths):
        """评估不同chunk size的性能"""
        for chunk_size in chunk_sizes:
            print(f"评估 chunk_size: {chunk_size}")
            
            # 1. 文档切分
            text_splitter = RecursiveCharacterTextSplitter(
                chunk_size=chunk_size,
                chunk_overlap=int(chunk_size * 0.20),
            )
            split_docs = text_splitter.split_documents(self.documents)
            
            # 2. 创建向量库
            vectorstore = FAISS.from_documents(split_docs, self.embeddings)
            retriever = vectorstore.as_retriever(search_kwargs={"k": 10})
            
            # 3. 执行评估
            evaluator = QAEvaluator(retriever)
            answers, contexts = evaluator.generate_answers(questions)
            evaluate_result = evaluator.evaluate(questions, answers, contexts, ground_truths)
            
            # 4. 计算F1分数
            f1_score = self.calculate_f1_score(evaluate_result)
            
            self.results[chunk_size] = {
                'evaluate_result': evaluate_result,
                'f1_score': f1_score,
                'num_chunks': len(split_docs)
            }
        
        return self.results
    
    def find_optimal_chunk_size(self):
        """找到最优chunk size"""
        best_size = None
        best_f1 = 0
        
        for size, result in self.results.items():
            if result['f1_score'] > best_f1:
                best_f1 = result['f1_score']
                best_size = size
        
        return best_size, best_f1
    
    def generate_optimization_report(self):
        """生成优化报告"""
        report = {
            'tested_sizes': list(self.results.keys()),
            'performance_data': [],
            'recommendation': None
        }
        
        for size, result in self.results.items():
            report['performance_data'].append({
                'chunk_size': size,
                'f1_score': result['f1_score'],
                'num_chunks': result['num_chunks'],
                'context_precision': result['evaluate_result']['context_precision'],
                'context_recall': result['evaluate_result']['context_recall']
            })
        
        # 基于数据给出建议
        best_size, best_f1 = self.find_optimal_chunk_size()
        report['recommendation'] = {
            'optimal_chunk_size': best_size,
            'expected_f1_score': best_f1,
            'reasoning': self.explain_recommendation(best_size)
        }
        
        return report

实际优化案例

汽车手册优化实验：

python 复制代码

# 实验设置
chunk_sizes = [64, 128, 256, 512]
questions = ["如何使用安全带？", "车辆如何保养？", "座椅太热怎么办？"]
ground_truths = [...]  # 标准答案

# 执行优化
optimizer = ChunkSizeOptimizer(docs, embeddings, llm)
results = optimizer.evaluate_chunk_sizes(chunk_sizes, questions, ground_truths)
report = optimizer.generate_optimization_report()

print("=== Chunk Size 优化报告 ===")
for data in report['performance_data']:
    print(f"Size {data['chunk_size']}: F1={data['f1_score']:.4f}, "
          f"Chunks={data['num_chunks']}")

print(f"\n推荐配置: {report['recommendation']}")

实验结果分析：

Chunk Size	F1 Score	文档块数量	性能分析
64	0.8123	1,250	召回率低，块太小丢失上下文
128	0.8773	680	最优平衡
256	0.8295	350	精度下降，块太大引入噪声
512	0.7737	180	精度显著下降

高级优化策略

python 复制代码

class AdaptiveChunkOptimizer:
    """自适应chunk优化器"""
    
    def __init__(self, base_chunk_size=128):
        self.base_chunk_size = base_chunk_size
        self.document_profiles = {}
    
    def analyze_document_structure(self, document):
        """分析文档结构特征"""
        structure = {
            'avg_sentence_length': self.calculate_avg_sentence_length(document),
            'paragraph_count': len(document.page_content.split('\n\n')),
            'has_tables': self.detect_tables(document),
            'has_headings': self.detect_headings(document),
            'content_type': self.classify_content_type(document)
        }
        return structure
    
    def recommend_chunk_strategy(self, document):
        """基于文档特征推荐chunk策略"""
        structure = self.analyze_document_structure(document)
        
        if structure['has_tables']:
            # 表格文档需要保持表格完整性
            return {
                'chunk_size': 256,
                'chunk_overlap': 50,
                'strategy': 'table_aware'
            }
        elif structure['has_headings']:
            # 有标题的文档按标题切分
            return {
                'chunk_size': 512, 
                'chunk_overlap': 100,
                'strategy': 'by_heading'
            }
        elif structure['avg_sentence_length'] > 100:
            # 长句文档需要更大chunk
            return {
                'chunk_size': 200,
                'chunk_overlap': 40,
                'strategy': 'long_sentences'
            }
        else:
            # 默认策略
            return {
                'chunk_size': self.base_chunk_size,
                'chunk_overlap': int(self.base_chunk_size * 0.2),
                'strategy': 'default'
            }

四、检索策略对比评估：找到最佳技术组合

问题背景

在Advanced RAG系统中，单一的检索策略往往难以应对复杂的业务场景。我们需要系统性地比较不同检索策略的组合效果，找到最适合具体业务的最优方案。

多策略对比框架

python 复制代码

# automobile_handbook.py 核心架构
class RetrievalStrategyComparator:
    def __init__(self, documents, embeddings, llm):
        self.documents = documents
        self.embeddings = embeddings
        self.llm = llm
        self.strategy_results = {}
    
    def setup_retrieval_strategies(self, chunk_size=128):
        """设置多种检索策略"""
        strategies = {}
        
        # 1. 基础文档处理
        text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=int(chunk_size * 0.20),
        )
        split_docs = text_splitter.split_documents(self.documents)
        
        # 创建基础向量库
        vectorstore = FAISS.from_documents(split_docs, self.embeddings)
        
        # 2. 基础检索器
        strategies['vector_only'] = vectorstore.as_retriever(
            search_kwargs={"k": 10}
        )
        
        # 3. 混合检索器
        bm25_retriever = BM25Retriever.from_documents(split_docs)
        bm25_retriever.k = 10
        strategies['hybrid_bm25_vector'] = EnsembleRetriever(
            retrievers=[bm25_retriever, strategies['vector_only']],
            weights=[0.2, 0.8]
        )
        
        # 4. 上下文压缩检索器
        compressor = LLMChainExtractor.from_llm(self.llm)
        strategies['compressed_hybrid'] = ContextualCompressionRetriever(
            base_compressor=compressor,
            base_retriever=strategies['hybrid_bm25_vector']
        )
        
        return strategies
    
    def compare_strategies(self, strategies, questions, ground_truths):
        """对比不同检索策略的性能"""
        comparison_results = {}
        
        for strategy_name, retriever in strategies.items():
            print(f"评估策略: {strategy_name}")
            
            # 执行评估
            evaluator = QAEvaluator(retriever)
            answers, contexts = evaluator.generate_answers(questions)
            evaluate_result = evaluator.evaluate(questions, answers, contexts, ground_truths)
            
            # 计算综合分数
            f1_score = self.calculate_f1_score(evaluate_result)
            
            comparison_results[strategy_name] = {
                'evaluate_result': evaluate_result,
                'f1_score': f1_score,
                'answers': answers,
                'contexts': contexts
            }
        
        return comparison_results
    
    def generate_comparison_report(self, comparison_results):
        """生成策略对比报告"""
        report_data = []
        
        for strategy, results in comparison_results.items():
            eval_result = results['evaluate_result']
            report_data.append({
                'strategy': strategy,
                'f1_score': results['f1_score'],
                'context_precision': eval_result['context_precision'],
                'context_recall': eval_result['context_recall'],
                'faithfulness': eval_result['faithfulness'],
                'answer_relevancy': eval_result['answer_relevancy'],
                'avg_processing_time': self.calculate_avg_processing_time(results)
            })
        
        # 排序并推荐
        sorted_strategies = sorted(report_data, key=lambda x: x['f1_score'], reverse=True)
        
        report = {
            'comparison_data': report_data,
            'top_strategy': sorted_strategies[0],
            'recommendations': self.generate_recommendations(sorted_strategies)
        }
        
        return report
    
    def generate_recommendations(self, sorted_strategies):
        """基于性能数据生成推荐"""
        recommendations = []
        
        top_strategy = sorted_strategies[0]
        second_strategy = sorted_strategies[1]
        
        # 性能提升分析
        f1_improvement = top_strategy['f1_score'] - second_strategy['f1_score']
        
        if f1_improvement > 0.1:
            recommendations.append({
                'type': 'significant_improvement',
                'message': f"策略 '{top_strategy['strategy']}' 相比次优策略有显著提升(F1 +{f1_improvement:.3f})",
                'suggestion': '强烈推荐采用此策略'
            })
        elif f1_improvement > 0.05:
            recommendations.append({
                'type': 'moderate_improvement', 
                'message': f"策略 '{top_strategy['strategy']}' 有一定优势(F1 +{f1_improvement:.3f})",
                'suggestion': '建议采用，同时考虑计算成本'
            })
        else:
            recommendations.append({
                'type': 'marginal_improvement',
                'message': '各策略差异不大',
                'suggestion': '建议选择计算成本较低的策略'
            })
        
        # 特定指标建议
        for strategy in sorted_strategies[:2]:  # 只看前两名
            if strategy['context_precision'] < 0.7:
                recommendations.append({
                    'type': 'precision_warning',
                    'strategy': strategy['strategy'],
                    'message': f"上下文精度较低({strategy['context_precision']:.3f})",
                    'suggestion': '考虑增加检索结果过滤或重排序'
                })
            
            if strategy['context_recall'] < 0.7:
                recommendations.append({
                    'type': 'recall_warning',
                    'strategy': strategy['strategy'], 
                    'message': f"上下文召回率较低({strategy['context_recall']:.3f})",
                    'suggestion': '考虑增加检索数量或优化查询'
                })
        
        return recommendations

实际对比案例

汽车手册检索策略对比：

python 复制代码

# 初始化对比器
comparator = RetrievalStrategyComparator(docs, embeddings, llm)

# 设置对比策略
strategies = comparator.setup_retrieval_strategies(chunk_size=128)

# 执行对比评估
questions = ["如何使用安全带？", "车辆如何保养？", "座椅太热怎么办？"]
ground_truths = [...]  # 标准答案

results = comparator.compare_strategies(strategies, questions, ground_truths)
report = comparator.generate_comparison_report(results)

print("=== 检索策略对比报告 ===")
for data in report['comparison_data']:
    print(f"{data['strategy']:20} F1: {data['f1_score']:.4f} "
          f"Precision: {data['context_precision']:.3f} "
          f"Recall: {data['context_recall']:.3f}")

print(f"\n推荐策略: {report['top_strategy']['strategy']}")
print(f"预期F1分数: {report['top_strategy']['f1_score']:.4f}")

print("\n优化建议:")
for rec in report['recommendations']:
    print(f"- {rec['message']}")
    print(f"  建议: {rec['suggestion']}")

高级策略：重排序优化

python 复制代码

# automobile_handbook_rebank.py 重排序优化
class RerankingOptimizer:
    def __init__(self, base_retriever, rerank_model):
        self.base_retriever = base_retriever
        self.rerank_model = rerank_model
    
    def create_reranking_pipeline(self, top_k_before_rerank=20, top_k_after_rerank=10):
        """创建重排序流水线"""
        
        # 基础检索（返回更多结果）
        base_retriever = self.base_retriever
        base_retriever.search_kwargs["k"] = top_k_before_rerank
        
        # 重排序压缩器
        compression_retriever = ContextualCompressionRetriever(
            base_compressor=self.rerank_model,
            base_retriever=base_retriever
        )
        
        return compression_retriever
    
    def evaluate_reranking_effect(self, base_results, reranked_results, questions):
        """评估重排序效果"""
        improvement_analysis = {}
        
        for i, question in enumerate(questions):
            base_docs = base_results['contexts'][i]
            reranked_docs = reranked_results['contexts'][i]
            
            # 计算排名改进
            rank_improvement = self.calculate_rank_improvement(
                base_docs, reranked_docs, question
            )
            
            # 计算相关性提升
            relevance_improvement = self.calculate_relevance_improvement(
                base_docs, reranked_docs
            )
            
            improvement_analysis[question] = {
                'rank_improvement': rank_improvement,
                'relevance_improvement': relevance_improvement,
                'original_top3': [doc[:100] for doc in base_docs[:3]],  # 截取前100字符
                'reranked_top3': [doc[:100] for doc in reranked_docs[:3]]
            }
        
        return improvement_analysis
    
    def calculate_rank_improvement(self, original_docs, reranked_docs, question):
        """计算排名改进程度"""
        # 基于人工标注或启发式方法判断文档相关性
        # 这里使用简化的相似度计算
        original_scores = []
        reranked_scores = []
        
        for doc in original_docs:
            score = self.calculate_document_relevance(doc, question)
            original_scores.append(score)
        
        for doc in reranked_docs:
            score = self.calculate_document_relevance(doc, question)  
            reranked_scores.append(score)
        
        # 计算NDCG改进
        original_ndcg = self.calculate_ndcg(original_scores)
        reranked_ndcg = self.calculate_ndcg(reranked_scores)
        
        return reranked_ndcg - original_ndcg

重排序效果验证

python 复制代码

# 重排序优化实验
def run_reranking_experiment():
    """运行重排序优化实验"""
    
    # 基础设置
    base_retriever = setup_base_retriever()
    rerank_model = get_lc_ali_rerank(top_n=10)
    
    # 创建优化器
    optimizer = RerankingOptimizer(base_retriever, rerank_model)
    reranking_pipeline = optimizer.create_reranking_pipeline()
    
    # 对比评估
    questions = ["如何使用安全带？", "车辆如何保养？", "座椅太热怎么办？"]
    
    # 基础检索结果
    base_evaluator = QAEvaluator(base_retriever)
    base_answers, base_contexts = base_evaluator.generate_answers(questions)
    base_results = base_evaluator.evaluate(questions, base_answers, base_contexts, ground_truths)
    
    # 重排序后结果  
    reranked_evaluator = QAEvaluator(reranking_pipeline)
    reranked_answers, reranked_contexts = reranked_evaluator.generate_answers(questions)
    reranked_results = reranked_evaluator.evaluate(questions, reranked_answers, reranked_contexts, ground_truths)
    
    # 分析改进效果
    improvement = optimizer.evaluate_reranking_effect(
        {'contexts': base_contexts}, 
        {'contexts': reranked_contexts}, 
        questions
    )
    
    # 生成报告
    report = {
        'base_performance': {
            'f1_score': calculate_f1_score(base_results),
            'metrics': base_results
        },
        'reranked_performance': {
            'f1_score': calculate_f1_score(reranked_results), 
            'metrics': reranked_results
        },
        'improvement_analysis': improvement,
        'overall_improvement': calculate_f1_score(reranked_results) - calculate_f1_score(base_results)
    }
    
    return report

# 执行实验
reranking_report = run_reranking_experiment()
print("重排序优化效果:")
print(f"F1分数提升: {reranking_report['overall_improvement']:.4f}")
print(f"基础F1: {reranking_report['base_performance']['f1_score']:.4f}")
print(f"优化后F1: {reranking_report['reranked_performance']['f1_score']:.4f}")

五、业务验证与人工评估

业务指标对齐

技术指标需要与业务价值对齐，建立从技术指标到业务价值的映射关系。

python 复制代码

class BusinessAlignmentAnalyzer:
    def __init__(self, business_metrics_config):
        self.business_metrics = business_metrics_config
    
    def map_technical_to_business_metrics(self, technical_results):
        """将技术指标映射到业务指标"""
        business_impact = {}
        
        # 上下文精度 → 答案可靠性
        context_precision = technical_results['context_precision']
        business_impact['answer_reliability'] = self.calculate_reliability_score(context_precision)
        
        # 上下文召回率 → 信息完整性
        context_recall = technical_results['context_recall'] 
        business_impact['information_completeness'] = self.calculate_completeness_score(context_recall)
        
        # 忠实度 → 信任度
        faithfulness = technical_results['faithfulness']
        business_impact['user_trust'] = self.calculate_trust_score(faithfulness)
        
        # 答案相关性 → 用户体验
        answer_relevancy = technical_results['answer_relevancy']
        business_impact['user_experience'] = self.calculate_experience_score(answer_relevancy)
        
        # 综合业务价值
        business_impact['overall_business_value'] = (
            business_impact['answer_reliability'] * 0.3 +
            business_impact['information_completeness'] * 0.2 +
            business_impact['user_trust'] * 0.3 + 
            business_impact['user_experience'] * 0.2
        )
        
        return business_impact
    
    def generate_business_report(self, technical_results, cost_data):
        """生成业务价值报告"""
        business_impact = self.map_technical_to_business_metrics(technical_results)
        
        # 计算ROI
        development_cost = cost_data.get('development_cost', 0)
        maintenance_cost = cost_data.get('maintenance_cost', 0)
        expected_benefit = business_impact['overall_business_value'] * cost_data.get('value_multiplier', 10000)
        
        roi = (expected_benefit - development_cost - maintenance_cost) / (development_cost + maintenance_cost)
        
        report = {
            'technical_metrics': technical_results,
            'business_impact': business_impact,
            'cost_analysis': {
                'development_cost': development_cost,
                'maintenance_cost': maintenance_cost,
                'expected_benefit': expected_benefit,
                'roi': roi
            },
            'recommendations': self.generate_business_recommendations(business_impact, roi)
        }
        
        return report

人工评估框架

python 复制代码

class HumanEvaluationFramework:
    def __init__(self, evaluation_criteria):
        self.criteria = evaluation_criteria
        self.evaluation_data = []
    
    def prepare_evaluation_materials(self, questions, model_answers, contexts, ground_truths):
        """准备人工评估材料"""
        evaluation_packages = []
        
        for i, question in enumerate(questions):
            package = {
                'question': question,
                'model_answer': model_answers[i],
                'retrieved_contexts': contexts[i],
                'reference_answer': ground_truths[i],
                'evaluation_guidelines': self.criteria
            }
            evaluation_packages.append(package)
        
        return evaluation_packages
    
    def collect_human_feedback(self, evaluation_packages, evaluators):
        """收集人工反馈"""
        all_ratings = []
        
        for package in evaluation_packages:
            package_ratings = {}
            
            for evaluator in evaluators:
                ratings = evaluator.evaluate(package)
                package_ratings[evaluator.name] = ratings
            
            # 计算平均评分
            avg_ratings = self.calculate_average_ratings(package_ratings)
            package['human_ratings'] = avg_ratings
            all_ratings.append(avg_ratings)
        
        return all_ratings
    
    def correlate_automated_manual_scores(self, automated_scores, human_scores):
        """关联自动化评分与人工评分"""
        correlation_analysis = {}
        
        metrics = ['relevance', 'accuracy', 'completeness', 'clarity']
        
        for metric in metrics:
            auto_scores = [score[metric] for score in automated_scores]
            human_scores_list = [score[metric] for score in human_scores]
            
            correlation = self.calculate_correlation(auto_scores, human_scores_list)
            correlation_analysis[metric] = {
                'correlation_coefficient': correlation,
                'alignment_level': self.interpret_correlation(correlation)
            }
        
        return correlation_analysis
    
    def generate_validation_report(self, automated_results, human_results):
        """生成验证报告"""
        correlation = self.correlate_automated_manual_scores(
            automated_results, human_results
        )
        
        report = {
            'automated_scores': automated_results,
            'human_scores': human_results,
            'correlation_analysis': correlation,
            'validation_status': self.determine_validation_status(correlation),
            'confidence_level': self.calculate_confidence_level(correlation)
        }
        
        return report

人工评估标准

python 复制代码

# 人工评估标准配置
HUMAN_EVALUATION_CRITERIA = {
    'relevance': {
        'description': '答案与问题的相关程度',
        'scale': {
            1: '完全不相关',
            2: '稍微相关', 
            3: '基本相关',
            4: '比较相关',
            5: '高度相关'
        }
    },
    'accuracy': {
        'description': '答案的事实准确性',
        'scale': {
            1: '完全错误',
            2: '大部分错误',
            3: '部分正确',
            4: '基本正确', 
            5: '完全正确'
        }
    },
    'completeness': {
        'description': '答案的信息完整度',
        'scale': {
            1: '严重缺失关键信息',
            2: '缺失部分关键信息',
            3: '包含主要信息',
            4: '比较完整',
            5: '非常完整'
        }
    },
    'clarity': {
        'description': '答案的表达清晰度',
        'scale': {
            1: '完全无法理解',
            2: '难以理解',
            3: '基本清晰',
            4: '比较清晰',
            5: '非常清晰'
        }
    }
}

六、评估流水线与自动化

自动化评估流水线设计

python 复制代码

# evaluation_pipeline.py
import pandas as pd
from datetime import datetime
import json
import os
from typing import Dict, List, Any

class RAGEvaluationPipeline:
    def __init__(self, config_path: str):
        """初始化评估流水线"""
        with open(config_path, 'r', encoding='utf-8') as f:
            self.config = json.load(f)
        
        # 初始化模型客户端
        self.llm = get_lc_o_ali_model_client(temperature=0)
        self.embeddings = get_lc_ali_embeddings()
        self.vllm = LangchainLLMWrapper(self.llm)
        self.vllm_e = LangchainEmbeddingsWrapper(self.embeddings)
        
        self.results_history = []
        self.optimization_tracker = OptimizationTracker()
    
    def load_test_dataset(self, dataset_path: str) -> pd.DataFrame:
        """加载测试数据集 - 支持多种格式"""
        if dataset_path.endswith('.jsonl'):
            return pd.read_json(dataset_path, lines=True)
        elif dataset_path.endswith('.csv'):
            return pd.read_csv(dataset_path)
        elif dataset_path.endswith('.xlsx'):
            return pd.read_excel(dataset_path)
        else:
            raise ValueError(f"不支持的数据集格式: {dataset_path}")
    
    def run_complete_evaluation(self, retriever, test_dataset: pd.DataFrame, 
                              evaluation_name: str = "default") -> Dict[str, Any]:
        """运行完整的评估流程"""
        print(f"开始评估: {evaluation_name}")
        start_time = datetime.now()
        
        # 提取评估数据
        questions = test_dataset['question'].tolist()
        ground_truths = test_dataset['ground_truth'].tolist()
        
        # 生成答案和上下文
        qa_evaluator = QAEvaluator(retriever)
        answers, contexts = qa_evaluator.generate_answers(questions)
        
        # RAGAS评估
        evaluate_data = {
            "question": questions,
            "answer": answers,
            "contexts": contexts,
            "ground_truth": ground_truths
        }
        evaluate_dataset = Dataset.from_dict(evaluate_data)
        
        ragas_results = evaluate(
            evaluate_dataset,
            llm=self.vllm,
            embeddings=self.vllm_e,
            metrics=[
                context_precision,
                context_recall,
                faithfulness,
                answer_relevancy,
            ],
            raise_exceptions=False
        )
        
        # 计算综合指标
        f1_score = self.calculate_f1_score(ragas_results)
        processing_time = (datetime.now() - start_time).total_seconds()
        
        # 记录评估结果
        evaluation_result = {
            'evaluation_name': evaluation_name,
            'timestamp': datetime.now().isoformat(),
            'ragas_metrics': ragas_results,
            'f1_score': f1_score,
            'processing_time': processing_time,
            'answers': answers,
            'contexts': contexts,
            'config_snapshot': self.get_config_snapshot()
        }
        
        self.record_evaluation_result(evaluation_result)
        self.optimization_tracker.track_evaluation(evaluation_result)
        
        return evaluation_result
    
    def run_ab_testing(self, retriever_a, retriever_b, test_dataset: pd.DataFrame,
                      experiment_name: str = "ab_test") -> Dict[str, Any]:
        """运行A/B测试"""
        print(f"开始A/B测试: {experiment_name}")
        
        # 评估系统A
        result_a = self.run_complete_evaluation(
            retriever_a, test_dataset, f"{experiment_name}_system_a"
        )
        
        # 评估系统B
        result_b = self.run_complete_evaluation(
            retriever_b, test_dataset, f"{experiment_name}_system_b"
        )
        
        # 对比分析
        comparison = self.compare_evaluation_results(result_a, result_b)
        
        ab_test_result = {
            'experiment_name': experiment_name,
            'system_a': result_a,
            'system_b': result_b,
            'comparison': comparison,
            'winner': self.determine_winner(comparison)
        }
        
        return ab_test_result
    
    def compare_evaluation_results(self, result_a: Dict, result_b: Dict) -> Dict[str, Any]:
        """对比两个评估结果"""
        comparison = {}
        
        metrics = ['context_precision', 'context_recall', 'faithfulness', 'answer_relevancy']
        
        for metric in metrics:
            score_a = result_a['ragas_metrics'][metric]
            score_b = result_b['ragas_metrics'][metric]
            
            comparison[metric] = {
                'system_a': score_a,
                'system_b': score_b,
                'difference': score_b - score_a,
                'improvement_percentage': ((score_b - score_a) / score_a * 100) if score_a > 0 else 0
            }
        
        # F1分数对比
        f1_a = result_a['f1_score']
        f1_b = result_b['f1_score']
        comparison['f1_score'] = {
            'system_a': f1_a,
            'system_b': f1_b,
            'difference': f1_b - f1_a,
            'improvement_percentage': ((f1_b - f1_a) / f1_a * 100) if f1_a > 0 else 0
        }
        
        return comparison
    
    def determine_winner(self, comparison: Dict) -> str:
        """确定A/B测试的胜出方"""
        significant_improvements = 0
        total_metrics = len(comparison)
        
        for metric, data in comparison.items():
            if data['improvement_percentage'] > 5:  # 5%改进阈值
                significant_improvements += 1
        
        win_ratio = significant_improvements / total_metrics
        
        if win_ratio > 0.6:
            return "system_b"
        elif win_ratio < 0.4:
            return "system_a"
        else:
            return "tie"
    
    def record_evaluation_result(self, result: Dict):
        """记录评估结果到历史"""
        self.results_history.append(result)
        
        # 保持历史记录数量
        if len(self.results_history) > self.config.get('max_history_size', 100):
            self.results_history = self.results_history[-self.config['max_history_size']:]
    
    def generate_trend_report(self, time_window_days: int = 30) -> Dict[str, Any]:
        """生成趋势分析报告"""
        if len(self.results_history) < 2:
            return {"error": "历史数据不足，无法生成趋势报告"}
        
        cutoff_time = datetime.now().timestamp() - (time_window_days * 24 * 3600)
        recent_results = [
            r for r in self.results_history 
            if datetime.fromisoformat(r['timestamp']).timestamp() > cutoff_time
        ]
        
        if not recent_results:
            return {"error": "在指定时间窗口内没有评估结果"}
        
        # 提取趋势数据
        timestamps = [r['timestamp'] for r in recent_results]
        f1_scores = [r['f1_score'] for r in recent_results]
        
        trend_analysis = {
            'time_window_days': time_window_days,
            'total_evaluations': len(recent_results),
            'f1_trend': {
                'values': f1_scores,
                'timestamps': timestamps,
                'avg_f1': sum(f1_scores) / len(f1_scores),
                'max_f1': max(f1_scores),
                'min_f1': min(f1_scores),
                'improvement': f1_scores[-1] - f1_scores[0] if len(f1_scores) > 1 else 0
            },
            'stability_analysis': self.analyze_stability(recent_results),
            'performance_breakdown': self.breakdown_performance_by_metric(recent_results)
        }
        
        return trend_analysis
    
    def analyze_stability(self, results: List[Dict]) -> Dict[str, Any]:
        """分析系统稳定性"""
        f1_scores = [r['f1_score'] for r in results]
        
        if len(f1_scores) < 2:
            return {"stability": "insufficient_data"}
        
        avg_f1 = sum(f1_scores) / len(f1_scores)
        variance = sum((score - avg_f1) ** 2 for score in f1_scores) / len(f1_scores)
        std_dev = variance ** 0.5
        cv = std_dev / avg_f1 if avg_f1 > 0 else 0  # 变异系数
        
        stability_level = "high" if cv < 0.1 else "medium" if cv < 0.2 else "low"
        
        return {
            'stability_level': stability_level,
            'coefficient_of_variation': cv,
            'standard_deviation': std_dev,
            'average_f1': avg_f1
        }
    
    def run_automated_validation(self, current_results: Dict, 
                               quality_gates: Dict = None) -> Dict[str, Any]:
        """自动化验证当前结果是否达标"""
        if quality_gates is None:
            quality_gates = self.config.get('quality_gates', {})
        
        f1_score = current_results['f1_score']
        f1_threshold = quality_gates.get('min_f1_score', 0.7)
        
        validation_checks = {
            'f1_score': {
                'passed': f1_score >= f1_threshold,
                'value': f1_score,
                'threshold': f1_threshold
            }
        }
        
        # 检查各个RAGAS指标
        ragas_metrics = current_results['ragas_metrics']
        for metric, threshold in quality_gates.items():
            if metric.startswith('min_') and metric != 'min_f1_score':
                metric_name = metric[4:]  # 去掉min_前缀
                if metric_name in ragas_metrics:
                    value = ragas_metrics[metric_name]
                    validation_checks[metric_name] = {
                        'passed': value >= threshold,
                        'value': value,
                        'threshold': threshold
                    }
        
        all_passed = all(check['passed'] for check in validation_checks.values())
        
        validation_result = {
            'passed': all_passed,
            'checks': validation_checks,
            'overall_score': f1_score,
            'message': self.generate_validation_message(validation_checks, all_passed)
        }
        
        return validation_result
    
    def generate_validation_message(self, checks: Dict, all_passed: bool) -> str:
        """生成验证消息"""
        if all_passed:
            return "所有质量门禁检查通过"
        else:
            failed_checks = [name for name, check in checks.items() if not check['passed']]
            return f"质量门禁检查失败: {', '.join(failed_checks)}"
    
    def export_evaluation_report(self, results: Dict, output_dir: str = "reports"):
        """导出评估报告"""
        os.makedirs(output_dir, exist_ok=True)
        
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = f"evaluation_report_{timestamp}.json"
        filepath = os.path.join(output_dir, filename)
        
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(results, f, indent=2, ensure_ascii=False)
        
        # 同时生成CSV格式的详细结果
        if 'answers' in results:
            csv_data = []
            for i, (question, answer, context) in enumerate(zip(
                results.get('questions', []),
                results['answers'],
                results['contexts']
            )):
                csv_data.append({
                    'question_id': i,
                    'question': question,
                    'answer': answer,
                    'context': ' | '.join(context) if context else '',
                    'ground_truth': results.get('ground_truths', [])[i] if 'ground_truths' in results else ''
                })
            
            csv_df = pd.DataFrame(csv_data)
            csv_path = os.path.join(output_dir, f"detailed_results_{timestamp}.csv")
            csv_df.to_csv(csv_path, index=False, encoding='utf-8-sig')
        
        return filepath

class OptimizationTracker:
    """优化跟踪器"""
    
    def __init__(self):
        self.optimization_history = []
        self.baseline_performance = None
    
    def track_evaluation(self, evaluation_result: Dict):
        """跟踪评估结果"""
        # 如果是第一次评估，设为基线
        if self.baseline_performance is None:
            self.baseline_performance = evaluation_result
            evaluation_result['is_baseline'] = True
        else:
            evaluation_result['is_baseline'] = False
            evaluation_result['improvement_vs_baseline'] = self.calculate_improvement(
                self.baseline_performance, evaluation_result
            )
    
    def calculate_improvement(self, baseline: Dict, current: Dict) -> Dict[str, float]:
        """计算相对于基线的改进"""
        improvement = {}
        
        metrics = ['context_precision', 'context_recall', 'faithfulness', 'answer_relevancy']
        
        for metric in metrics:
            baseline_score = baseline['ragas_metrics'][metric]
            current_score = current['ragas_metrics'][metric]
            improvement[metric] = current_score - baseline_score
        
        improvement['f1_score'] = current['f1_score'] - baseline['f1_score']
        
        return improvement
    
    def get_optimization_summary(self) -> Dict[str, Any]:
        """获取优化摘要"""
        if not self.optimization_history:
            return {"status": "no_optimization_data"}
        
        improvements = [r.get('improvement_vs_baseline', {}) for r in self.optimization_history 
                       if 'improvement_vs_baseline' in r]
        
        if not improvements:
            return {"status": "no_comparison_data"}
        
        avg_improvement = {}
        for metric in improvements[0].keys():
            values = [imp[metric] for imp in improvements if metric in imp]
            avg_improvement[metric] = sum(values) / len(values) if values else 0
        
        return {
            'total_optimizations': len(improvements),
            'average_improvement': avg_improvement,
            'optimization_trend': self.analyze_optimization_trend(),
            'most_effective_optimization': self.identify_most_effective_optimization()
        }

CI/CD集成

python 复制代码

# ci_cd_integration.py
import subprocess
import sys
import requests

class CICDIntegration:
    """CI/CD集成类"""
    
    def __init__(self, evaluation_pipeline, quality_gates):
        self.pipeline = evaluation_pipeline
        self.quality_gates = quality_gates
        self.test_results = {}
    
    def run_pre_commit_checks(self, changed_files: List[str]) -> bool:
        """运行提交前检查"""
        print("运行提交前检查...")
        
        checks_passed = True
        
        # 1. 代码质量检查
        if not self.run_code_quality_checks(changed_files):
            checks_passed = False
            print("代码质量检查失败")
        
        # 2. 快速功能测试
        if not self.run_smoke_tests():
            checks_passed = False
            print("冒烟测试失败")
        
        # 3. 基础评估测试
        if not self.run_basic_evaluation():
            checks_passed = False
            print("基础评估测试失败")
        
        return checks_passed
    
    def evaluate_pull_request(self, pr_info: Dict) -> Dict[str, Any]:
        """评估拉取请求"""
        print(f"评估拉取请求 #{pr_info['number']}: {pr_info['title']}")
        
        # 1. 检查代码变更
        changeset_analysis = self.analyze_changeset(pr_info['changed_files'])
        
        # 2. 运行完整评估
        test_dataset = self.pipeline.load_test_dataset(self.quality_gates['test_dataset_path'])
        pr_retriever = self.create_retriever_for_pr(pr_info)
        
        evaluation_results = self.pipeline.run_complete_evaluation(
            pr_retriever, test_dataset, f"pr_{pr_info['number']}"
        )
        
        # 3. 质量门禁检查
        quality_check = self.pipeline.run_automated_validation(
            evaluation_results, self.quality_gates
        )
        
        # 4. 生成PR评论
        pr_comment = self.generate_pr_comment(evaluation_results, quality_check, changeset_analysis)
        
        pr_evaluation = {
            'pr_number': pr_info['number'],
            'evaluation_results': evaluation_results,
            'quality_check': quality_check,
            'pr_comment': pr_comment,
            'approved': quality_check['passed'],
            'changeset_analysis': changeset_analysis
        }
        
        self.test_results[f"pr_{pr_info['number']}"] = pr_evaluation
        
        return pr_evaluation
    
    def run_post_deployment_tests(self, deployment_info: Dict) -> Dict[str, Any]:
        """运行部署后测试"""
        print("运行部署后测试...")
        
        # 1. 健康检查
        health_check = self.health_check_deployment(deployment_info['url'])
        
        # 2. 性能测试
        performance_test = self.performance_test_deployment(deployment_info['url'])
        
        # 3. 端到端评估
        e2e_evaluation = self.run_end_to_end_evaluation(deployment_info)
        
        deployment_test_result = {
            'deployment_id': deployment_info['id'],
            'timestamp': datetime.now().isoformat(),
            'health_check': health_check,
            'performance_test': performance_test,
            'e2e_evaluation': e2e_evaluation,
            'overall_status': self.determine_deployment_status(health_check, performance_test, e2e_evaluation)
        }
        
        return deployment_test_result
    
    def generate_pr_comment(self, evaluation_results: Dict, quality_check: Dict, 
                          changeset_analysis: Dict) -> str:
        """生成PR评论"""
        comment_lines = [
            "## RAG系统评估结果",
            "",
            "### 质量门禁检查",
            f"- **总体结果**: {'✅ 通过' if quality_check['passed'] else '❌ 失败'}",
            ""
        ]
        
        # 添加详细指标
        comment_lines.append("### 详细指标")
        for check_name, check_result in quality_check['checks'].items():
            status_emoji = "✅" if check_result['passed'] else "❌"
            comment_lines.append(
                f"- {check_name}: {status_emoji} {check_result['value']:.3f} "
                f"(阈值: {check_result['threshold']})"
            )
        
        # 添加改进建议
        if not quality_check['passed']:
            comment_lines.extend([
                "",
                "### 改进建议",
                "以下指标未达到质量要求，建议优化:"
            ])
            
            failed_checks = [name for name, check in quality_check['checks'].items() 
                           if not check['passed']]
            for check_name in failed_checks:
                suggestion = self.get_optimization_suggestion(check_name)
                comment_lines.append(f"- **{check_name}**: {suggestion}")
        
        # 添加变更影响分析
        comment_lines.extend([
            "",
            "### 变更影响分析",
            f"- 受影响的文件: {len(changeset_analysis['changed_files'])}",
            f"- 主要变更类型: {', '.join(changeset_analysis['change_types'])}"
        ])
        
        return "\n".join(comment_lines)
    
    def get_optimization_suggestion(self, metric: str) -> str:
        """获取优化建议"""
        suggestions = {
            'f1_score': "考虑优化检索策略或调整chunk size",
            'context_precision': "增加检索结果过滤或优化查询重写",
            'context_recall': "增加检索数量或改进文档切分策略",
            'faithfulness': "检查答案生成过程，避免幻觉",
            'answer_relevancy': "优化提示词模板或后处理逻辑"
        }
        
        return suggestions.get(metric, "检查相关组件配置")

七、生产环境监控与告警

实时监控系统

python 复制代码

# monitoring_system.py
import time
import logging
from dataclasses import dataclass
from typing import Dict, List, Optional, Callable
from datetime import datetime, timedelta

@dataclass
class MonitoringMetrics:
    """监控指标数据类"""
    timestamp: float
    query_latency: float  # 查询延迟(秒)
    retrieval_precision: float  # 检索精度
    answer_quality: float  # 答案质量评分
    system_throughput: float  # 系统吞吐量(QPS)
    error_rate: float  # 错误率
    user_feedback: Optional[float] = None  # 用户反馈评分
    resource_usage: Optional[Dict] = None  # 资源使用情况

class AlertRule:
    """告警规则"""
    
    def __init__(self, name: str, metric: str, condition: Callable, 
                 severity: str, cooldown_period: int = 300):
        self.name = name
        self.metric = metric
        self.condition = condition
        self.severity = severity  # 'info', 'warning', 'critical'
        self.cooldown_period = cooldown_period  # 冷却期(秒)
        self.last_triggered = 0

class RAGMonitoringSystem:
    """RAG监控系统"""
    
    def __init__(self, alert_rules: List[AlertRule], storage_backend=None):
        self.metrics_history: List[MonitoringMetrics] = []
        self.alert_rules = alert_rules
        self.alert_handlers = []
        self.storage_backend = storage_backend
        
        # 设置日志
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
        )
        self.logger = logging.getLogger('RAGMonitor')
    
    def record_query_metrics(self, query: str, response: str, 
                           latency: float, contexts: List[str],
                           user_feedback: Optional[float] = None) -> MonitoringMetrics:
        """记录查询指标"""
        
        # 计算检索精度（简化版）
        retrieval_precision = self.estimate_retrieval_precision(query, contexts)
        
        # 计算答案质量（简化版）
        answer_quality = self.estimate_answer_quality(query, response)
        
        metrics = MonitoringMetrics(
            timestamp=time.time(),
            query_latency=latency,
            retrieval_precision=retrieval_precision,
            answer_quality=answer_quality,
            system_throughput=self.calculate_current_throughput(),
            error_rate=self.calculate_current_error_rate(),
            user_feedback=user_feedback,
            resource_usage=self.get_system_resource_usage()
        )
        
        self.record_metrics(metrics)
        return metrics
    
    def record_metrics(self, metrics: MonitoringMetrics):
        """记录监控指标"""
        self.metrics_history.append(metrics)
        
        # 存储到后端（如果配置了）
        if self.storage_backend:
            self.storage_backend.store_metrics(metrics)
        
        # 检查告警规则
        self.check_alert_rules(metrics)
        
        # 清理旧数据（保留最近24小时）
        cutoff_time = time.time() - 24 * 3600
        self.metrics_history = [
            m for m in self.metrics_history 
            if m.timestamp > cutoff_time
        ]
    
    def check_alert_rules(self, metrics: MonitoringMetrics):
        """检查告警规则"""
        current_time = time.time()
        
        for rule in self.alert_rules:
            # 检查冷却期
            if current_time - rule.last_triggered < rule.cooldown_period:
                continue
            
            # 评估规则条件
            metric_value = getattr(metrics, rule.metric, None)
            if metric_value is not None and rule.condition(metric_value):
                self.trigger_alert(rule, metrics, metric_value)
                rule.last_triggered = current_time
    
    def trigger_alert(self, rule: AlertRule, metrics: MonitoringMetrics, metric_value: float):
        """触发告警"""
        alert_message = (
            f"🚨 告警 [{rule.severity.upper()}] {rule.name}\n"
            f"指标: {rule.metric} = {metric_value:.3f}\n"
            f"时间: {datetime.fromtimestamp(metrics.timestamp)}\n"
            f"查询延迟: {metrics.query_latency:.2f}s\n"
            f"系统吞吐量: {metrics.system_throughput:.1f} QPS"
        )
        
        self.logger.warning(alert_message)
        
        # 调用所有注册的告警处理器
        for handler in self.alert_handlers:
            try:
                handler.handle_alert(alert_message, rule, metrics)
            except Exception as e:
                self.logger.error(f"告警处理器错误: {e}")
    
    def estimate_retrieval_precision(self, query: str, contexts: List[str]) -> float:
        """估计检索精度（简化实现）"""
        if not contexts:
            return 0.0
        
        # 基于查询与上下文相似度的简单估计
        # 在实际系统中应该使用更复杂的方法
        query_terms = set(query.lower().split())
        relevant_terms = 0
        total_terms = 0
        
        for context in contexts:
            context_terms = set(context.lower().split())
            relevant_terms += len(query_terms.intersection(context_terms))
            total_terms += len(context_terms)
        
        if total_terms == 0:
            return 0.0
        
        return min(relevant_terms / total_terms, 1.0)
    
    def estimate_answer_quality(self, query: str, answer: str) -> float:
        """估计答案质量（简化实现）"""
        # 基于答案长度的启发式估计
        # 在实际系统中应该使用更复杂的方法
        query_length = len(query)
        answer_length = len(answer)
        
        if query_length == 0:
            return 0.0
        
        length_ratio = answer_length / query_length
        
        # 理想答案长度应该在查询长度的1-10倍之间
        if 1 <= length_ratio <= 10:
            quality = 0.8
        elif length_ratio < 1:
            quality = 0.5 * length_ratio
        else:
            quality = 10 / length_ratio
        
        return min(quality, 1.0)
    
    def calculate_current_throughput(self) -> float:
        """计算当前系统吞吐量"""
        if len(self.metrics_history) < 2:
            return 0.0
        
        # 计算最近1分钟的吞吐量
        one_minute_ago = time.time() - 60
        recent_queries = [
            m for m in self.metrics_history 
            if m.timestamp > one_minute_ago
        ]
        
        if len(recent_queries) < 2:
            return 0.0
        
        time_span = recent_queries[-1].timestamp - recent_queries[0].timestamp
        if time_span == 0:
            return 0.0
        
        return len(recent_queries) / time_span
    
    def calculate_current_error_rate(self) -> float:
        """计算当前错误率"""
        if not self.metrics_history:
            return 0.0
        
        # 计算最近5分钟的错误率
        five_minutes_ago = time.time() - 300
        recent_metrics = [
            m for m in self.metrics_history 
            if m.timestamp > five_minutes_ago
        ]
        
        if not recent_metrics:
            return 0.0
        
        # 基于低质量答案的比例估计错误率
        low_quality_count = sum(1 for m in recent_metrics if m.answer_quality < 0.5)
        return low_quality_count / len(recent_metrics)
    
    def get_system_resource_usage(self) -> Dict[str, float]:
        """获取系统资源使用情况"""
        try:
            import psutil
            
            return {
                'cpu_percent': psutil.cpu_percent(),
                'memory_percent': psutil.virtual_memory().percent,
                'disk_usage': psutil.disk_usage('/').percent
            }
        except ImportError:
            return {'cpu_percent': 0, 'memory_percent': 0, 'disk_usage': 0}
    
    def generate_performance_report(self, time_window: int = 3600) -> Dict[str, Any]:
        """生成性能报告"""
        cutoff_time = time.time() - time_window
        recent_metrics = [m for m in self.metrics_history if m.timestamp > cutoff_time]
        
        if not recent_metrics:
            return {"error": "在指定时间窗口内没有监控数据"}
        
        report = {
            'time_window_seconds': time_window,
            'sample_count': len(recent_metrics),
            'performance_metrics': {
                'avg_query_latency': sum(m.query_latency for m in recent_metrics) / len(recent_metrics),
                'avg_retrieval_precision': sum(m.retrieval_precision for m in recent_metrics) / len(recent_metrics),
                'avg_answer_quality': sum(m.answer_quality for m in recent_metrics) / len(recent_metrics),
                'avg_system_throughput': sum(m.system_throughput for m in recent_metrics) / len(recent_metrics),
                'avg_error_rate': sum(m.error_rate for m in recent_metrics) / len(recent_metrics)
            },
            'percentiles': {
                'latency_p95': self.calculate_percentile([m.query_latency for m in recent_metrics], 95),
                'latency_p99': self.calculate_percentile([m.query_latency for m in recent_metrics], 99),
                'quality_p5': self.calculate_percentile([m.answer_quality for m in recent_metrics], 5),
                'quality_p95': self.calculate_percentile([m.answer_quality for m in recent_metrics], 95)
            },
            'trend_analysis': self.analyze_performance_trend(recent_metrics),
            'resource_usage': self.aggregate_resource_usage(recent_metrics)
        }
        
        return report
    
    def calculate_percentile(self, values: List[float], percentile: float) -> float:
        """计算百分位数"""
        if not values:
            return 0.0
        
        sorted_values = sorted(values)
        index = (percentile / 100) * (len(sorted_values) - 1)
        
        if index.is_integer():
            return sorted_values[int(index)]
        else:
            lower = sorted_values[int(index)]
            upper = sorted_values[int(index) + 1]
            return lower + (upper - lower) * (index - int(index))
    
    def analyze_performance_trend(self, metrics: List[MonitoringMetrics]) -> Dict[str, Any]:
        """分析性能趋势"""
        if len(metrics) < 10:  # 需要足够的数据点
            return {"status": "insufficient_data"}
        
        # 将数据分成两半比较
        mid_point = len(metrics) // 2
        first_half = metrics[:mid_point]
        second_half = metrics[mid_point:]
        
        trend = {}
        
        for metric_name in ['query_latency', 'answer_quality', 'error_rate']:
            first_avg = sum(getattr(m, metric_name) for m in first_half) / len(first_half)
            second_avg = sum(getattr(m, metric_name) for m in second_half) / len(second_half)
            
            trend[metric_name] = {
                'first_half_avg': first_avg,
                'second_half_avg': second_avg,
                'trend': 'improving' if second_avg > first_avg else 'deteriorating',
                'change_percentage': ((second_avg - first_avg) / first_avg * 100) if first_avg > 0 else 0
            }
        
        return trend
    
    def aggregate_resource_usage(self, metrics: List[MonitoringMetrics]) -> Dict[str, float]:
        """聚合资源使用情况"""
        resource_data = {
            'cpu_percent': [],
            'memory_percent': [],
            'disk_usage': []
        }
        
        for metric in metrics:
            if metric.resource_usage:
                for key in resource_data.keys():
                    if key in metric.resource_usage:
                        resource_data[key].append(metric.resource_usage[key])
        
        aggregated = {}
        for key, values in resource_data.items():
            if values:
                aggregated[f'avg_{key}'] = sum(values) / len(values)
                aggregated[f'max_{key}'] = max(values)
        
        return aggregated
    
    def add_alert_handler(self, handler):
        """添加告警处理器"""
        self.alert_handlers.append(handler)

# 告警处理器实现
class AlertHandler:
    """告警处理器基类"""
    
    def handle_alert(self, alert_message: str, rule: AlertRule, metrics: MonitoringMetrics):
        """处理告警 - 子类需要重写此方法"""
        raise NotImplementedError

class LoggingAlertHandler(AlertHandler):
    """日志告警处理器"""
    
    def handle_alert(self, alert_message: str, rule: AlertRule, metrics: MonitoringMetrics):
        """记录告警到日志"""
        logging.error(f"ALERT: {alert_message}")

class EmailAlertHandler(AlertHandler):
    """邮件告警处理器"""
    
    def __init__(self, smtp_config: Dict, recipients: List[str]):
        self.smtp_config = smtp_config
        self.recipients = recipients
    
    def handle_alert(self, alert_message: str, rule: AlertRule, metrics: MonitoringMetrics):
        """发送告警邮件"""
        # 实现邮件发送逻辑
        # 这里使用print模拟
        print(f"发送告警邮件给 {self.recipients}: {alert_message}")

class SlackAlertHandler(AlertHandler):
    """Slack告警处理器"""
    
    def __init__(self, webhook_url: str, channel: str):
        self.webhook_url = webhook_url
        self.channel = channel
    
    def handle_alert(self, alert_message: str, rule: AlertRule, metrics: MonitoringMetrics):
        """发送Slack告警"""
        # 实现Slack消息发送
        # 这里使用print模拟
        print(f"发送Slack告警到 {self.channel}: {alert_message}")

# 预定义的告警规则
def create_default_alert_rules() -> List[AlertRule]:
    """创建默认告警规则"""
    return [
        AlertRule(
            name="高查询延迟",
            metric="query_latency",
            condition=lambda x: x > 5.0,  # 超过5秒
            severity="warning",
            cooldown_period=300  # 5分钟冷却
        ),
        AlertRule(
            name="低检索精度", 
            metric="retrieval_precision",
            condition=lambda x: x < 0.3,  # 低于30%
            severity="critical",
            cooldown_period=600  # 10分钟冷却
        ),
        AlertRule(
            name="高错误率",
            metric="error_rate", 
            condition=lambda x: x > 0.1,  # 超过10%
            severity="critical",
            cooldown_period=300
        ),
        AlertRule(
            name="低答案质量",
            metric="answer_quality",
            condition=lambda x: x < 0.4,  # 低于40%
            severity="warning", 
            cooldown_period=300
        )
    ]

八、持续优化框架

自动化优化框架

python 复制代码

# continuous_optimization.py
from abc import ABC, abstractmethod
from typing import Dict, List, Any, Optional
import numpy as np

class OptimizationStrategy(ABC):
    """优化策略抽象基类"""
    
    def __init__(self, name: str, description: str):
        self.name = name
        self.description = description
        self.implementation_history = []
    
    @abstractmethod
    def analyze_optimization_opportunity(self, 
                                      current_performance: Dict, 
                                      historical_data: List[Dict]) -> Optional[Dict]:
        """分析优化机会"""
        pass
    
    @abstractmethod
    def generate_optimization_plan(self, analysis: Dict) -> Dict[str, Any]:
        """生成优化计划"""
        pass
    
    @abstractmethod
    def apply_optimization(self, plan: Dict) -> bool:
        """应用优化"""
        pass
    
    @abstractmethod
    def estimate_improvement(self, current_state: Dict, optimized_state: Dict) -> float:
        """估计改进程度"""
        pass

class ChunkSizeOptimizationStrategy(OptimizationStrategy):
    """Chunk Size优化策略"""
    
    def __init__(self):
        super().__init__(
            name="chunk_size_optimization",
            description="通过调整文档切分大小优化检索性能"
        )
        self.optimal_ranges = {
            'technical_docs': (128, 256),
            'legal_docs': (256, 512), 
            'general_docs': (200, 400)
        }
    
    def analyze_optimization_opportunity(self, current_performance: Dict, 
                                       historical_data: List[Dict]) -> Optional[Dict]:
        """分析chunk size优化机会"""
        
        current_chunk_size = current_performance.get('config_snapshot', {}).get('chunk_size')
        if not current_chunk_size:
            return None
        
        # 分析历史数据中的最佳chunk size
        chunk_size_performance = self.analyze_chunk_size_performance(historical_data)
        
        if not chunk_size_performance:
            return None
        
        # 找到最佳性能对应的chunk size
        best_size, best_f1 = max(chunk_size_performance.items(), key=lambda x: x[1])
        
        current_f1 = current_performance['f1_score']
        improvement_potential = best_f1 - current_f1
        
        # 只有改进潜力大于阈值时才建议优化
        if improvement_potential < 0.05:  # 5%改进阈值
            return None
        
        return {
            'current_chunk_size': current_chunk_size,
            'recommended_chunk_size': best_size,
            'current_f1': current_f1,
            'expected_f1': best_f1,
            'improvement_potential': improvement_potential,
            'confidence': self.calculate_confidence(chunk_size_performance),
            'analysis_data': chunk_size_performance
        }
    
    def analyze_chunk_size_performance(self, historical_data: List[Dict]) -> Dict[int, float]:
        """分析不同chunk size的性能"""
        chunk_size_performance = {}
        
        for evaluation in historical_data:
            config = evaluation.get('config_snapshot', {})
            chunk_size = config.get('chunk_size')
            f1_score = evaluation.get('f1_score', 0)
            
            if chunk_size is not None:
                if chunk_size not in chunk_size_performance:
                    chunk_size_performance[chunk_size] = []
                chunk_size_performance[chunk_size].append(f1_score)
        
        # 计算每个chunk size的平均F1分数
        return {
            size: sum(scores) / len(scores)
            for size, scores in chunk_size_performance.items()
        }
    
    def generate_optimization_plan(self, analysis: Dict) -> Dict[str, Any]:
        """生成chunk size优化计划"""
        
        return {
            'strategy_name': self.name,
            'optimization_type': 'parameter_tuning',
            'current_value': analysis['current_chunk_size'],
            'recommended_value': analysis['recommended_chunk_size'],
            'expected_improvement': analysis['improvement_potential'],
            'implementation_steps': [
                f"1. 更新chunk_size配置从 {analysis['current_chunk_size']} 到 {analysis['recommended_chunk_size']}",
                "2. 重新处理文档并重建向量索引",
                "3. 运行验证测试确认改进效果"
            ],
            'rollback_plan': [
                f"恢复chunk_size为 {analysis['current_chunk_size']}",
                "重新使用旧索引"
            ],
            'estimated_effort': 'medium',  # low, medium, high
            'risk_level': 'low'  # low, medium, high
        }
    
    def apply_optimization(self, plan: Dict) -> bool:
        """应用chunk size优化"""
        try:
            new_chunk_size = plan['recommended_value']
            
            # 在实际系统中，这里会更新配置并重新构建索引
            # update_system_configuration('chunk_size', new_chunk_size)
            # rebuild_vector_index()
            
            print(f"应用chunk size优化: {plan['current_value']} -> {new_chunk_size}")
            
            # 记录实施历史
            self.implementation_history.append({
                'timestamp': datetime.now().isoformat(),
                'plan': plan,
                'status': 'applied'
            })
            
            return True
            
        except Exception as e:
            print(f"应用chunk size优化失败: {e}")
            return False
    
    def estimate_improvement(self, current_state: Dict, optimized_state: Dict) -> float:
        """估计改进程度"""
        return optimized_state.get('expected_f1', 0) - current_state.get('f1_score', 0)

class RetrievalStrategyOptimization(OptimizationStrategy):
    """检索策略优化"""
    
    def __init__(self):
        super().__init__(
            name="retrieval_strategy_optimization", 
            description="优化检索策略组合和权重"
        )
        self.available_strategies = ['vector_only', 'hybrid_bm25_vector', 'compressed_hybrid']
    
    def analyze_optimization_opportunity(self, current_performance: Dict, 
                                       historical_data: List[Dict]) -> Optional[Dict]:
        """分析检索策略优化机会"""
        
        current_strategy = current_performance.get('config_snapshot', {}).get('retrieval_strategy')
        if not current_strategy:
            return None
        
        # 分析不同策略的历史性能
        strategy_performance = self.analyze_strategy_performance(historical_data)
        
        if not strategy_performance:
            return None
        
        # 找到最佳策略
        best_strategy, best_f1 = max(strategy_performance.items(), key=lambda x: x[1])
        
        current_f1 = current_performance['f1_score']
        improvement_potential = best_f1 - current_f1
        
        if improvement_potential < 0.03:  # 3%改进阈值
            return None
        
        return {
            'current_strategy': current_strategy,
            'recommended_strategy': best_strategy,
            'current_f1': current_f1,
            'expected_f1': best_f1,
            'improvement_potential': improvement_potential,
            'available_strategies': strategy_performance,
            'confidence': self.calculate_strategy_confidence(strategy_performance)
        }
    
    def analyze_strategy_performance(self, historical_data: List[Dict]) -> Dict[str, float]:
        """分析不同检索策略的性能"""
        strategy_performance = {}
        
        for evaluation in historical_data:
            config = evaluation.get('config_snapshot', {})
            strategy = config.get('retrieval_strategy')
            f1_score = evaluation.get('f1_score', 0)
            
            if strategy:
                if strategy not in strategy_performance:
                    strategy_performance[strategy] = []
                strategy_performance[strategy].append(f1_score)
        
        # 计算平均F1分数
        return {
            strategy: sum(scores) / len(scores)
            for strategy, scores in strategy_performance.items()
        }
    
    def generate_optimization_plan(self, analysis: Dict) -> Dict[str, Any]:
        """生成检索策略优化计划"""
        
        return {
            'strategy_name': self.name,
            'optimization_type': 'algorithm_selection',
            'current_strategy': analysis['current_strategy'],
            'recommended_strategy': analysis['recommended_strategy'],
            'expected_improvement': analysis['improvement_potential'],
            'implementation_steps': [
                f"1. 切换检索策略从 {analysis['current_strategy']} 到 {analysis['recommended_strategy']}",
                "2. 更新检索器配置",
                "3. 运行端到端测试验证效果"
            ],
            'rollback_plan': [
                f"恢复检索策略为 {analysis['current_strategy']}"
            ],
            'estimated_effort': 'low',
            'risk_level': 'medium'
        }

class ContinuousOptimizationManager:
    """持续优化管理器"""
    
    def __init__(self, optimization_strategies: List[OptimizationStrategy]):
        self.strategies = optimization_strategies
        self.optimization_history = []
        self.performance_baseline = None
    
    def set_performance_baseline(self, baseline_performance: Dict):
        """设置性能基线"""
        self.performance_baseline = baseline_performance
    
    def analyze_optimization_opportunities(self, current_performance: Dict, 
                                         historical_data: List[Dict]) -> List[Dict]:
        """分析所有优化机会"""
        
        opportunities = []
        
        for strategy in self.strategies:
            analysis = strategy.analyze_optimization_opportunity(current_performance, historical_data)
            
            if analysis:
                plan = strategy.generate_optimization_plan(analysis)
                
                # 计算优先级分数
                priority_score = self.calculate_priority_score(plan, analysis)
                plan['priority_score'] = priority_score
                plan['analysis'] = analysis
                
                opportunities.append(plan)
        
        # 按优先级排序
        opportunities.sort(key=lambda x: x['priority_score'], reverse=True)
        
        return opportunities
    
    def calculate_priority_score(self, plan: Dict, analysis: Dict) -> float:
        """计算优化优先级分数"""
        
        # 基于多个因素计算优先级
        improvement = analysis.get('improvement_potential', 0)
        effort = self.effort_to_score(plan.get('estimated_effort', 'medium'))
        risk = self.risk_to_score(plan.get('risk_level', 'medium'))
        confidence = analysis.get('confidence', 0.5)
        
        # 优先级公式
        priority = (improvement * 0.4 + 
                   effort * 0.3 + 
                   risk * 0.2 + 
                   confidence * 0.1)
        
        return priority
    
    def effort_to_score(self, effort: str) -> float:
        """将工作量转换为分数"""
        effort_scores = {'low': 1.0, 'medium': 0.7, 'high': 0.3}
        return effort_scores.get(effort, 0.5)
    
    def risk_to_score(self, risk: str) -> float:
        """将风险转换为分数"""
        risk_scores = {'low': 1.0, 'medium': 0.7, 'high': 0.3}
        return risk_scores.get(risk, 0.5)
    
    def execute_optimization_cycle(self, current_performance: Dict, 
                                 historical_data: List[Dict]) -> Dict[str, Any]:
        """执行优化周期"""
        
        print("开始优化周期...")
        
        # 分析优化机会
        opportunities = self.analyze_optimization_opportunities(current_performance, historical_data)
        
        if not opportunities:
            return {
                'cycle_id': len(self.optimization_history) + 1,
                'timestamp': datetime.now().isoformat(),
                'status': 'no_opportunities',
                'message': '未发现显著的优化机会'
            }
        
        # 选择要实施的优化（前3个）
        optimizations_to_apply = opportunities[:3]
        applied_optimizations = []
        
        for optimization in optimizations_to_apply:
            strategy_name = optimization['strategy_name']
            strategy = next((s for s in self.strategies if s.name == strategy_name), None)
            
            if strategy:
                success = strategy.apply_optimization(optimization)
                
                applied_optimizations.append({
                    'strategy': strategy_name,
                    'plan': optimization,
                    'success': success,
                    'timestamp': datetime.now().isoformat()
                })
        
        # 记录优化周期
        cycle_result = {
            'cycle_id': len(self.optimization_history) + 1,
            'timestamp': datetime.now().isoformat(),
            'opportunities_analyzed': len(opportunities),
            'optimizations_applied': applied_optimizations,
            'total_expected_improvement': sum(
                opt['plan']['expected_improvement'] 
                for opt in applied_optimizations 
                if opt['success']
            )
        }
        
        self.optimization_history.append(cycle_result)
        
        return cycle_result
    
    def generate_optimization_report(self, time_window_days: int = 30) -> Dict[str, Any]:
        """生成优化报告"""
        
        cutoff_time = datetime.now() - timedelta(days=time_window_days)
        recent_cycles = [
            cycle for cycle in self.optimization_history
            if datetime.fromisoformat(cycle['timestamp']) > cutoff_time
        ]
        
        if not recent_cycles:
            return {"status": "no_recent_optimizations"}
        
        # 计算优化效果
        total_improvement = sum(cycle['total_expected_improvement'] for cycle in recent_cycles)
        successful_optimizations = sum(
            len([opt for opt in cycle['optimizations_applied'] if opt['success']])
            for cycle in recent_cycles
        )
        
        # 分析最有效的策略
        strategy_effectiveness = {}
        for cycle in recent_cycles:
            for optimization in cycle['optimizations_applied']:
                if optimization['success']:
                    strategy = optimization['strategy']
                    improvement = optimization['plan']['expected_improvement']
                    
                    if strategy not in strategy_effectiveness:
                        strategy_effectiveness[strategy] = []
                    strategy_effectiveness[strategy].append(improvement)
        
        avg_strategy_improvement = {
            strategy: sum(improvements) / len(improvements)
            for strategy, improvements in strategy_effectiveness.items()
        }
        
        report = {
            'report_period_days': time_window_days,
            'total_optimization_cycles': len(recent_cycles),
            'successful_optimizations': successful_optimizations,
            'total_expected_improvement': total_improvement,
            'average_improvement_per_cycle': total_improvement / len(recent_cycles),
            'strategy_effectiveness': avg_strategy_improvement,
            'most_effective_strategy': max(avg_strategy_improvement.items(), 
                                         key=lambda x: x[1])[0] if avg_strategy_improvement else None,
            'recent_cycles': recent_cycles[-5:]  # 最近5个周期
        }
        
        return report

# 优化策略工厂
class OptimizationStrategyFactory:
    """优化策略工厂"""
    
    @staticmethod
    def create_strategies() -> List[OptimizationStrategy]:
        """创建所有优化策略"""
        return [
            ChunkSizeOptimizationStrategy(),
            RetrievalStrategyOptimization()
        ]

# 使用示例
def main():
    """主优化流程"""
    
    # 创建优化管理器
    strategies = OptimizationStrategyFactory.create_strategies()
    optimizer = ContinuousOptimizationManager(strategies)
    
    # 设置性能基线
    baseline_performance = {
        'f1_score': 0.75,
        'config_snapshot': {
            'chunk_size': 256,
            'retrieval_strategy': 'vector_only'
        }
    }
    optimizer.set_performance_baseline(baseline_performance)
    
    # 模拟历史数据
    historical_data = [
        {
            'f1_score': 0.72,
            'config_snapshot': {'chunk_size': 128, 'retrieval_strategy': 'vector_only'}
        },
        {
            'f1_score': 0.78, 
            'config_snapshot': {'chunk_size': 256, 'retrieval_strategy': 'hybrid_bm25_vector'}
        },
        {
            'f1_score': 0.81,
            'config_snapshot': {'chunk_size': 512, 'retrieval_strategy': 'compressed_hybrid'}
        }
    ]
    
    # 执行优化周期
    current_performance = {
        'f1_score': 0.76,
        'config_snapshot': {
            'chunk_size': 256,
            'retrieval_strategy': 'vector_only'
        }
    }
    
    cycle_result = optimizer.execute_optimization_cycle(current_performance, historical_data)
    print("优化周期结果:", cycle_result)
    
    # 生成报告
    report = optimizer.generate_optimization_report(30)
    print("优化报告:", report)

if __name__ == "__main__":
    main()

总结

通过本文介绍的评估闭环与持续优化体系，我们建立了完整的RAG系统质量保障机制：

核心价值

数据驱动决策：基于量化的评估指标，避免主观判断
自动化流程：从测试到部署的完整自动化流水线
持续改进：基于监控数据的自动优化机制
质量保障：多层次的质量门禁和验证机制

关键技术组件

RAGAS评估框架：多维度量化系统性能
A/B测试框架：科学对比不同技术方案
监控告警系统：实时掌握系统健康状况
优化策略引擎：自动识别和实施改进机会
CI/CD集成：确保代码质量和发布安全

实施建议

从小开始：从核心指标开始，逐步完善评估体系
持续迭代：定期回顾和调整评估标准和优化策略
业务对齐：确保技术指标与业务价值紧密关联
自动化优先：尽可能自动化评估和优化流程

这套体系确保了RAG系统能够持续改进，始终提供高质量的服务。在实际应用中，需要根据具体业务需求调整评估指标、优化策略和监控阈值。

记住，评估闭环的核心是"测量-分析-优化"的持续循环，只有通过数据驱动的决策，才能构建真正可靠的RAG系统。

水平有限，还不能写到尽善尽美，希望大家多多交流，跟春野一同进步！！！