【实战问题汇总】大模型ai测试

1.如何评估模型微调的效果

评估指标

2.常见的ai面试问题汇总

一、AL/ML/DL基础内容：
ML是实现AI的一种主流方法，但不是唯一方法（早期AI也使用基于规则的系统）。现代AI大多依赖ML，尤其是深度学习。
1. AI介绍 （人工智能）

指让机器模仿人类智能的技术，包括推理、学习、感知、自然语言理解等。目标是让机器能够执行通常需要人类智能的任务

2. ML介绍 （机器学习）

是AI的一个子领域，核心思想是让机器从数据中自动学习规律和模式，而不需要显式编程每一步规则。ML通过算法从数据中训练模型，然后用模型进行预测或决策

机器学习基本概念

类型：监督、无监督、强化
数据：训练数据（用于训练模型的数据集）、测试/验证数据(用于评估模型表现的数据集)
特征：数据中用于描述样本的属性
标签：监督学习中我们希望预测的目标值
模型：从数据中学习到的数学函数和规则，用于将输入的特征映射到输出预测
训练：使用算法和训练数据调整数据参数，使模型能够准确预测
预测：将新数据输入训练号的模型，得到输出的结果

ML生命周期： MLFlow
ML模型：TransorFlow (或Pytorch)
大模型处理平台：Hadoop （或Spark）

eg:完整的流程介绍
收集数据 （所有的房屋信息）----->划分数据 （训练集和测试集）----->定义特征 （面积、卧室数等）和标签（房价）---->选择模型 ----->用训练集训练模型 （调整）----->用测试集评估模型 （确保其预测准确）----->投入生产（对新房屋进行预测）

常见的算法示例

线性回归：预测连续值，建立特征的线性组合

逻辑回归：用于二分类问题，输出概率

鲁棒性测试：实际案例可见引用介绍添加链接描述

数据库常见的库：PostgreSQL （元数据DB）+缓存Radis Cluster

大数据处理的框架：Hadoop、 Spark

3. DL介绍

案例介绍：MaxKB-Server + Prompt (LLM 任何大模型) + Llama3 + ETL Pipeline 构建智能客服助手，主要为一个典型的RAG（检索增强生成）企业解决方案
ETL Pipeline（数据入口层） :提取、转换、加载（数据库、文档、API、网页）中的数据
MaxKB-Server（核心引擎层） --->第三方平台提供统一的Api接口，屏蔽底层复杂性
Prompt工程（指令编排层） --->定义角色、任务约束、输出制定的格式（包含上下文的注入，动态插入检索到的相关知识片段，使用少样的样本进行输出）
Liama3（推理决策层） ：开源的大模型，主要提供强大的自然语言理解与生成能力

LLM 组成介绍：LLM+嵌入模型+向量数据库

整体架构介绍：前端层 （React/Vue.js +WebSocket 实时对话+） ++++后端层 （Fast/Django等多异步处理机制、消息队列+缓存层） ++++核心服务 （对话管理服务+知识检索服务+业务集成服务） ++++**内容体系构建（**分层知识结构+内容编写规范+数据清洗流程） ++++++ETL Pipeline 设计 （数据提取 +数据转换+数据加载）+++++检索策略优化 （多路召回机制例如向量检索、关键词检索、规则匹配、推荐引擎+重排序算法）++++++Prompt工程优化 （系统提示词设计+上下文注入策略）+++++阀值动态调整（自适应阀值机制） ++++关键指标追踪（性能命中率+准确率、保证率+转人工率）

用户层面数据流：

1.**User ---->API Gateway ----->知识库检索---->数据向量化---->**向量库--->Embedding问题 ---->应用助手 --------------------------------->AI模型---->回答

1.**User ---->API Gateway ----->知识库检索---->数据向量化---->**向量库--->召回相似度高的Topk片段 ---->生成Prompt 根据提示词--->AI模型---->回答

注：数据向量化 Model layer ：在线、离线文档（知识库、自动分段、本地存储、Embedding）

API gateway的后端服务

注：自适应阀值介绍：在进行阀值设置时，通常是阀值越高，命中准确度越高，提高阀值，减少错误

def dynamic_threshold(user_profile, query_complexity):

base_threshold = 0.7

复制代码

# 新用户提升阈值，保证准确率
if user_profile.is_new:
    base_threshold += 0.1 
# 简单问题降低阈值，提高覆盖率
if query_complexity == "low":
    base_threshold -= 0.05
# 高峰时段提升阈值，减少错误
if is_peak_hour():
    base_threshold += 0.05

return base_threshold

针对以上内容如何介入测试，以下为整个ai智能助手测试策略及对应的实施方案，主要方案围绕知识库质量、检索准确性、模型推理能力和系统集成稳定性展开：

数据整理

api压测

性能命中率、准确率、阀值设置的准确率、及安全性、鲁棒性

二、实战过程中常见的测试问题

1.验证模型对输入长度的处理：测试当文本超过模型的最大token限制（如4096）时，模型是否正确截断、报错或拒绝处理（边界测试）

2.验证生成内容token树：检查模型输出是否准售后设定的max_tokens参数，有无意外截断或超额生成（边界测试）

3.在进行不同token数量下的响应时间时（tokens越多通常延迟越高）以及高并发时系统吞吐量是否受Token处理速度影响的实际测试原理：基于接口层面 ：因为必须直接向模型服务的API接口发送请求，精确控制输入token数量和并发数，采集响应时间、吞吐量等核心数据。脱离接口无法模拟真实调用。
借助性能测试工具 ：手工无法模拟高并发、无法自动统计P95/P99等指标、无法批量构造不同token长度的数据，必须依赖JMeter、Locust、k6等工具来实现压力生成、指标采集和分析。

4.如何测试ML模型：考察数据维度（完整性、标签准确性、异常值、偏差）、训练过程（训练曲线、交叉验证、稳定性）、部署前后（版本控制/灰度发布/性能监控/漂移检测）、公平性、鲁棒性

5.类别不平衡分类任务如何测试：

测试评估指标：准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure

eg：实际例子介绍以上指标

1.准确率：整体判断正确比例

2.精准率：预测为病人的结果中真实比例

3.召回率：真实病人中被找出比例

4.F1值：精确率与召回率的平衡

6.如何测试ML模型：

数据验证质量检查 （数据的完整性、缺失值、异常值、重复样本）、验证并训练 ------->离线模型评估 （合适的评估指标分类、回归、排序、生成，使用交叉验证评估文档性、对比基线模型检查过拟合、鲁棒性测试噪音对抗样本））----------->模型的功能与行为测试 （边界用例和极端的测试、一致性的测试、逻辑及业务测试）--------->公平性与偏见测试 （定义敏感数学、分组计算指标、检查均等几率等公平性指标）----->性能与压力 ------->集成与部署 ------>持续监控与在线测试

7.聊天机器人性能测试方法
常见的指标 ：响应延迟、并发回话、吞吐率，错误率，资源利用
参见的方法 ：压力、性能、故障注入、混合测试
故障注入测试案例 ：添加链接描述
与传统测试相同 ，一致使用aip相关接口进行压测及性能指标测试分析，在分析过程中也可能会涉及到故障注入测试，对于智能体的性能，会使用的工具包含大模型专业的工具**(BenchLLM),GPU监控**，在测试过程中关注的瓶颈都是CPU、内存（大模型为显存）、IO（大模型为模型推理）
与传统测试不同 ，关键指标 为TTFT、TPOT、Token消耗、意图准确率（传统关注QPS\响应时间、错误率）、核心问题 围绕模型要思考多久？生成快吗？答得准吗？成本可控吗？（传统测试关注系统能扛多少并发？响应够快吗？）、测试思路主要是混合场景长短文本+单多轮+成本控制+准确性验证（传统测试思路为固定请求压测到崩溃）