开源模型应用落地-glm模型小试-glm-4-9b-chat-压力测试（六）

一、前言

GLM-4是智谱AI团队于2024年1月16日发布的基座大模型，旨在自动理解和规划用户的复杂指令，并能调用网页浏览器。其功能包括数据分析、图表创建、PPT生成等，支持128K的上下文窗口，使其在长文本处理和精度召回方面表现优异，且在中文对齐能力上超过GPT-4。与之前的GLM系列产品相比，GLM-4在各项性能上提高了60%，并且在指令跟随和多模态功能上有显著强化，适合于多种应用场景。尽管在某些领域仍逊于国际一流模型，GLM-4的中文处理能力使其在国内大模型中占据领先地位。该模型的研发历程自2020年始，经过多次迭代和改进，最终构建出这一高性能的AI系统。

在开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验（一）已经掌握了glm-4-9b-chat的基本入门。

在开源模型应用落地-glm模型小试-glm-4-9b-chat-批量推理（二）已经掌握了glm-4-9b-chat的批量推理。

在开源模型应用落地-glm模型小试-glm-4-9b-chat-Gradio集成（三）已经掌握了如何集成Gradio进行页面交互。

在开源模型应用落地-glm模型小试-glm-4-9b-chat-vLLM集成（四）已经掌握了如何使用vLLM进行推理加速。

在开源模型应用落地-glm模型小试-glm-4-9b-chat-tools使用（五）已经掌握了如何在vLLM环境下，正确使用tools。

本篇将介绍如何对glm-4-9b-chat模型进行压力测试。

二、术语

2.1.GLM-4-9B

是智谱 AI 推出的一个开源预训练模型，属于 GLM-4 系列。它于 2024 年 6 月 6 日发布，专为满足高效能语言理解和生成任务而设计，并支持最高 1M（约两百万字）的上下文输入。该模型拥有更强的基础能力，支持26种语言，并且在多模态能力上首次实现了显著进展。

GLM-4-9B的基础能力包括：

中英文综合性能提升 40%，在特别的中文对齐能力、指令遵从和工程代码等任务中显著增强
较 Llama 3 8B 的性能提升，尤其在数学问题解决和代码编写等复杂任务中表现优越
增强的函数调用能力，提升了 40% 的性能
支持多轮对话，还支持网页浏览、代码执行、自定义工具调用等高级功能，能够快速处理大量信息并给出高质量的回答

2.2.GLM-4-9B-Chat

是智谱 AI 在 GLM-4-9B 系列中推出的对话版本模型。它设计用于处理多轮对话，并具有一些高级功能，使其在自然语言处理任务中更加高效和灵活。

2.3.压力测试

是指对模型在高负载或极端条件下进行的性能评估。这种测试的目标是确定模型在处理大量请求时的响应时间、资源消耗、准确性和稳定性。

模型压力测试的主要目标

评估响应时间：测量模型在接收多个并发请求时的推理时间，以及在高负载情况下的延迟。
资源使用情况：评估CPU、内存、GPU等资源的消耗，了解模型在高并发情况下对硬件资源的要求。
稳定性和可靠性：检查模型在负载增加时是否能够持续提供准确的输出，识别潜在的崩溃或故障点。
错误处理能力：测试模型在处理异常输入或极端情况时的表现，分析模型是否能够正确处理不确定性。
扩展性：评估模型在增加负载或数据量时的扩展能力，判断是否需要进行优化或升级。

三、前置条件

3.1.基础环境及前置条件

1. 操作系统：centos7

2. NVIDIA Tesla V100 32GB CUDA Version: 12.2

3.最低硬件要求

3.2.下载模型

huggingface：

https://huggingface.co/THUDM/glm-4-9b-chat/tree/main

ModelScope：

魔搭社区

使用git-lfs方式下载示例：

3.3.创建虚拟环境

bash 复制代码

conda create --name glm4 python=3.10
conda activate glm4

3.4.安装依赖库