Chitu：清华核弹级开源！推理引擎3倍提速+50%省卡，国产芯片告别英伟达绑架

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

💥 "还在为天价H100排队？清华让国产芯片跑出3倍英伟达性能！"

大家好，我是蚝油菜花。当科技巨头用天价H100显卡筑起算力高墙时，中国团队用开源代码炸开了新世界的大门！你是否正在经历：

👉 采购H100等到海枯石烂，项目进度一拖再拖
👉 用A800跑大模型，显存秒爆还慢如蜗牛
👉 尝试国产芯片却遭遇生态荒漠，代码移植难如登天...

清华大学开源的 Chitu（赤兔）推理引擎 ，正在掀起算力平权革命！这项黑科技：

✅ 硬刚H100性能：DeepSeek-R1-671B推理速度提升3.15倍
✅ 国产芯片救星：首个原生支持FP8的跨架构推理框架
✅ 显存瘦身术：A800集群省下50%显卡，吞吐量不降反升
✅ 全场景适配：从单卡到千卡集群，从NVIDIA到国产芯通吃

某券商实测------金融风控模型响应时间从800ms缩至250ms，每秒处理请求量翻4倍！想知道如何用开源代码激活老旧显卡的潜力？硬核解析马上开始！

🚀 快速阅读

Chitu（赤兔）是清华大学与清程极智联合开源的高性能大模型推理引擎。

核心功能：支持多元算力适配、全场景可伸缩、低延迟优化、高吞吐优化、小显存优化等。
技术原理：通过底层技术革新、算子级优化、全场景性能优化和并行计算与编译优化，显著提升推理效率。

Chitu 是什么

Chitu（赤兔）是清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理引擎，专为解决大模型在推理阶段的高成本和低效率问题设计。它支持英伟达多款GPU及国产芯片，打破了对特定硬件（如英伟达Hopper架构）的依赖。

在性能方面，Chitu在A800集群上部署DeepSeek-R1-671B时，相比部分国外开源框架，GPU使用量减少50%，推理速度提升3.15倍。支持从纯CPU到大规模集群的全场景部署，能满足不同规模和场景下的推理需求。

Chitu 的主要功能

多元算力适配：支持英伟达从最新旗舰到旧款的多系列GPU，同时为国产芯片提供优化支持，打破了对英伟达Hopper架构的依赖。
全场景可伸缩：从纯CPU部署、单GPU部署到大规模集群部署，赤兔引擎都能提供可扩展的解决方案，满足不同规模和场景下的推理需求。
低延迟优化：针对对延迟敏感的场景，如金融风控等，优化模型推理速度，减少响应时间。
高吞吐优化：在高并发场景下，如智能客服，提高单位时间内处理的请求数量。
小显存优化：降低单卡显存占用，使企业可以用更少的硬件资源获得更高的推理性能。
长期稳定运行：赤兔引擎可应用于实际生产环境，稳定性足以承载并发业务流量。
开箱即用：清程极智推出了基于赤兔的推理一体机，提供开箱即用的部署方案及专业运维服务，进一步简化企业AI落地流程。

Chitu 的技术原理

底层技术革新：赤兔引擎通过底层技术革新，首次实现了在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型。打破了过去FP8模型对英伟达H系列高端GPU的依赖，使企业可以在更多类型的硬件上高效部署大模型。
算子级优化：赤兔对关键算子（如GeMM、MoE等）进行了指令级优化，直接处理FP8数据而非简单量化。确保了模型精度无损，同时显著提升了推理速度。在A800集群的测试中，相比部分国外开源框架，赤兔引擎在GPU使用量减少50%的情况下，推理速度仍有3.15倍的提升。
全场景性能优化：赤兔引擎支持低延迟、高吞吐和小显存优化，能根据不同场景需求，在不同硬件配置和系统环境下，提供最优解决方案。赤兔可以根据系统资源状况，在GPU利用率、内存效率和网络传输之间寻找最佳平衡点。
并行计算与编译优化：赤兔引擎凝结了清华大学团队多年的并行计算与编译优化技术积累。通过智能编译技术，团队能够加速高性能算子的开发过程，在较短时间内实现对不同硬件架构的优化。

如何运行 Chitu

1. 从源码安装

bash 复制代码

git clone --recursive https://github.com/thu-pacman/chitu && cd chitu

pip install -r requirements-build.txt
pip install -U torch --index-url https://download.pytorch.org/whl/cu124  # 根据你的CUDA版本调整
TORCH_CUDA_ARCH_LIST=8.6 CHITU_SETUP_JOBS=4 MAX_JOBS=4 pip install --no-build-isolation .

2. 单GPU推理

bash 复制代码

torchrun --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1 infer.pp_size=1 infer.tp_size=8

3. 混合并行推理（TP+PP）

bash 复制代码

torchrun --nnodes 2 --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 infer.pp_size=2 infer.tp_size=8 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1

4. 启动服务

bash 复制代码

# 在localhost:21002启动服务
export WORLD_SIZE=8
torchrun --nnodes 1 \
    --nproc_per_node 8 \
    --master_port=22525 \
    chitu/serve.py \
    serve.port=21002 \
    infer.stop_with_eos=False \
    infer.cache_type=paged \
    infer.pp_size=1 \
    infer.tp_size=8 \
    models=DeepSeek-R1 \
    models.ckpt_dir=/data/DeepSeek-R1 \
    infer.attn_type=flash_infer \
    keep_dtype_in_checkpoint=True \
    infer.mla_absorb=absorb-without-precomp \
    infer.soft_fp8=True \
    infer.do_load=True \
    infer.max_reqs=1 \
    scheduler.prefill_first.num_tasks=100 \
    infer.max_seq_len=4096 \
    request.max_new_tokens=100 \
    infer.use_cuda_graph=True

# 测试服务
curl localhost:21002/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is machine learning?"
      }
    ]
  }'

5. 性能测试

bash 复制代码

# 使用benchmark_serving工具进行综合性能测试
python benchmarks/benchmark_serving.py \
    --model "deepseek-r1" \
    --iterations 10 \
    --seq-len 10 \
    --warmup 3 \
    --base-url http://localhost:21002

资源

GitHub 仓库 ：github.com/thu-pacman/...

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦