90万悬赏!RWKV-7生产级适配(HF/vLLM/SGLang),单项30万等你来拿

RWKV社区现正式发布三项高额悬赏任务,每项任务奖金30万元,面向HF Transformers、vLLM、SGLang三大生态,为RWKV-7打造生产级适配。


📌 任务总览

适配目标 奖金 核心要求
Hugging Face Transformers 30万元 完整PEFT、RL库兼容
vLLM 30万元 dynamic batching、chunked prefill、state cache
SGLang 30万元 同上

🎯 统一性能基准

所有适配需达到 RWKV-LM + Albatross 引擎 的生产级性能。

参考基准(RWKV-7 7.2B,RTX 5090单卡)

指标 性能
批大小960生成 10,250+ token/s
批大小320生成 9,650+ token/s
批大小1生成 145+ token/s
批大小1预填充 11,289+ token/s

Albatross实现了"永远恒定速度、永远恒定显存",所有适配需达到同等水平,并在各种batch size下全面对标。


1️⃣ HF Transformers 适配(30万元)

需达到生产级稳定性,核心要求:

  • 完整兼容PEFT:LoRA、Adapter等微调方法无缝可用
  • 完整兼容RL库:TRL、DPO等强化学习对齐工具
  • State-Tuning支持:RWKV-7特有的状态微调
  • 精度、速度、显存占用全面对标Albatross

2️⃣ vLLM 适配(30万元)

RWKV社区已有 nano-vllm(支持Int8量化,开发中),本次任务要求完整生产级实现:

  • Dynamic Batching:动态批次调度
  • Chunked Prefill:分块预填充
  • State Cache:RNN状态缓存管理
  • 须对标Albatross的吞吐和延迟

3️⃣ SGLang 适配(30万元)

需实现与vLLM同等规格的生产级适配:

  • Dynamic Batching + Chunked Prefill + State Cache
  • 性能对标Albatross

💻 硬件与量化要求

支持全部常见专业卡和消费卡

  • NVIDIA:RTX 30/40/50系列、A100/H100等
  • AMD:通过ROCm支持

量化推理

  • 支持 8bit、4bit 量化
  • 显存占用显著下降
  • 速度不低于16bit FP16

📝 了解方式