【阿里拥抱开源】Ling-2.6-flash: 更快响应,更强执行,更高令牌效率

介绍

今天我们正式开源 Ling-2.6-flash ,这是一个总参数量达 1040亿 、激活参数量 74亿指令微调模型

随着智能体能力进化,token消耗暴涨已成为落地应用的核心瓶颈。与传统对话不同,智能体工作流涉及海量输入与复杂多步执行,计算需求和用户成本急剧攀升。当行业纷纷转向"长推理"推高指标时,一个关键问题被忽视了:高频日常的智能体场景,真需要如此冗余的推理token吗?

面对愈演愈烈的token压力,Ling-2.6-flash选择了另一条路。它不以拉长输出换取指标提升,而是系统性地优化推理效率、token效率与智能体性能 ,在保持高度竞争力的同时,做到更快、更轻、更适配真实生产负载

从顶层设计看,Ling-2.6-flash围绕三大核心优势构建:

  • 混合线性架构带来更高推理效率
    通过引入混合线性架构,我们在基础层面提升计算效率。在4×H20配置下,Ling-2.6-flash推理速度最高可达340 tokens/秒。换言之,它能以显著更优的能效比完成任务。
  • token效率优化实现智能-效能平衡
    训练阶段我们专门优化token效率,力求用更精简的输出完成任务。在完整Artificial Analysis 评测集中,Ling-2.6-flash仅用1500万token即达到竞争力表现,塑造出真正高性价比的智能-效能曲线。
  • 针对智能体场景的定向强化
    针对当前需求最旺盛的智能体场景,我们在工具调用、多步规划、任务执行等环节持续打磨。最终模型在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等基准测试中,达到与更大激活参数模型相当的SOTA级表现。

评测表现

我们在多个权威基准测试中对Ling-2.6-flash进行了全面评估。Ling-2.6-flashBFCL-V4TAU2-benchSWE-bench VerifiedPinchBench 等代表性智能体基准中表现强劲。实际应用中,Ling-2.6-flash在Claude CodeKilo CodeQwen CodeHermes AgentOpenClaw等框架下均能提供优秀体验。

除智能体任务外,Ling-2.6-flash在通用知识数学推理指令跟随长上下文理解等方面同样表现优异,与同尺寸SOTA模型保持对齐。


  • PinchBench:对比分数直接取自PinchBench官方排行榜(截至2026年4月20日),遵循其评估模式(可能为推理模式)。
  • Claw-Eval:对比分数源自Claw-Eval官方排行榜(2026年3月25日版本),遵循其评估模式(可能为推理模式)。GPT-OSS-120B和GPT-5.4-mini的官方分数当前不可用,已省略。
  • TAU2-Bench:使用官方v1.0.0代码和数据集进行评估。遵循GLM-5评估协议,我们在零售和电信领域进行了轻微提示调整,以确保用户清晰表达请求并防止会话过早终止。此外,所有评估领域均采用GPT-5.2作为用户代理。
  • IFBench:GPT-OSS-120B(低配版)和GPT-5.4-mini(非推理版)的分数取自AA(人工分析)排行榜。所有其他模型性能数据均基于内部评估结果。

架构

Ling-2.6-flash延续了Ling 2.5引入的架构方向。在Ling 2.0基础上,我们采用了混合线性注意力机制 ,通过增量训练将原有的GQA注意力 设计升级为1:7 MLA + Lightning Linear混合架构。


混合注意力机制高度稀疏的MoE架构 相结合,使Ling-2.6-flash在推理效率上具有显著优势。与同类规模的主流SOTA模型相比,Ling-2.6-flash不仅实现更快的首token响应速度,在长文本生成场景下还能获得大幅更高的吞吐量。其峰值预填充吞吐量解码吞吐量 最高可提升约4倍

如下图所示,随着上下文长度和生成文本长度的增加,Ling-2.6-flash的吞吐量优势愈发明显。更重要的是,这种优势不仅体现在静态基准测试指标上。在实际部署环境中,模型会随着任务复杂度的提升持续释放更强的加速效益。

无论是长上下文理解 还是长文本生成 任务,Ling-2.6-flash在保持模型能力的同时,始终能提供更快的响应速度、更高的吞吐量以及更优的实际部署效率


快速开始

SGLang(推荐)
环境准备
bash 复制代码
pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow
运行推理

SGLang 现在支持 BF16 和 FP8 模型。具体取决于 ${MODEL_PATH} 中模型的 dtype。以下是在 4 个 GPU 上运行 Ling-2.6-flash 的示例,其中主节点 IP 为 ${MASTER_IP},服务器端口为 ${PORT}

服务器

1. 标准推理(无 MTP)

bash 复制代码
python -m sglang.launch_server \
    --model-path $MODEL_PATH \
    --tp-size 4 \
    --pp-size 1 \
    --dp-size 1 \
    --trust-remote-code \
    --context-length 262144 \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
    --dist-init-addr $MASTER_IP:2345 \
    --port $PORT \
    --nnodes 1

2. 基于MTP(多令牌预测)的推理

当前官方的SGLang实现版本存在MTP相关漏洞。为获得更优推理性能,我们建议安装修复后的版本。该补丁已提交审核,预计很快将合并至官方SGLang库。

安装我们的SGLang版本

bash 复制代码
git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang

pip install --upgrade pip
pip install -e "python"

启动服务器

bash 复制代码
python -m sglang.launch_server \
    --model-path $MODEL_PATH \
    --tp-size 4 \
    --pp-size 1 \
    --dp-size 1 \
    --context-length 262144 \
    --mamba-scheduler-strategy extra_buffer \
    --speculative-algorithm NEXTN \
    --speculative-num-steps 3 \
    --speculative-eagle-topk 1 \
    --speculative-num-draft-tokens 4 \
    --mem-fraction-static 0.75 \
    --max-running-requests 64 \
    --max-mamba-cache-size 256 \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
    --trust-remote-code \
    --dist-init-addr $MASTER_IP:2345 \
    --port $PORT \
    --nnodes 1

客户端

bash 复制代码
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'
vLLM
环境准备
bash 复制代码
pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

git clone https://github.com/vllm-project/vllm.git

cd vllm

VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto
运行推理

服务器

bash 复制代码
vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 4 \
    --gpu-memory-utilization 0.85

客户端

bash 复制代码
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

局限性与未来规划

灵析2.6-flash模型在追求极致智能与效率平衡的道路上已取得显著突破。该模型在工具调用、多步规划、长周期任务执行 等核心能力上实现大幅提升,配合推理效率与交互体验的系统性优化,现可更高效支撑规模化、高频率的自动化工作流,在实际生产环境中创造更大价值。

与此同时,我们清醒认识到极致效率必然伴随取舍。在部分高复杂度场景中,模型仍可能因推理深度限制出现工具幻觉 现象。此外,在中英文自然切换高度复杂指令合规性等方面仍有优化空间。

未来我们将持续探索智能效率边界:在保持模型高效推理特性的同时,着力优化输出质量token效率 的平衡,并持续增强模型在更广泛现实场景中的稳定性、易用性与交互体验

相关推荐
eastyuxiao7 小时前
OpenClaw 文档处理Skill
开发语言·人工智能
Prannt7 小时前
星朗智能语音识别——视频转文字
人工智能·音视频·语音识别
财经资讯数据_灵砚智能7 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月29日
人工智能·python·信息可视化·自然语言处理·ai编程
老赵聊算法、大模型备案7 小时前
“清朗·整治AI应用乱象”专项行动深度解读:从资质合规视角看AI应用新规
大数据·人工智能·算法·安全·aigc
rainbow7242447 小时前
深度解析:如何建立适合自己团队的AI能力评估矩阵?
大数据·人工智能
冷小鱼7 小时前
Spring Boot:从核心原理到 AI 时代的云原生基石
人工智能·spring boot·云原生
AI服务老曹7 小时前
架构实战:如何基于 GB28181 与异构计算构建跨平台(X86/ARM)AI 视频管理系统?源码交付深度解析
arm开发·人工智能·架构
Agent手记7 小时前
药物研发数据处理或GSP合规管理医药Agent推荐:2026数智医药全链路自动化实战
运维·人工智能·ai·自动化
小何code7 小时前
人工智能【第7篇】数据可视化:Matplotlib与Seaborn实战(万字长文+完整代码)
人工智能·机器学习·信息可视化·matplotlib