众智FlagOS完成腾讯混元MT2多语翻译模型全系列多芯片适配:英伟达/华为/平头哥三芯开箱即用

腾讯混元开源了混元MT2(Hy-MT2)系列多语翻译模型,覆盖 1.8B、7B、30B-A3B 三个规模档位,支持 33 个语种互译。众智FlagOS社区第一时间完成混元MT2全系列的多芯片适配与推理部署,已支持英伟达、华为昇腾、平头哥真武三种AI芯片 共9个模型,并同步在魔搭社区与HuggingFace提供面向开发者的模型文件与部署方案,开发者可以通过FlagOS统一系统软件栈快速部署混元MT2。

Hy-MT2 包含 Hy-MT2-1.8B、Hy-MT2-7B 和 Hy-MT2-30B-A3B 三个尺寸,均支持 33 个语种互译和 5 种民汉/方言翻译。其中 30B-A3B 采用 MoE 架构(总参数 30B / 激活参数 3B),1.8B 和 7B 为稠密模型。相比上一代 Hy-MT1.5,MT2 在专业领域翻译、指令遵循和端侧部署方面均有改进:

  • 7B 和 30B-A3B 在 FLORES-200 通用翻译评测上分别达到 Gemini 3.1 Pro 的 96.9% 和 98.1%,超过 DeepSeek-V4-Pro、Kimi K2.6 等开源模型;1.8B 整体优于头部商业翻译 API

  • 30B-A3B 在金融、政治、教育等垂直领域的 DomainMTBench 评测中,GEMBA 评分达到 Gemini 3.1 Pro 的 99.0%

  • 支持术语表、风格变换、结构化输出(HTML/JSON)等翻译指令,指令遵循能力超过同尺寸开源模型

  • 1.8B 提供基于 Sherry 框架的 1.25-bit 量化版,仅需约 440MB 存储,可部署在苹果、高通、联发科等手机芯片上本地推理

一、开发者速用指南:混元MT2系列模型 多芯版本获取与部署

FlagOS技术栈为混元MT2系列模型提供了开箱即用的多芯片版本。在FlagOS的vLLM-plugin-FL多芯片推理插件及统一算子库FlagGems、统一编译器FlagTree的支持下,英伟达、华为昇腾、平头哥真武三款芯片已完成混元MT2全系列模型的跨芯适配及验证。FlagOS提供了基于vLLM-plugin-FL的统一部署方案。使用源码进行安装部署,可参考以下官方一站式开发者文档,含详细代码示例与操作指引:

方式一:FlagOS源码方式

安装部署

python 复制代码
# 1. 安装 vLLM v0.20.2 pip install vllm==0.20.2 # 2. 安装 vllm-plugin-FL git clone https://github.com/flagos-ai/vllm-plugin-FL cd vllm-plugin-FL pip install --no-build-isolation -e . # 3. 安装 FlagGems 算子库 git clone https://github.com/flagos-ai/FlagGems cd FlagGems && git checkout v5.0.0 pip install --no-build-isolation -e . # 4. (可选) 安装 FlagTree 统一编译器 python3 -m pip uninstall -y triton python3 -m pip install flagtree===0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple # 5. (可选) 安装 FlagCX 统一通信库 # 详见 https://github.com/flagos-ai/FlagCX

运行推理

python 复制代码
from vllm import LLM, SamplingParams prompts = ["请把以下英文翻译成中文:Hello, my name is"] sampling_params = SamplingParams(max_tokens=10, temperature=0.0) llm = LLM(model="/path/to/Hy-MT2-7B-FlagOS", max_num_batched_tokens=16384, max_num_seqs=2048) outputs = llm.generate(prompts, sampling_params) for output in outputs: print(f"Prompt: {output.prompt!r}") print(f"Generated: {output.outputs[0].text!r}")

方式二:模型镜像直接下载

用户可以直接拉取在 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本,开箱即用、无需迁移。

魔搭平台

芯片 模型 下载链接
英伟达 HY-MT2-1.8B https://modelscope.cn/models/FlagRelease/HY-MT2-1.8B-nvidia-FlagOS
英伟达 HY-MT2-7B https://modelscope.cn/models/FlagRelease/HY-MT2-7B-nvidia-FlagOS
英伟达 HY-MT2-30B-A3B https://modelscope.cn/models/FlagRelease/HY-MT2-30B-A3B-nvidia-FlagOS
华为昇腾 HY-MT2-1.8B https://modelscope.cn/models/FlagRelease/HY-MT2-1.8B-ascend-FlagOS
华为昇腾 HY-MT2-7B https://modelscope.cn/models/FlagRelease/HY-MT2-7B-ascend-FlagOS
华为昇腾 HY-MT2-30B-A3B https://modelscope.cn/models/FlagRelease/HY-MT2-30B-A3B-ascend-FlagOS
平头哥真武 HY-MT2-1.8B https://modelscope.cn/models/FlagRelease/HY-MT2-1.8B-zhenwu-FlagOS
平头哥真武 HY-MT2-7B https://modelscope.cn/models/FlagRelease/HY-MT2-7B-zhenwu-FlagOS
平头哥真武 HY-MT2-30B-A3B https://modelscope.cn/models/FlagRelease/HY-MT2-30B-A3B-zhenwu-FlagOS

HuggingFace 平台

芯片 模型 下载链接
英伟达 HY-MT2-1.8B https://huggingface.co/FlagRelease/HY-MT2-1.8B-nvidia-FlagOS
英伟达 HY-MT2-7B https://huggingface.co/FlagRelease/HY-MT2-7B-nvidia-FlagOS
英伟达 HY-MT2-30B-A3B https://huggingface.co/FlagRelease/HY-MT2-30B-A3B-nvidia-FlagOS
华为昇腾 HY-MT2-1.8B https://huggingface.co/FlagRelease/HY-MT2-1.8B-ascend-FlagOS
华为昇腾 HY-MT2-7B https://huggingface.co/FlagRelease/HY-MT2-7B-ascend-FlagOS
华为昇腾 HY-MT2-30B-A3B https://huggingface.co/FlagRelease/HY-MT2-30B-A3B-ascend-FlagOS
平头哥真武 HY-MT2-1.8B https://huggingface.co/FlagRelease/HY-MT2-1.8B-zhenwu-FlagOS
平头哥真武 HY-MT2-7B https://huggingface.co/FlagRelease/HY-MT2-7B-zhenwu-FlagOS
平头哥真武 HY-MT2-30B-A3B https://huggingface.co/FlagRelease/HY-MT2-30B-A3B-zhenwu-FlagOS

二、开发者极致体验:"发布即多芯" + "零改码"

1、vLLM-plugin-FL:多芯片统一推理的核心路径

本次混元MT2系列模型的跨芯适配,核心技术路径是基于 vLLM-plugin-FL 实现多芯片推理部署。vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件,基于 FlagOS 统一多芯片后端开发,在完全不改变 vLLM 原生接口与用户使用习惯的前提下,将混元MT2的推理能力扩展到英伟达、华为昇腾、平头哥真武三类芯片。

  • 兼容 vLLM 原生接口:开发者使用标准的 vLLM API 即可完成模型加载与推理服务部署,无需学习新的部署工具或修改已有代码。

  • 多芯片后端自动适配:vLLM-plugin-FL 内置了针对不同芯片的后端适配逻辑,开发者只需指定模型路径,底层的芯片差异由插件自动处理。

  • FlagGems 算子加速可选启用 :通过设置 USE_FLAGGEMS=1,可进一步启用 FlagGems 中针对 MoE 模型优化的高性能算子,提升推理效率。

2、核心能力与原生版本对齐

经 Flores_CA和WMT16等权威评测集验证,FlagOS 适配后的混元MT2系列模型,在各芯片上的翻译精度与英伟达原生版本对齐,跨芯迁移未引入明显的精度损失,开发者可直接用于多语翻译生产场景。

评测数据:

|-----------|-------|-----------|---------|-------|
| | Hy-MT2-30B-A3B ||||
| | NV-原生 | NV-FlagOS | 平头哥 | 华为 |
| Flores_CA | 57.79 | 57.8 | 57.558 | 54.38 |
| WMT16 | 60.92 | 60.89 | 60.7098 | 60.85 |

|-----------|-------|-----------|---------|-------|
| | Hy-MT2-7B ||||
| | NV-原生 | NV-FlagOS | 平头哥 | 华为 |
| Flores_CA | 52.46 | 52.46 | 52.4511 | 52.44 |
| WMT16 | 60.21 | 60.18 | 60.1873 | 57.24 |

|-----------|-------|-----------|---------|-------|
| | Hy-MT2-1.8B ||||
| | NV-原生 | NV-FlagOS | 平头哥 | 华为 |
| Flores_CA | 45.32 | 45.32 | 45.3192 | 45.33 |
| WMT16 | 57.2 | 57.22 | 57.1791 | 60.2 |

3、极简部署:开箱即用

FlagOS将算子库、编译器等组件内置集成,开发者加载模型时底层优化自动生效,无需手动添加FlagOS初始化代码。基于FlagRelease直接提供多芯片版本的混元MT2-FlagOS模型文件,配合vLLM-plugin-FL启动推理服务,从下载到运行只需几条命令。

三、大模型核心基座:FlagOS 四大技术支撑,实现混元MT2极速跨芯适配

包括混元MT2在内的多款模型跨芯适配,依托的是FlagOS 2.0统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层,全链路为大模型跨芯适配提供技术支撑。

1. 高性能算子库 FlagGems:核心算子深度适配,释放硬件算力

FlagGems 作为 FlagOS 核心的高性能通用大模型算子库,基于 Triton 语言实现,已拥有超过500个大模型常用算子,覆盖 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块,同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数等接近 20 家 AI 芯片。

2. 统一 AI 编译器 FlagTree:一次编写,多芯编译

FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器,基于 Triton 深度定制,可将大模型核心算子编译为英伟达、华为昇腾、平头哥真武等十多种不同 AI 芯片后端可识别的指令,彻底解决不同芯片编译器生态割裂的问题,大幅降低算子跨芯片适配的开发成本。

3. 模型跨芯迁移发布工具 FlagRelease:半自动实现模型跨芯迁移与版本发布

依托 FlagOS 全栈技术能力,FlagRelease 已完成包括混元MT2在内的多款模型在多种芯片上的模型迁移、精度对齐与版本发布,覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用,无需自行迁移。截至本文发布,FlagRelease 已发布覆盖 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模型实例的跨芯适配版本。

4. 统一多芯片接入插件 vLLM-plugin-FL:兼容原生使用习惯

vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件,基于 FlagOS 统一多芯片后端开发,在完全不改变 vLLM 原生接口与用户使用习惯的前提下,实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了清微、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为、英伟达等多家芯片。

四、开源共建:FlagOS 持续做开发者的"跨芯适配后盾"

当下,"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点,打破硬件生态隔离、让大模型在不同算力平台高效低成本运行,是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因,始终以开发者为中心,通过全栈开源的统一系统软件栈,把复杂的"M×N"硬件适配问题降维为"M+N",做每一位开发者最可靠的跨芯适配后盾。

全栈开源无保留,把技术主动权交给开发者

目前,FlagOS 已形成完整的开源技术体系,所有核心组件均已开源在 GitHub,同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践,开发者可自由获取、深度定制:

  • 四大核心技术库: FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库,覆盖算子开发、编译优化、并行计算、跨芯片通信全链路;

  • 三大开源工具平台: FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具,提供从模型适配、性能评测到工程落地的一站式工具链;

  • 全场景扩展生态: vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件,以及 FlagOS-Robo 具身智能工具包,覆盖大模型训练、推理、应用全场景。

多路径参与共建,全层级开发者均可入局

我们为不同技术方向、不同经验层级的开发者,设计了低门槛、多路径的共建方式,无论你是 AI 开发新手,还是深耕系统软件的资深专家,都能在 FlagOS 社区找到自己的位置。

  • 新手友好型参与: 可在对应仓库提交 Issue 反馈 bug、优化建议,或是补充完善文档、撰写入门教程与最佳实践,也可参与社区技术交流、分享使用经验,零门槛开启开源之旅;(社区文档参考https://docs.flagos.io/en/latest/

  • 深度技术共建: 开发者可直接参与 FlagGems 算子开发与优化(新增算子 / 性能调优 / 新芯片后端支持)、KernelGen 算子生成流程增强、FlagTree 编译器后端扩展等核心模块,与社区核心开发者一起推动技术演进。

  • 生态工具贡献: 开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能,帮助更多开发者通过自然语言完成芯片适配、模型部署等操作。


关于众智 FlagOS 社区

为解决不同AI芯片大规模落地应用,北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智FlagOS社区,目前已经有78家成员单位。FlagOS是一款专为异构AI芯片打造的开源、统一系统软件栈,支持 AI 模型一次开发即可无缝移植至各类硬件平台,大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目,致力于构建「模型-系统-芯片」三层贯通的开放技术生态,通过"一次开发跨芯迁移"释放硬件计算潜力,打破不同芯片软件栈之间生态隔离。

相关推荐
東隅已逝,桑榆非晚1 小时前
C语言内存函数
c语言·开发语言·笔记·算法
SOC罗三炮1 小时前
Hermes Agent 源码深度解构:一个“自进化“AI Agent的完整架构拆解
大数据·人工智能·架构
JAVA学习通1 小时前
Sub2API + CCSwitch 实现 Codex 反向代理:多账号流量分发实战(解决codex手机号验证)
人工智能·codex·反代
lly2024061 小时前
Docker 安装 MySQL
开发语言
qq_452396231 小时前
第十篇:《软件测试的未来:AI测试、DevOps与测试左移》
运维·人工智能·devops
青云计划1 小时前
多智能体路由:从场景定义到Agent解析的工程实践
人工智能
IPHWT 零软网络1 小时前
从选型角度看语音网关国产化:以MX8G-A为列的架构与价值分析
人工智能·架构·信创·国产化·语音网关
武子康1 小时前
调查研究-142 全球机器人产业深度调研报告【04篇】机器人产业利润池全景:谁最容易赚钱与十大判断指标
大数据·人工智能·ai·机器人·具身智能·openclaw
techdashen1 小时前
在 Async Rust 中实现请求合并(Request Coalescing)
开发语言·后端·rust