14B 小模型逆袭翻译赛道，论文财报实测超 Claude，不信试试 “我命由我不由天”

都说通用大模型轻松拿捏翻译，结果有人来掀桌了。

来自网易有道的 14B 翻译小模型，测试达行业第一，翻译质量超越一众国内外主流通用大模型。

它就是子曰翻译大模型 2.0（下文简称子曰 2.0），在英译中方面轻松超越 Claude 3.5 Sonnet 等 12 个主流通用大模型，中译英也和 Claude 3.5 Sonnet 达到同等水平。

△评测结果展示，罚分越低代表模型越好

简单看个实测例子。我命由我不由天，英文怎么说？

子曰 2.0：

I'm the master of my destiny。

Claude 3.5 Sonnet：

My fate is in my own hands, not in heaven's control.

(Alternative translations could be: "I control my destiny, not the heavens" or "My destiny is determined by me, not by fate")

对比一下，Claude 哪怕给出了三个回答，也都没有子曰的更自然简洁有力。

翻译专业领域时子曰 2.0 也更准确。

对照最新版本的 Claude-3.7，子曰 2.0 准确译出了医学词汇 "透明细胞肾细胞癌"。

但是 Claude-3.7 却翻译成了 "清细胞肾细胞癌"。

没想到，在翻译这类专业领域上，通用大模型的表现还是有待提高啊。

（被 AI 取代的焦虑可以暂时缓解缓解了）

所以，为啥垂直领域做个小模型，就能轻松打败规模大 10 倍 + 的通用大模型呢？

来看子曰 2.0 的进一步表现。

轻松拿捏论文财报专业翻译

简单总结，子曰 2.0 在更为专业的翻译场景下，表现更为突出。

翻译的基本要求是 "信达雅"，即忠实原文、通顺明白、选词得体。越是专业的领域，翻译难度越大。

因此，我们设置了风格迥异的几个方面来测试专业翻译模型和通用大模型的表现：

论文翻译
财报翻译
诗句翻译

主要考量的维度包括：

准确度
流畅度
不必要增减
优美 / 地道

首先在语料库的丰富度上，子曰 2.0 明显更胜一筹。

毕竟丢给它 "Strawberry Shake-Shake"，它都知道译为：草莓摇摇奶昔。

在古诗翻译上，子曰 2.0 给出的译文更加传神、保留意境，同时还兼顾了押韵，进一步古诗词的韵味传递到英文之中，还有点翻译家许渊冲的味道在了。

这种时候，Claude 3.5 Sonnet 相形见绌，只是完成了意思上的翻译，却没能做到传神。

学术论文翻译场****景中，对准确度要求更高，而且不同领域都有各自的专业词汇，这要求 AI 翻译不仅要掌握海量专有名词，还能结合上下文分析出对应语境，才能给出正确的译文。

以翻译 CVPR2025 这篇满分论文为例，给它的翻译任务是：翻译这张图片的图注。

（将图注文字复制后输入给模型，不涉及多模态输入）

可以看到原文图注中 MSE、MMD 都只提供了缩写。子曰 2.0 准确将英文缩写翻译为了计算机领域的专有词汇，给出了更完整且正确的翻译（下文标粗部分）。

子曰大模型 2.0：

图 1. 不同数据集蒸馏范式的比较。（a）均方误差 （MSE）方法在欧几里得空间（记为 ZR）中比较点对点特征，而最大均值差异（MMD）则在希尔伯特空间（ZH）中评估矩差异。

对比 Claude 3.5 Sonnet，并没有做到这一点：

图 1. 不同数据集蒸馏范式的比较。(a) MSE 方法 在欧几里得空间 (记为 ZR) 中比较逐点特征，而 MMD 在希尔伯特空间 (ZH) 中评估矩分布差异。

而对于自己不了解的专有名词，子曰 2.0 会选择不翻译而不是错译。相对于通用大模型，"幻觉" 问题进一步减少。

比如翻译蜜雪冰城招股书的内容时，原文 "according to CIC" 部分里的 CIC（图中红色框），由于提供的文本片段不完整，子曰 2.0 根据上下文无法得知它是什么名词的缩写，因此选择不翻译。

子曰 2.0 结果：

Claude 3.5 Sonnet 将 CIC 翻译成了中投顾问，参考招股书中文版原文，CIC 应该指灼识咨询，翻译错误。

此外在译文用词方面（图中绿色框），子曰 2.0 结合语境将 expansive 翻译为 "庞大的"，用来修饰供应链更贴切；Claude 则直译为了广泛的，在中文语法上有语病。

语句结构上（图中粉色框），子曰 2.0 翻译的版本也更简洁、符合国人遣词造句逻辑。

在医学论文中，对于大段翻译，子曰 2.0 的结果更加自然通顺、符合中文文法，也更利于被理解。

比如翻译论文《Prohormone cleavage prediction uncovers a non-incretin anti-obesity peptide》的讨论部分。

对于如下这句的翻译，Claude 3.5 Sonnet 只能做到直译：

使用基因敲除小鼠研究切割肽很困难，因为像 BRP 这样的小肽片段的治疗效果可能在缺乏亲本蛋白（即 BRINP2）的小鼠中无法体现。

子曰 2.0 的翻译更符合中文表达习惯，先说原因、再说结果，并让翻译结果更加流畅易懂：

由于小肽片段（如 BRP）的治疗效果可能不会在缺乏亲本蛋白（即 BRINP2）的小鼠中体现出来，因此使用基因敲除小鼠来研究裂解肽颇具难度。

在更全面维度的评测中，子曰 2.0 的表现也值得关注。

一方面，在国际权威翻译测试集中，它较上一版本（子曰 1.5）有全方位提升。

WMT (Workshop on Machine Translation) 数据集是一系列用于机器翻译的基准数据集。包含多种语言对的翻译数据，这些数据通常来自于新闻文章、议会记录、书籍以及其他公开可用的文本资源。这些数据集被广泛用于训练、评估和比较不同的机器翻译系统。

Flores-200 数据集是 Meta 构建的一个评估数据集，专门用于机器翻译的高质量基准，涵盖 204 种语言，并且允许评估模型在 40,000 种不同语言方向上的性能。

另一方面，通过严谨的人工采集流程，网易有道构建了涵盖人文学科、商学、生活服务、医疗、科学等 19 大领域的数据样本集，并制定了全面精细的 MQM 评测方案，从专业性、准确性、语言惯例和风格等维度打分。

和国内外主流通用大模型的评估结果如下（英译中）：

所以，子曰 2.0 如何做到？

没有被取代，反而变更强

以子曰 2.0 为底座，网易有道翻译完成了底层技术的迭代，在算法、数据、评估多个维度都带来创新。

在技术层面，子曰 2.0 在数据、算法以及评估上都进一步升级。

首先，翻译模型作为一个 "文科生"，更高质量、更大规模、更丰富领域的训练语料会直接影响模型的翻译质量。

子曰 2.0 吸纳了由人工清洗的数千万高质量翻译数据，其中包含海量学术论文、国际新闻、权威词典，可以进一步提高模型在专业维度的翻译水平，比通用大模型更懂不同垂直领域。

更进一步让专业翻译人员为海量提示词进行精细化标注，为模型提供更专业权威的参考，以此增强模型领域适应性、优化上下文理解、提升翻译质量。

其次来看核心算法层面，也是本次迭代的重点。

第一，它以子曰教育大模型为基础进行二次训练，进一步提升了模型在翻译任务的表现，使其更具专业性和针对性。

第二，通过蒸馏（也是 DeepSeek 物美价廉背后的关窍）和大模型融合，子曰 2.0 在吸收两个大模型知识的同时，还实现了参数精简，能兼顾性能和运行效率、推理效率。

大模型融合通常是将一个或多个 "教师" 模型的知识传递给 "学生" 模型，使得学生模型能够在学习新任务同时保留旧知识，可以很好避免模型的灾难性遗忘问题。

第三，引入 Online DPO。

DPO 是一种基于人类偏好数据进行优化的方法，它避免了传统强化学习中复杂的奖励模型训练和策略优化过程，将偏好学习转化为一个简单的二分类问题，直接优化模型的输出相对概率。

Online DPO 更进一步拓展了 DPO 的能力，在多领域对齐中能快速调整模型以符合特定领域偏好，并允许模型在实时反馈中动态调整，确保在不同偏好数据上的持续优化。

最后在评估维度，子曰 2.0 采用了自研翻译评估模型，其准确率超越当前最先进的评估指标 COMET，为翻译大模型性能评估提供可靠的量化数据。

在人工标注与评估上，子曰 2.0 采用了人工标注的开发集和盲测集。这些数据集覆盖多个领域，由专业人员精细化标注，并且在评估过程中严格分离开发集和盲测集，确保结果的客观和准确。

现在，打开网易有道词典 / 翻译，通过 AI 翻译即可体验到子曰 2.0 的能力。

这意味着，大模型浪潮下，原本被认为会被 AI 取代的翻译 App，通过向大模型借力，正在变得更强。

场景为王趋势下，垂直赛道玩家 "拿钉找锤"，能更快速带来落地成果。

实际上，在大模型落地趋势中，场景玩家成为第一批将大模型深度结合并产生深远影响的 "探险家"。

比如办公领域的 WPS、飞书；设计领域的 Adobe、美图秀秀等。它们快速完成 AI 化升级，并带来实际营收上的增长。

这共同验证了一条规律，大模型浪潮下，相比于一个大模型应用承接所有用户需求，更可能发生的情况或许是大模型重塑不同垂直应用。

大模型是一个全新的工具，来撬动更大的需求和价值。

就以翻译领域为例，尽管通用模型可以解决一些普通翻译问题，但是大模型幻觉依旧存在，漏译、错译、多译的情况时有发生，对翻译准确性敏感的用户（比如科研人员），对大模型的翻译结果依旧无法完全信任。

这不是危言耸听，而是许多人真实踩过的坑。尤其是在大篇幅翻译的场景下，人工核对稍有不慎就可能给自己的论文、研究造成负面影响。

由此，在垂直领域内，专业的事或许还得交给专业的人。大模型时代，我们或许仍旧需要一个专业的翻译工具。它可以由 AI 加持，但是翻译出的内容却丝毫不带 AI 味儿。

大模型东风一吹，不只吹来大模型本身，更吹来一众 AI + 应用。

新的趋势和浪潮，由他们共同组成。

所以，大模型 or AI 翻译软件，你现在更常用哪一个？欢迎评论留言分享感受~

--- 完 ---

14B 小模型逆袭翻译赛道，论文财报实测超 Claude，不信试试 “我命由我不由天”

**△**评测结果展示，罚分越低代表模型越好

轻松拿捏论文财报专业翻译

没有被取代，反而变更强

△评测结果展示，罚分越低代表模型越好