Apple 设备端与服务器端基础语言模型更新

这篇来自 Apple 机器学习研究团队的文章深入探讨了 Apple 智能背后新的语言基础模型的技术进步。它介绍了一个紧凑的、约为 30 亿参数的端侧模型，该模型针对 Apple 芯片进行了优化，以及一个用于私有云计算的全新并行轨道混合专家 (PT-MoE) 服务器模型。文章详细介绍了新的架构设计，包括优化的 KV 缓存使用、用于长上下文（高达 65K tokens，即 tokens）的交错注意力和带有寄存器窗口机制的多模态视觉编码器。它还描述了广泛且精心策划的训练数据来源（授权的、公共的、Applebot）以及多阶段的预训练和后训练过程，强调负责任的 AI 和数据隐私。文章解释了重要的推理优化，如 2 比特量化 (QAT，适用于端侧；ASTC，适用于服务器)。最后，文章重点介绍了新的基础模型框架，开发者可利用 Swift 引导式生成与工具调用功能访问端侧模型，旨在促进构建保护隐私且具有生产质量的 AI 应用。

主要内容

1. 新的模型架构优化了效率和可扩展性。
优化的端侧 KV 缓存和服务器模型的并行轨道 MoE 等新设计显著提高了推理速度并减少了资源使用。
1. 多样化、高质量和尊重隐私的数据驱动训练。
利用许可数据、公共数据集和 Applebot 爬取的严格过滤确保了模型性能，同时维护了用户隐私和道德数据实践。
1. 先进的压缩和量化技术增强了推理。
权重 2 比特 QAT/ASTC 和 8 比特 KV 缓存量化等技术实现了在包括 Apple 芯片在内的各种硬件上的高效部署。
1. 新的开发者框架简化了集成 AI 功能。
带有引导式生成和工具调用的基础模型框架使开发人员能够轻松地在 Apple 平台上构建智能的、具有隐私意识的应用程序。

借助 Apple Intelligence，我们正将强大的生成式 AI 整合到人们日常使用的应用程序和体验中，同时保护他们的隐私。在 2025 年全球开发者大会（WWDC）上，我们推出了新一代语言基础模型，专门用于增强我们最新软件版本中的 Apple Intelligence 功能。我们还推出了新的基础模型框架，使应用程序开发者可以直接访问 Apple Intelligence 核心的设备端基础语言模型。

我们打造了这些生成模型，以驱动我们各个平台中集成的广泛智能功能。这些模型提升了工具使用和推理能力，能够理解图像和文本输入，速度更快、效率更高，并且设计支持 15 种语言。我们最新的基础模型已优化以在 Apple 硅芯片上高效运行，其中包括一个约 30 亿参数的紧凑模型，以及一种专为私有云计算设计的专家混合服务器端模型，具有新颖的架构。这两款基础模型是 Apple 创建的一系列生成模型的一部分，旨在支持我们的用户。

在本概述中，我们将详细介绍我们设计的模型架构、用于训练的数据、采用的训练方法、用于优化推理的技术，以及与同类模型相比的评估结果。在整个过程中，我们将突出展示我们在提高设备端和私有云计算中的速度和效率的同时，如何实现功能扩展和质量提升。最后，作为我们持续坚持核心价值观的一部分，我们将展示负责任的人工智能原则如何贯穿整个模型开发过程。

图 1：Apple 基础模型的建模概述。

模型架构

我们开发了设备端和服务器端的模型，以满足广泛的应用性能和部署需求。设备端模型针对效率进行了优化，并针对 Apple 硅芯片进行了定制，能够在资源使用最少的情况下实现低延迟推理。而服务器端模型则设计用于更复杂任务的高准确性和可扩展性。两者共同构成了一个互补的解决方案套件，适用于各种应用。

我们通过开发新的模型架构提高了两个模型的效率。对于设备端模型，我们将整个模型分为两个部分，深度比为 5:3。第二部分的所有键值（KV）缓存直接与第一部分最后一层生成的键值缓存共享，从而减少了 37.5%的 KV 缓存内存使用量，并显著提高了首个标记的生成时间。我们还为服务器端模型开发了一种新的架构，引入了并行轨道混合专家（PT-MoE）设计（参见

）。该模型由多个独立处理标记的小型变压器组成，称为轨道，在每个轨道块的输入和输出边界处进行同步。每个轨道块还具有自己的混合专家层。通过轨道独立性带来的轨道级并行性，这种设计显著减少了同步开销，并在保持低延迟的同时高效扩展模型，不牺牲质量。

图 2：PT-MoE 架构图。每条轨道由多个轨道块组成，每个轨道块包含固定数量的 Transformer/MoE 层。假设我们总共有 L 层和深度为 D 的轨道块，那么我们将同步开销从 2L（张量并行）减少到 L/D（轨道并行）。例如，如果 D=4，PT 将同步开销减少了 87.5%。

为了支持更长的上下文输入，我们设计了一种交错注意力架构，结合了滑动窗口局部注意力层、旋转位置嵌入（RoPE）以及无位置嵌入的全局注意力层。这种设置提高了长度泛化能力，减少了 KV 缓存大小，并在长上下文推理过程中保持了模型质量。

为了启用视觉功能，我们开发了一个在大规模图像数据上训练的视觉编码器。它由一个视觉骨干网络负责提取丰富的特征，以及一个视觉-语言适配器，用于将这些特征与 LLM 的标记表示对齐。我们使用了标准的 Vision Transformer（ViT-g）模型，参数量为 10 亿，用于服务器端模型；而对于设备端部署，则使用了更高效的 ViTDet-L 骨干网络，参数量为 3 亿。为了进一步有效地捕捉和整合局部细节和更广泛的全局上下文，我们在标准的 ViTDet 中添加了一个新颖的 Register-Window（RW）机制，使得全局上下文和局部细节都能被有效捕捉。

训练数据

我们相信使用多样且高质量的数据来训练我们的模型。这包括从出版商处获得许可的数据、从公开可用或开源的数据集中精选的数据，以及由我们的网络爬虫 Applebot 抓取的公开信息。在训练基础模型时，我们不会使用用户的私人个人信息或用户互动数据。此外，我们采取措施应用过滤器，以去除某些类别的人可识别信息，并排除不适宜的内容。

此外，我们继续遵循伦理网络爬取的最佳实践，包括遵循广泛采用的 robots.txt 协议，允许网页发布者选择退出其内容用于训练 Apple 的生成基础模型。网页发布者可以细粒度地控制 Applebot 可以查看哪些页面以及这些页面如何使用，同时这些页面仍然可以在 Siri 和 Spotlight 的搜索结果中出现。

文本数据

在尊重上述退出请求的前提下，我们继续从 Applebot 爬取的网页内容中获取大量预训练数据，这些网页内容涵盖了数百亿个页面，覆盖了广泛的语言、区域和主题。鉴于网络的嘈杂性质，Applebot 采用先进的爬取策略来优先获取高质量和多样化的内容。特别是，我们专注于抓取高保真 HTML 页面，这些页面不仅提供了文本，还提供了结构化元数据，有助于将媒体内容与周围的文本内容对齐。为了提高相关性和质量，系统利用了多种信号，包括域级语言识别、主题分布分析和 URL 路径模式启发式方法。

我们特别注意准确提取文档和现代网站的内容。我们通过无头渲染增强了文档集合，实现了完整的页面加载、动态内容交互和 JavaScript 执行，这对于从网页架构中提取数据至关重要。对于依赖动态内容和用户交互的网站，我们启用了完整的页面加载和交互模拟，以可靠地从复杂页面中提取有意义的信息。我们还将大型语言模型（LLMs）集成到提取管道中，特别是在处理特定领域文档时，它们通常比传统的基于规则的方法表现更佳。

除了先进的爬取策略，我们还大幅扩展了训练数据的规模和多样性，并整合了大量高质量的一般领域、数学和编程内容。我们还扩展了多语言支持，新增了将在今年晚些时候提供的新语言。

我们认为高质量的数据过滤对整体模型性能至关重要。我们通过减少对过于激进的启发式规则的依赖，并结合更多基于模型的过滤技术，改进了数据过滤管道。通过引入基于模型的信号，我们能够保留更多的信息性内容，从而获得一个更大且质量更高的预训练数据集。

图像数据

为了增强我们的模型并为 Apple 智能功能启用视觉理解能力，我们在预训练管道中引入了图像数据，利用高质量的授权数据以及公开可用的图像数据。

通过我们的网页抓取策略，我们获取了带有对应 alt 文本的图片配对。除了筛选符合法律合规性要求的数据外，我们还筛选了数据质量，包括图片与文本的对齐情况。去重后，这一过程产生了超过 100 亿对高质量的图片-文本配对。此外，我们还创建了图片-文本交错数据，通过保留从抓取文档中观察到的原始文本上下文中的图片。经过质量筛选和法律合规性筛选后，这产生了 1.75 亿对交错的图片-文本文档，包含超过 5.5 亿张图片。由于网页抓取的图片-文本配对通常较短，往往不能全面描述图片中的视觉细节，因此我们使用了合成的图片描述数据来提供更丰富的描述。我们开发了一款内部使用的图片描述模型，能够提供不同细节层次的高质量描述，从关键词到段落级别的全面描述，生成了超过 50 亿对图片-描述配对，我们在预训练阶段使用了这些数据。

为了提高模型对富含文本的视觉理解能力，我们收集了各种富含文本的数据集，包括 PDF、文档、手稿、信息图、表格和图表，这些数据通过授权数据、网络爬虫和内部合成获得。然后我们提取了文本，并从图像数据中生成了转录和问答对。

我们整理了多种类型的形象-文本数据：

: 我们使用对比语言-图像预训练（CLIP）模型和光学字符识别（OCR）工具作为过滤器，从上述合成图像标题数据中获取高质量的图像。然后，我们使用内部的语义关联模型对标题中的名词进行定位，并在名词后附加坐标以形成语义相关的标题。
: 对于图表和 plots，我们首先提示内部的 LLM 生成合成数据字段及其对应的值，然后让 LLM 编写代码，根据之前生成的合成数据样本生成各种类型的图表和 plots。最后，我们将图表、plots 和数据样本输入教师模型以生成用于模型训练的问题和答案。对于表格，我们从公开网站上解析表格，并将其转换为 markdown 格式，然后使用教师模型生成的图像-markdown 对和图像合成问题答案对进行模型训练。

预训练

我们的预训练食谱已经发展到扩展 Apple Intelligence 的能力，以支持更多的语言以及更广泛的特性，包括那些需要图像理解的特性。

预训练分多个阶段进行，其中第一个也是计算量最大的阶段仅针对文本模态。我们使用蒸馏损失训练设备端模型，但不同于从头开始训练一个大型密集模型作为教师模型，我们通过少量最高质量的文本数据稀疏重用了一个来自预训练的约 30 亿参数的 64 专家、每 2 层混合专家（MoE）模型。这将训练教师模型的成本降低了 90%。然而，我们从头开始在 14 万亿个文本标记上训练稀疏服务器模型。

为了在这个阶段更好地支持新语言，我们将文本分词器的词汇量从 10 万扩展到 15 万，仅通过增加 25%的词元数量就实现了许多额外语言的质量表示。为了启用视觉感知，我们使用 CLIP 风格的对比损失训练了设备端和服务器端的视觉编码器，并对 60 亿张图像-文本配对进行了对齐，从而得到一个具有良好视觉定位能力的编码器。

在预训练的第二阶段，我们使用小型模型解码器与视觉语言适应模块联合训练视觉编码器，通过高质量文本数据、交错的图像-文本数据以及领域特定的图像-文本数据，将图像特征对齐到模型的表示空间。随后，我们利用这些视觉编码器和预训练模型来改进代码、数学、多语言、长上下文理解，并通过多个连续的预训练阶段引入图像理解。

在持续预训练的阶段，我们调整了数据集混合比例，同时引入了经过正确性验证的合成数据，以提高代码、数学和多语言能力。随后，我们通过多模态适应引入了视觉理解，同时未损害模型的文本能力。在这个阶段，我们从头开始训练了一个视觉-语言适应模块，将视觉编码器连接到两个模型。在最终的持续预训练阶段，我们使用最多包含 65K 词元的序列训练模型，这些序列来自自然生成的长文本数据、旨在针对特定能力设计的合成长文本数据，以及来自先前预训练轮次的混合数据，以处理显著更长的上下文长度。

后训练

与我们预训练的方法类似，我们改进了后训练过程，以支持语言扩展和视觉理解。

我们通过结合人工撰写的示例和合成数据，扩展了监督微调（SFT），重点在于核心视觉能力。这包括一般知识、推理、图文理解、文本与视觉对应以及多图推理。我们进一步通过检索额外的图像并合成相应的提示和响应，增加了视觉 SFT 数据的多样性。

我们利用这一 SFT 阶段进一步增强了工具使用和支持多语言的能力。我们设计了一种过程监督注释方法，其中注释员向工具使用代理平台发出查询，返回平台的完整轨迹，包括工具调用详情、相应的执行响应以及最终响应。这使注释员能够检查模型的预测并纠正错误，从而生成一种树状结构的数据集用于教学。为了扩展到更多的语言，我们默认将输出语言与输入语言匹配，但我们也通过创建包含多种语言的混合数据集，提供了使用不同语言作为提示和响应的选项。

在 SFT 阶段之后，我们为设备端模型和服务器端模型都应用了基于人类反馈的强化学习（RLHF）。同时，我们提出了一种基于模型多代生成奖励方差的新颖提示选择算法，用于 RLHF 训练的数据集构建。我们的评估显示，与 SFT 相比，RLHF 在人类和自动基准测试中均取得了显著的提升。而在 SFT 和 RLHF 阶段都引入了多语言数据的情况下，我们发现 RLHF 提供了显著的提升，人类评估中的胜率达到了 16:9。

为了继续提高多语言性能模型的质量，我们使用了指令遵循评估（IFEval）和 Alpaca Evals，并以 GPT-4o 作为评判标准。我们为每种支持的语言收集了 1000 个由母语使用者撰写的提示。通过仔细调整提示，我们实现了自动评估与人工评估的良好对齐，从而加快了迭代速度。

优化

在过去一年中，我们扩展了苹果智能功能，并在提高设备端和服务器端模型的推理效率和降低功耗的同时，提升了模型质量。

我们使用量化感知训练（QAT）结合可学习的权重剪裁和权重初始化的新型组合，将设备端模型压缩至每权重 2 位（bpw）。服务器端模型则使用了一种名为自适应可扩展纹理压缩（ASTC）的基于块的纹理压缩方法，尽管 ASTC 最初是为图形流水线设计的，但我们发现它同样适用于模型压缩。ASTC 解压缩通过苹果 GPU 中的专用硬件组件实现，使得权重可以在不增加额外计算开销的情况下进行解码。

对于这两种模型，我们将嵌入表的权重量化为 4 位------对于设备端模型，使用联合训练与基础权重结合的 QAT 方法；对于服务器端模型，则使用后训练量化。我们还将 KV 缓存的权重量化为 8 位。然后，我们使用额外的数据训练低秩适配器，以弥补这些压缩步骤造成的质量损失。通过这些技术，我们观察到一些轻微的质量下降，甚至有一些小的改进，例如，设备端模型在 MGSM 上约 4.6% 的质量下降，在 MMLU 上 1.5% 的质量提升；而对于服务器端模型，则在 MGSM 上 2.7% 的质量下降和 MMLU 上 2.3% 的质量下降。

	设备端	服务器端
解码权重	2-bpw 通过 QAT	3.56-bpw 通过 ASTC
嵌入层	4-bit 通过 QAT	4-bit 后训练
KV 缓存	8-bit	8-bit
适配器恢复	是	是的

表 1. 设备端与服务器端基础模型的压缩比和比特率。

基础模型框架

新的基础语言模型框架为开发者提供了访问机会，可以使用 ~3B 参数的设备端语言模型开始创建自己的可靠且生产级别的生成式 AI 功能。Apple 智能的核心 ~3B 语言基础模型在多种文本任务上表现出色，如总结、实体提取、文本理解、润色、简短对话、生成创意内容等。它并不是为了处理通用世界知识的聊天机器人。我们鼓励应用开发者使用此框架来构建符合其应用需求的功能。

我们框架的亮点是通过称为引导生成的受限解码直观的 Swift 方法。使用引导生成，开发人员可以通过在 Swift 结构体或枚举上添加@Generable宏注解，直接与丰富的 Swift 数据结构进行交互。这得益于模型、操作系统和 Swift 编程语言的垂直集成。它始于 Swift 编译器宏，将开发者定义的类型转换为标准化的输出格式规范。在提示模型时，框架会将响应格式注入提示中，由于在专门设计的带有引导生成规范的数据集上进行了后训练，模型能够理解并遵循这些规范。接下来，操作系统守护进程采用高度优化且互补的受限解码和推测解码实现，以提高推理速度，同时提供强大的保证，确保模型的输出符合预期格式。基于这些保证，框架能够可靠地从模型输出中创建 Swift 类型的实例。这简化了开发者的体验，让应用开发者可以编写更简单的代码，同时利用 Swift 类型系统进行支持。

工具调用为开发者提供了自定义 ~3B 模型能力的权力，通过创建工具来为模型提供特定类型的信息源或服务。

该框架在工具调用方面的做法基于引导生成。开发者提供一个简单的 Tool Swift 协议实现，而框架会自动并最优地处理并行和串行工具调用的潜在复杂调用图。通过在工具使用数据上进行模型后训练，提高了该框架功能的模型可靠性。

我们精心设计了框架，以帮助应用程序开发者充分利用设备端模型。对于需要教会约 30 亿参数模型全新技能的专门应用场景，我们还提供了一个 Python 工具包，用于训练排名为 32 的适配器。由工具包生成的适配器完全兼容基础模型框架。然而，适配器必须在每次更新基础模型版本时重新训练，因此在充分探索基础模型的能力之后，应考虑将其用于高级应用场景。

评估

我们使用人工评分员在离线环境中对设备端和服务器端的模型进行了质量评估。我们评估了标准的基础语言和推理能力，包括分析推理、头脑风暴、聊天、分类、封闭问题和答案、编程、创造性写作、提取、数学推理、开放问题和答案、重写、总结以及工具使用。

随着我们扩展了模型支持的语言和区域，我们也扩展了评估任务集，使其针对特定区域。人工评分员评估模型生成的响应是否符合该区域用户的本地语言习惯。例如，一个模型在英国用户提出关于体育的问题时，应该知道"足球"比"足球"更符合当地的语言习惯。评分员可以标记模型响应中的多个问题，包括未本地化的术语或不自然的语句。针对特定区域的评估使用了与美国英语类似的分类标准，但排除了数学和编程等技术领域，因为这些领域大多具有地域中立性。

我们发现，我们的设备端模型在所有语言中都优于稍大的 Qwen-2.5-3B，并且在英语方面与更大的 Qwen-3-4B 和 Gemma-3-4B 竞争。我们的服务器端模型在与 Llama-4-Scout 的对比中表现良好，后者在总大小和活跃参数数量上与我们的服务器模型相当，但在与更大的模型如 Qwen-3-235B 和专有的 GPT-4o 的对比中则处于劣势。

文本响应的人工评估

图 3：在对比苹果基础模型与公开可访问模型的文本响应侧边栏评估中，用户偏好响应的比例。结果按 3 个区域组呈现，这是评估苹果智能国际化的一个视角。例如，英语（非美国）包括英国英语和加拿大英语等。PFIGSCJK 指的是葡萄牙语、法语、意大利语、德语、西班牙语、简体中文、日语和韩语。

随着我们模型支持扩展到图像模态，我们使用了一组图像-问题配对的评估集来评估图像理解能力。该评估集包含与文本评估集相似的类别，以及如信息图等图像特定类别，这些类别挑战模型对图文丰富的图像进行推理。我们将设备端模型与类似规模的视觉模型进行了比较，包括 InternVL-2.5-4B、Qwen-2.5-VL-3B-Instruct 和 Gemma-3-4B，将我们的服务器模型与 Llama-4-Scout、Qwen-2.5-VL-32B 和 GPT--4o 进行了比较。我们发现，苹果的设备端模型在与更大的 InternVL 和 Qwen 模型的比较中表现良好，并且在与 Gemma 模型的竞争中表现相当，而我们的服务器模型在不到一半的推理 FLOPS 下表现优于 Qwen-2.5-VL，但在 Llama-4-Scout 和 GPT--4o 方面略逊一筹。

图像响应的人工评估

图4：在将苹果基础模型与可比模型的图像响应进行并排评估时，偏好响应的比例。

除了评估基础模型的一般能力外，还会对适配器进行特定功能的评估。例如，考虑基于适配器的视觉智能功能，该功能可以从传单的图片中创建一个日历事件。为此，收集了一个广泛的环境设置、相机角度和其他具有挑战性的场景下的传单样本集。这些样本用于评估模型从传单中准确提取信息（包括日期和地点）的能力，以正确创建日历事件。

负责任的人工智能

Apple Intelligence 在每一步都体现了我们的核心价值观，并建立在领先行业的隐私保护基础上。此外，我们还制定了负责任的人工智能原则，以指导我们开发人工智能工具及其底层模型。这些原则贯穿于使 Apple Intelligence 成为可能的架构的每一个阶段，并将功能和工具与专门的模型连接起来：

赋予用户智能工具： 我们识别 AI 可以在哪些方面负责任地使用，以创建满足特定用户需求的工具。我们尊重用户如何使用这些工具来实现他们的目标。
代表用户： 我们构建高度个性化的產品，旨在真实地代表全球用户。我们不断努力避免在我们的 AI 工具和模型中延续刻板印象和系统性偏见。
精心设计： 我们在设计、模型训练、功能开发和质量评估的每一个阶段都采取预防措施，以识别我们的 AI 工具可能被误用或导致潜在危害的方式。我们将借助用户反馈，持续监控并主动改进我们的 AI 工具。
保护隐私： 我们通过强大的设备端处理和革命性的基础设施（如私有云计算）来保护用户隐私。在训练基础模型时，我们不会使用用户的私人个人信息或用户互动数据。

这些原则贯穿于整个产品开发周期，指导我们的产品设计、政策、评估和缓解措施。作为对负责任的人工智能的承诺的一部分，我们继续识别并缓解基础模型使用过程中固有的风险，如幻觉和提示注入的易感性。我们的安全分类法帮助我们识别需要谨慎处理的敏感内容。

为了评估 Apple Intelligence 的安全性，我们在部署前对基础模型及其每个使用模型的功能进行了评估。对于基础模型，我们结合了内部和外部的人工评估与自动评分，并将我们的模型与外部模型进行基准测试进行比较。我们构建了针对性的安全评估数据集，以评估基础模型在摘要、问答和头脑风暴等任务上的表现，特别是针对高风险和敏感内容。对于每个功能，我们设计了专注于用户风险的数据集，以具体识别不希望出现或意外的结果，并测试质量问题在应用于敏感应用特定内容时可能产生的影响。例如，我们在设计新的基础模型框架及其支持资源时，特别注意了提高应用生成式 AI 安全性的问题。该框架内置了安全护栏，以减轻有害模型输入和输出的风险。为了帮助应用设计师和开发者将符合其应用特性的 AI 安全融入其中，我们创建了教育资源，例如新的《负责任 AI 原则生成式 AI 人机界面指南》。

随着我们将功能扩展到新的语言，我们扩大了在不同地区和文化中的安全表示，并继续改进以适应用户广泛的文化和语言多样性。除了遵守当地法律法规外，我们还利用高质量的外部代表性数据源，并与内部和外部的法律、语言和文化专家合作，同时参考以往产品决策的先例，以确保我们的方法在语境上是尊重和相关的。为了设计多语言使用的缓解步骤，我们从基础模型层面的多语言后训练对齐开始，然后扩展到特定功能的适配器，这些适配器整合了安全对齐数据。此外，我们还扩展了拦截有害提示的护栏模型，使用了特定语言的训练数据，同时保持多语言适配器。我们开发了定制化的数据集，以减轻模型输出中的文化特定风险和偏见及刻板印象。同样，我们利用机器翻译和目标合成数据生成等工具扩展了多语言和区域的评估数据集，并由母语使用者进行了润色。最后，我们在各个功能上进行了人工红队测试，以识别每个区域特有的风险。

我们不断收集用户反馈并主动改进功能。例如，在"图像游乐场"中，用户可以通过点击"👍"或"👎"来对生成的图像提供反馈，并可添加评论。应用开发者也可以通过提供反馈。用户和开发者的反馈、评估数据以及其他指标帮助我们不断改进 Apple Intelligence 功能和模型。

结论

我们很高兴让苹果智能的核心语言基础模型更加高效和强大，解锁了跨软件平台的一系列有用功能，并使全球各地的用户能够使用多种语言访问这些功能。我们还通过新的基础模型框架，直接为应用开发者提供设备端语言基础模型的访问权限。应用开发者可以利用免费的 AI 推理，并通过几行代码即可在应用中添加文本提取和总结等能力。我们最新的基础模型在每一步都融入了我们的核心价值观，比如对隐私的承诺，以及负责任的人工智能方法。我们期待在未来的技术报告中分享更多关于语言基础模型更新的细节。