2024 年伊始,中国电信开源星辰语义大模型-7B,成为第一家开源大模型的央企。同时开源的还有超 1T 的高质量清洗基础数据。
随着新一轮科技革命和产业变革加速演进,拥抱 AI 成为中国电信当下发展的核心战略之一。2019 年,中国电信在原数据中心基础上成立大数据和 AI 中心。2023 年 11 月,中国电信注资 30 亿元成立「中电信人工智能科技有限公司」(以下简称电信 AI 、AI 团队),牵头打造中国电信 AI 核心技术。同月,中国电信发布千亿级星辰语义大模型。
开源项目链接地址:
一、星辰语义大模型的开源方案
在千亿参数大模型发布之前,星辰语义大模型已经具备了多版本稳定可用的大模型基座,覆盖 3B、7B、12B 和 130B 等参数量级。大模型采用纯自研方式,AI 团队选用解码器架构( decoder-only )并在模型维度做了一些创新和改进。经过数十版模型训练与优化,模型的稳定性和推理速度都得到了明显提升。
根据开源服务的对象不同,星辰语义大模型的开源方案也分两种------对内方案和对外方案。对外方案中,7B 模型在 Gitee 和 Github 同步开源,支持商用。对内方案中,开源对象包括 3B、7B 和 12B 模型。代码在研发云进行托管。模型使用二方包方式进行托管,权限采用项目申请关联方式。
开源的模型数量和时间有所不同,但开源内容并无区别。比如,提供基础模型以及基于相应版本的对话模型、不仅支持传统的全量参数更新还支持 LoRA 等只更新部分参数的高效微调方法、支持 deepspeed 微调、支持 int8、int4 量化和昇腾卡训练推理。
长文本处理是星辰语义大模型的一个亮点。开源模型支持外推长度达 96K,有助于模型在训练与推理阶段捕获更多上下文信息,特别是在引入外部知识做搜索增强的应用场景。
同时开放的还有超 1T 高质量清洗的基础数据,是由星辰大模型预训练语料中抽取出的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等媒介,数据集大约公开了 2.7 亿条数据,由纯中文文本构成。据电信 AI 透露,这些数据在 7B、12B 还有未来开源的千亿级大模型都会用到。
LoRA和全参数微调的训练能力的支持情况。
二、星辰语义大模型的能力展示
这次最先开源的星辰语义大模型-7B 也是中国电信星辰大模型矩阵的重要组成部分。除了语义大模型,星辰大模型还包括星辰视觉大模型,星辰多模态大模型以及星辰语音大模型。
星辰多模态大模型主要聚焦提升图文生成、图文理解能力,训练了超过 12 亿各种风格数据,支持近 20 种绘画风格,中文意象理解生成能力提升 30%,语义细粒度生成效果提升 25%。
星辰语音大模型基于数十万小时语音数据进行训练,具备精准的多语种/方言语音识别、语音实时自定义敏感词检测、超自然多音色语音生成和编辑、声音匿名等多项语音能力,支持智能会议、智慧办公、智能客服、智能语音机器人等多场景解决方案。
星辰视觉大模型基于亿级规模数据,通过多任务协同训练,获得工信部重点实验室评选的 2023 年大模型研发应用和工具平台优秀案例,通过星河平台在 20 省部署核心算法,算法日均调用量达 3.3 亿次。
星辰大模型矩阵。需要注意的是,星辰语义大模型-3B并不在开源的对外方案中。(机器之心制图)
基础能力是否能达到客户预期是大模型落地的主要挑战,星辰语义大模型可以通过 zero/few-shot 低成本方式适配各种任务。星辰语义大模型还拥有内容创作、语言理解、逻辑推理、知识问答以及包括代码生成、代码翻译和测试用例生成等代码辅助能力。
星辰语义大模型通用能力一览。
星辰语义大模型通用能力展示。
不过,大模型就像一个强大但没有说明书的机器,谁能驾驭好 prompt,谁就能激活大模型的巨大潜力。因此,星辰语义大模型支持超过 100 个 prompt 模版任务(还在持续增加),涉及文本生成、问答对话、编程、翻译等多个场景,企业既可以直接调用,也可以借鉴思路改写。
prompt 模板展示。为帮助用户更好地激发模型潜力,星辰语义大模型支持超过100个 prompt 模版任务,而且数量还在持续增加中。
由于一共收集了 25T tokens 数据以及超过 20GB 主流意识形态数据,大模型在长文写作、逻辑推理、百科问答以及代码辅助等场景下均有优异表现,在中国主流意识形态方面的表现尤为突出。
以长文写作为例,开源大模型不仅支持领导讲稿、党建材料、周报、申请材料、行业分析等近 20 类长文写作,还支持 PPT 大纲、总结、计划、调研等文本生成任务。公文写作也是中国电信内部比较有代表性的应用场景,星辰语义大模型比国内众多大模型表现更好。
长文写作案例
除了公文写作,星辰语义大模型正依托 5G 消息为政务客户提供政务短信智能化多轮问答服务。融合了大模型的新一代智能客服系统,能够提供基于文档知识的应答能力,使得问题覆盖率达到 95% 以上,相比传统的智能客服能够更准确地回答用户问题,提供接近人工客服的服务体验。另外,大模型还能进行准确的客户服务总结,针对多通会话做整体的业务洞察。
值得一提的是,百亿级语义大模型商业化过程中面临的幻觉、外推窗口和多轮逻辑推理方面的挑战,在去年 11 月发布的千亿级星辰语义大模型身上得到了重点解决。其中,千亿级星辰语义大模型的长文本生成和长文理解性能分别提升了 30% 和 20% 。知识问答方面的性能提升了 18% 。逻辑推理、数学和代码能力等方面也实现了 10-15% 不等的性能提升。
除了通用能力,星辰语义大模型还有一套插件,增强自身落地场景的适应能力。
星辰语义大模型还有一套插件,增强自身落地场景的适应能力。
要真正改变实践中的一些工作流程和思路,提高效率,单纯依靠文字交互并不够,行业场景应用需要与多模态模型联动。星辰语义大模型支持对 CV、语音能力的调用,从而实现文生图和个性化语音服务。
鉴于企业用户都有自己的无形资产,包括作为知识工程积累的数据库、知识库以及实际业务中研发的各类工具。透过调用数据库、知识库,星辰语义大模型能增强自己的行业知识,让服务更专业、更精准。借助思维链能力,星辰语义大模型可以调用甚至排列「串联」各种业务工具接口,为客户提供更专业、更自动化的服务。
除此之外,一些常见的插件调用也有支持。比如,借助思维链能力,星辰语义大模型支持用数学工具插件完成通常由多个推理步骤完成的复杂任务。为了让回答更具权威性和可信度,语义大模型可以通达对外知识的窗口------搜索引擎,检索外部信息(包括相对静态的政策、地图等信息,以及天气、日期、社会热点新闻等高度动态信息),旁征博引。
支持搜索引擎插件问答及引用来源标识。
三、三大关键因素,让语义大模型更接地气
作为运营商,中国电信入局大模型的优势不仅在于目标客户群体的储备体量惊人,更在于能够为他们提供广泛服务。目前,星辰语义大模型在中国电信内部以及对外企事业单位客户的业务上有较多应用场景,并取得了实质性的效果。
中国电信内部比较有代表性的两个大模型应用场景分别是公文写作以及网络故障分析。在对外部的项目中,星辰语义大模型提供的应用场景包括企业市场经营分析、政务公开咨询、医保民生诉求接待等。在这些场景下,星辰语义大模型强大的理解能力和意图理解能力,能够支撑更准确的业务决策。
电信AI 告诉我们,在模型维度,星辰语义大模型主要有三个方面的创新和改进,包括模型稳定性增强、创新位置编码以及创新激活函数。
据研发人员介绍,他们改进了 RoPE 位置编码方式,预训练阶段上下文训练长度达到 16K ,结合 NTK-aware 外推和 attention scaling 外推方式,算法大幅提升了模型外推能力。还有初始不同数据权重。通过多个小参数模型在不同权重组合数据集上学习,预测出最佳数据配比超参阶段性数据调控:模型分阶段学习,每个阶段根据不同类型数据 loss 反馈,自动调控下阶段数据配比超参优点:模型可以更好的学习不同难度数据集上的知识。另外,基于关键信息的多轮 mask loss 学习机制大幅提升模型问答效果基于 DPO/RRHF 模型偏好对齐调优策略。
在面向产业应用过程中,为了增强模型的商用性,千亿级星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强技术、多轮知识记忆和强化技术等手段,幻觉率下降了 40%。
在中国主流意识形态方面的价值对齐上,星辰语义大模型也表现突出。《生成式人工智能服务管理办法(征求意见稿)》明确要求,利用生成式 AI 生成的内容应当体现社会主义核心价值观。为此,电信 AI 收集了超 20 个官方媒体的 20G+ 主流意识形态数据,以及针对涉及国家主权、国家领导人、政治倾向、黄赌毒、社会热点事件等数据的定向高质量标注。
在对齐偏好方向上,我们一方面收集和构建「全面且具有代表性」的排序数据的任务上,对指令微调阶段收集的大量指令采用向量化+聚类的方式,将指令分为不同的簇类,并从各个簇类中按照一定比例抽取具有代表性的指令集,再由标注人员构建相似的指令。研究人员解释说,这种方式不仅可以较为全面地覆盖人类指令,还能保证与微调阶段数据具有相同的数据分布,更有利于模型在对齐阶段的训练。
对于同一指令下的不同候选答案,AI 团队尝试分多次采集不同参数量,不同训练阶段的大模型的推理结果,再由标注人员进行标注,最终得到完整的基于人类偏好的排序数据。
在训练阶段,团队尝试了 PPO,RRHF,DPO 等多种基于人类偏好排序数据的训练策略,最终使用 DPO 在指令微调后的模型上进行训练,完成人类偏好对齐,大幅提升了模型生成答案的安全性和规范性。
语义大模型与核心价值观对齐的策略
除了算法层面的创新,数据和算力资源优势也成为星辰语义大模型优秀性能的重要支撑。
就国内数据市场而言,政府数据资源占全国数据资源比重超过 3/4,开放规模不足美国的 10%,个人和企业可资利用的规模更是不及美国的 7%。因此,具有私域属性的行业数据重要性就更为凸显。拥有庞大政企客户资源池的中国电信拥有这方面的先天优势。
为训练语义大模型,电信 AI 共收集了 25T tokens 数据,选取了 1.5T tokens 落到真实的训练,包含百科、书籍、司法、医药等多维度高质量数据。除了合作与采购的获取方式,超大数据集也离不开电信集团的业务优势。海量热线咨询对话数据、大量工单办理数据、产品和活动数据等也为大模型算法训练提供了坚实基础。
基于庞大的用户群体和丰富的业务数据进行训练和优化的大模型,能更好地理解和满足用户需求,发挥实际应用价值。比如,基于星辰语义大模型的星辰教育大模型,是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15 秒就能完成一篇中英文作文的打分、点评和改进建议。目前已在河南 1.2 万师生教学中应用并取得良好的效果。
不过,并非只要是金矿就可以练出高纯度金子,想要获得高质量数据集并不容易。为此,AI 团队也使用了不少「提纯」手段。他们通过 Knesey-Ney 技术进行困惑度计算,过滤低质量数据。使用 Minihash+Jaccard 技术对语料进行严格全局排重,并通过定制规则过滤广告、色情等无意义数据。经过严格清洗获得了 25T tokens 数据后,再结合小参数验证方法进行数据采样调整与配比优化,最后迁移大模型进行模型训练,有效提升了大模型基础语言理解能力。
据电信 AI 透露,他们还有一支几百人专业标注团队,人工标注出超千万级高质量问答数据集,涵盖了例如司法、代码、数学题、医药问答等各个任务、多个领域的数据集作为大模型的微调数据。
再来看看算力。过去 AI 应用里,很多训练的任务都是单卡或单机就能完成,在大模型时代,需要千卡、万卡来完成一个任务。这就需要构建智算集群,支持万卡级别的高速互联,并且支持各种异构算力,包括 CPU、GPU 等算力的高速互联。
谈算力,不能简单唯算力论。训练大模型类似火箭发射,都属于大规模系统构成,在算力效率、存储和网络等方面存在许多工程挑战。比如,高性能 GPU 卡多了,大量卡并行训练过程中很容易出现各种状况导致重启,拉低训练效率。如何在现有工程条件下保证大量的卡长时间稳定运行就极富挑战性。
电信 AI 不仅筹集了 A100、A800 和 910B 三个千卡集群,用于通用基础大模型训练,同时也是国内最早完成 910B 大模型适配的企业,已完成国内外主流显卡在大模型训练场景下的算子加速。
研发人员告诉我们,星辰语义大模型实际的预训练和微调是使用的微软 Megatron-Deepspeed 框架,综合了DeepSpeed框架中的ZeRO sharding、pipeline并行等技术,与 Megatron-LM 中的Tensor并行等技术。综合使用流水线并行、张量并行、数据并行的 3D 并行训练策略,配合混合精度训练、算子融合、后向重计算、零冗余优化器等训练加速和显存优化技巧,在千卡 A100 集群上达到 170+TFLOPS ,为理论巅峰算力的 54%。
大模型的炼丹步骤虽然都是公开一致的,但其中涉及很多算法及工程技巧都离不开优秀的研发团队。截至目前,电信 AI 员工人数约 800 人,研发人员占比达到 75%,平均年龄 31 岁,均为来自一线科技公司的资深工程师和来自国内外一流高校的应届生。
四、开源与播种
面对市场竞争,开源软件的免费使用不仅是有力的获客手段,低成本试错也有助于加速技术创新和产业落地。语义大模型涉及许多技术问题,单靠一家企业很难解决,可以通过开放技术,依靠社区力量共同解决,共享 IP,互惠互利。
未来,中国电信也将重点围绕开源来做建设,通过持续开源基础大模型,尽可能广泛地赋能更多的用户场景,扩展基础模型的能力边界。4 月,中国电信还将开源千亿级星辰语义大模型。面向下一阶段的竞争,中国电信在自研百亿和千亿基础大模型之外,还联合了北京智源人工智能研究院研发万亿级大模型,预计今年年中完成训练。据了解,电信万亿参数大模型以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。
作为可能是迄今为止最为复杂的系统性软硬件工程,大模型落地也面临不少挑战。数据采集成本很高,尤其是高质量数学、代码等数据更难获取。在 GPU 短缺的大背景下,如何有效地将算力用好是每家企业都要面临的挑战。还有高昂的维护成本,无论是硬件和软件环境都需要专业领域内人士的支撑。
不少人说,2024 年会是开源大模型爆发之年。也有数据显示,开源 AI 模型正走在超越专有模型的路上。开源种子已在年初播下,接下来便是平整土地,静候百花齐放。