2023年11月11日,在北京市举办的掘力计划第27期活动汇聚了众多技术专家和行业领袖,共同探讨和分享最新的人工智能技术成果。本期活动的主题是《大模型的实现原理和应用》,特别聚焦于大型人工智能模型的技术实现、应用前景以及它们在未来技术领域中的重要性。
本次活动的分享讲师昆仑万维天工商业化团队产品总监陈岩峰带来了题为《昆仑万维天工大模型技术实践与探索》的精彩演讲。陈岩峰讲师拥有密歇根州立大学统计学硕士学位,曾在美国著名金融机构 EPIC LP 工作,并管理1.5 亿美元规模的金融产品,拥有 6 年的 AI 算法和产品相关工作经验,在昆仑万维负责天工大模型的商业化应用和模型开源运营。
在演讲中,陈岩峰讲师详细介绍了昆仑万维最新发布的"天工" Skywork-13B 开源大模型: Skywork-13B-Base,并强调了它们在商业化应用方面的潜力。此外,他还分享了昆仑万维在国内首创的 AI 搜索产品------"天工 AI 搜索"的开发过程和实际应用案例。这些成就代表着昆仑万维在AGI 和 AIGC 领域的显著进展。
视频回放地址:live.juejin.cn/4354/289912...
昆仑万维介绍
作为一家 A 股上市公司,昆仑万维以其卓越的互联网出海业务而闻名,在全球 70 多个国家和地区开展业务,并在 20 个以上的国家设有自己的海外团队。公司自 2020 年起便开始着手研发大型模型技术,并在 2023 年 4 月推出了天工大模型。
昆仑万维在大型模型技术的商业化应用方面取得了显著成就。公司的商业化路径涵盖了AI 大模型、AI 搜索、AI 游戏、AI 音乐、AI 动漫和 AI 社交等多个业务领域,构成了一个全面的业务矩阵。特别值得一提的是,昆仑万维的天工大模型不仅结合了开源社区的技术实践,而且在工业界获得了成功的应用。此外,公司在人工智能领域的AGI(通用人工智能)和 AIGC(人工智能内容生成)方面也进行了深入的布局和探索。
天工 Skywork-13B 开源模型技术实践
陈岩峰讲师接下来介绍了天工 Skywork-13B 大模型的技术架构和特点,以及模型的训练和评估过程。
模型结构与优化
Skywork-13B 大模型基于 LLAMA 架构,这一架构优化了模型的预训练效率。在其结构上,昆仑万维做出了创新性的调整,如采用 RMSNorm 代替 LayerNorm。RMSNorm(Root Mean Square Layer Normalization)相比于 LayerNorm 的主要优点是计算效率更高,因为它不需要计算均值,只需计算输入的平方的均值,这样减少了计算复杂度。
此外,RMSNorm 还能在一些场景下提供与 LayerNorm 相似或更好的性能,并使用 SwiGLU 激活函数。相比于传统的 ReLU,SwiGLU 激活函数能够提供更好的性能,其通过结合门控线性单元(GLU)的动态门控机制,能够更有效地捕捉和利用输入数据中的复杂模式。
Skywork-13B 大模型还采用了相对位置编码(RoPE),这与传统的 Transformer 模型中使用的绝对位置编码有所不同。相对位置编码 RoPE 可以更有效地处理长距离依赖,这对于理解和生成长文本尤为重要。
数据处理
在训练数据的选择上,昆仑万维采用了多语言的数据集,选择了 52.2% 英文数据、39.6% 中文数据及 8%代码数据,这样既兼顾了中英文语言能力,又保证了一定的代码生成能力。为保证数据质量,天工研发团队采取了严格的质量控制和过滤措施,针对训练数据中的低质量部分,研发团队开发了基于 BERT 的文本分类模型,通过识别涉黄、涉政等文本自动进行标注和过滤。特别是在代码数据方面,由于早期数据质量问题,公司采取了降采样策略。
模型训练
训练过程中,昆仑万维采用了自有的评估方法,以提升训练效率并确保模型的泛化能力。他们提出了多领域数据损失评估方法,通过简单的交叉熵损失函数,为模型提供了标准化的评估指标。此方法不仅提高了评估效率,而且更准确地反映了模型的泛化能力。
Skywork-13B 大模型采用了两阶段的训练方法。第一阶段着重通用能力的建设。这一阶段使用了两个 session,第一个 session 训练数据量在 0 到 2T,第二个 session 训练数据量在 2T 到 3.1T。在第一个 session 中,模型的训练并未达到饱和,但随着更多数据的清洗完成,研发团队启动了第二个 session。当训练数据量达到 3.1T 时,各项指标基本饱和,模型的英文综合能力明显优于其他开源模型。这标志着第一阶段通用能力建设的完成。
第二阶段训练的目标是在保持通用能力的前提下,提升模型在特定领域的数据上的表现。研发团队采用了适当比例的垂直领域数据进行增量训练。他们发现,如果直接将含有数学、科学类知识的 SkyPile STEM 数据与主数据集 SkyPile Main 简单合并进行训练,由于数据量级差异达 1000 倍,STEM 数据很容易被主数据集"淹没",起不到增量训练的效果。而简单采用上采样的方法加入 STEM 数据,也面临训练效果难以控制的风险,可能对模型的通用能力造成负面影响。
为此,研发团队经过比较,决定仅使用 20% 的 SkyPile STEM 数据加入增量训练,与 80% 的主数据集结合使用。实验证明,这种比例可以在保持验证集损失不变的前提下,提升模型在特定领域 Benchmark 上的指标。也就是说,通过控制数据配比,两阶段训练可以在保持通用能力的同时,提升模型的垂直领域表现。这种方法帮助研发团队有效地缓解了过度使用狭义领域数据可能对通用能力造成的负面影响。
昆仑万维商业化探索
昆仑万维在商业化方面进行了多方位的探索,既开发了支持大模型的产品,也尝试在多模态场景中应用大模型技术。
昆仑万维基于自主研发的天工系列大模型,推出了国内首款融入大语言模型的 AI 搜索产品"天工 AI 搜索"。该产品通过理解用户搜索意图,直接返回精确的答案,实现了从信息到知识的简化,大大提高了搜索效率。与传统关键词搜索不同,天工AI搜索支持多轮交互式问答,可以持续追问细化问题;同时,它通过生成式搜索获得组织提炼后的答案,避免用户被冗余信息淹没。相比之下,传统搜索完成一次查询通常需要 2~3 分钟以上,而天工 AI 搜索只需数秒即可完成搜索知识的汇总与总结。该产品已经在各平台上线,拥有简洁的界面和拟人化交互形式。
在多模态应用方面,昆仑万维也进行了一系列探索。在游戏领域,其推出的结合大模型的游戏产品"ClubKoala",实现了高度定制化的玩家交互和游戏内容生成。在音乐领域,其开发的"MusicX Lab"模型可以根据不同国家和地区风格,自动生成音乐,并与全球150多家音乐公司合作。在动漫创作中,昆仑万维使用新型的图像-文本对齐技术,可以根据创作者提供的剧本,生成剧情画面连贯的漫画。
总体来看,昆仑万维在商业化过程中,不仅开发了支持大模型的产品,也尝试将大模型技术应用到更多模态场景中,以丰富产品形态和应用领域。这些探索为大模型技术走向实际应用提供了有益的实践经验。
总结与展望
昆仑万维在人工智能领域具有多年的技术积累,尤其在大模型技术的研发和应用方面处于国内领先地位。通过本次分享,我们看到昆仑万维不仅致力于大模型的学术研究,开源了多款自主研发的大模型,还在积极探索大模型技术在实际应用中的落地,如 AI 搜索、AI 游戏、AI 音乐等领域都取得了初步的成果。
昆仑万维开源的天工 Skywork-13B 大模型通过精心设计的两阶段训练流程,使模型既保持了强大的通用理解能力,又显著提升了特定任务的表现。此外,昆仑万维还设计了多领域数据损失评估方法,可以更好地指导模型训练方向,避免过度依赖特定任务的指标而损害通用能力。这些技术实践为后续大模型研发提供了宝贵经验。
展望未来,大模型技术仍处在快速发展阶段,模型规模持续增大,理解能力不断提升。与此同时,如何更好地评估模型的通用能力,避免模型偏离预期用途,仍然是一个关键的研究课题。此外,大模型技术最终要落地到实际应用中,才能真正发挥价值。如何将大模型技术与具体应用场景和用户需求相结合,设计出真正有用的产品,也需要业界共同努力。相信随着技术的进步和经验的积累,大模型必将在更多领域大放异彩,为人类社会进步提供新的动力。
掘力计划
掘力计划由稀土掘金技术社区发起,致力于打造一个高品质的技术分享和交流的系列品牌。聚集国内外顶尖的技术专家、开发者和实践者,通过线下沙龙、闭门会、公开课等多种形式分享最前沿的技术动态。