9月16日,掘力计划第 24 期线上技术沙龙邀请到张广勇老师做客,为大家带来题为《有道子曰大模型落地实践》的演讲,张广勇是网易有道AI部门高性能计算技术负责人,10余年高性能计算从业经验。2018年加入网易有道,负责大规模分布式训练性能优化、基于云侧GPU和端侧NPU、DSP等平台AI推理引擎开发和性能优化。团队负责的AI引擎在有道词典/翻译、有道词典笔、听力宝、学习机等多款产品中上线。
本场分享围绕大模型落地的挑战、大模型推理方法以及有道子曰大模型在教育领域的落地应用三个方面进行详细介绍和探讨。首先,我们将了解大模型落地所面临的挑战;接着,介绍大模型推理的方法和技术;最后,分享有道子曰大模型在教育领域的落地。
第一部分: 大模型 落地挑战
大模型的发展带来了更多的参数和更高的存储、计算需求。训练大模型面临着高昂的成本,而推理大模型也面临着延迟高、成本高的问题。本节将介绍大模型落地所面临的挑战。
模型规模和存储需求的增长
随着大模型的发展,模型的规模和参数量呈指数增长,对存储空间和计算资源的需求也急剧增加。使用较大的数据类型(如FP16)存储模型会占用更大的存储空间,而模型的训练和推理都需要将参数存储到内存或显存中。这样就导致存储空间的需求大大增加,而显存的大小是有限的,无法容纳大规模的模型。
训练和推理的计算成本
训练大模型需要大量的计算资源,包括高性能的计算设备和大规模的分布式训练。训练成本很高,即使使用云平台也需要巨额的费用。而在推理阶段,由于模型规模的增大,推理的计算成本也变得很高。这就需要寻找高性能、低成本的推理引擎来解决落地的问题。
大模型的应用场景
尽管发布了许多大模型,但实际上能够真正落地的应用并不多。大模型的应用需要与具体的场景相结合,解决业务中的问题,为用户创造价值。因此,大模型的应用需要与业务结合,解决业务中的痛点,并提供商业模式,为公司和用户带来价值。
第二部分:大模型推理方法
为实现高性能的大模型推理,我们基于开源的FasterTransformer框架进行了优化。
量化计算的优势
量化计算是一种常用的技术,可以在一定程度上减少存储空间和提高计算效率。通过使用较低精度的数据类型,可以减少存储空间的需求,并提高计算效率和存储效率。量化计算可以在存储和计算两个方面带来好处,同时还可以提高算力和减少存储带宽的需求。
多卡并行和 组 Batch
对于大模型来说,单卡往往无法满足需求,需要采用多卡并行的方式来提高性能。多卡并行可以降低延迟,但也会增加成本。在多卡并行中,可以采用胎生并行和拍不烂并行的方式,根据具体需求选择合适的方法。此外,组Batch的使用可以提高囤土,进一步降低成本。
优化方法的实例
张广勇老师给出了一些大模型在教育领域的落地应用的实例。其中包括虚拟人口语教练、翻译和AIbox。这些应用展示了大模型在不同场景下的应用和优化方法,以及它们为用户带来的价值和效果。
第三部分:有道子曰 大模型 在教育领域的落地
张广勇老师介绍了有道子曰大模型在教育领域的落地应用。有道子曰是网易有道在大模型领域的一个项目,它结合了大模型的技术和教育场景,实现了大模型的落地。
大小模型结合的落地模式
有道子曰的落地模式是大小模型结合的方式。在具体的应用中,既有大模型用于生成对话内容,又有小模型用于语音识别和语音合成等功能。这样可以在保证质量的同时,降低成本和部署难度。
云端和端侧的结合
有道子曰的落地模式中,云端和端侧相结合,充分发挥各自的优势。云端可以提供更丰富的计算资源和服务,而端侧可以保护数据安全和降低延迟。这种结合可以实现更好的性能和用户体验。
应用案例和商业模式
有道子曰在教育领域落地的六大应用包括大模型翻译、文档问答、中文指导、语法精讲、虚拟人口语教练和AIbox。这些应用通过与教育场景结合,为用户提供高质量的智能服务。
结论
张广勇老师介绍了有道子曰大模型在教育领域的落地实践。大模型的落地面临着挑战,包括模型规模和存储需求的增长、训练和推理的计算成本以及应用场景的结合等。为了解决这些挑战,需要采用量化计算、多卡并行等优化方法和技术。
有道子曰在教育领域的落地应用展示了大模型的优势和效果。通过大小模型结合、云端和端侧结合等方式,有道子曰能够为用户提供高质量的智能教育服务。大模型翻译、文档问答、中文指导、语法精讲、虚拟人口语教练和AIbox等应用为用户提供了多样化的智能化教育体验。
随着大模型技术的不断发展和应用场景的扩大,有道子曰在教育领域的落地实践将进一步推动智能教育的发展,为用户提供更优质、个性化的学习服务。
掘力计划
掘力计划由稀土掘金技术社区发起,致力于打造一个高品质的技术分享和交流的系列品牌。聚集国内外顶尖的技术专家、开发者和实践者,通过线下沙龙、闭门会、公开课等多种形式分享最前沿的技术动态。