伴随着人工智能技术的飞速发展,AI大模型成为当下全球科技竞争的新高地。当前,大规模基础模型在多个领域取得突破,但因为参数量规模大、计算需求高和功耗等问题,也对模型的训练、部署带来了极大的挑战。那么要如何解决大模型在资源受限环境下的应用难题?如何能有序、低成本地搭建大型模型部署和推理?
由英特尔助力,稀土掘金技术社区将于 6 月 28 日至 29 日在北京富力万丽酒店举办 「2024 稀土开发者大会」 。届时,未来速度 CEO 秦续业 将作为出品人带来 「大模型部署与推理」 分论坛,该分论坛将聚焦当下知名企业的大模型部署,为国内大模型领域的学者和业界人员提供一个高质量的研讨平台,共同探索如何降低大模型的计算成本、提高性能,以及实现企业大模型的高效微调、部署和推理。
199元限量超值票火热售卖中!还有免费 AI展区&掘金动手实验室专属票! AI展区企业包含商汤,月之暗面,宇树(unitree)、Jina AI、科大讯飞、硅基流动、零一万物、Zilliz、扣子和字节cloud IDE等! 点击购票:conf.juejin.cn/xdc2024/?ut...
分会场议程
演讲嘉宾:乔显杰 作业帮 AI Infra 架构师
本科毕业于清华大学,博士毕业于中科院。曾就职于美团、阿里、快手等公司,专注 GPU 性能优化领域。目前在作业帮负责大模型工程优化相关工作。
演讲主题:作业帮大模型推理加速实践
大语言模型(LLM)技术的发展给教育行业带来了革命性的变革,随着 LLM 的大规模使用,推理效率和成本成为限制 LLM 使用的重要因素。本次分享将介绍作业帮在 LLM 推理加速方面的业务实践,包含业务背景、技术挑战、LLM 推理优化介绍、实践分享这几个方面。
演讲大纲:
-
大模型在作业帮的使用场景
-
大模型推理技术的挑战 2.1 用户体验和成本控制的矛盾
-
LLM 推理优化手段 3.1 常见LLM 推理优化的手段 3.2 量化技术
-
实践分享
4.1 不同规模的模型,不同型号的 GPU,不同量化方式的 E2E 性能比较
-
总结展望
演讲嘉宾:蒋镈 BentoML Software Engineer
Open-source and cloud product engineer at BentoML, dedicated to deploying and scaling machine learning-based AI applications in the cloud, ensuring efficient, reliable, and scalable solutions. Former product engineer at Douban.
演讲主题:AI 模型部署的规模化实践
部署企业自己的开源模型服务将为习惯传统工作负载的 Infra 团队带来扩展挑战,需要确保模型有效地随生产流量扩展,在高峰时期能保持无缝体验。此外,大型模型所需的算力资源相对稀缺,需要进行成本管理。数以百计的团队在开源模型部署工具 BentoML 的帮助下完成了可扩展、成本可控、适应团队的模型部署。本次我们将分享BentoML 在这个过程中的心得。
演讲大纲:
-
背景介绍
-
冷启动:云资源调配、容器镜像拉取、模型加载
-
服务扩缩容:指标、请求队列
-
总结
演讲嘉宾:缪金成 英特尔高级软件开发工程师
就职于英特尔数据中心与人工智能事业部,主要从事深度学习及大模型在至强处理器上的软件优化工作。在 xFasterTransformer 开源社区中负责新模型引入和低比特量化的开发与优化。
演讲主题:英特尔至强平台的大模型推理加速解决方案
xFasterTransformer 是针对 X86 平台上的大型语言模型(LLM)的极致优化的解决方案。 xFasterTransformer 能够实现高弹性跨节点分布式运行,以支持更大模型的推理。此外,它还提供 C++ 和 Python API,涵盖从高级到低级的接口,使其易于采用和集成。
演讲大纲:
-
第四代英特尔至强可扩展处理器简介 1.1 至强算力篇:从向量到矩阵 1.2 至强内存篇:HBM
-
至强平台 LLM 推理加速引擎 xFT 2.1 xFasterTransformer 开源项目 2.2 xFT软件架构及特点 2.3 xFT性能数据
-
xFT应用演示
演讲嘉宾:王锡贵 英特尔人工智能解决方案工程师
博士毕业于中国科学院计算技术研究所,计算机系统结构专业。 专注于于 AI 解决方案、计算机异构计算和系统性能优化。
演讲主题:英特尔基于 Transformer 的工具集加速 LLM
为了提供更好的基于 Transformer 的生成式 AI 和大型语言模型体验,英特尔提供了一个开源的全面工具包 ------ Intel Extension for Transformers。它可以在英特尔至强/酷睿 CPU、GPU 和 Gaudi 处理器上,通过几行代码轻松优化以及量化 LLM 推理。对比英特尔酷睿 CPU Llama.cpp ,Llama-7B 性能提升了约 4.4 倍。用户还可以快速创建以 LLM 为中心的 AI 应用程序,如聊天机器人、RAG、Copilot 等等。
演讲大纲:
-
Intel Extension for Transformers (ITREX) 功能和特点
-
ITREX 支持的硬件平台和软件环境
-
ITREX 功能模块介绍 3.1 量化 3.2 Neural Speed 3.3 Neural Chat
演讲嘉宾:秦续业 未来速度 CEO
拥有多年大规模 AI 和数据系统经验,长期担任大规模分布式系统的软件架构师。目前在未来速度担任联合创始人兼 CEO。未来速度的使命是让大规模 AI 触手可及,核心产品是 Xorbits 推理和数据平台。 在创立未来速度之前,在阿里云负责AI和数据生态方面的工作,主导并创立了 Mars 开源框架,收获 2.6k star 和全球超过 50 个贡献者。
演讲主题:Xinference:大模型从个人到企业级推理和部署平台
在本次演讲中,我们将探讨如何利用 Xinference,迅速在本地搭建大型模型推理服务,并深入了解如何利用流行的大模型推理技术和优化手段,以实现大型模型从个人应用向生产环境的顺利迁移。
演讲大纲:
-
大模型推理的基础知识
-
大模型部署和推理面临的现状和各种可能困难
-
现有的大模型推理和部署方案
-
Xinference 大模型推理和部署实践
演讲嘉宾:肖学锋 字节跳动智能创作 GenAI 优化负责人
字节跳动智能创作 GenAI 优化负责人,负责大模型的训练加速,模型算法加速,以及 服务端推理引擎等三个方向,在 CVPR、ICCV、ECCV、ICML、NeurIPS、ICLR、AAAI 等人工智能顶级会议上发表多篇文章。
演讲主题:扩散模型加速算法 Hyper-SD 一步成图技术解析
最近,扩散模型(Diffusion Model)在图像生成领域取得了显著的进展,但在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。为了解决这些问题,字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。该模型是一种新颖的扩散模型蒸馏框架,结合了轨迹保持蒸馏和轨迹重构蒸馏两种策略的优点,在压缩去噪步数的同时保持接近无损的性能,与现有的扩散模型加速算法相比,该方法有卓越的加速效果。
演讲大纲:
-
扩散模型的现状与挑战
-
扩散模型加速的常用蒸馏方法的优缺点:轨迹保持蒸馏、轨迹重构蒸馏
-
Hyper-SD 实现一步推流方法与原理 3.1 轨迹分段一致性蒸馏 3.2 人类反馈学习 3.3 一步生成强化
-
可视化效果与实时 Demo 演示
演讲嘉宾:蔡晟航 硅基流动机器学习工程师
OneFlow 深度学习框架主要贡献者,OneDiff 扩散模型加速库作者。
演讲主题:OneDiff:极致加速扩散模型,打造 AI 超级应用
在 AIGC 领域,扩散模型已成为推动创新的关键技术。OneDiff 作为一款扩散模型加速库,旨在通过先进的编译技术和 GPU 优化,显著提升这些模型的运行效率。OneDiff 解决了在高分辨率和复杂度不断提升的趋势下,如何保持模型推理速度的挑战。本次演讲将深入分析 OneDiff 的技术架构,展示其在实际应用中的成效,并讨论如何通过社区贡献进一步推动这一开源项目的发展。
演讲大纲:
- 扩散模型在 AIGC 领域的重要性
- OneDiff 的技术创新
- OneDiff 的实际应用案例
- OneDiff 的未来发展与社区贡献
分享本推文或论坛海报 到朋友圈/ 微信群/ 微博/ 抖音/ B站/ 小红书 等任一社交平台,将你的分享截图上传到活动问卷,我们会抽出「30位幸运儿」送出虎虎生金工卡套或解码系列皮革鼠标垫,抽出「30位幸运儿」送出稀土开发者大会线下门票~