GAITC2025|张科:端云一体大模型推理应用实战

近期,2025全球人工智能技术大会(GAITC2025)于杭州盛大开幕,汇聚全球顶尖科学家、技术领袖及行业先锋,共同探讨人工智能技术产业化新趋势。京东零售AI Infra &大数据计算负责人张科受邀出席并在《行业大模型应用与发展》论坛发表演讲,首次深入介绍京东零售在端云一体大模型推理架构的实战经验与技术探索,并分享AI推理方向的未来发展思考。以下为张科分享实录,内容经编辑略有删减:

电商场景AI推理的挑战

大模型技术突飞猛进,大模型不仅是算法和算力的集合体,更是产业智能化的新底座,正在推动AI从"可用"向"好用、可控、可信"迈进。电商场景作为AI技术的应用场,逐步形成了三个主要的需求方向:Generative AI(如AI生成商品图、短视频、AI营销内容生成、AI数字人)、Agentic AI(如AI客服与售后管理、AI经营托管、AI仓配优化 、AI交互式推荐)、Physical AI(如自动分拣机器人、智能空间、自动驾驶)。在复杂场景与多元需求的驱动下,AI推理正面临一系列技术挑战,包括输入类型多样、用户需求优先级不同;端(如手机)和云(服务器)之间任务分配难、协同优化难;模型压缩和性能优化等问题。

京东零售联合清华大学推出 xLLM 端云一体大模型推理架构

2022年起,京东与清华大学开启深度合作,在计算机视觉、机器学习、推荐系统、大数据等领域联合开展了十余项课题研究。今年双方进一步拓展合作边界,新增大模型推理引擎国产化、多模态推荐大模型等前沿方向,聚焦整合技术资源与学术优势,共同探索前沿技术创新,推动科研成果向实际生产力转化。自今年初大模型推理引擎国产化合作开展以来,京东零售和清华大学一起在大模型量化压缩、端-云协同推理引擎等方向联合攻坚,并提出"xLLM 端云一体大模型推理架构",以解决推理引擎的性能优化问题、助力大模型技术在复杂电商环境的规模化落地。通过端云联合部署,实现高效协同推理。利用终端用户数据和反馈,云端模型持续优化并实时更新终端轻量化模型,形成闭环进化系统,提高模型在实际场景中的性能。该架构还可适应不同终端设备资源限制,实现大模型更广泛复用。 xLLM端云一体大模型推理架构中的技术探索还表现在以下4个方面:1.自适应调度优化:动态调整Prefill与Decode节点比例,实现动态的自适应弹性PD能力。2.在离线统一调度:根据负载实时调度在离线请求,实现请求级别的在离线混部的能力。3.多层流水线执行:最大化资源利用率,通过调度和模型执行异步流水线、不同Layer的计算和通信异步流水线、不同计算单元、访存并行流水线的多层流水线执行。4.端云Agent协同:端Agent处理简单任务与隐私数据,云 Agent 不断反馈优化,提升端 Agent 能力,并基于高效 Agent 协议协同。目前该推理架构已经在内部多个场景应用,在可交互式导购、商品对比、商品总结、购物建议等环节,大幅提升了响应速度,节省了计算成本,同时还有效助力了用户的活跃度。在核心的商品理解环节,也有效提升了大模型的理解能力和信息处理能力,模型推理成本最高可节省70%。

AI推理方向的未来思考

在现有技术探索的基础上,未来京东还将持续加大对国产 AI 基础设施的投入力度,着力构筑自主可控的技术生态体系。京东将重点聚焦三大前沿方向展开深入研究:破解规模、效率、成本的 "不可能三角"、推进(端云)多智能体异步自进化、端云分布式推理的可解释和可调试。通过上述布局,京东希望逐步实现主流国产芯片的深度适配优化,并基于自主研发的大模型推理框架,推动技术效率达到国际先进水平。也希望和业界同行共探技术边界、一起前行。

相关推荐
飞哥数智坊几秒前
5分钟搞定可灵API联调:Cursor秒转cURL为Java代码
人工智能
jndingxin15 分钟前
OpenCV CUDA模块设备层-----反余弦(arccos)运算函数acos()
人工智能·opencv·计算机视觉
AI量化投资实验室1 小时前
十年年化50%+的策略如何进化?兼容机器学习流程的量化策略开发,附python代码
人工智能·python·机器学习
机器之心1 小时前
天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课
人工智能
程序员阿超的博客1 小时前
Java大模型开发入门 (13/15):拥抱官方标准 - Spring AI框架入门与实践
人工智能·langchain·大模型·spring ai·langchain4j
鲲志说1 小时前
告别繁琐配置!用 Trae Remote-SSH 轻松远程开发和部署
人工智能·ai编程
鲲志说1 小时前
零代码开发者的狂欢:用Trae 3分钟复刻「2048」秀翻全场
人工智能·ai编程
中國龍在廣州1 小时前
ChatGPT上瘾,大脑萎缩47%!?
人工智能·科技·机器学习·chatgpt·机器人
新加坡内哥谈技术1 小时前
OpenAI 公布《走向理解与预防失准泛化:由“角色特征”驱动的突现性失准》研究总结
人工智能
云空2 小时前
《Whisper :说明书 》
人工智能·深度学习·神经网络·语音识别·机器翻译