以前的纯推理场景,算力瓶颈主要在GPU侧,在Agent场景下,必须做CPU和GPU的协同调度,CPU能力跟不上,直接影响Agent的整体体验。从行业趋势也能看出:CPU与GPU的比例逐渐由 1:8变成 1:4、1:2,甚至 1:1。产生的Token不能被CPU及时消耗,就无法产生真正的价值。
------ 雷超vllm-ascend社区Maintainer
在Agent时代,需确保第一点:可审计性。人与Agent对话需可见、可打断,人最终兜底;第二点:记忆管理。人可干预、筛选和删除记忆,以保障人机协作可控对齐。这些属于广义沙箱范畴。这些都应属于广义上沙箱的范畴。
------ 胡昊openFuyao技术委员会主席
"Token之上、应用之下,全是 Agent",向上要与人对齐,向下要与算力对齐,这两个问题目前远未解决。中国是AI变现需求强烈,最终衡量价值的标准是Agent能否真正产生的生产力。写Agent很容易,落地生产问题重重,希望尽早融入openFuyao社区并结合生态伙伴探索变现。
------ 朱浩鹏openFuyao社区顾问/华为Fellow
原来K8s对CPU等资源的抽象,如今面临GPU、Agent等新主导负载,是否应将它们纳入抽象视野尚不明确,因此实验室选择先从CPU-GPU混部、亚秒级时隙对齐、异构算力网络等具象研究入手,再回头思考抽象问题。
------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授
当前Agent服务中CPU与GPU存在两大问题:一是信息差导致GPU要么提前丢弃中间结果、要么盲目等待,造成资源浪费;二是推理侧根据请求长短分离Prefill,但Agent对话轮数逐步增长,初始分错后重调度代价大。未来方向是打通CPU到GPU的信息通路,由CPU预测任务特征(如轮数、长度)并透传,指导GPU做针对性调度。
------ 杨珂 趋境科技技术专家/Mooncake核心开发者