Agent对今天的技术有什么具体要求?

openFuyao2026-06-05 8:43

以前的纯推理场景，算力瓶颈主要在GPU侧，在Agent场景下，必须做CPU和GPU的协同调度，CPU能力跟不上，直接影响Agent的整体体验。从行业趋势也能看出：CPU与GPU的比例逐渐由 1:8变成 1:4、1:2，甚至 1:1。产生的Token不能被CPU及时消耗，就无法产生真正的价值。

------ 雷超vllm-ascend社区Maintainer

在Agent时代，需确保第一点：可审计性。人与Agent对话需可见、可打断，人最终兜底；第二点：记忆管理。人可干预、筛选和删除记忆，以保障人机协作可控对齐。这些属于广义沙箱范畴。这些都应属于广义上沙箱的范畴。

------ 胡昊openFuyao技术委员会主席

"Token之上、应用之下，全是 Agent"，向上要与人对齐，向下要与算力对齐，这两个问题目前远未解决。中国是AI变现需求强烈，最终衡量价值的标准是Agent能否真正产生的生产力。写Agent很容易，落地生产问题重重，希望尽早融入openFuyao社区并结合生态伙伴探索变现。

------ 朱浩鹏openFuyao社区顾问/华为Fellow

原来K8s对CPU等资源的抽象，如今面临GPU、Agent等新主导负载，是否应将它们纳入抽象视野尚不明确，因此实验室选择先从CPU-GPU混部、亚秒级时隙对齐、异构算力网络等具象研究入手，再回头思考抽象问题。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

当前Agent服务中CPU与GPU存在两大问题：一是信息差导致GPU要么提前丢弃中间结果、要么盲目等待，造成资源浪费；二是推理侧根据请求长短分离Prefill，但Agent对话轮数逐步增长，初始分错后重调度代价大。未来方向是打通CPU到GPU的信息通路，由CPU预测任务特征（如轮数、长度）并透传，指导GPU做针对性调度。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者