Agent对今天的技术有什么具体要求?

以前的纯推理场景,算力瓶颈主要在GPU侧,在Agent场景下,必须做CPU和GPU的协同调度,CPU能力跟不上,直接影响Agent的整体体验。从行业趋势也能看出:CPU与GPU的比例逐渐由 1:8变成 1:4、1:2,甚至 1:1。产生的Token不能被CPU及时消耗,就无法产生真正的价值。

------ 雷超vllm-ascend社区Maintainer

在Agent时代,需确保第一点:可审计性。人与Agent对话需可见、可打断,人最终兜底;第二点:记忆管理。人可干预、筛选和删除记忆,以保障人机协作可控对齐。这些属于广义沙箱范畴。这些都应属于广义上沙箱的范畴。

------ 胡昊openFuyao技术委员会主席

"Token之上、应用之下,全是 Agent",向上要与人对齐,向下要与算力对齐,这两个问题目前远未解决。中国是AI变现需求强烈,最终衡量价值的标准是Agent能否真正产生的生产力。写Agent很容易,落地生产问题重重,希望尽早融入openFuyao社区并结合生态伙伴探索变现。

------ 朱浩鹏openFuyao社区顾问/华为Fellow

原来K8s对CPU等资源的抽象,如今面临GPU、Agent等新主导负载,是否应将它们纳入抽象视野尚不明确,因此实验室选择先从CPU-GPU混部、亚秒级时隙对齐、异构算力网络等具象研究入手,再回头思考抽象问题。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

当前Agent服务中CPU与GPU存在两大问题:一是信息差导致GPU要么提前丢弃中间结果、要么盲目等待,造成资源浪费;二是推理侧根据请求长短分离Prefill,但Agent对话轮数逐步增长,初始分错后重调度代价大。未来方向是打通CPU到GPU的信息通路,由CPU预测任务特征(如轮数、长度)并透传,指导GPU做针对性调度。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者

相关推荐
火山引擎开发者社区5 小时前
火山AgentPlan/CodingPlan同步上线GLM-5.2
人工智能
冬奇Lab6 小时前
Skill 系列(05):Skill 工作流串联——4 种模式实测,并发加速 1.5x
人工智能·开源
冬奇Lab6 小时前
每日一个开源项目(第141篇):hiring-agent - HackerRank 开源了他们的简历评分系统,你的简历能得几分?
人工智能·面试·开源
甲维斯7 小时前
又升级咯!坦克大战2026,科技与复古并存!
前端·人工智能·游戏开发
姗姗来迟了9 小时前
用React Hook封装AI对话状态
人工智能
Goodbye9 小时前
从 Token 到 Embedding:LLM 核心基础深度解析
javascript·人工智能
阿瑞IT9 小时前
AI Agent 在甘特计划变更场景中的动态响应工程实践
人工智能
用户938515635079 小时前
工具调用背后:LLM 如何突破“缸中大脑”,操控真实世界?
javascript·人工智能