Agent对今天的技术有什么具体要求?

以前的纯推理场景,算力瓶颈主要在GPU侧,在Agent场景下,必须做CPU和GPU的协同调度,CPU能力跟不上,直接影响Agent的整体体验。从行业趋势也能看出:CPU与GPU的比例逐渐由 1:8变成 1:4、1:2,甚至 1:1。产生的Token不能被CPU及时消耗,就无法产生真正的价值。

------ 雷超vllm-ascend社区Maintainer

在Agent时代,需确保第一点:可审计性。人与Agent对话需可见、可打断,人最终兜底;第二点:记忆管理。人可干预、筛选和删除记忆,以保障人机协作可控对齐。这些属于广义沙箱范畴。这些都应属于广义上沙箱的范畴。

------ 胡昊openFuyao技术委员会主席

"Token之上、应用之下,全是 Agent",向上要与人对齐,向下要与算力对齐,这两个问题目前远未解决。中国是AI变现需求强烈,最终衡量价值的标准是Agent能否真正产生的生产力。写Agent很容易,落地生产问题重重,希望尽早融入openFuyao社区并结合生态伙伴探索变现。

------ 朱浩鹏openFuyao社区顾问/华为Fellow

原来K8s对CPU等资源的抽象,如今面临GPU、Agent等新主导负载,是否应将它们纳入抽象视野尚不明确,因此实验室选择先从CPU-GPU混部、亚秒级时隙对齐、异构算力网络等具象研究入手,再回头思考抽象问题。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

当前Agent服务中CPU与GPU存在两大问题:一是信息差导致GPU要么提前丢弃中间结果、要么盲目等待,造成资源浪费;二是推理侧根据请求长短分离Prefill,但Agent对话轮数逐步增长,初始分错后重调度代价大。未来方向是打通CPU到GPU的信息通路,由CPU预测任务特征(如轮数、长度)并透传,指导GPU做针对性调度。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者

相关推荐
十六年开源服务商1 小时前
2026外贸WordPress社交媒体营销运营指南
大数据·人工智能·媒体
weixin_446260851 小时前
面向高效与证据驱动的个体移动预测 (AgentMob)
人工智能
张彦峰ZYF2 小时前
深入 LangGraph State:Reducer 是如何让状态“自动合并”的
人工智能·python·大模型·langgraph
程序喵大人2 小时前
C++ 程序员转型 AI Infra 学习路线
c++·人工智能·学习·ai infra
陈天伟教授2 小时前
图解人工智能(45)人工智能应用-语音识别
人工智能·语音识别
白狐_7982 小时前
AI 数据分析 Skill 实战:用模拟游客数据生成文旅运营报告
大数据·服务器·人工智能
数学建模导师2 小时前
【AI生成内容的质量评估】2026中青杯B题26页成品论文重磅更新
人工智能·深度学习·机器学习
comcoo2 小时前
Windows 部署龙虾 AI OpenClaw,快速构建本地私有化 AI 智能体
人工智能·github·开源软件·open claw·open claw部署