在Agent时代，成本与性能权衡成为首要考量：采用以内存缓存为中心的全新拓扑架构，还是坚持以不断提升算力为核心的计算中心架构？

openFuyao2026-06-05 10:54

未来会以KVcache等中间结果缓存为中心，算力提升要求缓存带宽同步增长，无论算力如何提升，只要缓存/IO的读取速度跟不上，整体性能就被卡住。预测未来很长一段时间，瓶颈都会在缓存和IO上，而非纯计算能力。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者

K8s及openFuyao的方式模式大有可为，可重点考虑和突破一些场景问题：一是快速隔离损坏的卡；二是高速网络（CXL、RDMA 等）带来的拓扑挑战；三是多机房部署，K8s原有设计未充分考虑这些场景，为了加速推理、提高资源利用率，还需要不断探索和实践。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

在异构算力环境下，很难将全部算力充分释放出来，而当前算力又十分稀缺。这正是openFuyao社区必须解决的核心问题。欢迎高校师生等各方力量一起参与探索，共建共享。

------ 胡昊openFuyao技术委员会主席

命中率提升后，计算占比下降，而大部分数据依赖内存存取和带宽传输。

"计算是免费的，数据搬移是昂贵的"。当前在NPU跨节点、跨介质的数据传输面临瓶颈：NPU网卡的RDMA带宽有限；超平面方案本身并非为跨介质传输设计，HBM无法直接访问DRAM地址。我认为存储、网络、计算应该相互协同发展。

------ 雷超vllm-ascend社区Maintainer

缓存命中率提升一定能在短期内大幅降低成本，但关键的是数据搬移的物理路径最短化。这需要具备拓扑感知、资源状态感知等能力，与传统调度以及新计算架构的演进密切相关。

算力不可能无限推高，通过更巧妙的数据搬移来实现更高的缓存命中率，是一条非常经济可行的路线。

------ 胡昊openFuyao技术委员会主席

AI推理本质是质量、时延与成本的权衡，当前没有标准答案；关键在于推理引擎能够对外开放出更多的接口，让 Agent 应用能够按需干预，即让 Token 柔性工厂根据应用的实际需求来制造，而不是进行固定化生产。openFuyao社区前景广阔，凭借硬件与应用的亲和力，有望做出世界领先的成果。

------ 嘉宾朱浩鹏社区顾问/华为Fellow