未来会以KVcache等中间结果缓存为中心,算力提升要求缓存带宽同步增长,无论算力如何提升,只要缓存/IO的读取速度跟不上,整体性能就被卡住。预测未来很长一段时间,瓶颈都会在缓存和IO上,而非纯计算能力。
------ 杨珂 趋境科技技术专家/Mooncake核心开发者
K8s及openFuyao的方式模式大有可为,可重点考虑和突破一些场景问题:一是快速隔离损坏的卡;二是高速网络(CXL、RDMA 等)带来的拓扑挑战;三是多机房部署,K8s原有设计未充分考虑这些场景,为了加速推理、提高资源利用率,还需要不断探索和实践。
------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授
在异构算力环境下,很难将全部算力充分释放出来,而当前算力又十分稀缺。这正是openFuyao社区必须解决的核心问题。欢迎高校师生等各方力量一起参与探索,共建共享。
------ 胡昊openFuyao技术委员会主席
命中率提升后,计算占比下降,而大部分数据依赖内存存取和带宽传输。
"计算是免费的,数据搬移是昂贵的"。当前在NPU跨节点、跨介质的数据传输面临瓶颈:NPU网卡的RDMA带宽有限;超平面方案本身并非为跨介质传输设计,HBM无法直接访问DRAM地址。我认为存储、网络、计算应该相互协同发展。
------ 雷超vllm-ascend社区Maintainer
缓存命中率提升一定能在短期内大幅降低成本,但关键的是数据搬移的物理路径最短化。这需要具备拓扑感知、资源状态感知等能力,与传统调度以及新计算架构的演进密切相关。
算力不可能无限推高,通过更巧妙的数据搬移来实现更高的缓存命中率,是一条非常经济可行的路线。
------ 胡昊openFuyao技术委员会主席
AI推理本质是质量、时延与成本的权衡,当前没有标准答案;关键在于推理引擎能够对外开放出更多的接口,让 Agent 应用能够按需干预,即让 Token 柔性工厂根据应用的实际需求来制造,而不是进行固定化生产。openFuyao社区前景广阔,凭借硬件与应用的亲和力,有望做出世界领先的成果。
------ 嘉宾 朱浩鹏社区顾问/华为Fellow