在Agent时代,成本与性能权衡成为首要考量:采用以内存缓存为中心的全新拓扑架构,还是坚持以不断提升算力为核心的计算中心架构?

未来会以KVcache等中间结果缓存为中心,算力提升要求缓存带宽同步增长,无论算力如何提升,只要缓存/IO的读取速度跟不上,整体性能就被卡住。预测未来很长一段时间,瓶颈都会在缓存和IO上,而非纯计算能力。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者

K8s及openFuyao的方式模式大有可为,可重点考虑和突破一些场景问题:一是快速隔离损坏的卡;二是高速网络(CXL、RDMA 等)带来的拓扑挑战;三是多机房部署,K8s原有设计未充分考虑这些场景,为了加速推理、提高资源利用率,还需要不断探索和实践。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

在异构算力环境下,很难将全部算力充分释放出来,而当前算力又十分稀缺。这正是openFuyao社区必须解决的核心问题。欢迎高校师生等各方力量一起参与探索,共建共享。

------ 胡昊openFuyao技术委员会主席

命中率提升后,计算占比下降,而大部分数据依赖内存存取和带宽传输。

"计算是免费的,数据搬移是昂贵的"。当前在NPU跨节点、跨介质的数据传输面临瓶颈:NPU网卡的RDMA带宽有限;超平面方案本身并非为跨介质传输设计,HBM无法直接访问DRAM地址。我认为存储、网络、计算应该相互协同发展。

------ 雷超vllm-ascend社区Maintainer

缓存命中率提升一定能在短期内大幅降低成本,但关键的是数据搬移的物理路径最短化。这需要具备拓扑感知、资源状态感知等能力,与传统调度以及新计算架构的演进密切相关。

算力不可能无限推高,通过更巧妙的数据搬移来实现更高的缓存命中率,是一条非常经济可行的路线。

------ 胡昊openFuyao技术委员会主席

AI推理本质是质量、时延与成本的权衡,当前没有标准答案;关键在于推理引擎能够对外开放出更多的接口,让 Agent 应用能够按需干预,即让 Token 柔性工厂根据应用的实际需求来制造,而不是进行固定化生产。openFuyao社区前景广阔,凭借硬件与应用的亲和力,有望做出世界领先的成果。

------ 嘉宾 朱浩鹏社区顾问/华为Fellow

相关推荐
逐梦苍穹2 小时前
omlx实战:5分钟让Apple Silicon本地跑通Claude Code——分页SSD KV缓存把TTFT从90秒压到1秒(附安装踩坑+实测)
人工智能·缓存·ollama·claudecode·omlx
代码丰2 小时前
【面经】缓存一致性全套解决方案:从旁路删除到延迟双删、MQ 补偿、binlog 监听与多级缓存
缓存
霸道流氓气质3 小时前
异步任务提交 + Redis 状态轮询模式实战指南
数据库·redis·缓存
我是一颗柠檬3 小时前
【Java项目技术亮点】多级缓存一致性方案:Canal+MQ实现数据库与缓存的最终一致
java·数据库·spring·缓存·kafka·rocketmq
Solis程序员3 小时前
拿捏登录安全:RS256 + 双令牌,把非法请求拦在 Redis 白名单门外
java·安全·缓存·面试·bootstrap·html
郝学胜-神的一滴3 小时前
系统设计 014:缓存深度实战:如何用 Cache 优雅优化数据库读写?
java·数据库·python·缓存·oracle·php·软件构建
TDengine (老段)4 小时前
TDengine Cache 与 Last 查询加速 — CACHEMODEL 机制与 RocksDB 缓存层
大数据·数据库·物联网·struts·缓存·时序数据库·tdengine
半夜修仙4 小时前
RabbitMQ应用问题
数据库·分布式·缓存·rabbitmq
我是一颗柠檬4 小时前
【Redis】Cluster集群Day11(2026年)
数据库·redis·后端·缓存