在Agent时代,成本与性能权衡成为首要考量:采用以内存缓存为中心的全新拓扑架构,还是坚持以不断提升算力为核心的计算中心架构?

未来会以KVcache等中间结果缓存为中心,算力提升要求缓存带宽同步增长,无论算力如何提升,只要缓存/IO的读取速度跟不上,整体性能就被卡住。预测未来很长一段时间,瓶颈都会在缓存和IO上,而非纯计算能力。

------ 杨珂 趋境科技技术专家/Mooncake核心开发者

K8s及openFuyao的方式模式大有可为,可重点考虑和突破一些场景问题:一是快速隔离损坏的卡;二是高速网络(CXL、RDMA 等)带来的拓扑挑战;三是多机房部署,K8s原有设计未充分考虑这些场景,为了加速推理、提高资源利用率,还需要不断探索和实践。

------ 沃天宇openeFuyao社区技术委员会委员/北京航空航天大学软件学院教授

在异构算力环境下,很难将全部算力充分释放出来,而当前算力又十分稀缺。这正是openFuyao社区必须解决的核心问题。欢迎高校师生等各方力量一起参与探索,共建共享。

------ 胡昊openFuyao技术委员会主席

命中率提升后,计算占比下降,而大部分数据依赖内存存取和带宽传输。

"计算是免费的,数据搬移是昂贵的"。当前在NPU跨节点、跨介质的数据传输面临瓶颈:NPU网卡的RDMA带宽有限;超平面方案本身并非为跨介质传输设计,HBM无法直接访问DRAM地址。我认为存储、网络、计算应该相互协同发展。

------ 雷超vllm-ascend社区Maintainer

缓存命中率提升一定能在短期内大幅降低成本,但关键的是数据搬移的物理路径最短化。这需要具备拓扑感知、资源状态感知等能力,与传统调度以及新计算架构的演进密切相关。

算力不可能无限推高,通过更巧妙的数据搬移来实现更高的缓存命中率,是一条非常经济可行的路线。

------ 胡昊openFuyao技术委员会主席

AI推理本质是质量、时延与成本的权衡,当前没有标准答案;关键在于推理引擎能够对外开放出更多的接口,让 Agent 应用能够按需干预,即让 Token 柔性工厂根据应用的实际需求来制造,而不是进行固定化生产。openFuyao社区前景广阔,凭借硬件与应用的亲和力,有望做出世界领先的成果。

------ 嘉宾 朱浩鹏社区顾问/华为Fellow

相关推荐
小七-七牛开发者2 天前
TokenPilot:让 LLM Agent 长会话成本降 60%+ 的上下文管理
缓存·agent·token·context·上下文·推理成本
ofoxcoding9 天前
在AI API聚合平台配置DeepSeek V3.2提示词缓存实战:快速接入与成本优化指南
人工智能·spring·缓存·ai
NeilYuen9 天前
gRPC结合FAISS构建AI助手语义缓存模块(一):设计
人工智能·缓存·faiss
taocarts_bidfans9 天前
反向海淘跨境缓存架构优化:taocarts Redis分层缓存实战技术
redis·缓存·架构·反向海淘·taocarts
退休倒计时9 天前
【每日一题】LeetCode 146. LRU 缓存 TypeScript
算法·leetcode·缓存·typescript
炘爚9 天前
Linux——Redis
数据库·redis·缓存
小挪号底迪滴10 天前
Redis 和 MySQL 数据不一致怎么办?缓存更新策略实战
redis·mysql·缓存
闪电悠米10 天前
黑马点评-Redis ZSet-实现关注 Feed 流
服务器·网络·数据库·redis·缓存·junit·lua
Saniffer_SH10 天前
【高清视频】Gen6 服务器还没到,Gen6 SSD 怎么测?Emily 现场演示三种测试环境
人工智能·驱动开发·测试工具·缓存·fpga开发·计算机外设·压力测试