ai infra

颜笑晏晏2 天前
缓存·推理优化·sglang·ai infra·pd分离
长输入短输出场景下的 SGLang 推理性能实测前缀缓存、PD 分离配比与参数调优我们产线上的推理请求,几乎是清一色的"长输入、短输出":几万 token 的资料或上下文喂进去,模型只吐回几百 token 的答案。RAG、长文档问答、代码库分析,本质上都是这个形状。
程序喵大人7 天前
c++·人工智能·学习·ai infra
C++ 程序员转型 AI Infra 学习路线博主介绍:程序喵大人小喵是个五年经验的 C++ 工程师,最近面了某大厂的 AI Infra 岗位。他以为自己熟练完成的是“会写 CUDA”,于是买了一堆 GPU 架构、算子优化的书,结果面试官问了三个问题,他全答不上来:
ifenxi爱分析10 天前
saas·智能体·ai infra
Know-how很快被AI追平,真正的壁垒没多少了在大模型、智能体与AI Coding驱动的企业软件新世界里,旧的竞争壁垒正在迅速消融。专业知识与Knowhow正在被AI重新定义,智能体应用被分钟级生成,传统企业服务厂商的核心价值正面临大考。
百度智能云技术站13 天前
ai infra
Agent 时代下大模型推理系统的架构优化和工程实践本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - AI Infra 专题论坛,百度智能云主任架构师黎世勇的同名主题演讲。
百度智能云技术站20 天前
具身智能·百度百舸·ai infra
百度百舸全栈 AI Infra 助力具身模型加速迭代本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - 具身智能专场,百度智能云主任架构师应茹的同名主题演讲。
百度智能云技术站1 个月前
具身智能·ai agent·百度百舸·推理训练·ai infra
Agent Native:重构 AI 云基础设施本文整理自 2026 年 5 月 13 日 Create2026 百度 AI 开发者大会 - 技术与产品主论坛,百度集团副总裁侯震宇的主题演讲《Agent Native:重构 AI 云基础设施》。
qcx231 个月前
网络·人工智能·rust·warp·ai infra
Warp源码深度解析(五):Feature Flag分层发布、热重载Settings与双版本Completer这是 Warp 源码深度解析系列的第五篇(完结篇)。本文聚焦核心基础设施:100+ Feature Flag 的分层发布机制、Diesel+SQLite 持久化、Editor 多缓冲区、双版本 Completer、Settings 热重载与云同步。
int WINGsssss2 个月前
nccl·ai infra·集合通信库·我爱吃烤肉
NCCL工作流程分析&&NCCL源码解读本文章是笔者在学习NCCL源码时候的感悟和理解,由于源码实在抽象,所以笔者尽量用更直白通俗的语言表达自己的理解。若有错误,望各位大神多多批评指教!该文章会不断更新修改,一些细枝末节也将会不断补充,新的文章未来也会采用链接形式纳入本文章中。
superior tigre3 个月前
c++·cuda·ai infra
权威指南 第四章这一章主要是从memory角度来分析和优化算子的,用transposition的例子分析maxbandwidth rate对性能的影响。
强壮的派大星5 个月前
操作系统·ai infra
AI训练存储系统的架构选型演变:对象存储为后端的文件系统概论存储系统按照抽象级别分类,分为三种:文件存储、对象存储、块存储。此处我们不讨论块存储,只讨论文件存储与对象存储。
CCF ODC7 个月前
人工智能·开源·ai infra·ccf odtc·ccf开源发展技术委员会
CNCC 2025|开源AI基础设施论坛成功举办当前AI技术发展面临算力成本、工具链碎片化及严重依赖CUDA生态等核心挑战,该如何破局?10月25日,在CNCC 2025大会上,由CCF开源发展技术委员会AI Infra工作组发起的“开源AI基础设施论坛”成功举办。多位业内专家聚焦AI Infra开源进展,开源大模型训练和推理技术解析、大模型技术体系开源开放分级评估规范、GPU开源生态建设、云原生Infra Services等各个维度对AI开源基础设施现在、未来的进行了深度探讨。
我是有底线的