技术栈
ai infra
颜笑晏晏
2 天前
缓存
·
推理优化
·
sglang
·
ai infra
·
pd分离
长输入短输出场景下的 SGLang 推理性能实测前缀缓存、PD 分离配比与参数调优
我们产线上的推理请求,几乎是清一色的"长输入、短输出":几万 token 的资料或上下文喂进去,模型只吐回几百 token 的答案。RAG、长文档问答、代码库分析,本质上都是这个形状。
程序喵大人
7 天前
c++
·
人工智能
·
学习
·
ai infra
C++ 程序员转型 AI Infra 学习路线
博主介绍:程序喵大人小喵是个五年经验的 C++ 工程师,最近面了某大厂的 AI Infra 岗位。他以为自己熟练完成的是“会写 CUDA”,于是买了一堆 GPU 架构、算子优化的书,结果面试官问了三个问题,他全答不上来:
ifenxi爱分析
10 天前
saas
·
智能体
·
ai infra
Know-how很快被AI追平,真正的壁垒没多少了
在大模型、智能体与AI Coding驱动的企业软件新世界里,旧的竞争壁垒正在迅速消融。专业知识与Knowhow正在被AI重新定义,智能体应用被分钟级生成,传统企业服务厂商的核心价值正面临大考。
百度智能云技术站
13 天前
ai infra
Agent 时代下大模型推理系统的架构优化和工程实践
本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - AI Infra 专题论坛,百度智能云主任架构师黎世勇的同名主题演讲。
百度智能云技术站
20 天前
具身智能
·
百度百舸
·
ai infra
百度百舸全栈 AI Infra 助力具身模型加速迭代
本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - 具身智能专场,百度智能云主任架构师应茹的同名主题演讲。
百度智能云技术站
1 个月前
具身智能
·
ai agent
·
百度百舸
·
推理训练
·
ai infra
Agent Native:重构 AI 云基础设施
本文整理自 2026 年 5 月 13 日 Create2026 百度 AI 开发者大会 - 技术与产品主论坛,百度集团副总裁侯震宇的主题演讲《Agent Native:重构 AI 云基础设施》。
qcx23
1 个月前
网络
·
人工智能
·
rust
·
warp
·
ai infra
Warp源码深度解析(五):Feature Flag分层发布、热重载Settings与双版本Completer
这是 Warp 源码深度解析系列的第五篇(完结篇)。本文聚焦核心基础设施:100+ Feature Flag 的分层发布机制、Diesel+SQLite 持久化、Editor 多缓冲区、双版本 Completer、Settings 热重载与云同步。
int WINGsssss
2 个月前
nccl
·
ai infra
·
集合通信库
·
我爱吃烤肉
NCCL工作流程分析&&NCCL源码解读
本文章是笔者在学习NCCL源码时候的感悟和理解,由于源码实在抽象,所以笔者尽量用更直白通俗的语言表达自己的理解。若有错误,望各位大神多多批评指教!该文章会不断更新修改,一些细枝末节也将会不断补充,新的文章未来也会采用链接形式纳入本文章中。
superior tigre
3 个月前
c++
·
cuda
·
ai infra
权威指南 第四章
这一章主要是从memory角度来分析和优化算子的,用transposition的例子分析maxbandwidth rate对性能的影响。
强壮的派大星
5 个月前
操作系统
·
ai infra
AI训练存储系统的架构选型演变:对象存储为后端的文件系统概论
存储系统按照抽象级别分类,分为三种:文件存储、对象存储、块存储。此处我们不讨论块存储,只讨论文件存储与对象存储。
CCF ODC
7 个月前
人工智能
·
开源
·
ai infra
·
ccf odtc
·
ccf开源发展技术委员会
CNCC 2025|开源AI基础设施论坛成功举办
当前AI技术发展面临算力成本、工具链碎片化及严重依赖CUDA生态等核心挑战,该如何破局?10月25日,在CNCC 2025大会上,由CCF开源发展技术委员会AI Infra工作组发起的“开源AI基础设施论坛”成功举办。多位业内专家聚焦AI Infra开源进展,开源大模型训练和推理技术解析、大模型技术体系开源开放分级评估规范、GPU开源生态建设、云原生Infra Services等各个维度对AI开源基础设施现在、未来的进行了深度探讨。
我是有底线的