时光匆匆,【哔哩哔哩技术】公众号又与大家携手走过了充实的一年。2025年我们共精心打造了56篇原创技术文章,全方位、多角度地剖析了各类前沿技术与实用业务应用。今天,我们特别挑选出 2025 年度广受好评的 20 篇文章,汇集成这份年度精选干货,邀您一同回顾那些闪耀着智慧光芒的技术瞬间,汲取宝贵的知识养分,激发新的灵感火花!
哔哩哔哩技术精彩回顾(点击标题查看)
👇 👇 👇
01 B站消息新架构升级
IM系统是一个老生常谈的话题,也是融合众多有趣技术难点的地方。当技术上数据量越大,降级概率越大,但消息业务场景上数据量大的是影响力更大的UP,业务不接受技术降级,如何破?如果消息流量增加10倍,怎么保障服务不挂?本文基于以上命题,阐述了优化一个数据密集型 >> 计算密集型,读多写少(首页未读数)、读少写多(会话)场景兼具的系统,同时拥有热门C端产品的稳定性、扩展性和好的业务域解耦。
02 大会员交易系统建设
B站大会员交易系统,基于传统电商交易系统架构上适配虚拟物品业务,采用模块化架构,涵盖交易、订单、签约、商品、营销、清结算、规则配置等核心模块,搭载支付 SDK、风控等能力,通过事务控制、分布式锁、对账、分级业务限流等保障数据与资金安全,支撑多业务高效运转,适配个性化接入需求。
03 服务器故障管理实践
服务器故障管理实践总结了B站在服务器规模快速扩展下,故障检测与维修自动化的探索。文章介绍了故障分类、传统人工管理的不足,以及自动化故障检测与维修方案,包括带内/带外信息采集、统一故障规则库、自动化任务流转和资产更新。通过自动化系统,提升了故障发现、定位和处理效率,实现了高覆盖率和准确率。未来将继续推进智能化监测和更高效的故障管理。
B站完成 Apache Celeborn 大规模落地,替代 ESS 与 Push-based Shuffle,实现 Spark/Flink/MR 统一 Remote Shuffle 服务。构建元仓、HBO 智能路由、诊断治理、混沌测试、故障自愈等闭环运维体系,滚动升级与灰度发布零中断。Celeborn 承载 70% Shuffle 流量,单作业最大 200 T,日均 27 PB,显著降低 Fetch Fail 与重算,作业稳定性大幅提升;混部低优集群释放空闲资源,集群降本增效明显。后续将推进潮汐弹性、优先级 IO 调度、Remote Spill、Native 引擎集成及更多 Fallback 策略,持续与社区共建云原生中间数据服务新标准。
05 B站游戏大模型翻译实践 ------ 我们如何用LLM撑起全年百万字本地化翻译任务
B站游戏自研翻译大模型体系,专为游戏本地化场景打造,覆盖 UI、技能、剧情等多类高复杂度文本。通过 RAG 检索增强、自动术语挖掘与 LLM 质检闭环,在保障角色语气与术语一致性的同时,实现翻译效率提升 7 倍、成本降低 70%+,稳定支撑 10 语种、全年百万字级本地化交付,为游戏出海提供强有力的技术支撑。
我们以一个实际业务视角,总结我们在使用 KMP 的 Share Logic 和 Share UI 两种模式在三端落地的经验与 infra 工程建设的互补,并总结了一套方便日常开发快速接入使用的框架和开发范式。
召回作为搜索和推荐系统的首要环节,其性能直接决定了系统效果的上限。随着B站业务快速发展,搜推召回系统面临着数据规模爆炸式增长、算法策略日益复杂、时效性要求不断提高等严峻挑战。本文从工程实践角度,详细阐述了B站如何构建一套云原生、可扩展、配置化、搜推统一的大规模召回系统。希望对读者有所启发。
本文聚焦B站原声视频翻译的技术革新,其核心能力在于实现中文视频向多语种的"原声风格"沉浸式转化,突破传统配音的标准化局限与字幕的认知负担,完整保留原说话人音色、情绪与节奏,且达成口型与语音的自然适配。
技术层面,以BILIBILI IndexTTS2模型为核心,通过感知一致性建模破解跨语言音色偏移、情绪迁移等痛点;依托RIVAL对抗式强化学习框架与Deep Search技术,保障翻译精准度、风格适配性及专有名词翻译质量;再经字幕消除与Diffusion模型驱动的唇形同步技术,实现音画协同。
该技术降低了内容全球化成本,推动跨语言传播从"互通"向"共鸣"升级。未来B站将拓展语言覆盖、适配多元场景,并计划开源核心模型,助力全球内容生态构建。
09 B站票务抢购下单流程演进
由于近年来漫展、电影等文化产业的消费力复苏,系统频繁承载高并发抢购场景(如漫展门票)。然而,热门项目库存远低于市场需求,传统架构在高并发场景下面临性能瓶颈。如何保障系统稳定性与用户体验,成为核心挑战。本文介绍了B站票务抢购下单的演进迭代过程,从实战经验中为大家整理了一些高并发场景的应对策略。
社群 AI 智能分析系统是一套完全由 AI 驱动和自动实时运行的用户反馈分析与决策系统。通过对社群反馈内容进行话题聚合与意图识别,引入群体共振、话题热度和情绪变化等指标,系统能够从大量碎片化发言中快速识别具有代表性和风险性的关键问题,并自动生成预警或工单,推动问题流转与处理闭环,提升社群治理、产品优化与运营决策效率。
B站基于 WebRTC 重构了视频连麦系统,本文从客户端角度介绍第二代视频连麦系统如何使用标准 WebRTC API 以符合其设计的方式接入视频连麦业务,并为后续服务器端(选择性转发服务器,SFU)篇做铺垫。
针对 B 站推荐场景中亿级用户与海量多模态特征带来的 Memory Wall 挑战,本文介绍了入选 CIKM '24 的高性能分布式批量 KV 查询架构。
本文介绍了核心自研HashTable算法 NeighborHash ,利用 Lodger Relocation(寄宿重定位)与 双向 Cacheline 感知探测,将平均内存访问次数压缩至物理极限的 1.12。结合 AMAC 异步指令流水与 SIMD 向量化加速,实现了查询吞吐的大幅提升。
系统架构层面,采用 NVMe + io_uring 的冷热分级存储策略与强一致性版本控制协议,以极低的成本开销支撑了海量特征吞吐。
本文介绍 RAG 技术在 B 站大会员中心数据智能平台的应用,解决 LLM 生成 SQL 的幻觉问题,搭建完整技术架构,实现自然语言转精准 SQL,大幅提升数据查询效率,同时阐述现存挑战与后续优化方向。
2024年下半年写这篇文章时,我们还在小心翼翼地探索:怎么让AI不胡说八道?怎么让它记住上下文?用LangChain还是自己写?每个选择都像在黑暗中摸索。
一年过去,这些"小众研究"已经变成了入门教程。Agent开发从少数人的实验,变成了大规模的工程实践。技术迭代快得让人眩晕,但回头看,当时那些看似笨拙的尝试------比如用多重验证对抗幻觉、用模块化应对不确定性------反而成了今天仍然适用的底层逻辑。
AI的进化速度可以很快,但工程的本质问题不会变。
视频剪辑长期面临专业软件门槛高与模板工具创意受限的"两难"困境,如何填补全手动与全自动之间的鸿沟成为行业难题。本文基于WebCut平台,深入探索并实现了一款智能剪辑体------VibeCut。该系统采用创新的计划者-执行者(Orchestrator-Executor)双智能体架构,通过引入结构化的共享上下文(Shared Context)作为唯一事实源,有效解决了传统多智能体协作中的上下文丢失与错误累积问题,实现了任务规划与工具执行的解耦。在原型实践中,VibeCut利用LLM与MCP协议,成功通过了字幕调整、语义裁切及图文成片等场景考验,为下一代人机协同的智能内容创作工具提供了兼具效率与稳定性的范式。
B站用户技术中心的活动平台是连接运营效率、用户体验和活动业务的重要基础设施。活动团队历时两年对活动平台进行了一次系统级重构,打造出了一套更现代、更高效、更智能的活动工业化生产体系。改版后,活动搭建耗时和配置问题显著减少,复杂玩法可以更低成本落地,页面性能和用户体验同步提升。本文详细阐述了整个重构过程中的设计理念、建设规划和架构思考,以及活动团队是如何解决不同阶段面临的挑战,希望能对你有点帮助~
本文从一次非预期的 TSL 1.3 握手时延问题入手,通过细致的抓包分析,探究 TCP 协议细节,发现了 Nagle 算法在现代网络环境下对时延敏感应用的影响,并成功优化了握手时间。不仅提升了用户体验,也让我们对不同层级网络协议的真实交互逻辑有了更深入的理解。希望能对大家有所助益。
18 前端物料库的设计
随着公司前端业务快速发展,原有 cnpm 系统在物料管理、搜索和文档支持方面日显不足。本文介绍了如何基于 Nexus3 构建全新的前端物料平台,实现 npm 包、UMD 组件和 SVG 图标的统一管理。通过建立四维分类体系(终端、框架、领域、功能)提升物料可发现性,并引入外部文档嵌入、产物在线预览及 Cosmos2 示例沙盒等创新功能,有效解决了"找组件难、查文档难"的痛点,为前端物料标准化治理奠定了基础。
本文分享了B站基础安全团队在AI辅助告警溯源方面的探索实践。随着安全告警运营从人工查证演进到SOAR阶段,团队借助AI技术和MCP协议,将HIDS、蜜罐、EDR等安全产品的API转化为AI可调用的工具集,构建了"告警产生-研判降噪-机器人推送-AI溯源"的完整链路。通过蜜罐、HIDS、EDR三类真实告警案例,展示了AI自动关联堡垒机日志、资产信息、用户部门等多源数据,完成从事件追踪到责任主体定位的全链路溯源能力。显著提升了安全运营效率,实现了"人机协同+自动化溯源"的落地。
最近在哔哩哔哩,我们开发了一种改进的 BBR 拥塞控制算法,需要在真实环境中进行测试。该算法本身以内核模块的形式存在,因此将其安装到服务器上不是问题。然而,在快节奏的迭代过程中,我们遇到了一系列问题,最终发现了一个内核错误。本文将带您了解我们解决问题的整个过程,从拥塞控制算法热交换到内核错误修复。
-End-