第三届CCF夜莺开源创新论坛成功举办,夜莺V8正式发布

点击蓝字

关注我们

CCF Opensource Development Committee

2025 第三届 CCF 夜莺开源创新论坛 ,7 月 4 日在北京成功举办。 本次论坛由中国计算机学会主办,开源发展委员会及夜莺开源社区承办,自 2023 年起,论坛已成功举办三届,是可观测性开源生态发展和技术进步的重要推动力量。

Nightingale 夜莺是一个 All-in-One 的开源云原生监控工具,是中国计算机学会接受捐赠并托管的第一个开源项目,在 GitLink 和 GitHub 双平台协作,GitHub 上有超过 11000 颗星,广受关注和使用。

本次论坛以"AI 加速可观测"为主题,汇聚了开源夜莺核心开发团队及来自滴滴出行、美团、小米、百度、度小满、Apache Doris、快猫星云等知名企业的技术专家,围绕夜莺项目新功能与发展规划、大模型智能运维、AI 故障分析、大模型基础设施及 eBPF 等前沿技术领域进行了深入的技术分享与专题报告。论坛吸引了来自全国各行业的百余位领域专家参会交流。中国计算机学会(CCF)数字运营部张茂森、赵静出席了会议。论坛期间,夜莺项目管理委员会正式发布了夜莺 V8 版本。

首先,中国计算机学会开源发展委员会主任王怀民老师代表学会致辞。王主任介绍了 CCF 开源发展委员会的使命和愿景,强调开源已成为全球数字技术和人工智能创新的核心引擎,开源发展委员会将始终秉持"创新、开放、协作、共享"的理念,致力于构建产学研用联动的开源创新平台,推动中国开源创新事业发展,构建具有全球辐射力的开源生态。王主任指出,夜莺监控项目,作为开源发展委员会成立后接受捐赠的首个开源项目,具有里程碑意义,它不仅丰富了可观测性领域的开源生态,创造了巨大的用户价值和社会价值,更展现了产学研开源共同体协作的力量,呼吁更多高校、企业和个人加入开源行列,共同培育像夜莺这样的原始创新项目,培养兼具技术能力与开源精神的实践人才。开源发展委员会将继续发挥平台作用,为夜莺等开源项目提供技术孵化、开源治理、社区运营和全球化发展支持,推动中国开源生态从"跟跑"向"引领"升级。


主办方致辞

报告一:夜莺 V8 发布以及未来规划

夜莺项目管理委员会主席、快猫星云联合创始人秦晓辉,在大会上宣布夜莺 V8 **[1]**正式发布,并对夜莺 V8 功能进行了详细的剖析。


夜莺V8发布

夜莺 V8 增加了更多的数据源,包括 MySQL、PostgreSQL、Doris、ClickHouse、TDengine、ElasticSearch/OpenSearch、Loki,使得用户可以一站式的对各种数据源中的数据设置告警策略,发送告警。增加了告警事件全景看板,方便用户一目了然的观察告警事件。V8 中最引人瞩目的功能莫属"事件 pipeline",通过引入"事件 pipeline",用户可以在告警全生命周期的任一阶段,对告警事件进行"干预",干预的动作包括 Relabel、Update/Drop/Enrichment、Callback、AI Summary 等,这大大增强了告警事件处理的灵活性、扩展性和想象空间。以 AI Summary 事件处理器为例,用户可以方便的和大语言模型如 DeepSeek 对接,并把告警事件信息传递给大模型进行分析之后,再继续发送给工程师,辅助工程师提升告警处理效率和体验。

报告二: HUATUO ------ 基于 BPF 的可观测能力建设及 GPU 大模型性能剖析

滴滴出行基础平台系统软件技术负责人、滴滴开源委员会委员、HUATUO 开源项目作者张同浩,报告的主题为"基于 BPF 的可观测能力建设及 GPU 大模型性能剖析",详细解析了系统故障分析领域的现状和挑战,并给出了一种使用 BPF 技术构建操作系统内核级深度观测能力的方法和实践。

在论坛现场,张同浩也分享了该技术方案的开源实现 HUATUO 项目的进展。HUATUO 是由滴滴开源并依托 CCF 开源发展委员会孵化的云原生操作系统可观测性项目,专注于为复杂云原生环境提供操作系统内核级深度观测能力,将于近期正式开源。HUATUO 提供四大核心能力:低损耗内核全景观测、异常事件驱动诊断、全自动化追踪 AUTOTRACING、持续性能剖析 Profiling。

报告三:大模型在小米运维体系的探索与演进

小米技术专家赵文成,报告的主题为"大模型在小米运维体系的探索与演进"。

赵文成在报告中提出,在智能运维领域,AI 和人的协作模式分为三个阶段,分别是:场景赋能、AI 驱动人、活体架构,当前则正处于并将在较长一段时间内处于第一阶段。如何聚焦高频运维场景,让 AI 来赋能人,让工程师从琐碎中抽身,回归创造价值的主战场是主要目标。

基于此,小米构建了内部的 MCP Server Market,鼓励各能力提供方,将平台能力重新抽象封装为 MCP Server,并上架到内部的 Market,从而快捷的编排出各种场景的多智能体来赋能工程师提效。

报告四: 基于 Apache Doris 构建高性能、低成本、开放易用的可观测性平台

来自 Apache Doris 开源社区的肖康,报告的主题为"基于 Apache Doris 构建高性能、低成本、开放易用的可观测性平台"。肖康在报告中分析了在可观测性场景下存储方案所面临的典型挑战,包括:实时性与成本的矛盾、JSON 半结构化数据存储分析、易用性、开放性。

Apache Doris 是一个开源的实时分析型数据库,作为 Apache 基金会托管的顶级项目,专为高并发、低延迟的实时数据分析场景设计。结合可观测性场景的数据特点,做了很多关键性的技术优化,包括高性能的倒排索引、高速写入、机制压缩、灵活高效的半结构化数据类型 VARIANT 等,实现了相较 ElasticSearch 3~5 倍的性能提升,80% 的存储空间下降。

报告五:服务可观测性用好大模型的方法实践和效果

快猫星云联合创始人 & CTO 华明,报告的主题为"服务可观测性用好大模型的方法、实践和效果",重点阐述了智能运维领域长久以来的终极命题"故障根因自动定位"所面临的挑战和障碍,以及大模型时代相对应的方法和思考。

在华明看来,主要挑战和障碍有三点,分别是:AI 如何理解你的系统、AI 如何查询你的数据、如何与 AI 互动共同走向最终答案。因此在快猫星云的 Flashcat 产品技术方案中,通过抽象"灭火图",来描述服务的元信息以及服务关联关系,并结合知识库,为 AI 提供更精确的 Context;通过抽象"数据源",将市面上常见的开源和公有云观测数据源集成到 AI 分析系统中,并进一步封装为 MCP Server,以解决 AI 理解和查询各种可观测性数据的障碍。Flashcat 构建了一个个独立的 agent,比如指标分析 agent、日志分析 agent、链路分析 agent、事件分析 agent、图表分析 agent 等,用户通过 Chatbot 和 Flashcat AI 分析引擎交互,提出问题或者给出修正,AI 分析引擎则自动识别需求,编排多个智能体协同工作,不断地与用户互动直到输出最终结论。

在报告的结尾,华明给出了四点思考,引发了与会专家们的深入讨论:

  1. 可观测性的智能化有两大阶段 - Copilot、Autopilot,第一阶段即将全面到来

  2. AI 能理解你的系统、查询你的数据,并实现与 AI 的动态交互是可观测性实现智能化的关键

  3. 企业观测数据的建设和治理不可避免,AI 需要高质量的数据输入,数据治理是高价值工作

  4. 数据治理的前置工作是解决数据孤岛和存量数据割裂的问题,可以选择适合现状的方法

报告六:度小满万节点规模的可观测性实践

度小满技术专家汪宁瀚,报告的主题为"度小满万节点规模的可观测性实践",深入分享了度小满将内部可观测性平台迁移到夜莺的选型思考和迁移实践,并基于夜莺实现了关键场景故障情况下 30 秒自动止损的苛刻挑战。

报告七:美团故障管控提效实践

美团技术专家车智红,报告的主题为"美团故障管控提效实践",系统性的剖析了美团统一故障发现平台的建设思路和实践效果。

报告中,从算法能力建设、平台能力建设,到标准化、智能化流程建设,再到故障影响面自动评估、故障智能快恢,都给出了全面的方案设计和效果分析。

报告八:打造稳健可观测的大模型训练系统 ------ 百度百舸分布式训练稳定性实践

百度百舸 AI 异构算力平台负责人张慕华,报告的主题为"打造稳健可观测的大模型训练系统 ------ 百度百舸分布式训练稳定性实践",全面回答了大模型时代,为什么把 AI 基础设施算力利用起来如此之难的问题。

通过百舸全栈性能观测方案 Perfinsight,实现了对 Python 层、C/C++层、驱动层、硬件层各个层面的深度监测,及时发现任务失败、任务 hang、任务 slow、性能抖动、计算利用率低下、显存 OOM 等各种问题,并提供高效的分析手段,快速排查异常原因,使得 AI 基础设施始终运行在最佳状态。

最后,现场颁发了可观测性创新案例单位证书和夜莺社区活跃贡献者证书,并为报告嘉宾颁发了感谢证书。论坛取得圆满成功。

参考资料

1

夜莺 V8: https://github.com/ccfos/nightingale

往期推荐

【2025CCF中国开源大会】开放注册与会议通知(第三轮)

【2025CCF中国开源大会】Rust与开源技术分论坛重磅来袭!共建Rust语言与生态的未来

【2025CCF中国开源大会】郑纬民院士特邀报告:大模型推理服务在系统层面的挑战

点击阅读原文 立即报名开源大会

相关推荐
小和尚同志4 小时前
全网影视一网打尽!8.2K Star 的 LibreTV 让你甩开追剧烦恼
开源·github
说私域5 小时前
开源链动2+1模式与AI智能名片融合下的S2B2C商城小程序源码:重构大零售时代新生态
人工智能·重构·开源
国服第二切图仔5 小时前
基于文心开源大模型ERNIE-4.5-0.3B-Paddle私有化部署并构建一个企业智能客服系统
百度·开源·智能客服·知识库·文心大模型·paddle·gitcode
码字的字节7 小时前
阿里开源WebSailor:超越闭源模型的网络智能体新星
开源·阿里·websailor·网络智能体
算家计算8 小时前
6 亿参数玩转 20 + 语言!OuteTTS-1.0-0.6B本地部署教程,轻量模型也能 hold 住跨语言合成
人工智能·开源
Codebee10 小时前
OneCode 组件服务通用协议栈:构建企业级低代码平台的技术基石
前端·前端框架·开源
SkyrimCitadelValinor12 小时前
Git【开源分布式版本控制工具】安装-配置-常用指令-Git远程仓库-IDEA使用Git
分布式·git·gitee·开源·项目管理
GateWorld14 小时前
RISC-V:开源芯浪潮下的技术突围与职业新赛道 (一)为什么RISC-V是颠覆性创新?
开源·risc-v
OpenAnolis小助手14 小时前
Anolis OS 23 架构支持家族新成员:Anolis OS 23.3 版本及 RISC-V 预览版发布
开源·操作系统·龙蜥社区·risc-v·anolis os·龙蜥操作系统