sre

Luke~7 天前
人工智能·阿里云·云计算·loki·devops·aiops·sre
已上架阿里云计算巢!Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘作者:Luke 日期:2026年4月经过一段时间的打磨,我的开源项目 Incident AI 事故分析引擎 已经成功上架 阿里云计算巢!
云智慧AIOps社区15 天前
运维·人工智能·aiops·ai agent·sre·sre 智能体
AI驱动制造业智能化变革:云智慧在苏州CIO研讨会分享运维破局之道2026苏州制造业CIO研讨会圆满落幕。汇聚众多行业专家及技术领军企业,共同探讨制造业智能化转型的破局路径。
SRETalk17 天前
可观测性·故障排查·sre·catpaw
不记命令也能排障:catpaw chat 实战手册TL;DR:catpaw chat 让你用自然语言排障——说"最近有 OOM 吗",AI 帮你查 dmesg;说"谁在吃磁盘",AI 帮你跑 du 和 df。本文整理 12 个高频排障场景,每个都对比"传统命令行"和"一句话搞定",附带 AI 在幕后调用了什么工具。即使你不用 catpaw,也能当作一份排障命令速查表。
礼拜天没时间.2 个月前
linux·运维·架构·堡垒机·jumpserver·sre
JumpServer堡垒机部署与实战:从0到1搭建统一运维入口今天我们来聊一聊JumpServer——一款开源、国产的企业级堡垒机(运维安全审计系统)。在服务器数量增多、运维人员变复杂的环境下,如何保证安全、权限可控、操作可追溯?JumpServer就是答案。本文将从零开始,带你一步步安装、配置,并通过一个完整的案例演示如何管理用户、资产和权限。
礼拜天没时间.2 个月前
linux·运维·后端·centos·node.js·sre
Node.js运维部署实战:从0到1开始搭建Node.js运行环境本文面向运维人员,详细介绍如何在Linux服务器上部署Node.js环境,涵盖Node.js简介、部署步骤、运维注意事项及常见问题排查。通过本文,你将掌握Node.js的安装、环境配置和基本验证方法。
礼拜天没时间.2 个月前
linux·运维·docker·云原生·容器·sre
企业级Docker镜像仓库Harbor部署实战在容器化浪潮中,Docker镜像的管理成为企业落地Kubernetes、DevOps的基石。虽然Docker官方提供了Registry镜像,但缺乏权限控制、镜像同步、安全扫描等企业级特性。而Harbor的出现完美解决了这些问题——它不仅是一个私有镜像仓库,更是一个完整的镜像治理平台。本文基于Harbor v2.3.1,手把手带你完成从部署到使用的完整流程,并分享一些踩坑经验。
礼拜天没时间.2 个月前
运维·docker·容器·centos·自动化·sre
Docker自动化构建实战:从手工到多阶段构建的完美进化在容器化时代,手动构建镜像存在三个核心问题:本文将带你从零开始,体验手工构建 → Dockerfile → 多阶段构建的完整进化之路,最终掌握企业级镜像构建的最佳实践。
雅菲奥朗2 个月前
运维·sre
工信部教考中心《系统可靠性工程师(高级)》开课通知系统可靠性工程师(高级)课程背景当“系统宕机”就能冲上热搜、一次故障足以抹去全年利润时,可靠性不再是运维部的“幕后工作”,而是决定企业生死的“前沿战场”。工信部教考中心推出的《系统可靠性工程师(高级)》课程,聚焦站点可靠性工程(SRE)体系,深度融合可靠性与服务韧性理念,系统阐释现代数字基础设施可靠性建设的理论与最佳实践,帮助个人与企业把“可用性99.99%”从口号变成日常。
牛奶咖啡133 个月前
云原生·devops·分布式系统·sre·监控方法论·需监控哪些指标·监控与可观测性
Prometheus+Grafana构建云原生分布式监控系统(一)DevOps(Development(开发) Operations(运维))的组合词,是一套融合文化理念、流程方法与技术工具的实践体系,核心是打破开发与运维壁垒,通过协作、自动化与持续反馈实现软件快速、高质量交付;属于方法论指导或理念。
雅菲奥朗4 个月前
运维·devops·sre
雅菲奥朗SRE知识墙分享(九)『DevOps & SRE 如何实现职场转型?』引言:Simon Sinek的「黄金圈」(The Golden Circle)这张图几乎出现在每一本真正成功的DevOps转型案例里。核心就一句话:「People don't buy what you do; they buy why you do it.」——人们买的不是“你做什么”,而是“你为什么做?”
小涵6 个月前
linux·运维·devops·1024程序员节·sre
第 01 天:Linux 是什么?内核、发行版及其生态系统推荐超级课程:Linux 是现代技术的支柱。您每天其实都在与它互动,只是通常你没有意识到而已。从为科学研究提供动力的超级计算机,到运行互联网的服务器,再到家中的智能设备,Linux 无处不在。它是开发人员、系统管理员和网络安全专业人员的首选操作系统。了解 Linux 是任何从事技术职业的人都必备的技能。
西京刀客6 个月前
sre·站点可靠性工程
什么是 SRE(站点可靠性工程)?SRE,Site Reliability Engineering,中文翻译为站点可靠性工程师,这个词诞生于谷歌内部。
雅菲奥朗6 个月前
sre·云成本管理
雅菲奥朗SRE知识墙分享(十):『SRE云成本管理的定义与实践』一、SRE云成本管理的核心概念• FinOps“财务与 DevOps 的融合实践”,推动技术、业务与财务共同参与云成本治理
Kookoos7 个月前
sre·abp vnext·chaos mesh·slo/sla·networkchaos
Chaos Mesh / LitmusChaos 混沌工程:验证 ABP 的韧性策略注入面:恢复面:Kubernetes 探针(liveness/readiness/startup)+ Istio(超时/重试/熔断)+ .NET Resilience(Polly v8 管道)。
雅菲奥朗8 个月前
运维·ai·sre
雅菲奥朗SRE知识墙分享(一):『SRE对智能运维领域所产生的深远影响』一、SRE推动了运维与开发的融合1、增强协作:SRE模式鼓励运维与开发团队之间的紧密合作,共享知识、资源和责任,共同解决系统稳定性和性能问题。
深耕云原生8 个月前
稳定性·sre
SRE系列(二) | 从可用性到 SLI/SLO在上一讲里我们聊到,SRE 是一套体系化工程,核心目标就是两个:提升 MTBF,降低 MTTR。说得直白一点,就是尽量减少故障发生,同时让系统出问题时能更快恢复。
鸡鸭扣10 个月前
运维·面试·求职招聘·运维开发·面经·sre·米哈游
25年春招:米哈游运维开发一面总结base上海,绝区零组,一小时左右,问得不深但是问的很广。 本人bg:双非,非科班女生,三段实习,分别是小、中、大厂,第一段和第二段都为java开发,第三段为python开发。所以很多面试都重点拷打了大厂实习内容。
SRETalk2 年前
sre·httpstat
SRE 排障利器,接口请求超时试试 httpstat夜莺资深用户群有人推荐的一个工具,看了一下真挺好的,也推荐给大家。A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。
Seal软件2 年前
运维·devops·sre
14款DevOps/SRE工具,助力提升运维效率随着平台工程的兴起,DevOps 和 SRE 不断发展,带来了新一代工具,旨在提高软件开发和运维的效率、可扩展性和可靠性。