SRE

质量检查在 Netflix 的重要性

我们生活在动荡但有趣的时代。富人变得更富有,穷人变得更穷,创新者设计了创新的方法来应对由新冠病毒引起的大流行带来的破坏。大流行还给我们的生活

继续阅读

精益投资组合

原文链接:PORTFOLIO FUNDING BY HORIZON

继续阅读

谷歌的 SRE 是怎么来的?

Photo by ThisisEngineering RAEng on Unsplash 一直以来,IT企业总是雇佣系统管理员来运行复杂的系统。 这种系统管理员方法涉及构建现有的软件组件,并将它们部署到一起以生成服务。然

继续阅读

DevOps的第一阶段已近尾声,下一阶段(卓越的工程)即将开启

Gartner 曾经在 2018 年预测: 到2022年,在启动 DevOps 转型计划的企业中,因组织学习和变革问题而无法达到预期的企业将达到 75% 之多。 DevOps代表了 IT 组织文化

继续阅读

系统故障的度量指标:MTTR,MTBF,MTTF

MTTR、MTBF 和 MTTF 等指标对于任何具有服务依赖性的组织都是必不可少的。只有跟踪这些关键KPI,企业才能最大限度地延长正常运行时间,并将中断

继续阅读

SRE落地:用VALET模式统一语言

本文源自《SRE工作手册》英文版第三章,讲述的是家得宝(THD)公司在SRE转型中如何使用VALET。 VALET 是一个易记易用的模式语言,分别代表:

继续阅读

谷歌 SRE 对生产事件的响应时间与工作要求

既然有这样要求,那么,SRE 就会有工作超负荷的现象。 那么,如何解决超负荷的问题呢? 场景再现 假设有一个 Connection 服务,它负责前端负载平衡和终止无效地最

继续阅读