Index of /【已完结】SRE实践:服务可靠性案例课/


../
【001】开篇词|互联网公司故障频发,我们应该如何保障服务持续可靠?.html            17-Aug-2025 13:30               13340
【002】导学|如何构建坚不可摧的服务可靠性体系?.html                     17-Aug-2025 13:30               14933
【003】01|监控:如何从业务视角出发添加监控?.html                     17-Aug-2025 13:31               26834
【004】02| 容量:从业务视角看容量到底是什么?.html                    17-Aug-2025 13:31               25877
【005】03|变更:为什么说变更是可靠性的第一杀手?.html                   17-Aug-2025 13:31               19419
【006】04|预案:预案的三板斧指的是什么?.html                       17-Aug-2025 13:31               20445
【007】05|备份和恢复:可靠性的最后一道防线.html                      17-Aug-2025 13:31               20868
【008】06|可靠性文化和规范:人是万物的尺度.html                      17-Aug-2025 13:31               13895
【009】微软蓝屏事件:如何应对变更带来的问题?.html                      17-Aug-2025 13:31               12155
【010】网易云音乐故障猜想:如何避免迁移带来的问题?.html                   17-Aug-2025 13:31               14701
【011】07|监控场景:为什么所有故障都有监控的因素?.html                  17-Aug-2025 13:31               19924
【012】08|容量场景(一):12306为什么现在能扛住春节抢票了?.html           17-Aug-2025 13:31               18150
【013】09|容量场景(二):一次让网盘雪崩的热点事件.html                  17-Aug-2025 13:31               16392
【014】10|容量场景(三):一条让新浪工程师们通宵加班的微博.html              17-Aug-2025 13:31               15107
【015】11|变更场景(一):一条让Facebook蒸发百亿的指令.html            17-Aug-2025 13:31               15454
【016】12|变更场景(二):一次简单升级竟然损失几千万.html                 17-Aug-2025 13:31               14102
【017】13|变更场景(三): 连续绊倒两个云厂商的故障.html                 17-Aug-2025 13:31               14127
【018】14|预案场景(一):B站最为深刻的一次自我剖析.html                 17-Aug-2025 13:31               16227
【019】15|预案场景(二):一次机房故障为何让多位高管被辞退?.html             17-Aug-2025 13:31               15912
【020】16 |备份和恢复:一次误操作中断7小时.html                     17-Aug-2025 13:32               14974
【021】17 |可靠性意识:可靠性Oncall十大原则.html                  17-Aug-2025 13:32               18070
【022】18|概述:AIOps涉及哪些领域和方向?.html                    17-Aug-2025 13:32               14867
【023】19|AIOps故障发现:我们如何看到肉眼看不到的故障?.html             17-Aug-2025 13:32               18701
【024】20|AIOps问题定位:如何在报警风暴中找到暴风眼?.html              17-Aug-2025 13:32               22426
【025】21|AIOps容量预测:如何准确地预估流量?.html                  17-Aug-2025 13:32               18114
【026】22|AIOps变更管理:如何进行更全面地检查与更精准地阻断?.html          17-Aug-2025 13:32               18296
【027】23|AIOps智能决策:给故障处理安装一个大脑.html                 17-Aug-2025 13:32               18205
【028】24|AIOps数据可靠性:如何预测磁盘故障.html                   17-Aug-2025 13:32               17814
【029】25|可靠性基础科学:可靠性背后的运筹学和概率学.html                 17-Aug-2025 13:32               14731
【030】结束语|这里不是终点,而是一个起点.html                        17-Aug-2025 13:32               10810
【031】结课测试|来赴一场满分之约.html                            17-Aug-2025 13:32                2139
【032】元旦加餐|2024年互联网大厂故障盘点.html                      17-Aug-2025 13:32               17192