Index of /【已完结】SRE实践:服务可靠性案例课/
../
【001】开篇词|互联网公司故障频发,我们应该如何保障服务持续可靠?.html 17-Aug-2025 13:30 13340
【002】导学|如何构建坚不可摧的服务可靠性体系?.html 17-Aug-2025 13:30 14933
【003】01|监控:如何从业务视角出发添加监控?.html 17-Aug-2025 13:31 26834
【004】02| 容量:从业务视角看容量到底是什么?.html 17-Aug-2025 13:31 25877
【005】03|变更:为什么说变更是可靠性的第一杀手?.html 17-Aug-2025 13:31 19419
【006】04|预案:预案的三板斧指的是什么?.html 17-Aug-2025 13:31 20445
【007】05|备份和恢复:可靠性的最后一道防线.html 17-Aug-2025 13:31 20868
【008】06|可靠性文化和规范:人是万物的尺度.html 17-Aug-2025 13:31 13895
【009】微软蓝屏事件:如何应对变更带来的问题?.html 17-Aug-2025 13:31 12155
【010】网易云音乐故障猜想:如何避免迁移带来的问题?.html 17-Aug-2025 13:31 14701
【011】07|监控场景:为什么所有故障都有监控的因素?.html 17-Aug-2025 13:31 19924
【012】08|容量场景(一):12306为什么现在能扛住春节抢票了?.html 17-Aug-2025 13:31 18150
【013】09|容量场景(二):一次让网盘雪崩的热点事件.html 17-Aug-2025 13:31 16392
【014】10|容量场景(三):一条让新浪工程师们通宵加班的微博.html 17-Aug-2025 13:31 15107
【015】11|变更场景(一):一条让Facebook蒸发百亿的指令.html 17-Aug-2025 13:31 15454
【016】12|变更场景(二):一次简单升级竟然损失几千万.html 17-Aug-2025 13:31 14102
【017】13|变更场景(三): 连续绊倒两个云厂商的故障.html 17-Aug-2025 13:31 14127
【018】14|预案场景(一):B站最为深刻的一次自我剖析.html 17-Aug-2025 13:31 16227
【019】15|预案场景(二):一次机房故障为何让多位高管被辞退?.html 17-Aug-2025 13:31 15912
【020】16 |备份和恢复:一次误操作中断7小时.html 17-Aug-2025 13:32 14974
【021】17 |可靠性意识:可靠性Oncall十大原则.html 17-Aug-2025 13:32 18070
【022】18|概述:AIOps涉及哪些领域和方向?.html 17-Aug-2025 13:32 14867
【023】19|AIOps故障发现:我们如何看到肉眼看不到的故障?.html 17-Aug-2025 13:32 18701
【024】20|AIOps问题定位:如何在报警风暴中找到暴风眼?.html 17-Aug-2025 13:32 22426
【025】21|AIOps容量预测:如何准确地预估流量?.html 17-Aug-2025 13:32 18114
【026】22|AIOps变更管理:如何进行更全面地检查与更精准地阻断?.html 17-Aug-2025 13:32 18296
【027】23|AIOps智能决策:给故障处理安装一个大脑.html 17-Aug-2025 13:32 18205
【028】24|AIOps数据可靠性:如何预测磁盘故障.html 17-Aug-2025 13:32 17814
【029】25|可靠性基础科学:可靠性背后的运筹学和概率学.html 17-Aug-2025 13:32 14731
【030】结束语|这里不是终点,而是一个起点.html 17-Aug-2025 13:32 10810
【031】结课测试|来赴一场满分之约.html 17-Aug-2025 13:32 2139
【032】元旦加餐|2024年互联网大厂故障盘点.html 17-Aug-2025 13:32 17192