全球主机交流论坛

标题: cloudflare 出故障复盘了 [打印本页]

作者: Susanoo    时间: 2023-11-4 15:35
标题: cloudflare 出故障复盘了
简单总结一下,

cloudflare 的三个互相 “独立” 的灾备机房,其中一个的所在地,有一次计划外的供电系统维护,然后搞崩了,UPS生效期间机房也没来得及开独立发电机,机房供电中断。

正常来说请求会reroute到另外两个机房,但是尴尬的是,另外两个机房部分子服务依赖于只有断电这个机房才能提供的服务,断电机房是核心地位,并非和另外两个完全冗余。所以就有了这么久的抢救,应该是互联网公司级别最高的事故了。
作者: shuni9    时间: 2023-11-4 15:36
CF防护还是可以的
作者: 少年时    时间: 2023-11-4 15:37
表示还不能解析。
作者: Susanoo    时间: 2023-11-4 15:38
少年时 发表于 2023-11-4 15:37
表示还不能解析。

还有很多服务处于read-only状态,新配置暂时不会生效
作者: 巨型野猪    时间: 2023-11-4 15:38
无法解析还是
作者: wzw    时间: 2023-11-4 15:38
666
作者: Susanoo    时间: 2023-11-4 15:39
张维为 发表于 2023-11-4 15:37
造成什么严重后果或者损失了吗

边缘的服务没什么影响,其他就不知道了
作者: icon    时间: 2023-11-4 15:39
近年来看到了太多的这类事情,当然是指大厂,所谓的灾备就是个PI
作者: l王1-    时间: 2023-11-4 15:40
好像好了
作者: laba    时间: 2023-11-4 15:40
一个域名添加进去,解析了一天还是没有用
作者: 直男    时间: 2023-11-4 15:42
放在国内这么久的故障得被骂死了
作者: NodeLoc    时间: 2023-11-4 15:42
laba 发表于 2023-11-4 15:40
一个域名添加进去,解析了一天还是没有用

+1
作者: 雪丫鬟    时间: 2023-11-4 15:43
起码防护都是好的。
作者: Susanoo    时间: 2023-11-4 15:43
NodeLoc 发表于 2023-11-4 15:42
+1

他这故障都快48小时了吧
作者: 巨型野猪    时间: 2023-11-4 15:44
NodeLoc 发表于 2023-11-4 15:42
+1

+2
作者: WuZihan    时间: 2023-11-4 15:44
前天学MJJ建了个图床,今天中午才开始能访问
作者: hardwar    时间: 2023-11-4 15:47
本帖最后由 hardwar 于 2023-11-4 15:51 编辑

我比较感兴趣的部分:

Flexential 上大分

建议 FB 送几台角磨机给 CF,机房必备开门工具

机房夜班除了保安只有一个刚入职一周的孤独技术员,真实

产品 Global Access 之前冗余全靠团队自觉,公司没有统一要求,即使是看起来推出很久的产品如 Stream

企业级用户 Log Push 没了就是没了


作者: 巨型野猪    时间: 2023-11-4 15:48
hardwar 发表于 2023-11-4 15:47
我比较感兴趣的部分:

Flexential 上大分

好吧,Flexential 背大锅
作者: Susanoo    时间: 2023-11-4 15:49
hardwar 发表于 2023-11-4 15:47
我比较感兴趣的部分:

Flexential 上大分

“开门进去手动恢复供电!”
“没有电怎么开门!”
”不开门怎么恢复供电!“
“没有电怎么开门!”
……
作者: 123123    时间: 2023-11-4 15:49
门禁恒久远,电锯永流传
作者: 巨型野猪    时间: 2023-11-4 15:50
Susanoo 发表于 2023-11-4 15:49
“开门进去手动恢复供电!”
“没有电怎么开门!”
”不开门怎么恢复供电!“


作者: Fightlee    时间: 2023-11-4 15:52
质疑草台班子
理解草台班子
成为草台班子
作者: dragonfsky    时间: 2023-11-4 16:00
这个错误也挺搞笑的 跟上次谷歌磁盘满了有的一拼
作者: tylup    时间: 2023-11-4 16:05
完全灾备太贵了,大家都不断缩减成本,最后肯定出事,早晚而已

抽出一家幸运公司出丑
作者: freemjj    时间: 2023-11-4 16:07
这怕是得赔不少钱吧
作者: 今天你封号了吗    时间: 2023-11-4 16:08
cf月经,正常的。。。每个月都有那末几天
作者: 机长    时间: 2023-11-4 16:33
和脸书宕机事故如出一辙
作者: lili    时间: 2023-11-4 16:52
最后撬棍解决的
作者: 4dev    时间: 2023-11-4 18:10
容灾测试不完备
作者: 菜鸡鲲    时间: 2023-11-4 18:37
灾备有点像笑话了。
作者: dq188    时间: 2023-11-4 18:38
经典灾备=白备
作者: botqna    时间: 2023-11-4 20:01
新的域名还是不能解析,反复尝试还以为是自己的问题
作者: loclocloc    时间: 2023-11-4 20:05
没想到草台班子论还能用在cf上
作者: imslc    时间: 2023-11-4 20:06
不就是断个电,就算是依赖核心机房,断电后没有及时启动备用电源,但还是可以启动柴油发电机的,启动柴油发电机也不需要一整天的时间吧,服务器关机后开机也需要一天多的时间?肯定不是这个原因。
作者: cany    时间: 2023-11-5 02:45
dragonfsky 发表于 2023-11-4 16:00
这个错误也挺搞笑的 跟上次谷歌磁盘满了有的一拼

谷歌磁盘满了是哪一回,没赶上,有没有文章链接
作者: Hetzner    时间: 2023-11-5 08:20
cloudflare这有点…前有配错交换机,不多久又搞个这个,这可靠性少了几个9了
作者: huzhizhang    时间: 2023-11-5 09:52
新加的域名大部分不能解析,换回原来的NS了
作者: imok    时间: 2023-11-5 09:57
cf 牛逼死了 每次出问题   回顾一下 都是小的错误 引发的大问题
作者: 御坂    时间: 2023-11-5 13:03
imslc 发表于 2023-11-4 20:06
不就是断个电,就算是依赖核心机房,断电后没有及时启动备用电源,但还是可以启动柴油发电机的,启动柴油发 ...

断电后发现有短路,为了保护电路切断了电力供应,也包括发电机
为了恢复电力供应,必须进入机房排除故障,重启发电机
但是没有电,打不开门禁
打不开门禁,进不去机房,打不开发电机
打不开发电机,机房没有电,门禁打不开
门禁打不开,进不去机房,打不开发电机...




欢迎光临 全球主机交流论坛 (https://fd.vvwvv.eu.org/) Powered by Discuz! X3.4