貉之丘: 亲历 AWS 网络大故障

2025-10-22

亲历 AWS 网络大故障

周一下午，我刚完成从 Medium 搬运到 Substack 的第一篇文章，正要去看效果，就发现 Substack 的网页时常报错，很难打开了。

一开始还只是某些访问有问题，多刷几次能出来。后来就渐渐地总是刷不出来了。正在疑惑是怎么回事，转去看 Medium，发现 Medium 也开始不稳定起来了。报错代码是 504，Cloudflare 报的。

本以为是 GFW 的原因，但报错代码是 50X，有时是 503。这是后端服务器有问题的错误代码，看起来跟 GFW 没关系。而且 504 是Gateway Timeout，GFW 显然不可能干扰 Cloudflare 的回源。我开始认识到这次可能是有什么 Internet 基础设施故障了。不知道这两家原本是竞争对手的公司，基础设施怎么会搞到一块儿去的？比较大概率是 AWS，因为 Google 的服务很稳定，微软也没出问题。

我用 Google 搜了一下，貌似还没什么新闻。Reddit 上有少量用户在各自的专区反映 Substack 和 Medium 出了问题，从印度和葡萄牙的访问都有问题，美国本土倒是好像没人说。我登录了 Reddit 账号，也上去写了两句，接着等消息。

图片来自网络

没过多久，BBC 有动静了，报道说 AWS 出了事故。据说是美东一区的 DynamoDB 访问出现报错和延误。我自己其实也从 AWS 的 Status 页面上刷到了这条消息。我意识到自己可能正在经历一次全球性的 IT 基础设施故障。有 Reddit 用户说 Trello 和 Hulu 也在波及范围，我上 Trello 看了一眼，好像还没事。

再后来没多久，Reddit 上也有人在贴这个新闻。从 BBC 的报道来看，影响面挺大的，一些网游和银行都受到了波及。英国那边有点气噗噗，觉得凭什么美国佬儿的故障要影响到我们 Great Britain。最后的阶段，连 Reddit 也开始访问不稳定了。

可气的是，自始至终，无论是 Substack 还是 Medium，他们自己的 Status 页面上一直都是 OK 的。这样的页面看来只是一个摆设。

不过恢复也挺快，AWS 更新了 Status 说已经定位到了原因之后，不到半小时，访问就纷纷恢复了。下班前我试了一下 Substack 和 Medium，二者的服务都已经正常了。

貉之丘

善意提醒

2025-10-22

亲历 AWS 网络大故障

没有评论:

发表评论