善意提醒

如果您打开本站很慢,布局排版混乱,并且看不到图片,那么可能是因为您还没有掌握用科学的方法上网的本领。

2025-10-22

亲历AWS网络大故障

周一下午,我刚完成从Medium搬运到Substack的第一篇文章,正要去看效果,就发现Substack的网页时常报错,很难打开了。

一开始还只是某些访问有问题,多刷几次能出来。后来就渐渐地总是刷不出来了。正在疑惑是怎么回事,转去看Medium,发现Medium也开始不稳定起来了。报错代码是504,Cloudflare报的。

本以为是GFW的原因,但报错代码是500,有时是503。这是后端服务器有问题的错误代码,看起来跟GFW没关系。而且504是Gateway Timeout,GFW显然不可能干扰Cloudflare的回源。我开始认识到这次可能是有什么Internet基础设施故障了。不知道这两家原本是竞争对手的公司,基础设施怎么会搞到一块儿去的?比较大概率是AWS,因为Google的服务很稳定,微软也没出问题。

我用Google搜了一下,貌似还没什么新闻。Reddit上有少量用户在各自的专区反映Substack和Medium出了问题,从印度和葡萄牙的访问都有问题,美国本土倒是好像没人说。我登录了Reddit账号,也上去写了两句,接着等消息。

图片来自网络

没过多久,BBC有动静了,报道说AWS出了事故。据说是美东一区的DynamoDB访问出现报错和延误。我自己其实也从AWS的Status页面上刷到了这条消息。我意识到自己可能正在经历一次全球性的IT基础设施故障。有Reddit用户说Trello和Hulu也在波及范围,我上Trello看了一眼,好像还没事。

再后来没多久,Reddit上也有人在贴这个新闻。从BBC的报道来看,影响面挺大的,一些网游和银行都受到了波及。英国那边有点气噗噗,觉得凭什么美国佬儿的故障要影响到我们Great Britain。最后的阶段,连Reddit也开始访问不稳定了。

可气的是,自始至终,无论是Substack还是Medium,他们自己的Status页面上一直都是OK的。这样的页面看来只是一个摆设。

不过恢复也挺快,AWS更新了Status说已经定位到了原因之后,不到半小时,访问就纷纷恢复了。下班前我试了一下Substack和Medium,二者的服务都已经正常了。

没有评论:

发表评论