跳转到内容
View in the app

A better way to browse. Learn more.

彼岸论坛

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS
  1. Tap the Share icon in Safari
  2. Scroll the menu and tap Add to Home Screen.
  3. Tap Add in the top-right corner.
To install this app on Android
  1. Tap the 3-dot menu (⋮) in the top-right corner of the browser.
  2. Tap Add to Home screen or Install app.
  3. Confirm by tapping Install.
欢迎抵达彼岸 彼岸花开 此处谁在 -彼岸论坛

[程序员] 说一下这一次阿里云新加坡 C 区火灾

发表于

这次阿里云新加坡 C 区的火灾影响了很多依赖其服务的公司,我们的小公司也深受波及。

10 号早上:

我们发现服务不可用,SSH 无法连接。紧急登录阿里云后,看到服务器被莫名其妙地关机了。我们立即点击重启,并提交了工单。然而工单的回复却让我们提供服务器崩溃日志——事实上,真正的原因是火灾。

10 号中午:

午饭时,我们看到了新闻,阿里云新加坡 C 区发生火灾。这时,我们还没有意识到应该立即进行服务器备份和迁移。

10 号下午:

虽然服务恢复了,但由于上下游服务依然依赖阿里云,也不同程度受到了影响。比如 Lazada 无法获取面单,Flash 仓库无法推送仓库指令。整个下午都在安抚客户,并尽量提供情绪支持。

10 号晚上 8 点:

晚上 8 点,服务再次中断,尽管机器没有显示停机,但监控数据表明 CPU 和内存占用降到了 0 。我们意识到磁盘可能已经挂掉了。由于没有备份,我们开始购买新机器,并重新部署、修改 Nginx 和 DNS 等配置。刚刚迁移完最重要的两个服务,原本的机器又恢复了。这时我们立即给机器做了镜像,认为火灾已经得到控制,剩下的服务便没有迁移。

11 号早上:

一大早在群里得知服务再次中断,所幸我们有了镜像,迅速恢复到新机器,并修改了 DNS 解析,终于结束了这次危机。

这次事件的教训:

  1. 不要过度依赖大厂的效率:关键时刻,大厂的响应速度和可靠性未必能够保证。
  2. 能用钱解决的问题尽早解决:发现问题后,应该尽快换区并将所有服务迁移,避免更大的损失。
  3. 不要怕麻烦:提前做好备份和迁移工作可以在突发事件中减少很多麻烦。

这次的火灾为我们上了一课,数据和服务的安全性永远不能轻视。

Featured Replies

No posts to show

创建帐户或登录来提出意见

Configure browser push notifications

Chrome (Android)
  1. Tap the lock icon next to the address bar.
  2. Tap Permissions → Notifications.
  3. Adjust your preference.
Chrome (Desktop)
  1. Click the padlock icon in the address bar.
  2. Select Site settings.
  3. Find Notifications and adjust your preference.