阿里云的工程师要被祭天了?

640?wx_fmt=gif

那边刚根据美国市场研究机构 Synergy Research Group 的数据,阿里巴巴云计算业务赶超了 IBM,成为全球第四大云基础设施及相关服务的提供商,然后这边的阿里云就挂掉了。

昨天下午 16:30 左右,朋友圈、微博等地方受到众多网友的刷屏,原因是纷纷吐槽阿里云控制台访问出现故障,导致官网时好时坏,后台直接登录不上,其中图片服务器也挂掉。


影响范围


受影响的可不止阿里巴巴自家的淘宝天猫,毕竟如今作为全球领先的云计算服务平台,这一故障,直接导致了国内半个互联网瘫痪。

对此,不少网友怨声载道:

阿里云的函数计算挂了,导致线上故障。打算马上降级到本地计算,结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下,发现 OSS 也挂了...整个过程没有报警,因为 SLS 也挂了...

640?wx_fmt=jpeg

640?wx_fmt=png

最怕就是在上线交差的时候出现了 Bug。

640?wx_fmt=png

随后,阿里云正式发布通告称,于北京时间 2018 年 6 月 27 日 16:21 分左右,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。阿里工程师正在紧急处理中。

640?wx_fmt=png


现状


而对于这次故障,阿里云表示已经在昨天下午 17:30 陆续修复恢复正常,并于凌晨 12:54 发布声明表示:没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。

至于具体的原因,阿里云称:

当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。

受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。

640?wx_fmt=jpeg

写在最后


每一次的故障确实不应该发生,但有时又难以避免。对此,不少网友表示,理解身为同行的程序员们,解决问题比解决人更重要。

640?wx_fmt=png

但是也有不少人认为:

出了故障可以原谅,那客户的损失该如何算?

如果是没按规范操作导致的事故肯定是要处罚的,否则这次事故的复盘就是无价的经验啊。

技术人员肯定得背故障啊,但是这事应该要升级,不是说一个技术人或者开除就算了的。

对此,你怎看呢?

 征稿啦!

CSDN 公众号秉持着「与千万技术人共成长」理念,不仅以「极客头条」、「畅言」栏目在第一时间以技术人的独特视角描述技术人关心的行业焦点事件,更有「技术头条」专栏,深度解读行业内的热门技术与场景应用,让所有的开发者紧跟技术潮流,保持警醒的技术嗅觉,对行业趋势、技术有更为全面的认知。
如果你有优质的文章,或是行业热点事件、技术趋势的真知灼见,或是深度的应用实践、场景方案等的新见解,欢迎联系 CSDN 投稿,联系方式:微信(guorui_1118,请备注投稿+姓名+公司职位),邮箱(guorui@csdn.net)。


————— 推荐阅读 —————

点击图片即可阅读

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg640?wx_fmt=gif

640?wx_fmt=gif

展开阅读全文

阿里云工程师、 加速乐知道创宇工程师,宝塔面板技术都无法解决的php-fpm错误问题

06-16

这个问题,我们处理了2天2夜,试了各种方法,按照工单和阿里云官网教程和网上的很多文章,修改了很多配置方案,都没有解决。 rn请了加速乐的技术,宝塔面板的技术,阿里云工单的工程师,我们自己的技术,多方介入,始终无法找出错误原因!真心奔溃 rn论坛里有大神的火眼金睛看出问题吗?PHP+nginxrnrn网站的错误日志一直增加,60秒大概3-5次,php-fpm日志和网站的错误日志响应时间一一对应,网上搜索的那些配置增加响应时间,增加并发等等配置都试过了,都没用,错误日志还是不断的增加。日志量太大,截取时间点。rnrnphp-fpm日志rnrn[16-Jun-2018 08:09:45] WARNING: [pool www] child 14280 exited on signal 7 (SIGBUS) after 11372.904946 seconds from startrn[16-Jun-2018 08:09:45] NOTICE: [pool www] child 16012 startedrn[16-Jun-2018 08:13:21] WARNING: [pool www] child 15011 exited on signal 7 (SIGBUS) after 6306.948734 seconds from startrn[16-Jun-2018 08:13:21] NOTICE: [pool www] child 16042 startedrn[16-Jun-2018 08:13:40] WARNING: [pool www] child 15360 exited on signal 7 (SIGBUS) after 3978.144375 seconds from startrn[16-Jun-2018 08:13:40] NOTICE: [pool www] child 16046 startedrn[16-Jun-2018 08:15:16] WARNING: [pool www] child 15200 exited on signal 7 (SIGBUS) after 5120.345545 seconds from startrn[16-Jun-2018 08:15:16] NOTICE: [pool www] child 16056 startedrn[16-Jun-2018 08:16:23] WARNING: [pool www] child 15234 exited on signal 7 (SIGBUS) after 4959.731228 seconds from startrn[16-Jun-2018 08:16:23] NOTICE: [pool www] child 16067 startedrn[16-Jun-2018 08:16:43] WARNING: [pool www] child 15695 exited on signal 7 (SIGBUS) after 1742.269976 seconds from startrn[16-Jun-2018 08:16:43] NOTICE: [pool www] child 16070 startedrnrn网站的错误日志rnrn2018/06/16 08:09:45 [error]21214#0: *4091115 recv() failed (104: Connection reset by peer) while reading response header from upstreamrn2018/06/16 08:13:21 [error]21214#0: *4092932 recv() failed (104: Connection reset by peer) while reading response header from upstreamrn2018/06/16 08:13:40 [error]21218#0: *4102425 recv() failed (104: Connection reset by peer) while reading response header from upstreamrn2018/06/16 08:15:16 [error]21221#0: *4108422 recv() failed (104: Connection reset by peer) while reading response header from upstreamrn2018/06/16 08:16:23 [error]21221#0: *4109464 recv() failed (104: Connection reset by peer) while reading response header from upstreamrn2018/06/16 08:16:43 [error]21214#0: *4152318 recv() failed (104: Connection reset by peer) while reading response header from upstream 论坛

没有更多推荐了,返回首页