2015年12月14日服务故障报告

2015年12月14日18时15分,我们陆续接到用户的反馈,说数据的读写和同步出现失败的现象。随后工程师立即开始定位并解决问题,最终于18点48分彻底解决故障。在此期间对部分用户造成了数据不可读写的影响,但是不会造成数据丢失。

我们将具体事故造成的原因在这里与大家说明一下。下图是接入层与data handler服务的框图,Nodejs 提供websocket的服务集群,与data handler服务通过RPC调用。

图片1

为了提升性能和获得更好的软件兼容性,我们于14日进行了data  handler服务器操作系统的升级,内核版本由2.6升级到3.10。升级的过程是切换服务平滑进行的,但是部分服务器在重新部署并上线之前,疏忽了进程的open file的配置。启动服务后RPC连接超过限额,导致后续其他连接无法建立。

我们很感谢用户第一时间反馈问题,同时也对受影响的用户表示抱歉和愧疚。做为一个云服务,我们始终关注服务的稳定性。接下来的一段时间内,技术团队将以服务稳定性为第一重要的优先级任务。我们深刻的反省了问题,并制定了改进措施:

  1. 强化运维自动化配置,用自动化和脚本的手段取代人工操作,以避免疏漏。
  2. 在进程和端口监控的基础之上,增加业务级的监控和日志的异常监控,以第一时间发现问题,进行报警和自动failover。

 

-END-

知识共享许可协议
本站内容采用知识共享署名 4.0 国际许可协议进行许可。

热门文章:

扒一扒HTTPS网站的内幕

关于Web安全,99%的网站都忽略了这些

写了十年JS却不知道模块化为何物?

前端调试效率低?试试这10个“Chrome开发者工具”使用技巧

发表评论

电子邮件地址不会被公开。