В Amazon Web Services заявили, что отключения, наблюдавшиеся в конце февраля и затронувшие целый ряд крупных интернет-ресурсов и приложений, были вызваны ошибкой человека.
Целый ряд сайтов, в том числе и принадлежащие Netflix, Reddit и Associated Press, испытывали во вторник серьезные трудности из-за простой опечатки. О возникших проблемах с работой сервиса Apple Music сообщила компания Apple. Неполадки с хостингом изображений возникли у интернет-изданий The Verge и Business Insider. Проблемы наблюдались даже на сайте Комиссии ?по ценным бумагам и биржам США.
«Мы гордимся высоким уровнем готовности Amazon S3 и знаем, насколько важен этот сервис для наших клиентов, их приложений и конечных пользователей, – говорится в сообщении компании. – Мы сделаем все, что в наших силах, для того чтобы извлечь из случившегося необходимые уроки и используем их для дальнейшего роста уровня готовности».
Напомним, 28 февраля на электронной доске объявлений AWS Service Health Dashboard появилась информация о возникновении проблем с сервисом S3 (Simple Storage Service) в ЦОД, расположенных в северной Вирджинии.
Сбои, отразившиеся даже на работе инструментальной панели AWS, продолжались до пяти часов вечера по североамериканскому восточному времени.
И вот теперь AWS предлагает объяснение тому, что случилось.
«Команда Amazon Simple Storage Service (S3) разбиралась с причинами более медленного по сравнению с ожидаемым совершенствования биллинговой системы S3, – говорится в заявлении компании. – В 12:37 авторизованный участник команды S3 в рамках утвержденной схемы выполнил команду, которая отключила небольшое количество серверов в одной из подсистем S3, использовавшейся в биллинговом процессе. К сожалению, один из параметров в команде был задан некорректно, в результате чего из обработки было выключено большее число серверов по сравнению с запланированным».
По словам аналитика компании ZK Research Зевса Керравалы, он не удивлен тем, что столь масштабный сбой был вызван ошибкой человека.
«Мои исследования показывают, что 37% отключений происходят из-за человеческого фактора, – указал он. – Удивительно, что несмотря на огромные технологические достижения многие процессы по-прежнему выполняются вручную. Улучшение автоматизации и применение методов машинного обучения помогло бы избежать возникновения таких ситуаций».
В AWS заявили, что инженеры извлекли уроки из произошедшего и внесут в свою деятельность необходимые коррективы, с тем чтобы подобное больше не повторялось.
«Ключевым фактором в данном случае стало отключение определенного объема мощностей, – поясняют в компании. – Применявшийся инструмент позволял отключать большое их количество слишком быстро. Мы внесли изменения, замедляющие процесс удаления мощностей, и добавили средства защиты, которые предотвращают отключение, если при этом доступные любой из подсистем ресурсы опускаются ниже минимально требуемого уровня».
Все это должно блокировать нежелательное отключение в случае ошибочного ввода команд.
В компании подчеркнули, что инженеры изучат и другие операционные инструменты, с тем чтобы инициировать аналогичные проверки на безопасность.
«Мы внесем необходимые изменения для сокращения сроков восстановления ключевых подсистем S3, – говорится в заявлении AWS. – Применение множества эффективных технологий обеспечит быстрое восстановление наших сервисов в случае любого сбоя».
По мнению аналитика компании Moor Insights & Strategy Патрика Мурхеда, инцидент с S3 отрицательно отразится на репутации AWS в краткосрочной перспективе.
«Просто удивительно, какое сильное влияние всего одна ошибка в команде оказала на миллионы пользователей, – подчеркнул он. – От AWS люди ожидали большего. И теперь предприятиям нужно дважды подумать, прежде чем перемещать свою рабочую нагрузку и приложения в публичное облако. У них появляются дополнительные факторы мотивации для развития частных облаков».
Со своей стороны, Керравала ожидает, что Google и Microsoft также извлекут из инцидента с AWS необходимые уроки и постараются использовать его для повышения своей конкурентоспособности.