Причиной отключения сервиса AWS стала опечатка

Многочасовой сбой, обрушивший множество веб-сайтов и приложений, был вызван человеческим фактором.

В Amazon Web Services заявили, что отключения, наблюдавшиеся в конце февраля и затронувшие целый ряд крупных интернет-ресурсов и приложений, были вызваны ошибкой человека.

Целый ряд сайтов, в том числе и принадлежащие Netflix, Reddit и Associated Press, испытывали во вторник серьезные трудности из-за простой опечатки. О возникших проблемах с работой сервиса Apple Music сообщила компания Apple. Неполадки с хостингом изображений возникли у интернет-изданий The Verge и Business Insider. Проблемы наблюдались даже на сайте Комиссии ?по ценным бумагам и биржам США.

«Мы гордимся высоким уровнем готовности Amazon S3 и знаем, насколько важен этот сервис для наших клиентов, их приложений и конечных пользователей, – говорится в сообщении компании. – Мы сделаем все, что в наших силах, для того чтобы извлечь из случившегося необходимые уроки и используем их для дальнейшего роста уровня готовности».

Напомним, 28 февраля на электронной доске объявлений AWS Service Health Dashboard появилась информация о возникновении проблем с сервисом S3 (Simple Storage Service) в ЦОД, расположенных в северной Вирджинии.

Сбои, отразившиеся даже на работе инструментальной панели AWS, продолжались до пяти часов вечера по североамериканскому восточному времени.

И вот теперь AWS предлагает объяснение тому, что случилось.

«Команда Amazon Simple Storage Service (S3) разбиралась с причинами более медленного по сравнению с ожидаемым совершенствования биллинговой системы S3, – говорится в заявлении компании. – В 12:37 авторизованный участник команды S3 в рамках утвержденной схемы выполнил команду, которая отключила небольшое количество серверов в одной из подсистем S3, использовавшейся в биллинговом процессе. К сожалению, один из параметров в команде был задан некорректно, в результате чего из обработки было выключено большее число серверов по сравнению с запланированным».

По словам аналитика компании ZK Research Зевса Керравалы, он не удивлен тем, что столь масштабный сбой был вызван ошибкой человека.

«Мои исследования показывают, что 37% отключений происходят из-за человеческого фактора, – указал он. – Удивительно, что несмотря на огромные технологические достижения многие процессы по-прежнему выполняются вручную. Улучшение автоматизации и применение методов машинного обучения помогло бы избежать возникновения таких ситуаций».

В AWS заявили, что инженеры извлекли уроки из произошедшего и внесут в свою деятельность необходимые коррективы, с тем чтобы подобное больше не повторялось.

«Ключевым фактором в данном случае стало отключение определенного объема мощностей, – поясняют в компании. – Применявшийся инструмент позволял отключать большое их количество слишком быстро. Мы внесли изменения, замедляющие процесс удаления мощностей, и добавили средства защиты, которые предотвращают отключение, если при этом доступные любой из подсистем ресурсы опускаются ниже минимально требуемого уровня».

Все это должно блокировать нежелательное отключение в случае ошибочного ввода команд.

В компании подчеркнули, что инженеры изучат и другие операционные инструменты, с тем чтобы инициировать аналогичные проверки на безопасность.

«Мы внесем необходимые изменения для сокращения сроков восстановления ключевых подсистем S3, – говорится в заявлении AWS. – Применение множества эффективных технологий обеспечит быстрое восстановление наших сервисов в случае любого сбоя».

По мнению аналитика компании Moor Insights & Strategy Патрика Мурхеда, инцидент с S3 отрицательно отразится на репутации AWS в краткосрочной перспективе.

«Просто удивительно, какое сильное влияние всего одна ошибка в команде оказала на миллионы пользователей, – подчеркнул он. – От AWS люди ожидали большего. И теперь предприятиям нужно дважды подумать, прежде чем перемещать свою рабочую нагрузку и приложения в публичное облако. У них появляются дополнительные факторы мотивации для развития частных облаков».

Со своей стороны, Керравала ожидает, что Google и Microsoft также извлекут из инцидента с AWS необходимые уроки и постараются использовать его для повышения своей конкурентоспособности.