Десять крупнейших отказов облака в 2017 году

25 декабря 2017 г.

Самые запомнившиеся в уходящем году истории, затронувшие пользователей в США и Европе.

Даунтайм — неизбежность?

Общий тренд таков, что случаев неработоспособности облачных услуг становится всё меньше — поставщики набираются опыта и совершенствуют свои средства управления этими крупнейшими и самыми сложными из когда-либо существовавших серверных кластеров.

В начале года казалось, что сообщения о катастрофических отказах облачных услуг стали почти анахронизмом. Да, у всех провайдеров бывают какие-то срывы, когда не работают те или иные сервисы, либо краткие периоды региональных сбоев, но масштабные отказы вроде тех, что случались на заре становления этого рынка, казалось, ушли в прошлое.

Но ближе к концу февраля мир вновь узнал, что даже самый крупный провайдер облака, оснащенный самыми передовыми средствами автоматизации, всё же не застрахован от случайностей, и масштаб этого отказа был беспрецедентным. Отказ облака AWS потряс отрасль и поубавил уверенность корпоративных заказчиков, уже потеплевших к облачным технологиям, из-за одного лишь количества бизнес-сервисов, ставших недоступными в этот день. GitHub, Slack, Zendesk, Heroku, Twilio, Mailchimp, Citrix, Expedia — вот лишь малая часть понесенных пользователями потерь. Уверенность заказчиков еще больше упала, когда крупнейший игрок рынка сообщил, что причиной был человеческий фактор — одна неверная строка команды, введенная инженером сопровождения.

Этот памятный многим отказ — и, в меньшей степени, девять других, затронувших пользователей облачных сервисов в США, — служат напоминанием для быстро входящей в стадию зрелости отрасли, что ставки тех, кто претендует на безупречность обслуживания, как никогда высоки.

Вот те самые отказы облачных сервисов, которые запомнились многим пользователям в США и Европе в уходящем году.

IBM: 26 января

В самом начале прошлого года уверенность в безотказности облака IBM была поколеблена, когда портал управления, используемый разработчиками для доступа к сервисам платформы Bluemix, оказался неработающим в течение нескольких часов.

В самой инфраструктуре не было отказа, но пользователи были раздосадованы, видя, что не могут управлять своими приложениями и добавить или удалить облачные ресурсы, обслуживающие рабочие нагрузки.

IBM сказала тогда, что неполадки возникали время от времени и были вызваны неудачно проведенным обновлением интерфейса.

GitLab: 31 января

В этот день случился 18-часовой отказ популярного онлайн-репозитория исходного кода GibLab.com, последствия которого так и не были полностью исправлены. Отказ произошел после того, как сотрудник провайдера удалил каталог базы данных не с того сервера, проводя рутинные процедуры обслуживания.

Часть готового кода некоторых заказчиков была безвозвратно потеряна, в том числе последние изменения в проектах, комментариях и аккаунтах.

«По нашей самой точной оценке, это затронуло примерно 5000 проектов, 5000 комментариев и 700 новых пользовательских аккаунтов», — сообщила компания пост-фактум.

Принося извинения клиентам, главный управляющий GitLab признал: «потеря готового кода недопустима».

Facebook: 24 февраля

В течение почти трех долгих, мучительных часов некоторые пользователи по всему миру не могли попасть в Facebook и опасались, что их аккаунты украдены.

Позднее гигант соцсетей объяснил, что функционал, призванный оградить от хакеров, ошибочно отправлял пользователей на экран восстановления, что создавало впечатление, будто кто-то другой вошел в их аккаунт. Механизм защиты запрещал этим пользователям повторный вход в свой аккаунт. Facebook заверил, что никакого реального нарушения безопасности не было.

Это был уже второй случай за неделю, когда у пользователей соцсети возникли проблемы. Несколькими днями ранее несколько человек сообщили, что не видят свою ленту новостей.

Amazon Web Services: 28 февраля

Это был отказ, потрясший отрасль.

Штатный инженер Amazon Web Services, занимавшийся отладкой облачного хранилища S3 в ЦОДе в Виргинии, по ошибке ввел неверную команду, и громадная часть Интернета, включая популярные корпоративные сервисы Slack, Quora и Trello, не работала в течение четырех часов.

В разборе происшествия, опубликованном компанией, говорилось, что сотрудник действовал «по утвержденному сценарию» и намеревался остановить небольшое количество серверов, на которых работали подсистемы, обслуживающие процесс биллинга, но по ошибке ввел не ту команду, что привело к гораздо более масштабному отключению серверов, в том числе одной подсистемы, необходимой для обслуживания определенных запросов к функциям хранения данных, и еще одной, выделяющей новые ресурсы хранения.

Отказ у провайдера, на долю которого приходится около трети глобального рынка облачных услуг, вновь подогрел споры о рисках общедоступного облака.

Microsoft Azure: 16 марта

Проблемы доступа к ресурсам хранения осаждали общедоступное облако Microsoft Azure более восьми часов, затронув заказчиков главным образом на Востоке США.

Некоторым пользователям в регионе не удавалось предоставить новые ресурсы хранения или получить доступ к имеющимся. Команда специалистов компании смогла всё же выявить виновника — им оказался кластер хранения, где отключилось питание и потому ставший недоступным.

Кроме этой проблемы, Microsoft сообщила также на странице статуса Azure об ошибке в ПО, более часа вызывавшей сбой предоставления хранения для многих услуг.

Microsoft Office 365: 21 марта

В этот день несколько коммерческих и потребительских облачных сервисов Microsoft, в том числе сервисы хранения и электронной почты в Office 365, стали недоступны из-за проблем с аутентификацией пользователей. Продолжавшийся сбой не позволял использовать хранилище OneDrive, а также Skype, Outlook и игровой сервис Xbox Live.

Apple iCloud: 28 июня

Многие ленты новостей в соцсетях сообщили о недоступности сервиса резервного копирования в iCloud. Страница статуса облака Apple сообщала, что iCloud Backup не работает лишь для 1% пользователей.

Проблема, при которой затронутые пользователи не могли провести восстановление своих iOS-устройств из предыдущих резервных копий, сохранялась в течение по меньшей мере 36 часов. Процесс восстановления зависал, при этом сохранение новых резервных копий с устройств выполнялось без проблем.

Amazon Web Services: 14 сентября

Этот, новый отказ AWS в сентябре не шел ни в какое сравнение с отказом февраля, но то, что он затронул сервис хранилища S3 и что проблемы возникли всё в том же регионе US-EAST-1, пробудило малоприятные воспоминания о катастрофическом сбое полугодичной давности. Ошибки доступа к персональным хранилищам (buckets) начали привлекать к себе внимание около полудня и были ликвидированы к 13 часам по Восточному времени.

Microsoft Azure: 29 сентября

Некоторые сервисы в общедоступном облаке Microsoft Azure были недоступны европейским пользователям в течение семи часов. Причиной неработоспособности сервисов этого, второго крупнейшего в мире поставщика облачных услуг в Северной Европе, было случайное срабатывание системы пожаротушения.

Компания объяснила, что при плановом техобслуживании системы произошел выпуск газообразующего реагента, что привело к автоматическому отключению системы кондиционирования воздуха, вызвавшему повышение температуры среды в ЦОДе и, как следствие, автоматический останов вычислительного оборудования.

Важные для клиентов облачные услуги — Virtual Machines, Cloud Services, Azure Backup и несколько других — не работали с 13:27 до 20:15 по местному времени.

Google Docs: 15 ноября

Тысячи пользователей Google Docs столкнулись со сбоем в работе сервиса, который сказался на их бизнесе.

Отказ начался чуть ранее 16:00 по Восточному времени и длился от 30 минут до чуть более часа для большинства пользователей, сообщила впоследствии компания. Во время отказа, затронувшего «значительное подмножество пользователей», этот популярный сервис создания и редактирования документов не давал доступа к файлам.

К ночи среды Google сообщила, что сервис Docs вновь работает для большинства пользователей.

Один из партнеров Google сказал CRN, что шесть из его 400 бизнес-клиентов пострадали от этого отказа. Сам поставщик решений, также использующий этот сервис, тоже пострадал.

© 2017. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.

Источник: Джозеф Цыдулко, CRN/США

Печать Печать без изображений Все новости и статьи

Успех в партнерстве

Curator

Дмитрий Ткачев, CURATOR: «Наше главное преимущество — в том, что партнёру с нами легко»

Компанию CURATOR мы уже представляли весной 2025 г., — тогда её глава рассказал в интервью нашему изданию о принципах работы вендора, о его канальной политике и о перспективах развития избранного направления бизнеса …

ICL Техно

ICL Техно: между «крепче стали» и гибкостью

«Стали крепче!» — лаконичный слоган XII мультивендорного форума ICL Partner Connect в 2025 г. приобрел особое значение. Это не просто констатация успехов в импортозамещении, но и, что гораздо важнее, демонстрация реальной готовности к дальнейшей напряженной борьбе за достижение технологического суверенитета.

Curator

Дмитрий Ткачев, Curator: «Чем дольше с нами клиент, тем больше зарабатывает партнёр»

О принципах работы компании, её канальной политике и перспективах развития избранного ею направления бизнеса изданию IT Channel News рассказывает генеральный директор Curator Дмитрий Ткачев.

Промопрограммы

Ландис, Cactus

Cactus: бонусы за расходные материалы

1 июня — 31 июля

Treolan, Systeme Electric (ex Schneider Electric)

Systeme Electric: «Летние бонусы»

1 июня — 31 августа

MERLION, Digma

Жаркие бонусы

1 мая — 30 июня

Кадровые изменения

Моя смена: Алексей Агибалов

Коммерческим директором платформы «Моя смена» назначен Алексей Агибалов.

ЭР-Телеком Холдинг: Андрей Ролдугин

«ЭР-Телеком Холдинг» назначил нового вице-президента.

Фото- и видеорепортажи

NETLAB

Компания NETLAB объединила партнеров в городе на Неве

Арсенал+

От автономного ИИ до выгорания кадров: главные вызовы в сфере ИТ обсудили на форуме «ИТ-мир по-русски»

Опрос

Новости ИТ-бизнеса и статьи

Названа главная уязвимость россиян перед кибермошенниками

Мошенники уже не ограничиваются звонками из «службы безопасности банка» и все чаще используют социальную инженерию и искусственный интеллект …

ИИ может увеличить эффективность коммерческих объектов до 20%

По оценке оператора ИТ-решений «ОБИТ» ИИ может повысить рентабельность объектов коммерческой недвижимости на 15–20%. О сценариях внедрения ИИ …

Рост стоимости простоя усиливает спрос на отказоустойчивость и сервисную поддержку ИТ-систем

Для бизнеса простой ИТ-систем становится все более чувствительным с точки зрения затрат. По данным CХ-исследования Центра экспертизы по комплексному …

Исследование «Киберпротекта» и TenChat: 46% российских компаний считают себя слишком мелкой целью для кибератаки

Компания «Киберпротект» и социальная сеть TenChat представили результаты масштабного исследования, посвященного готовности отечественных организаций …

Cloud.ru начал строительство нового дата-центра в Московской области

Cloud.ru приступил к строительству собственного центра обработки данных в Московской области. Ввод объекта в эксплуатацию запланирован в 2027 году.

Аналитика

20 лучших региональных ИТ-компаний 2025

IT Channel News публикует результаты 18-го исследования лучших региональных ИТ-компаний. В этот раз, в отличие от предыдущих рейтингов, мы представляем не 25, а 20 победителей.

25 лучших российских системных интеграторов 2025

IT Channel News публикует результаты очередного исследования «25 лучших российских системных интеграторов» и представляет победителей 2025 года.

25 лучших региональных ИТ-компаний 2024

IT Channel News публикует результаты очередного — уже 17-го! — исследования «25 лучших региональных ИТ-компаний» и представляет победителей 2024 года.

Новые ИТ-продукты

Астра

Новая версия RuPost: когда почта не знает слова «простой»

Rondell

Новинка Röndell: встраиваемый электрический духовой шкаф REO 6471 BG

IPPON

Новая серия компактных ИБП Ippon Pacific II 1U

Истории успеха

1С-Рарус

«1С‑Рарус» и «Авентин Сервис» внедрили систему управления тысячей домофонов с мобильным приложением для мастеров

«1С-Рарус» модернизировал и расширил систему электронного документооборота в НИЦ «Курчатовский институт»

1С-Рарус