Google начал неделю с большого сбоя, в результате которого были отключены Gmail, Диск и все другие приложения Workspace. Как и было обещано, теперь у Google есть подробное объяснение сбоя и шаги, которые он предпримет для предотвращения инцидентов в будущем.
На высоком уровне проблема связана с существующей работой по обновлению системы аутентификации учетной записи Google. По мере того, как работа продолжалась, предыдущие компоненты «оставались на месте». Хотя сохранение этих старых аспектов приводило к ошибке о том, что использование было равно 0, Google установил льготный период, чтобы отсрочить воздействие.
Срок действия исправления истек, и автоматизированные системы отреагировали на ошибку, как если бы она была реальной. Поскольку использование оказалось равным 0, емкость системы управления идентификационной информацией была уменьшена. Несмотря на наличие проверок безопасности, они не были предназначены для решения конкретной проблемы.
Проблема начала возникать у пользователей в 3:47 по тихоокеанскому времени, и инженеры были предупреждены минутой позже. "Приложения рабочей области не работали на время инцидента", поскольку они полагаются на затронутую инфраструктуру, чтобы убедиться, что вы вошли в систему, прошли аутентификацию и авторизовались для просмотра контента, такого как электронные письма и документы.
В 04:08 была выявлена основная причина и возможное исправление, что привело к отключению принудительного использования квоты в одном центре обработки данных в 04:22. Это быстро улучшило ситуацию, и в 04:27 такое же смягчение последствий было применено ко всем центрам обработки данных, которые вернули частоту ошибок к нормальному уровню к 04:33.
Компания разработала планы проверки, улучшения и оценки своих систем для предотвращения подобных проблем. Google закончил объяснение сбоя извинениями:
Мы приносим свои извинения за то, какое влияние этот инцидент оказал на наших клиентов и их бизнес. Мы очень серьезно относимся к любым инцидентам, которые влияют на доступность и надежность наших клиентов, особенно к инцидентам, которые охватывают несколько регионов.
Полное техническое объяснение доступно здесь.