По сравнению с традиционными дата-центрами, решение катастрофоустойчивости для распределенного облачного дата-центра может широко варьироваться. Для традиционных дата-центров режим катастрофоустойчивости реализуется при помощи двух или трех дата-центров размещенных в географически разнесенных местах. Облачная операционная система распределенного дата-центра виртуализирует оборудование многих дата-центров в единый пул ресурсов, который для внешних пользователей виден как один большой дата-центр. За счет естественного механизма резервирования виртуальных машин в облачной среде, становится возможным реализовать взаимное резервирование многих дата-центров в режиме «активный-активный». В архитектуре распределенного облачного дата-центра, два взаимно активных дата-центра обрабатывают услуги параллельно и резервируют друг друга. В случае ошибки приложения, облачная операционная система перенаправляет запросы приложения в другой дата-центр, чтобы избежать прерывания услуг и обеспечить непрерывность сервиса более экономично и эффективно.
Решение катастрофоустойчивости в общем случае состоит их двух взаимосвязанных процессов: резервирования (backup) и восстановления (recovery).
- Восстановление при авариях возможно, если IT-система дублирована в двух или более местоположениях на определенном расстоянии. Две системы дублированы по функциям и проверки состояния «здоровья» системы (health status). В случае, если одна система останавливается, вследствие какой-либо аварии, все ее услуги переключаются на другую систему в другом местоположении, и предоставление услуг не прерывается.
- Резервирование представляет собой процесс копирования данных в системе хранения, физически представляющую собой магнитный диск или ленту. Если система останавливается, данные, или бóльшую часть их, можно восстановить из системы резервного хранения.
Резервирование используется, в основном, для сохранности данных. Восстановление при авариях используется для быстрого восстановления обслуживания после аварии и снижения возможных финансовых потерь, вызванных прерыванием сервиса.
Резервирование рассматривается как низкоуровневое средство восстановления при авариях, и является основой полноценной функции восстановления. Восстановление не может заменить резервирования. Общая система защиты сервисов системы должна состоять из комбинации восстановления и резервирования.
Что касается системы восстановления при авариях (disaster recovery) для облачной операционной системы, ее можно подразделить на систему восстановления при авариях с избыточностью услуг (service redundancy disaster recovery), систему восстановления данных при авариях (data disaster recovery) и систему восстановления работы приложений при авариях (application disaster recovery).
(1) Восстановление при авариях с избыточностью услуг (Service redundancy disaster recovery)
Восстановление при авариях с избыточностью услуг означает восстановление способности обработки услуг системы, когда центр восстановления резервирует достаточную процессорную мощность системы. В случае масштабного отказа или аварии системы, центр, предоставляющий услуги (production), переключается на центр восстановления при авариях для обеспечения непрерывности операций услуги.
Восстановление при авариях с избыточностью услуг не резервирует абсолютно все данные, то есть часть данных при восстановлении услуг может быть потеряна. Такой метод, в основном, применяется в сценариях без резервирования данных, например, в центрах обслуживания, контакт-центрах и пр.
(2) Восстановление данных при авариях (Data disaster recovery)
Система восстановления данных при авариях копирует ключевые данные местной системы в центр восстановления непрерывно (real-time) или в определённые моменты времени. В случае аварий, таких, как повреждение данных в местной системе, производится импорт данных из удаленного центра восстановления данных, таким образом, предотвращается потеря данных. В случае полной остановки местной системы, удаленный центр не может взять на себя его функции. Такой сценарий применим в случае невысоких требований к непрерывности услуг, как например, резервирование данных с офисного компьютера.
(3) Восстановление работы приложений при авариях (Application disaster recovery)
Восстановление работы приложений при авариях предусматривает создание полной резервной системы приложений, эквивалентной местной системе, работающей параллельно. В случае аварии, при полном повреждении местной системы, удаленная система приложений быстро берет на себя все ее функции. Такой сценарий, в основном, применим в случаях высоких требований к непрерывности бизнес-процесса, например, при веб-хостинге.