Решение катастрофоустойчивости для распределенного облачного дата-центра

DR

По сравнению с традиционными дата-центрами, решение катастрофоустойчивости для распределенного облачного дата-центра может широко варьироваться. Для традиционных дата-центров режим катастрофоустойчивости реализуется при помощи двух или трех дата-центров размещенных в географически разнесенных местах. Облачная операционная система распределенного дата-центра виртуализирует оборудование многих дата-центров в единый пул ресурсов, который для внешних пользователей виден как один большой дата-центр. За счет естественного механизма резервирования виртуальных машин в облачной среде, становится возможным реализовать взаимное резервирование многих дата-центров в режиме «активный-активный». В архитектуре распределенного облачного дата-центра, два взаимно активных дата-центра обрабатывают услуги параллельно и резервируют друг друга. В случае ошибки приложения, облачная операционная система перенаправляет запросы приложения в другой дата-центр, чтобы избежать прерывания услуг и обеспечить непрерывность сервиса более экономично и эффективно.

Решение катастрофоустойчивости в общем случае состоит их двух взаимосвязанных процессов: резервирования (backup) и восстановления (recovery).

  • Восстановление при авариях возможно, если IT-система дублирована в двух или более местоположениях на определенном расстоянии. Две системы дублированы по функциям и проверки состояния «здоровья» системы (health status). В случае, если одна система останавливается, вследствие какой-либо аварии, все ее услуги переключаются на другую систему в другом местоположении, и предоставление услуг не прерывается.
  • Резервирование представляет собой процесс копирования данных в системе хранения, физически представляющую собой магнитный диск или ленту. Если система останавливается, данные, или бóльшую часть их, можно восстановить из системы резервного хранения.

Резервирование используется, в основном, для сохранности данных. Восстановление при авариях используется для быстрого восстановления обслуживания после аварии и снижения возможных финансовых потерь, вызванных прерыванием сервиса.

Резервирование рассматривается как низкоуровневое средство восстановления при авариях, и является основой полноценной функции восстановления. Восстановление не может заменить резервирования. Общая система защиты сервисов системы должна состоять из комбинации восстановления и резервирования.

Что касается системы восстановления при авариях (disaster recovery) для облачной операционной системы, ее можно подразделить на систему восстановления при авариях с избыточностью услуг (service redundancy disaster recovery), систему восстановления данных при авариях (data disaster recovery) и систему восстановления работы приложений при авариях (application disaster recovery).

(1) Восстановление при авариях с избыточностью услуг (Service redundancy disaster recovery)

Восстановление при авариях с избыточностью услуг означает восстановление способности обработки услуг системы, когда центр восстановления резервирует достаточную процессорную мощность системы. В случае масштабного отказа или аварии системы, центр, предоставляющий услуги (production), переключается на центр восстановления при авариях для обеспечения непрерывности операций услуги.

Восстановление при авариях с избыточностью услуг не резервирует абсолютно все данные, то есть часть данных при восстановлении услуг может быть потеряна. Такой метод, в основном, применяется в сценариях без резервирования данных, например, в центрах обслуживания, контакт-центрах и пр.

(2) Восстановление данных при авариях (Data disaster recovery)

Система восстановления данных при авариях копирует ключевые данные местной системы в центр восстановления непрерывно (real-time) или в определённые моменты времени. В случае аварий, таких, как повреждение данных в местной системе, производится импорт данных из удаленного центра восстановления данных, таким образом, предотвращается потеря данных. В случае полной остановки местной системы, удаленный центр не может взять на себя его функции. Такой сценарий применим в случае невысоких требований к непрерывности услуг, как например, резервирование данных с офисного компьютера.

(3) Восстановление работы приложений при авариях (Application disaster recovery)

Восстановление работы приложений при авариях предусматривает создание полной резервной системы приложений, эквивалентной местной системе, работающей параллельно.  В случае аварии, при полном повреждении местной системы, удаленная система приложений быстро берет на себя все ее функции. Такой сценарий, в основном, применим в случаях высоких требований к непрерывности бизнес-процесса, например, при веб-хостинге.

Об авторе Алексей Шалагинов

Независимый эксперт
Запись опубликована в рубрике Cloud с метками , , . Добавьте в закладки постоянную ссылку.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.