Распределённые файловые системы: IBM Spectrum Scale (конспект 2)

Продолжение. Начало здесь.

IBM Spectrum Scale

IBM Spectrum Scale – это решение, созданное на основе файловой системы IBM General Parallel File System (GPFS), способно масштабировать ёмкость и производительность для аналитических систем, репозиториев контента и других задач.

Когнитивные механизмы IBM Spectrum Scale умеют распределять данные среди различных устройств хранения, тем самым оптимизируя использование доступной емкости, упрощая администрирование и обеспечивая высокую производительность. IBM Spectrum Scale поддерживает глобального пространства имен с универсальным доступом, которое объединяет современные средства для работы с файлами, размещенных в сетевых файловых системах (NFS), блочные хранилища и серверы со встроенными хранилищами данных большого объема. Файловая система IBM Spectrum Scale может использоваться для работы с файлами (POSIX, NFS, CIFS), объектами (S3, SWIFT) и распределенной файловой системой Hadoop (HDFS) при решении задач анализа больших данных на месте хранения.

Задачи и возможности IBM Spectrum Scale.

Свойства IBM Spectrum Scale

Хорошая масштабируемость, которая позволяет обеспечивать максимальную пропускную способность и минимальные задержки при доступе.

Аналитика с учетом данных, которая позволяет автоматически переносить данные на оптимальный уровень хранения (флеш, диск, кластер, лента), что позволяет до 90% снизить расходы на архивирование данных.

Автоматическое размещение данных по уровням в файловой системе IBM Spectrum Scale.

Распределённость, то есть, возможность доступа к данным из любого места, ускоряет работу приложений по всему миру, за счёт технологии распределённого кэширования и активного управления файлами.

Безопасность данных, технологии идентификация, шифрования, защиты Erasure Coding  и репликации позволяют достичь соответствия регулятивным требованиям.

Универсальность, единое решение для управления масштабируемым хранилищем данных, обеспечивающее унификацию виртуализации, поддержки аналитических сред, обработки файлов и объектов.

Прозрачные политики хранения делают возможным сжатие и многоуровневое хранение данных на ленточных накопителях или в облаке, с целью сокращения расходов. Размещение данных с учетом места их использования уменьшает задержки и увеличивает производительность работы с данными.

Интеллектуальное кэширование данных, технология Active File Management (AFM) распространяет глобальное пространство имен Spectrum Scale за пределы географических границ, обеспечивая высокую производительность при чтении и записи данных и автоматическое управление пространством имен. Данные записываются или изменяются локально и в других местах эти данные получают с минимальной задержкой.

Графический интерфейс IBM Spectrum Scale GUI обеспечивает простое администрирование объёмов данных уровня петабайт различных типов: файловых, объектных или блочных.

IBM Spectrum Scale – это хорошо зарекомендовавшее себя масштабируемое решение по администрированию данных, которое ранее называлось GPFS (General Parallel File System). Начиная с версии 4.1, это решение называется Spectrum Scale. Однако, версии до 4.1 будут поддерживаться под старым названием GPFS.

Основные характеристики

  • Практически неограниченный объём хранения данных до нескольких йоттабайт и до девяти квинтиллионов файлов.
  • Высокая производительность более 400 ГБ/с, и одновременный доступ к общим наборам данных из нескольких доменов пользователей.
  • Программно-конфигурируемая СХД, которая позволяет:
    • масштабирование на относительно недорогом коммерчески доступном оборудовании COTS (Commercial Of The Shelf), при обеспечении возможностей управления хранением данных с их высокой доступностью;
    • использование любых комбинаций носителей: флеш-накопителей, дисков и лент;
    • использование различных моделей кластеров, которые включает SAN (storage area networks), Network Shared Disk, и кластеры Shared Nothing;
    • добавление ёмкости без влияния на работу запущенных приложений.
  • Интегрированное средство управления жизненным циклом информации ILM (information lifecycle management) автоматически перемещает данные в соответствии с установленными политиками хранения. Это помогает значительно снизить операционные затраты.
  • Глобальный доступ к данным независимо от географического местоположения и наличия ненадёжных соединений через глобальную сеть WAN (Wide Area Network).
  • Доказанная надёжность использования для наиболее распространённых коммерческих приложений.
  • Защита данных от большинства уязвимостей систем безопасности, неавторизованного доступа или потери, кражи или неправильной утилизации, за счёт встроенного шифрования и безопасного стирания.

Применения

Spectrum Scale используется уже более 15 лет во многих отраслях экономики во всём мире, и в таких областях, требовательных к объёму и производительности обработки данных, как:

  • Инженерный дизайн;
  • Медиа и СМИ(радио и ТВ, контент провайдеры);
  • Нефтегаз: обработка и аналитика данных сейсморазведки;
  • Умные города: видеонаблюдение и видеоаналитика;
  • Автомобили: краштесты, системы помощи водителю и беспилотные автомобили;
  • Оборона и авиация (запись полётных данных);
  • Архивация спутниковых изображений;
  • Телеком: хранение данных вызовов CDR (Call detail records);
  • Банкинг и финансовый сектор: отчётность, обработка чековых данных;
  • Бизнес-аналитика (Business intelligence);
  • Поиск и сопоставление нужной информации в массивах данных (Data mining);
  • Научные исследования;
  • Когнитивные приложения Интернета Вещей, такие как IBM Watson™.

Функциональные возможности

  • Увеличение эффективности использования ресурсов за счёт объединения в пулы изолированных ранее ресурсов.
  • Интеллектуальное использование ресурсов и автоматизация администрирования СХД снижает стоимость хранения и повышает операционную эффективность, возможности автоматизации политик уровневого хранения.
  • Разнообразные возможности конфигурации для оптимизации производительности, гибкости и надёжности, устранения отказов типа «single point-of-failure», а также автоматизации операций для быстрой замены отказавшего диска или устранения сбоя сервера.
  • Катастрофоустойчивость за счет возможности работы на множестве распределённых сайтов, подключенных к локальному кластеру Spectrum Scale (Disaster Recovery).
  • Кросс-платформенное решение, которое может работать на многих операционных системах. Кластеры Spectrum Scale можно создавать на узлах AIX, Linux и Windows server, причем в одной системе могут работать все три ОС (а также на IBM System Z®).
  • Оперативность реакции на события и появление новых требований, быстрое развёртывание необходимых ресурсов.

Основные компоненты системы

  • Кластер (Cluster). Кластер состоит из нескольких узлов, а также общих сетевых дисков NSD (network shared disks). Он может быть сконфигурирован в серверном репозитории (конфигурационной базе данных), где хранятся файлы конфигурации кластера. При конфигурации кластеру должен быть назначен первичный и вторичный сервер. Начиная с версии 4.1, используется новый тип репозитория, который называется «конфигурационный репозиторий кластера» CCR (Cluster Configuration Repository). Здесь автоматически поддерживаются конфигурационные файлы для всех узлов.
  • Узел (Node). Узел – это любой сервер, на котором установлено ПО Spectrum Scale, с прямым или сетевым доступом к другому узлу. В зависимости от типа доступа, каждый узел может иметь различную роль внутри кластера.
  • Менеджер кластера (Cluster manager). Узел менеджера кластера отвечает за правильность операций на всех узлах и всего узла в целом. Он выполняет следующие задачи:
    • Мониторинг выделения дисков
    • Обнаружение ошибок и восстановление при отказе узла внутри кластера
    • Определение кворума узлов и разрешение на старт домену Spectrum Scale и продолжение использования файловой системы
    • Обработка информации о конфигурации и информирование узлов в удалённых кластерах об изменениях конфигурации
    • Выбор узла для менеджера файловой системы.
  • Менеджер файловой системы (File system manager). Этот менеджер поддерживает информацию о доступности дисков в файловой системе. В большом кластере для менеджера файловой системы может понадобиться отдельный узел. Менеджер файловой системы выполняет следующие функции:
    • Управляет конфигурацией файловой системы;
    • Управляет выделением дискового пространства;
    • Управляет конфигурациями квот;
    • Поддерживает сервисы безопасности.
  • Общий сетевой диск (NSD, Network shared disk). Используется для глобального пространства имён и доступа к данным кластера. Если все узлы не имеют прямого подключения к дискам (например, в среде SAN), то NSD должен быть определён как первичный сервер, причём рекомендуется, чтобы вторичный сервер тоже был определён. Затем ввод-вывод производится через сетевое подключение сервера NSD, который выполняет ввод-вывод от имени запрашивающего узла. Даже если все NSD подключены к дискам, рекомендуется определять серверы NSD, чтобы, в случае потери доступа первичного сервера к физическим дискам, существовал запасной маршрут.
  • Пул накопителей (Storage pool). Это комплект NSD, использующихся для партиции пространства хранения, по принципу общих параметров, таких как производительность, доступность в местной сети и надёжности. Использование пулов накопителей в Spectrum Scale позволяет группировать устройства хранения по параметрам производительности, локальности или надёжности внутри файловой системы.
  • Блок (Block). Блок – это наибольший элемент для операций ввода-вывода и выделения дискового пространства в файловой системе Spectrum Scale. Размер блока указывается при создании файловой системы и определяет полосу пропускания при распределении данных по дискам.  Spectrum Scale поддерживает размер блока от 16 кбайт до 16 Мбайт. По умолчанию размер блока составляет 256 кбайт в предыдущей версии GPFS и 64 кбайт при использовании Spectrum Scale в версии 4.1.0.4. Spectrum Scale допускает различные размеры блоков для метаданных и самих данных, если диски для данных и метаданных разделены.
  • Чанк (Chunk). Термин «чанк» относится к функции оптимизации размещения файла File Placement Optimizer (FPO) файловой системы Spectrum Scale. Чанк – это логическая группа блоков, которая ведет себя как один большой блок. Множитель блоков в группе (block group factor) используется FPO при определении числа блоков, образующих чанки на дисках, присоединённых к узлу. Затем чанк предписывается всем доступным дискам внутри узла. Размер чанка определяется умножением размера блока на множитель блоков группы. Этот множитель может лежать в пределах от 1 до 1024. Значение множителя по умолчанию равно 1, с целью совместимости со стандартными файловыми системами Spectrum Scale. Установка размера блока в 1 МБ и множителя блоков группы в 128 даёт в результате размер чанка 128 МБ.
  • Группа отказа (Failure group). Группа отказа – это набор дисков, образующих общую точку отказа (common point of failure). То есть любой отказ в такой группе дисков может вызвать одновременную недоступность их всех. При создании многочисленных реплик определённого блока, Spectrum Scale использует информацию о группах отказов, чтобы обеспечить то, что никакие две парные реплики блоков данных не будут размещаться в одной и той же группе отказа. Группа отказа может быть определена как набор до трёх чисел, разделённых запятыми, которая даёт возможность определить топологию группы.
  • Мета-узел (Metanode). Узел, обрабатывающий метаданные, которые также называются «модификациями блока директории» (“directory block updates”).
  • Метаданные (Metadata). Содержит информацию о конфигурации определённого кластера и данные, не относящиеся к пользователю (non-user data).
  • Узел приложений (Application node). Монтирует файловую систему Spectrum Scale и запускает пользовательские приложения, получающие доступ к файловой системе.
  • Кворумный узел (Quorum nodes). Это узлы, поддерживающие активность кластера Spectrum Scale. Есть два типа узлов кворума кластера:
    • Node quorum, где кластер поддерживается рабочим, когда доступны большинство узлов кворума.
    • Node quorum with tiebreaker disks, где кластеры активны при хотя бы одном кворумном узле и он имеет доступ к дискам, которые определены как tiebreaker disks.

Три NSD, определённые как диски tiebreaker disk для кворумных узлов (источник: IBM).

  • Топология кластера. Топологию IBM Spectrum Scale можно гибко конфигурировать под различные решения для пользователя. Четыре основных типовых конфигурации Spectrum Scale, используемых в зависимости от местоположения приложений на узлах кластера:
    • Приложения, работающие только на NSD клиентов Spectrum Scale
    • Приложения, работающие на узлах с СХД с прямым подключением
    • Приложения, работающие на серверах с подключёнными NSD
    • Приложения, работающие на кластере FPO (File Placement Optimizer)

Три редакции Spectrum Scale

Есть три разных редакции (Edition) Spectrum Scale:

  • Express Edition: базовая функциональность Spectrum Scale.
  • Standard Edition: технический эквивалент GPFS 3.5, включает базовые функции, а также Information Lifecycle Management, Active File Management и Clustered NFS.
  • Advanced Edition: к функциям Standard Edition добавлена функция шифрования.
ФункционалExpress EditionStandard EditionAdvanced Edition
Многопротокольная масштабируемая файловая система с одновременным доступом к общим данным.Встроенный драйвер клиента ES (Enterprise Server) Коннектор HadoopВстроенный драйвер клиента ES (Enterprise Server) Коннектор Hadoop NFS 3.0 или NFS4.0Встроенный драйвер клиента ES (Enterprise Server) Коннектор Hadoop NFS 3.0 или NFS4.0
Предоставляет доступ к общим данным с глобальным пространством имён, простое управлением с масштабированиемЕстьЕстьЕсть
Создание оптимизированных уровневых пулов хранения методом группирования дисков по параметрам производительности, локальности или стоимостным характеристикам.НетЕстьЕсть
Средства упрощенного управления данными при масштабировании системы и управления жизненным циклом информации ILM (information lifecycle management), которые включают наборы файлов, размещение и миграция данных на базе политик, резервирование и восстановление, архивирование в недорогие пулы хранения.Нет                     ЕстьЕсть
Глобальный доступ к данным и глобальная коллективная работа с использованием асинхронной репликации AFMНет                     ЕстьЕсть
Защита данных с шифрованием и безопасное стирание, соответствующие стандартам NIST и сертифицированная FIPSНет                     НетЕсть

Продолжение следует

Об авторе Алексей Шалагинов

Независимый эксперт
Запись опубликована в рубрике Технологии с метками , , , . Добавьте в закладки постоянную ссылку.

2 отзыва на “Распределённые файловые системы: IBM Spectrum Scale (конспект 2)

  1. Уведомление: Распределённые файловые системы и чем они отличаются от сетевых систем (конспект 1) | Telecom & IT

  2. Уведомление: Распределённые файловые системы: Ceph, Lustre (конспект 3) | Telecom & IT

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.