Продолжение. Начало здесь.
IBM Spectrum Scale
IBM Spectrum Scale – это решение, созданное на основе файловой системы IBM General Parallel File System (GPFS), способно масштабировать ёмкость и производительность для аналитических систем, репозиториев контента и других задач.
Когнитивные механизмы IBM Spectrum Scale умеют распределять данные среди различных устройств хранения, тем самым оптимизируя использование доступной емкости, упрощая администрирование и обеспечивая высокую производительность. IBM Spectrum Scale поддерживает глобального пространства имен с универсальным доступом, которое объединяет современные средства для работы с файлами, размещенных в сетевых файловых системах (NFS), блочные хранилища и серверы со встроенными хранилищами данных большого объема. Файловая система IBM Spectrum Scale может использоваться для работы с файлами (POSIX, NFS, CIFS), объектами (S3, SWIFT) и распределенной файловой системой Hadoop (HDFS) при решении задач анализа больших данных на месте хранения.

Задачи и возможности IBM Spectrum Scale.
Свойства IBM Spectrum Scale
Хорошая масштабируемость, которая позволяет обеспечивать максимальную пропускную способность и минимальные задержки при доступе.
Аналитика с учетом данных, которая позволяет автоматически переносить данные на оптимальный уровень хранения (флеш, диск, кластер, лента), что позволяет до 90% снизить расходы на архивирование данных.

Автоматическое размещение данных по уровням в файловой системе IBM Spectrum Scale.
Распределённость, то есть, возможность доступа к данным из любого места, ускоряет работу приложений по всему миру, за счёт технологии распределённого кэширования и активного управления файлами.
Безопасность данных, технологии идентификация, шифрования, защиты Erasure Coding и репликации позволяют достичь соответствия регулятивным требованиям.
Универсальность, единое решение для управления масштабируемым хранилищем данных, обеспечивающее унификацию виртуализации, поддержки аналитических сред, обработки файлов и объектов.
Прозрачные политики хранения делают возможным сжатие и многоуровневое хранение данных на ленточных накопителях или в облаке, с целью сокращения расходов. Размещение данных с учетом места их использования уменьшает задержки и увеличивает производительность работы с данными.
Интеллектуальное кэширование данных, технология Active File Management (AFM) распространяет глобальное пространство имен Spectrum Scale за пределы географических границ, обеспечивая высокую производительность при чтении и записи данных и автоматическое управление пространством имен. Данные записываются или изменяются локально и в других местах эти данные получают с минимальной задержкой.
Графический интерфейс IBM Spectrum Scale GUI обеспечивает простое администрирование объёмов данных уровня петабайт различных типов: файловых, объектных или блочных.
IBM Spectrum Scale – это хорошо зарекомендовавшее себя масштабируемое решение по администрированию данных, которое ранее называлось GPFS (General Parallel File System). Начиная с версии 4.1, это решение называется Spectrum Scale. Однако, версии до 4.1 будут поддерживаться под старым названием GPFS.
Основные характеристики
- Практически неограниченный объём хранения данных до нескольких йоттабайт и до девяти квинтиллионов файлов.
- Высокая производительность более 400 ГБ/с, и одновременный доступ к общим наборам данных из нескольких доменов пользователей.
- Программно-конфигурируемая СХД, которая позволяет:
- масштабирование на относительно недорогом коммерчески доступном оборудовании COTS (Commercial Of The Shelf), при обеспечении возможностей управления хранением данных с их высокой доступностью;
- использование любых комбинаций носителей: флеш-накопителей, дисков и лент;
- использование различных моделей кластеров, которые включает SAN (storage area networks), Network Shared Disk, и кластеры Shared Nothing;
- добавление ёмкости без влияния на работу запущенных приложений.
- Интегрированное средство управления жизненным циклом информации ILM (information lifecycle management) автоматически перемещает данные в соответствии с установленными политиками хранения. Это помогает значительно снизить операционные затраты.
- Глобальный доступ к данным независимо от географического местоположения и наличия ненадёжных соединений через глобальную сеть WAN (Wide Area Network).
- Доказанная надёжность использования для наиболее распространённых коммерческих приложений.
- Защита данных от большинства уязвимостей систем безопасности, неавторизованного доступа или потери, кражи или неправильной утилизации, за счёт встроенного шифрования и безопасного стирания.
Применения
Spectrum Scale используется уже более 15 лет во многих отраслях экономики во всём мире, и в таких областях, требовательных к объёму и производительности обработки данных, как:
- Инженерный дизайн;
- Медиа и СМИ(радио и ТВ, контент провайдеры);
- Нефтегаз: обработка и аналитика данных сейсморазведки;
- Умные города: видеонаблюдение и видеоаналитика;
- Автомобили: краштесты, системы помощи водителю и беспилотные автомобили;
- Оборона и авиация (запись полётных данных);
- Архивация спутниковых изображений;
- Телеком: хранение данных вызовов CDR (Call detail records);
- Банкинг и финансовый сектор: отчётность, обработка чековых данных;
- Бизнес-аналитика (Business intelligence);
- Поиск и сопоставление нужной информации в массивах данных (Data mining);
- Научные исследования;
- Когнитивные приложения Интернета Вещей, такие как IBM Watson™.
Функциональные возможности
- Увеличение эффективности использования ресурсов за счёт объединения в пулы изолированных ранее ресурсов.
- Интеллектуальное использование ресурсов и автоматизация администрирования СХД снижает стоимость хранения и повышает операционную эффективность, возможности автоматизации политик уровневого хранения.
- Разнообразные возможности конфигурации для оптимизации производительности, гибкости и надёжности, устранения отказов типа «single point-of-failure», а также автоматизации операций для быстрой замены отказавшего диска или устранения сбоя сервера.
- Катастрофоустойчивость за счет возможности работы на множестве распределённых сайтов, подключенных к локальному кластеру Spectrum Scale (Disaster Recovery).
- Кросс-платформенное решение, которое может работать на многих операционных системах. Кластеры Spectrum Scale можно создавать на узлах AIX, Linux и Windows server, причем в одной системе могут работать все три ОС (а также на IBM System Z®).
- Оперативность реакции на события и появление новых требований, быстрое развёртывание необходимых ресурсов.
Основные компоненты системы
- Кластер (Cluster). Кластер состоит из нескольких узлов, а также общих сетевых дисков NSD (network shared disks). Он может быть сконфигурирован в серверном репозитории (конфигурационной базе данных), где хранятся файлы конфигурации кластера. При конфигурации кластеру должен быть назначен первичный и вторичный сервер. Начиная с версии 4.1, используется новый тип репозитория, который называется «конфигурационный репозиторий кластера» CCR (Cluster Configuration Repository). Здесь автоматически поддерживаются конфигурационные файлы для всех узлов.
- Узел (Node). Узел – это любой сервер, на котором установлено ПО Spectrum Scale, с прямым или сетевым доступом к другому узлу. В зависимости от типа доступа, каждый узел может иметь различную роль внутри кластера.
- Менеджер кластера (Cluster manager). Узел менеджера кластера отвечает за правильность операций на всех узлах и всего узла в целом. Он выполняет следующие задачи:
- Мониторинг выделения дисков
- Обнаружение ошибок и восстановление при отказе узла внутри кластера
- Определение кворума узлов и разрешение на старт домену Spectrum Scale и продолжение использования файловой системы
- Обработка информации о конфигурации и информирование узлов в удалённых кластерах об изменениях конфигурации
- Выбор узла для менеджера файловой системы.
- Менеджер файловой системы (File system manager). Этот менеджер поддерживает информацию о доступности дисков в файловой системе. В большом кластере для менеджера файловой системы может понадобиться отдельный узел. Менеджер файловой системы выполняет следующие функции:
- Управляет конфигурацией файловой системы;
- Управляет выделением дискового пространства;
- Управляет конфигурациями квот;
- Поддерживает сервисы безопасности.
- Общий сетевой диск (NSD, Network shared disk). Используется для глобального пространства имён и доступа к данным кластера. Если все узлы не имеют прямого подключения к дискам (например, в среде SAN), то NSD должен быть определён как первичный сервер, причём рекомендуется, чтобы вторичный сервер тоже был определён. Затем ввод-вывод производится через сетевое подключение сервера NSD, который выполняет ввод-вывод от имени запрашивающего узла. Даже если все NSD подключены к дискам, рекомендуется определять серверы NSD, чтобы, в случае потери доступа первичного сервера к физическим дискам, существовал запасной маршрут.
- Пул накопителей (Storage pool). Это комплект NSD, использующихся для партиции пространства хранения, по принципу общих параметров, таких как производительность, доступность в местной сети и надёжности. Использование пулов накопителей в Spectrum Scale позволяет группировать устройства хранения по параметрам производительности, локальности или надёжности внутри файловой системы.
- Блок (Block). Блок – это наибольший элемент для операций ввода-вывода и выделения дискового пространства в файловой системе Spectrum Scale. Размер блока указывается при создании файловой системы и определяет полосу пропускания при распределении данных по дискам. Spectrum Scale поддерживает размер блока от 16 кбайт до 16 Мбайт. По умолчанию размер блока составляет 256 кбайт в предыдущей версии GPFS и 64 кбайт при использовании Spectrum Scale в версии 4.1.0.4. Spectrum Scale допускает различные размеры блоков для метаданных и самих данных, если диски для данных и метаданных разделены.
- Чанк (Chunk). Термин «чанк» относится к функции оптимизации размещения файла File Placement Optimizer (FPO) файловой системы Spectrum Scale. Чанк – это логическая группа блоков, которая ведет себя как один большой блок. Множитель блоков в группе (block group factor) используется FPO при определении числа блоков, образующих чанки на дисках, присоединённых к узлу. Затем чанк предписывается всем доступным дискам внутри узла. Размер чанка определяется умножением размера блока на множитель блоков группы. Этот множитель может лежать в пределах от 1 до 1024. Значение множителя по умолчанию равно 1, с целью совместимости со стандартными файловыми системами Spectrum Scale. Установка размера блока в 1 МБ и множителя блоков группы в 128 даёт в результате размер чанка 128 МБ.
- Группа отказа (Failure group). Группа отказа – это набор дисков, образующих общую точку отказа (common point of failure). То есть любой отказ в такой группе дисков может вызвать одновременную недоступность их всех. При создании многочисленных реплик определённого блока, Spectrum Scale использует информацию о группах отказов, чтобы обеспечить то, что никакие две парные реплики блоков данных не будут размещаться в одной и той же группе отказа. Группа отказа может быть определена как набор до трёх чисел, разделённых запятыми, которая даёт возможность определить топологию группы.
- Мета-узел (Metanode). Узел, обрабатывающий метаданные, которые также называются «модификациями блока директории» (“directory block updates”).
- Метаданные (Metadata). Содержит информацию о конфигурации определённого кластера и данные, не относящиеся к пользователю (non-user data).
- Узел приложений (Application node). Монтирует файловую систему Spectrum Scale и запускает пользовательские приложения, получающие доступ к файловой системе.
- Кворумный узел (Quorum nodes). Это узлы, поддерживающие активность кластера Spectrum Scale. Есть два типа узлов кворума кластера:
- Node quorum, где кластер поддерживается рабочим, когда доступны большинство узлов кворума.
- Node quorum with tiebreaker disks, где кластеры активны при хотя бы одном кворумном узле и он имеет доступ к дискам, которые определены как tiebreaker disks.

Три NSD, определённые как диски tiebreaker disk для кворумных узлов (источник: IBM).
- Топология кластера. Топологию IBM Spectrum Scale можно гибко конфигурировать под различные решения для пользователя. Четыре основных типовых конфигурации Spectrum Scale, используемых в зависимости от местоположения приложений на узлах кластера:
- Приложения, работающие только на NSD клиентов Spectrum Scale
- Приложения, работающие на узлах с СХД с прямым подключением
- Приложения, работающие на серверах с подключёнными NSD
- Приложения, работающие на кластере FPO (File Placement Optimizer)
Три редакции Spectrum Scale
Есть три разных редакции (Edition) Spectrum Scale:
- Express Edition: базовая функциональность Spectrum Scale.
- Standard Edition: технический эквивалент GPFS 3.5, включает базовые функции, а также Information Lifecycle Management, Active File Management и Clustered NFS.
- Advanced Edition: к функциям Standard Edition добавлена функция шифрования.
Функционал | Express Edition | Standard Edition | Advanced Edition |
Многопротокольная масштабируемая файловая система с одновременным доступом к общим данным. | Встроенный драйвер клиента ES (Enterprise Server) Коннектор Hadoop | Встроенный драйвер клиента ES (Enterprise Server) Коннектор Hadoop NFS 3.0 или NFS4.0 | Встроенный драйвер клиента ES (Enterprise Server) Коннектор Hadoop NFS 3.0 или NFS4.0 |
Предоставляет доступ к общим данным с глобальным пространством имён, простое управлением с масштабированием | Есть | Есть | Есть |
Создание оптимизированных уровневых пулов хранения методом группирования дисков по параметрам производительности, локальности или стоимостным характеристикам. | Нет | Есть | Есть |
Средства упрощенного управления данными при масштабировании системы и управления жизненным циклом информации ILM (information lifecycle management), которые включают наборы файлов, размещение и миграция данных на базе политик, резервирование и восстановление, архивирование в недорогие пулы хранения. | Нет | Есть | Есть |
Глобальный доступ к данным и глобальная коллективная работа с использованием асинхронной репликации AFM | Нет | Есть | Есть |
Защита данных с шифрованием и безопасное стирание, соответствующие стандартам NIST и сертифицированная FIPS | Нет | Нет | Есть |
Продолжение следует
Уведомление: Распределённые файловые системы и чем они отличаются от сетевых систем (конспект 1) | Telecom & IT
Уведомление: Распределённые файловые системы: Ceph, Lustre (конспект 3) | Telecom & IT