Spark – новый серфинг для Big Data.

Spark

В 2014 году Apache Hadoop произвел революцию в области Big Data. В 2015 году новая платформа Apache Spark, возможно, превзойдет функциональность Hadoop.

Создатели Spark основали компанию Databricks, которая предлагает услуги хостинга Spark, а также техподдержку дистрибуторам, продающим пакет Spark.

Spark – инструмент для анализа неструктурированных данных, которые хранятся в компьютерных кластерах. Как и Hadoop, Spark может быть использован для изучения данных, слишком больших по объему, чтобы поместиться в традиционных «складах данных» (data warehouse) предприятий или в обычных реляционных БД. Как и Hadoop, Spark работает с неструктурированными данными, неформатированными для помещения в таблицы обычных баз данных, например, это могут быть логи событий: заходов на сайты, посты в соцсетях, CDR-ы телефонных вызовов, контексты поиска в поисковых системах. Spark, однако, идет гораздо дальше обычных возможностей Hadoop в возможностях анализа потоковых данных поступающих непосредственно, вместо извлечения их из системы хранения.

Таким образом, он может служать быстрой заменой платформы Hadoop MapReduce для анализа данных. В тесте специализированной компании Daytona Gray Sort Challenge, занимающейся тестированием скорости систем анализа данных Spark легко превзошел Hadoop MapReduce, отсортировав 100 терабайт данных за 23 минуты, в то время как Hadoop потратил на эту задачу в три раза больше времени, 72 минуты. Данные при этом поступают из многих источников и могут модифицироваться по мере поступления новых данных.

Практическим применением такого функционала может быть например то, что контекстная реклама на экранах пользователей может появляться после нескольких секунд после клика по релевантной ссылке, а не на следующий день, когда пользователь могу уже и забыть, что он искал вчера.

Spark также обладает гораздо большим функционалом для анализа данных, чем MapReduce, присущий Hadoop. Если Hadoop способе выполнять анализ только одного вида проблем, включая фильтрацию и сортировку данных различных серверов (часть “map”) и затем суммирование результатов (часть “reduce”), то Spark может выполнять гораздо более сложные запросы с использование технологий машинного обучения и предикативного моделирования, и многое другое. То что может делать Hadoop, Spark может делать много лучше.

Одним из первопроходцев практического Spark использования является сервис музыкального стриминга Spotify, который использует Spark для генерации плей-листов на основе музыкальных пристрастий пользователя.

Проект Spark был начат в 2008 г. в университете Berkeley в Калифорнии, в лаборатории AMPLab (AMP – Algorithms, Machine, People). В настоящее время он развивается с участием разработчиков из Intel, Yahoo, Groupon, Alibaba и Mint.

Spark может использоваться совместно с Hadoop, для анализа данных в файловой системе HDFS (Hadoop File System), а может и работать самостоятельно. Разработчики пишут приложения под Spark с использованием языков Python, Java или Scala.

Advertisements

About Алексей Шалагинов

Независимый эксперт
Gallery | This entry was posted in Big Data and tagged , . Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.