Что такое Dremel от Google? Чем он отличается от Mapreduce?

Dremel от Google это описано здесь. В чем разница между Dremel и Mapreduce?

3 ответов


проверить это статьи выход. Дремель-это то, чем должно (и будет) быть будущее улья.

основная проблема MapReduce и решений поверх него, таких как Pig, Hive и т. д., заключается в том, что у них есть неотъемлемая задержка между запуском задания и получением ответа. Dremel использует совершенно новый подход (вышел в 2010 году в этой статье google), который...

...использует новый механизм выполнения запросов на основе агрегатора деревья...

...запустить почти в реальном времени , интерактивные и adhoc запросы, оба из которых MapReduce не может. И Pig и Hive не реальном времени

вы должны следить за проекты выйдя из этого. Для меня это тоже в новинку... поэтому любые другие комментарии экспертов приветствуются!

Edit: Dremel-это то, что будущее куст (и не MapReduce, как я упоминал ранее) должно быть. Hive прямо сейчас предоставляет SQL-интерфейс для запуска заданий MapReduce. Hive имеет очень высокую задержку, и поэтому не практичен в Ad-hoc анализе данных. Dremel предоставляет очень быстрый SQL-интерфейс для данных, используя другую технику, чем MapReduce.


Дремель и MapReduce напрямую не сопоставимы, а скорее являются взаимодополняющими технологиями.

MapReduce не предназначен специально для анализа данных-скорее это программная платформа, которая позволяет коллекции узлов решать распределенные вычислительные задачи для больших наборов данных.

Dremel-это инструмент анализа данных, предназначенный для быстрого выполнения запросов к массивным структурированным наборам данных (таким как файлы журналов или событий). Он поддерживает SQL-подобный синтаксис, но помимо добавления таблицы он доступен только для чтения. Он не поддерживает обновление или создание функций, а также не содержит табличных индексов. Данные организованы в "столбчатом" формате,что способствует очень быстрой скорости запроса. Продукт BigQuery от Google-это реализация Dremel, доступная через RESTful API.

Hadoop (реализация MapReduce с открытым исходным кодом) в сочетании с программным обеспечением хранилища данных "улей" также позволяет анализировать данные для массивных наборы данных, использующие синтаксис SQL-стиля. Hive по существу превращает запросы в функции MapReduce. В отличие от использования формата ColumIO, Hive пытается сделать запросы быстрыми, используя такие методы, как индексирование таблиц.


MapReduce-это абстрактный алгоритм для разделения проблемы, ее распределения и объединения результатов. Dremel, по-видимому, является конкретным инструментом для запроса и анализа наборов данных.