Что такое Dremel от Google? Чем он отличается от Mapreduce?
Dremel от Google это описано здесь. В чем разница между Dremel и Mapreduce?
3 ответов
проверить это статьи выход. Дремель-это то, чем должно (и будет) быть будущее улья.
основная проблема MapReduce и решений поверх него, таких как Pig, Hive и т. д., заключается в том, что у них есть неотъемлемая задержка между запуском задания и получением ответа. Dremel использует совершенно новый подход (вышел в 2010 году в этой статье google), который...
...использует новый механизм выполнения запросов на основе агрегатора деревья...
...запустить почти в реальном времени , интерактивные и adhoc запросы, оба из которых MapReduce не может. И Pig и Hive не реальном времени
вы должны следить за проекты выйдя из этого. Для меня это тоже в новинку... поэтому любые другие комментарии экспертов приветствуются!
Edit: Dremel-это то, что будущее куст (и не MapReduce, как я упоминал ранее) должно быть. Hive прямо сейчас предоставляет SQL-интерфейс для запуска заданий MapReduce. Hive имеет очень высокую задержку, и поэтому не практичен в Ad-hoc анализе данных. Dremel предоставляет очень быстрый SQL-интерфейс для данных, используя другую технику, чем MapReduce.
Дремель и MapReduce напрямую не сопоставимы, а скорее являются взаимодополняющими технологиями.
MapReduce не предназначен специально для анализа данных-скорее это программная платформа, которая позволяет коллекции узлов решать распределенные вычислительные задачи для больших наборов данных.
Dremel-это инструмент анализа данных, предназначенный для быстрого выполнения запросов к массивным структурированным наборам данных (таким как файлы журналов или событий). Он поддерживает SQL-подобный синтаксис, но помимо добавления таблицы он доступен только для чтения. Он не поддерживает обновление или создание функций, а также не содержит табличных индексов. Данные организованы в "столбчатом" формате,что способствует очень быстрой скорости запроса. Продукт BigQuery от Google-это реализация Dremel, доступная через RESTful API.
Hadoop (реализация MapReduce с открытым исходным кодом) в сочетании с программным обеспечением хранилища данных "улей" также позволяет анализировать данные для массивных наборы данных, использующие синтаксис SQL-стиля. Hive по существу превращает запросы в функции MapReduce. В отличие от использования формата ColumIO, Hive пытается сделать запросы быстрыми, используя такие методы, как индексирование таблиц.
MapReduce-это абстрактный алгоритм для разделения проблемы, ее распределения и объединения результатов. Dremel, по-видимому, является конкретным инструментом для запроса и анализа наборов данных.