Почему Hadoop не является хранилищем данных?

Каковы функциональные причины, по которым Hadoop не может быть хранилищем данных

На нескольких сайтах можно увидеть утверждения о том, что кластер Hadoop не является заменой традиционного хранилища данных. Однако я не могу найти истинных причин этого.

Я знаю, что технически в Hadoop есть некоторые вещи, которые недоступны/зрелы, но я действительно ищу функциональное влияние.


Что я нашел до сих пор, включая меры по смягчению последствий

Я нашел несколько аргументов, но ни один из них не был настолько критичным, чтобы я не советовал использовать Hadoop в качестве DWH. Вот выбор:

  1. Вы не можете выполнять быстрые специальные запросы или отчеты, так как Hadoop, как правило, накладывает накладные расходы на карту и сокращает количество рабочих мест.

Однако в ситуации, которую я рассматриваю, это не должно быть проблемой, поскольку данные доступны только через (обычный) datamart. Кроме того, вы могли бы использовать spark sql, если бы хотели углубиться в несколько столов.

  1. Вы не можете получить определенные результаты, так как Hadoop не поддерживает хранимые процедуры.

В ситуации, которую я рассматриваю, существует не так много хранимых процедур (к счастью!), И с помощью таких инструментов, как R или Python, вы действительно можете получить любой необходимый вам результат.

  1. Вы не можете восстановиться после катастроф, так как в Hadoop нет встроенных резервных копий

Однако, поскольку весь код написан по сценарию и данные могут быть выгружены в резервное копирование, должно быть возможно восстановление после катастроф.

  1. Вы не можете обеспечить соблюдение требований и конфиденциальность, так как нет безопасности и происхождения данных

С помощью такого инструментария, как Knox + Ranger + Atlas, этого можно достичь.

  1. Непросто создавать запросы , так как вы не можете построить поток, но вам нужно написать sql или pig-код.

Похоже, существует несколько инструментов, таких как Talend, где вы можете создавать потоки с помощью значков, как в типичном запросе строители.

  1. Hadoop сложнее поддерживать, так как он требует специальных знаний

Верно, но в ситуации, на которую я смотрю, есть достаточный объем знаний, поскольку в настоящее время они используют аналитическую платформу Hadoop.