Почему Hadoop не является хранилищем данных?
Каковы функциональные причины, по которым Hadoop не может быть хранилищем данных
На нескольких сайтах можно увидеть утверждения о том, что кластер Hadoop не является заменой традиционного хранилища данных. Однако я не могу найти истинных причин этого.
Я знаю, что технически в Hadoop есть некоторые вещи, которые недоступны/зрелы, но я действительно ищу функциональное влияние.
Что я нашел до сих пор, включая меры по смягчению последствий
Я нашел несколько аргументов, но ни один из них не был настолько критичным, чтобы я не советовал использовать Hadoop в качестве DWH. Вот выбор:
- Вы не можете выполнять быстрые специальные запросы или отчеты, так как Hadoop, как правило, накладывает накладные расходы на карту и сокращает количество рабочих мест.
Однако в ситуации, которую я рассматриваю, это не должно быть проблемой, поскольку данные доступны только через (обычный) datamart. Кроме того, вы могли бы использовать spark sql, если бы хотели углубиться в несколько столов.
- Вы не можете получить определенные результаты, так как Hadoop не поддерживает хранимые процедуры.
В ситуации, которую я рассматриваю, существует не так много хранимых процедур (к счастью!), И с помощью таких инструментов, как R или Python, вы действительно можете получить любой необходимый вам результат.
- Вы не можете восстановиться после катастроф, так как в Hadoop нет встроенных резервных копий
Однако, поскольку весь код написан по сценарию и данные могут быть выгружены в резервное копирование, должно быть возможно восстановление после катастроф.
- Вы не можете обеспечить соблюдение требований и конфиденциальность, так как нет безопасности и происхождения данных
С помощью такого инструментария, как Knox + Ranger + Atlas, этого можно достичь.
- Непросто создавать запросы , так как вы не можете построить поток, но вам нужно написать sql или pig-код.
Похоже, существует несколько инструментов, таких как Talend, где вы можете создавать потоки с помощью значков, как в типичном запросе строители.
- Hadoop сложнее поддерживать, так как он требует специальных знаний
Верно, но в ситуации, на которую я смотрю, есть достаточный объем знаний, поскольку в настоящее время они используют аналитическую платформу Hadoop.