создание уникальных идентификаторов в hive

Question

создание уникальных идентификаторов в hive

Я пытался создать уникальные идентификаторы для каждой строки таблицы (30 миллионов+ строк).

использование последовательных номеров, очевидно, не работает из-за параллельного характера Hadoop.
встроенные UDFs rand () и hash(rand (), unixtime ()), похоже, генерируют коллизии.

должен быть простой способ генерировать идентификаторы строк, и мне было интересно, у кого есть решение.

мой следующий шаг - просто создание Java map reduce задание для генерации реальной хэш-строки с безопасным случайным + хост IP + текущее время в качестве семени. но я думаю, что я бы спросил здесь, прежде чем делать это;)

6

hadoop hash hive identifier

автор: Mehraban

7 ответов

автор: Carter Shanklin · Accepted Answer · 2013-08-18 04:54:15

используйте отражение UDF для создания UUID.

reflect("java.util.UUID", "randomUUID")

автор: jtravaglini · Accepted Answer · 2013-08-15 18:04:47

Не уверен, что это все, что полезно, но здесь идет...

рассмотрим собственный аналог MapReduce: предполагая, что ваш набор входных данных основан на тексте, ключ входного картографа (и, следовательно, уникальный идентификатор) будет для каждой строки именем файла плюс его байтовое смещение.

при загрузке данных в Hive, если вы можете создать дополнительный "столбец", который имеет эту информацию, вы получите свой rowID бесплатно. Это семантически бессмысленно, но также и подход, который вы упоминаете выше.

автор: user3287506 · Accepted Answer · 2014-02-08 16:24:02

разработка ответа jtravaglini, существует 2 встроенных виртуальных столбца Hive начиная с 0.8.0, которые можно использовать для создания уникального идентификатора:

INPUT__NAME, BLOCK_смещение _ ВНУТРИ _ _ ФАЙЛА

используйте так:

выберите функция concat(INPUT__NAME,':', BLOCK_смещениевнутри файла___), а вы можете анономизировать это с md5 или подобным, вот ссылка на md5 UDF: https://gist.github.com/dataminelab/1050002
(обратите внимание, что имя класса функций initcap 'Md5')

выберите Алгоритм MD5(функция concat(INPUT__NAME,':', BLOCK_смещение_внутри _ _ файла)) как rowkey, ...

автор: Steven Lowenthal · Accepted Answer · 2014-03-15 22:02:51

reflect ("java.утиль.UUID", "randomUUID")

Я не мог проголосовать за другого. Мне нужна была чистая двоичная версия, поэтому я использовал это:

unhex (regexp_replace (reflect ('java.утиль.UUID', 'randomUUID'), '-', "))

автор: cabad · Accepted Answer · 2017-05-23 12:17:39

в зависимости от характера ваших заданий и того, как часто вы планируете их выполнять, использование последовательных номеров может быть разумной альтернативой. Вы можете реализовать rank() UDF, как описано в это другой так вопрос.

автор: Rangarajan Vasudevan · Accepted Answer · 2014-11-24 09:11:52

напишите пользовательский Сопоставитель, который сохраняет счетчик для каждой задачи карты и создает в качестве идентификатора строки для строки конкатенацию JobID() (как получено из Mr API) + текущее значение счетчика. Перед рассмотрением следующей строки увеличьте счетчик.

автор: Manoj Kumar Vohra · Accepted Answer · 2017-02-15 09:43:23

Если вы хотите работать с несколькими картографами и с большим набором данных, попробуйте использовать этот UDF:https://github.com/manojkumarvohra/hive-hilo

Он использует zookeeper в качестве центрального репозитория для поддержания состояния последовательности и генерируемых уникальных увеличивающихся числовых значений