Что означают следующие поля: "totalSize" и "rawDataSize" в описании вывода расширенного запроса в hive?

если выполнить команду DESCRIBE EXTENDED в любой таблице hive, то в результате будут представлены значения totalSize и rawDataSize в конце вывода.

что означают эти поля?

Ex:

hive > DESCRIBE EXTENDED <TableName>

Output Results:

Table(tableName:TablenameXXXXX, dbName:XXxXXX,
..........       .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})

2 ответов


rawDataSize-это размер исходного набора данных, totalSize-это объем хранения, который он занимает. Он применим для формата файла ORC, так как он сжимает данные totalSize будет меньше, чем rawDataSize.


размер данных описывается двумя параметрами:

  • totalSize - приблизительный размер данных на диске
  • rawDataSize-приблизительный размер данных в памяти

улей на MapReduce использует totalSize. Когда оба доступны, Hive on Spark использует rawDataSize. Из-за сжатия и сериализации для одного и того же набора данных может возникнуть большая разница между totalSize и rawDataSize.