Что означают следующие поля: "totalSize" и "rawDataSize" в описании вывода расширенного запроса в hive?
если выполнить команду DESCRIBE EXTENDED в любой таблице hive, то в результате будут представлены значения totalSize и rawDataSize в конце вывода.
что означают эти поля?
Ex:
hive > DESCRIBE EXTENDED <TableName>
Output Results:
Table(tableName:TablenameXXXXX, dbName:XXxXXX,
.......... .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
2 ответов
rawDataSize-это размер исходного набора данных, totalSize-это объем хранения, который он занимает. Он применим для формата файла ORC, так как он сжимает данные totalSize будет меньше, чем rawDataSize.
размер данных описывается двумя параметрами:
- totalSize - приблизительный размер данных на диске
- rawDataSize-приблизительный размер данных в памяти
улей на MapReduce использует totalSize. Когда оба доступны, Hive on Spark использует rawDataSize. Из-за сжатия и сериализации для одного и того же набора данных может возникнуть большая разница между totalSize и rawDataSize.