Как использовать индексы Spark ORC?
какова опция включения индексации orc от spark?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.option("index", "user_id")
.save(...);
Я делаю .option("index", uid)
, что я должен был бы поместить туда, чтобы индексировать столбец "user_id" из orc.
1 ответов
вы пробовали : .partitionBy("user_id")
?
df
.write()
.option("mode", "DROPMALFORMED")
.option("compression", "snappy")
.mode("overwrite")
.format("orc")
.partitionBy("user_id")
.save(...)