Как использовать индексы Spark ORC?

Question

Как использовать индексы Spark ORC?

какова опция включения индексации orc от spark?

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

Я делаю .option("index", uid), что я должен был бы поместить туда, чтобы индексировать столбец "user_id" из orc.

6

apache-spark orc

автор: ForeverConfused

1 ответов

автор: Malik Fassi · Accepted Answer · 2017-11-08 18:08:57

вы пробовали : .partitionBy("user_id") ?

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)