Как использовать индексы Spark ORC?

какова опция включения индексации orc от spark?

          df
            .write()
            .option("mode", "DROPMALFORMED")
            .option("compression", "snappy")
            .mode("overwrite")
            .format("orc")
            .option("index", "user_id")
            .save(...);

Я делаю .option("index", uid), что я должен был бы поместить туда, чтобы индексировать столбец "user_id" из orc.

1 ответов


вы пробовали : .partitionBy("user_id") ?

 df
        .write()
        .option("mode", "DROPMALFORMED")
        .option("compression", "snappy")
        .mode("overwrite")
        .format("orc")
        .partitionBy("user_id")
        .save(...)