Как рассчитать точную медиану с помощью Apache Spark?
этой страница содержит некоторые функции статистики (среднее, stdev, дисперсия и т. д.) но он не содержит медиану. Как вычислить точную медиану?
спасибо
2 ответов
вам нужно отсортировать RDD и взять элемент в середине или среднем из двух элементов. Вот пример с RDD[Int]:
import org.apache.spark.SparkContext._
val rdd: RDD[Int] = ???
val sorted = rdd.sortBy(identity).zipWithIndex().map {
case (v, idx) => (idx, v)
}
val count = sorted.count()
val median: Double = if (count % 2 == 0) {
val l = count / 2 - 1
val r = l + 1
(sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
} else sorted.lookup(count / 2).head.toDouble
используя Spark 2.0+ и API DataFrame, вы можете использовать approxQuantile
:способ
def approxQuantile(col: String, probabilities: Array[Double], relativeError: Double)
он также будет работать на нескольких столбцах одновременно с версии Spark 2.2. Установив probabilites
to Array(0.5)
и relativeError
до 0, он вычислит точную медиану. От документация:
относительная точность цели для достижения (больше или равно 0). Если значение равно нулю, вычисляются точные квантили, которые могут стоить очень дорого.
несмотря на это, похоже, есть некоторые проблемы с точностью при настройке relativeError
до 0, см. вопрос здесь. Низкая ошибка, близкая к 0, в некоторых случаях будет работать лучше (будет зависеть от версии Spark).
небольшой рабочий пример, который вычисляет медиану чисел от 1 до 99 (включительно) и использует низкий relativeError
:
val df = (0 to 99).toDF("num")
val median = df.stat.approxQuantile("num", Array(0.5), 0.001)(0)
println(median)
медиана возвращается 50.0.