Как рассчитать точную медиану с помощью Apache Spark?

этой страница содержит некоторые функции статистики (среднее, stdev, дисперсия и т. д.) но он не содержит медиану. Как вычислить точную медиану?

спасибо

2 ответов


вам нужно отсортировать RDD и взять элемент в середине или среднем из двух элементов. Вот пример с RDD[Int]:

  import org.apache.spark.SparkContext._

  val rdd: RDD[Int] = ???

  val sorted = rdd.sortBy(identity).zipWithIndex().map {
    case (v, idx) => (idx, v)
  }

  val count = sorted.count()

  val median: Double = if (count % 2 == 0) {
    val l = count / 2 - 1
    val r = l + 1
    (sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
  } else sorted.lookup(count / 2).head.toDouble

используя Spark 2.0+ и API DataFrame, вы можете использовать approxQuantile:способ

def approxQuantile(col: String, probabilities: Array[Double], relativeError: Double)

он также будет работать на нескольких столбцах одновременно с версии Spark 2.2. Установив probabilites to Array(0.5) и relativeError до 0, он вычислит точную медиану. От документация:

относительная точность цели для достижения (больше или равно 0). Если значение равно нулю, вычисляются точные квантили, которые могут стоить очень дорого.

несмотря на это, похоже, есть некоторые проблемы с точностью при настройке relativeError до 0, см. вопрос здесь. Низкая ошибка, близкая к 0, в некоторых случаях будет работать лучше (будет зависеть от версии Spark).


небольшой рабочий пример, который вычисляет медиану чисел от 1 до 99 (включительно) и использует низкий relativeError:

val df = (0 to 99).toDF("num")
val median = df.stat.approxQuantile("num", Array(0.5), 0.001)(0)
println(median)

медиана возвращается 50.0.