Как рассчитать точную медиану с помощью Apache Spark?

Question

Как рассчитать точную медиану с помощью Apache Spark?

этой страница содержит некоторые функции статистики (среднее, stdev, дисперсия и т. д.) но он не содержит медиану. Как вычислить точную медиану?

спасибо

14

apache-spark bigdata hadoop scala

автор: Shaido

2 ответов

автор: Eugene Zhulenev · Accepted Answer · 2015-01-28 14:21:45

вам нужно отсортировать RDD и взять элемент в середине или среднем из двух элементов. Вот пример с RDD[Int]:

  import org.apache.spark.SparkContext._

  val rdd: RDD[Int] = ???

  val sorted = rdd.sortBy(identity).zipWithIndex().map {
    case (v, idx) => (idx, v)
  }

  val count = sorted.count()

  val median: Double = if (count % 2 == 0) {
    val l = count / 2 - 1
    val r = l + 1
    (sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
  } else sorted.lookup(count / 2).head.toDouble

автор: Shaido · Accepted Answer · 2017-12-14 03:44:25

используя Spark 2.0+ и API DataFrame, вы можете использовать approxQuantile：способ

def approxQuantile(col: String, probabilities: Array[Double], relativeError: Double)

он также будет работать на нескольких столбцах одновременно с версии Spark 2.2. Установив probabilites to Array(0.5) и relativeError до 0, он вычислит точную медиану. От документация:

относительная точность цели для достижения (больше или равно 0). Если значение равно нулю, вычисляются точные квантили, которые могут стоить очень дорого.

несмотря на это, похоже, есть некоторые проблемы с точностью при настройке relativeError до 0, см. вопрос здесь. Низкая ошибка, близкая к 0, в некоторых случаях будет работать лучше (будет зависеть от версии Spark).

небольшой рабочий пример, который вычисляет медиану чисел от 1 до 99 (включительно) и использует низкий relativeError:

val df = (0 to 99).toDF("num")
val median = df.stat.approxQuantile("num", Array(0.5), 0.001)(0)
println(median)

медиана возвращается 50.0.