Что означает парадокс Симпсона в тестировании AB?

Я делаю A/B тестирование, и я сталкиваюсь с парадоксом Симпсона в моих результатах (день против месяца против общей продолжительности теста).

  1. означает ли это, что мое тестирование a/b неверно/репрезентативно? (На тестирование повлиял какой-то внешний фактор?)
  2. Если это признак проблемы, то какие направления следовать?

Спасибо за вашу большую помощь.

Читать далее: http://en.wikipedia.org/wiki/Simpson%27s_paradox

3 ответов


Это немного трудно сказать, не видя точные данные и размеры тестировании, но вообще говоря, вы хотите принимать решения на основе данных, разделять. эта статья от Microsoft дает довольно наглядный пример парадокса Симпсона в тестировании программного обеспечения.

можете ли вы представить чистым примером комбинированной и разделять данные, а также краткое резюме тест?


Если A явно, значительно лучше в отдельных тестах A/B, в то время как B лучше в совокупности, то основной вывод заключается в том, что вы не можете агрегировать эти наборы данных таким образом. A лучше.

Если бы тестирование получало одни и те же результаты каждый день, Вы бы не получили этот четкий результат, даже с различными размерами выборки в день. Поэтому я думаю, что это дополнительно подразумевает, что что-то изменилось. Но это может быть что угодно. Может быть, то, что вы проверяли каждый день изменено (возможно, каким-то очень тонким способом, например, скорость сервера). Или, может быть, люди, которых вы тестируете, изменились (возможно, демографически, возможно, просто с точки зрения их настроения). Это не значит, что ваше тестирование плохое или недействительное. Это просто означает, что вы измеряете что-то, что движется, и это делает вещи сложными.

и я могу просчитаться или неправильно понять ситуацию, но я думаю также обязательно верно, что вы не тестировали A и B столько же раз. То есть, если в понедельник вы протестировали 50 раз и в 50 раз, и уже во вторник протестировал 600 раз, А B 600 раз, и так далее, и обогнал б каждый день, тогда я не понимаю, как вы могли бы получить общий результат, где б уд А. Если это верно для тестовой установки, похоже, что-то можно исправить, чтобы сделать ваши данные легче рассуждать.


парадокс Симпсона возникает только тогда, когда размеры вашей группы различны. На самом деле, результаты ginal-это средневзвешенное значение для результатов каждой группы (и на этом взвешивании может возникнуть парадокс).

Это на самом деле не вызвано внешними факторами или вещами. Это просто потому, что одна группа намного более значима (потому что имеет больше элементов в группе).

Если вы предоставите больше информации, мы могли бы помочь лучше.