Как Alexa и Google Analytics отслеживают демографию?

как такие сервисы, как Alexa и Google Analytics, способны отслеживать возраст посетителей, пол, образование в колледже и т. д.?

http://www.alexa.com/siteinfo/stackoverflow.com

3 ответов


Alexa определенно получает информацию о трафике от своих пользователей панели инструментов. Поскольку это относительно небольшая и самостоятельно выбирающая группа людей, это неизбежно приводит к предвзятой выборке (именно поэтому трафик Alexa не соответствует измеренному трафику на сайтах, которые я запускаю). Даже при самых лучших статистических методах уменьшения смещения вы никогда не сможете полностью избавиться от него, если Распределение выборки неоднородно.

неясно, как Google это делает, хотя это может включать отслеживание cookies.

проект я работаю на недавно подшипник на этот вопрос.

другой способ сделать это (который также имеет предубеждения, но разные) - использовать службу IP to location, чтобы найти приблизительную широту и долготу каждого посетителя вашего сайта. Затем используйте мой проект (полное раскрытие: я запускаю этот сайт, и он является коммерческим):

http://askgeo.com

чтобы получить демографическую информацию для этого места. AskGeo фактически предоставляет демографическую информацию на нескольких географических уровнях (штат, округ, подразделение округа, город, почтовый индекс, переписной тракт (несколько тысяч человек) и переписной блок (около тысячи человек). Вы, вероятно, захотите использовать самый низкий уровень (т. е. группу блоков переписи) для заданной широты и долготы.

сайт возвращает огромное количество демографических переменных. Идея заключалась бы в использовании мягких подсчетов из демографических переменных, представленных в блоке групповой уровень. Например, если вы пытаетесь отслеживать распределение пользователей по возрасту, используйте возрастные диапазоны, указанные в ответе AskGeo, и для данного образца добавьте дробное мягкое число к каждому диапазону, которое соответствует проценту населения в этой группе блоков из соответствующего возрастного диапазона. Возьмем, к примеру, мой район в Сан-Франциско. Имеет следующее возрастное распределение:

  • CensusAgePercent0To4: 7.3%
  • CensusAgePercent5To9: 3,5%
  • CensusAgePercent10To: 3,2%

... (пропуская немного, как вы, вероятно, понимаете идею)...

  • CensusAgePercentOver85: 1,5%

Если у вас есть IP-адрес, который вы отследили до этой группы блоков переписи, вы добавите каждый из этих процентов (как дробь от 0 до 1) к вашим (мягким) счетчикам для этих возрастных диапазонов. (Мягкий счетчик-это просто счетчик, который позволяет номера-целое число отсчетов.)

вы можете сделать то же самое с расой, полом, уровнем дохода, ценностями дома и т. д.

этот метод также имеет предубеждения, поскольку он предполагает, что все люди в данной группе блоков с одинаковой вероятностью посетят ваш сайт. Но это то, что вы можете сделать на своем собственном сайте, а не только Google и Alexa, и это все равно даст вам относительное представление о том, кто посещает ваш сайт, если ваши софт-счета в данной категории выше, чем национальные средние по этой категории.

также возможно, что более сложная техника, чем простые прямые подсчеты, может привести к гораздо более богатому результату.


Я провел некоторые исследования, и, по-видимому, эти демографические данные отслеживаются так же, как демографические данные телевизионной аудитории отслеживаются. Есть люди, которые просматривают свои панели инструментов (Alexa), которые отслеживают посещенные сайты. Эти люди охотно (?) информационное обеспечение, как возраст, пол, и т. д. и Alexa экстраполирует общую демографию из этой выборки. Это, конечно, оставляет место для предвзятости, но это проблема со статистикой.


Alexa получает информацию из панелей инструментов браузера, которые вы устанавливаете специально или как часть пакета с некоторым программным обеспечением. Он задает вопросы, чтобы понять демографические параметры, а также отслеживает сайты, которые вы посещаете. Если вы знаете, что 80% посетителей сайта-женщины, и у вас есть новый посетитель, который посещает этот сайт, вы можете подумать, что существует высокая вероятность того, что этот человек-женщина. Если вы знаете много сайтов, которые посещает этот человек, вы можете догадаться о многом.

но как http://netberry.co.uk/alexa-rank-explained.htm говорит, что вы можете полагаться только на информацию от Alexa TOP100, 000, потому что тогда Alexa имеет достаточно информации от небольшого количества пользователей, посещающих эти сайты. Они говорят "миллионы", но это небольшая доля всего