В чем разница между Big Data и интеллектуальным анализом данных? [закрытый]

Как утверждает Wikpedia

общая цель процесса интеллектуального анализа данных является извлечение информации из набора данных и преобразовать его в понятную структуру для дальнейшее использование

Как это связано с большими данными? Правильно ли, если я скажу, что Hadoop выполняет интеллектуальный анализ данных параллельно?

6 ответов


большие данные-это все

большие данные-это маркетинг термин, не технический термин. Все больших данных. Мой USB-накопитель теперь "личное облако", а мой жесткий диск-большие данные. Серьезно. Это совершенно неопределенный термин, который в значительной степени определяется тем, что маркетинговые отделы различных очень оптимистичных компаний могут продать - и C*Os крупных компаний покупают, чтобы сделать магию. Update: и теперь то же самое относится к сведения наука!--6-->. Это просто маркетинг.

интеллектуальный анализ данных-это старые большие данные

На самом деле интеллектуальный анализ данных был так же перегружен... это могло означать что угодно, например:

  • сбор данных (НСА)
  • хранение данных
  • машинное обучение / AI (который предшествует термину интеллектуальный анализ данных)
  • интеллектуальный анализ данных non-ML (как в "открытии знаний", где термин интеллектуальный анализ данных был фактически придуман; но где фокус находится на новых знаниях, а не на изучении существующих знаний)
  • бизнес-правила и аналитика
  • визуализация
  • все, что связано с данными, которые вы хотите продать за грузовики денег

просто маркетингу нужен был новый термин. "Бизнес-аналитика", "бизнес-аналитика",... они!--5-->все еще продолжайте продавать тот же материал, это просто ребрендинг, как "большие данные" сейчас.

большинство" больших " интеллектуальных данных не большой

поскольку большинство методов - по крайней мере те, которые дают интересные результаты - просто не масштабируются, большинство данных "добывается" на самом деле не большой. Он явно намного больше, чем 10 лет назад, но не такой большой, как в Экзабайтах. Опрос KDnuggets имел что-то вроде 1-10 GB, являющегося средним "самым большим анализируемым набором данных". Это не большие данные любыми средствами управления данными; это только большой, что может быть проанализировано с помощью комплекс методы. (Я не говорю о тривиальных алгоритмах, таких как к-значит).

Most "big data" не является интеллектуальным анализом данных

теперь "большие данные" - это реально. Google имеет большие данные, и ЦЕРН также имеет большие данные. Большинство других, вероятно, нет. Данные начинают быть большими, когда вам нужно 1000 компьютеров просто магазине его.

технологии больших данных, такие как Hadoop, также реальны. Они не всегда используются разумно (не трудитесь запускать кластеры hadoop менее 100 узлов - так как на этом этапе вы, вероятно, можете получить гораздо лучшую производительность хорошо подобранные некластеризованные машины), но, конечно, люди пишут такое программное обеспечение.

но большая часть того, что делается, не является интеллектуальным анализом данных. Это извлечение, преобразование, загрузка (ETL), поэтому он заменяет хранилище данных. Вместо использования базы данных со структурой, индексами и ускоренными запросами данные просто сбрасываются в hadoop, и когда вы выяснили, что делать, вы перечитываете все свои данные и извлекаете информацию, которая вам действительно нужна, транформируете ее и загружаете в ваша электронная таблица excel. Потому что после отбора, извлечения и преобразования, обычно он больше не "большой".

качество данных страдает с размером

многие маркетинговые обещания больших данных не состоится. Twitter дает гораздо меньше информации для большинства компаний, чем рекламируется (если вы не являетесь teenie rockstar, то есть); и база пользователей Twitter сильно предвзяты. Исправление такого уклона трудно и требует большого опыта статистики.

смещение от данных-одна из проблем - если вы просто собираете некоторые случайные данные из интернета или приложения, это обычно не будет репрезентативным; в частности, не потенциальных пользователей. Вместо этого вы будете overfittig для существующих тяжелых пользователей, если вам не удастся отменить эти эффекты.

другая большая проблема-это просто шум. У вас есть спам-боты, но и другие инструменты (например, Twitter "трендовые темы", которые вызывают усиление" тенденций"), которые делают данные очень шумными, чем другие источники. Очистка этих данных жесткий, и дело не в технологии, а в опыте статистической области. Например Google Тенденции Гриппа неоднократно было обнаружено, что это довольно неточно. Это сработало в некоторые из ранних лет (может быть, из-за чрезмерной подгонки?) но уже не хорошего качества.

к сожалению, многие пользователи больших данных уделяют слишком мало внимания этому; что, вероятно, является одной из многих причин, почему большинство больших проекты данных, похоже, терпят неудачу (другие-некомпетентное управление, завышенные и нереалистичные ожидания и отсутствие культуры компании и квалифицированных людей).

в Hadoop != интеллектуальный анализ данных

теперь вторая часть вашего вопроса. Hadoop не занимается интеллектуальным анализом данных. Hadoop управляет хранилищем данных (через HDFS, очень примитивный вид распределенной базы данных) и планирует вычислительные задачи, позволяя запускать вычисления на тех же машинах, которые хранят данные. Это не делать какие-то сложные анализы.

есть некоторые инструменты, которые пытаются довести интеллектуальный анализ данных до Hadoop. В частности, Apache Mahout можно назвать официальной попыткой Apache сделать интеллектуальный анализ данных на Hadoop. За исключением того, что это в основном инструмент машинного обучения (machine learning != интеллектуальный анализ данных; интеллектуальный анализ данных иногда использует методы машинного обучения). Некоторые части Mahout (такие как кластеризация) далеки от совершенства. Проблема в том, что Hadoop хорош для линейные задачи, но большинство интеллектуального анализа данных не является линейным. И нелинейные алгоритмы не просто масштабируются до больших данных; вам нужно тщательно разрабатывать линейно-временные аппроксимации и жить с потерями в точности - потерями, которые должны быть меньше, чем вы потеряете, просто работая с меньшими данными.

хорошим примером этой проблемы компромисса является k-means. K-means на самом деле является (в основном) линейной проблемой; поэтому ее можно несколько запустить на Hadoop. Одна итерация является линейной, и если вы была хорошая реализация, она будет хорошо масштабироваться до больших данных. Однако число итераций до сходимости также растет с размером набора данных,и поэтому оно не является линейным. Однако, поскольку это статистический метод поиска "средств", результаты фактически не улучшаются с размером набора данных. Так что пока вы можете запустить k-средних на больших данных, это не имеет большого смысла - можно просто взять образец данных, высокоэффективный одним узлом версия K-значит, и результаты будут так же хорошо. Потому что дополнительные данные просто дают вам дополнительные цифры точности значения, которое вам не нужно быть таким точным.

поскольку это относится к довольно многим проблемам, фактический интеллектуальный анализ данных на Hadoop, похоже, не запускается. Все пытаются это сделать, и многие компании продают это. Но на самом деле это работает не намного лучше, чем не-большая версия. Но пока клиенты хотят купить это, компании будут продавать эту функциональность. И пока он получает вас грант, исследователи напишут об этом статьи. Работает это или нет. Такова жизнь.

есть несколько случаев, когда эти вещи работают. Google search является примером и ЦЕРН. Но и распознавание изображений (но не с помощью Hadoop, кластеры графических процессоров, кажется, путь туда) в последнее время выиграл от увеличения размера данных. Но в любом из этих случаев у вас достаточно чистые данные. Google индексирует все; Cern отбрасывает любые неинтересные данные и анализирует только интересные измерения - нет спамеров, подающих свой спам в ЦЕРН... и в анализе изображений вы тренируетесь на заранее выбранных соответствующих изображениях, а не на веб-камерах или случайных изображениях из интернета (и если да, то вы рассматриваете их как случайные изображения, а не как репрезентативные данные).


в чем разница между big data и Hadoop?

A: разница между большими данными и программой с открытым исходным кодом Hadoop является отличной и фундаментальной. Первый является активом, часто сложным и неоднозначным, в то время как второй представляет собой программу, которая выполняет набор целей и задач для работы с этим активом.

Big data-это просто большие наборы данных, которые предприятия и другие стороны объединяют для достижения конкретных целей и оперативный. Большие данные могут включать в себя множество различных типов данных в различных форматах. Например, предприятия могут приложить много усилий для сбора тысяч данных о покупках в валютных форматах, идентификаторах клиентов, таких как имя или номер социального страхования, или информации о продукте в виде номеров моделей, номеров продаж или инвентарных номеров. Все это или любую другую большую массу информации можно назвать большими данными. Как правило, он сырой и несортированный, пока не будет положите через различные виды инструментов и обработчиков.

Hadoop является одним из инструментов, предназначенных для обработки больших данных. Hadoop и другие программные продукты интерпретируют или анализируют результаты поиска больших данных с помощью специальных собственных алгоритмов и методов. Hadoop-это программа с открытым исходным кодом под лицензией Apache, которая поддерживается глобальным сообществом пользователей. Он включает в себя различные основные компоненты, включая набор функций MapReduce и распределенную файловую систему Hadoop (HDFS).

идея MapReduce заключается в том, что Hadoop может сначала сопоставить большой набор данных, а затем выполнить сокращение этого содержимого для конкретных результатов. Функцию reduce можно рассматривать как своего рода фильтр для необработанных данных. Затем система HDFS распределяет данные по сети или при необходимости переносит их.

администраторы баз данных, разработчики и другие могут использовать различные функции Hadoop для работы с большими данными любым количеством способов. Например, Hadoop может используется для реализации стратегий данных, таких как кластеризация и таргетинг с неоднородными данными или данными, которые не вписываются в традиционную таблицу или хорошо отвечают на простые запросы.

см. статью, размещенную по адресу http://www.shareideaonline.com/cs/what-is-the-difference-between-big-data-and-hadoop/

спасибо Анкуш!--1-->


этот ответ действительно призван добавить некоторую специфику к отличному ответу от Анони-Мусса.

существует много споров о том, что такое большие данные. Анони-мусс вызвал много проблем здесь вокруг чрезмерного использования таких терминов, как аналитика, большие данные и интеллектуальный анализ данных, но есть несколько вещей, о которых я хочу рассказать подробнее.

Большие Данные

для практических целей лучшее определение, которое я слышал о больших данных, - это данные что неудобно или не работает в традиционной реляционной базе данных. Это могут быть данные 1PB, с которыми нельзя работать, или даже просто данные 1GB, но имеют столбцы 5,000.

Это свободное и гибкое определение. Всегда будут настройки или инструменты управления данными, которые могут работать вокруг него, но здесь такие инструменты, как Hadoop, MongoDB и другие, могут использоваться более эффективно, чем предыдущие технологии.

Что мы можем сделать с данными, что это неудобно / большой / трудно работать? Трудно просто посмотреть на электронную таблицу и найти здесь смысл, поэтому мы часто используем интеллектуальный анализ данных и машинное обучение.

Анализ Данных

Это было вызвано слегка выше - моя цель здесь - быть более конкретным и, надеюсь, предоставить больше контекста. Интеллектуальный анализ данных обычно применяется к несколько контролируемым аналитическим или статистическим методам анализа данных. Они могут вписываться в регрессию, классификацию, кластеризация или коллаборативная фильтрация. Существует много перекрытий с машинным обучением, однако это по-прежнему, как правило, управляется пользователем, а не бесконтрольным или автоматизированным выполнением, что довольно хорошо определяет машинное обучение.

Машинное Обучение

часто машинное обучение и интеллектуальный анализ данных используются взаимозаменяемо. Машинное обучение охватывает многие из тех же областей, что и интеллектуальный анализ данных, но также включает в себя AI, компьютерное зрение и другие бесконтрольные задачи. Основное отличие, и это, безусловно, упрощение, заключается в том, что пользовательский ввод не только ненужен, но и вообще нежелателен. Целью этих алгоритмов или систем является самооптимизация и совершенствование, а не итеративный цикл разработки.


Big Data-это термин, который состоит из набора фреймворков и инструментов, которые могут творить чудеса с очень большими наборами данных, включая интеллектуальный анализ данных.

Hadoop - это фреймворк, который разделит очень большие наборы данных на блоки (по умолчанию 64 Мб), а затем сохранит их в HDFS (распределенная файловая система Hadoop), а затем, когда логика его работы(MapReduce) в bytecode для обработки данных, хранящихся в HDFS. Он примет разделение основанное на блоке(splits может быть сконфигурированным) и наложить извлечение и вычисление через процесс картографирования и редуктора. Таким образом, вы можете выполнить ETL-процесс, интеллектуальный анализ данных,вычисление данных и т. д.,

Я хотел бы сделать вывод, что большие данные-это терминология, которая может играть с очень большими наборами данных. Hadoop - это фреймворк, который может очень хорошо выполнять параллельную обработку со своими компонентами и сервисами. Таким образом, вы также можете получить интеллектуальный анализ данных..


большие данные термин люди используют, чтобы сказать, как хранение дешево и легко в эти дни и как данные доступны для анализа.

интеллектуальный анализ данных-это процесс извлечения полезной информации из данных.

обычно интеллектуальный анализ данных связан с большими данными по 2 причинам

  1. когда у вас много данных, шаблоны не так очевидны, поэтому кто-то не мог просто проверить и сказать "ха". Для этого ему нужны инструменты.
  2. много раз большое количество данных может улучшить статистическую значимость вашего анализа, потому что ваша выборка больше.

можем ли мы сказать, что Hadoop является dois Data mining параллельно? Что такое hadoop? Их сайт говорит

The Apache Hadoop software library is a framework that allows for the 
distributed processing of large data sets across clusters of computers 
using simple programming models

таким образом," параллельная " часть вашего утверждения истинна. "Интеллектуальный анализ данных" - это не обязательно. Вы можете просто использовать hadoop для суммирования тонн данных, и это не обязательно интеллектуальный анализ данных, например. Но в большинстве случаев вы можете поспорить, что люди пытаются извлекать полезную информацию из больших данных с помощью Hadoop, так это да.


Я бы сказал, что BigData-это модернизированная структура для удовлетворения новых потребностей бизнеса. Как многие люди могут знать, BigData - это объем,разнообразие и скорость 3 в. BigData-это необходимость использовать различные данные (структурированные и неструктурированные данные) и использовать метод кластеризации для решения проблемы объема, а также получения результатов за меньшее время, т. е.скорость движения.

где как Datamining на принципе ETL .Я. e поиск полезной информации из больших наборов данных с помощью моделирования техник. Для этого на рынке доступно множество инструментов BI.