Что такое слабо контролируемое обучение (bootstrapping)?

Я понимаю разницу между контролируемым и неконтролируемым обучением:

Обучающийся - это способ "обучения" классификатора, используя помеченные данные.

Обучение Без Учителя позволяет классификатору "учиться самостоятельно", например, с помощью кластеризации.

но что такое "слабо контролируемое обучение"? Как он классифицирует примеры?

3 ответов


короче говоря: в слабо контролируемом обучении вы используете ограниченное количество помеченных данных.

Как вы выбираете эти данные и что именно вы с ними делаете, зависит от метода. Как правило, вы используете ограниченное количество данных, которые легко получить и / или имеет реальное значение, а затем узнать остальное. Я считаю, что bootstrapping-это метод, который можно использовать в слабо контролируемом обучении, но, как показывает комментарий Бена ниже, это не является общепринятым вид.

см., например в работе для хорошего обзора (но я не уверен, что различие между полу-контролируемым и слабо контролируемым обучением является общепринятым), он говорит следующее о бутстрэппинге/слабо контролируемом обучении:

Bootstrapping, также называемый самообучением, является формой обучения, которая предназначен для использования еще меньше учебных примеров, поэтому иногда называется слабо контролируется. Загрузка начинается с несколькими тренировками примеры, обучает классификатор и использует мысль, чтобы быть положительным примеры, приведенные этим классификатором для переподготовки. Как набор обучающие примеры растут, классификатор улучшается, при условии, что не слишком много отрицательных примеров ошибочно классифицируются как положительные, что может привести к ухудшению показателей.

например, в случае тегирования части речи обычно тренируется хмм (или максимальная энтропия или что-то еще) Таггер на словах 10,000, каждой с поз. В случае слабо контролируемых тегов вы можете просто использовать очень маленький корпус из 100 слов. Вы получаете какой-то tagger, вы используете его, чтобы пометить корпус слов 1000, вы тренируете tagger на этом и используете его, чтобы пометить еще больший корпус. Очевидно, вы должны быть умнее, чем это, но это хорошее начало. (См.этой статье для более предварительного примера загрузочного теггера)

Примечание: слабо контролируемое обучение также может относиться к обучению с шумным метки (такие метки могут, но не должны быть результатом начальной загрузки)


  • слабый надзор наблюдение с шумными ярлыками. Например, bootstrapping, где процедура начальной загрузки может неправильно пометить некоторые примеры.
  • дальние надзора относится к обучающим сигналам, которые непосредственно не помечают примеры; например, изучение семантических синтаксических анализаторов из наборов данных вопросов и ответов.
  • Semi-наблюдали обучение-это когда у вас есть набор данных, который частично помечен и частично непомеченный.
  • полный надзор обучение-это когда у вас есть метки истины для каждой точки данных.

как описано Jirka, слабое наблюдение влечет за собой начальную (контролируемую) подготовку по небольшому, помеченному набору данных, прогнозирование по большему набору и (бесконтрольное) включение положительно идентифицированных экземпляров (или их характеристик) в модель (либо путем переподготовки по расширенному набору данных, либо путем прямого обновления модели). Процесс (бесконтрольного) обновления повторяется до достижения определенной цели. Очевидно, что это может легко пойти не так, если начальный предиктор дает много ложных срабатываний, но есть определенные ситуации, в которых пространство поиска может быть ограничено, так что обобщение, полученное через слабое наблюдение, не (часто) не работает, или пользовательский ввод может быть использован (слабо) контролировать процесс обучения. Чтобы предоставить дополнительный, очень успешный пример не в Text-mining,PSI-BLAST итеративно уточняет профиль последовательности белка для идентификации удаленных гомологов. Хороший обзор того, что может пойти не так с такой подход в этом контексте можно найти в этом статьи.