Что такое слабый ученик?
Я хочу сравнить разные частоты ошибок разных классификаторов с частотой ошибок от слабого ученика (лучше, чем случайное угадывание). Итак, мой вопрос: каковы несколько вариантов для простого, легкого в обработке слабого ученика? Или я неправильно понимаю концепцию, и слабый ученик просто любой ориентир, который я выбираю (например, линейная регрессия)?
2 ответов
лучше, чем случайное угадывание
это в основном единственное требование для слабого ученика. До тех пор, пока вы можете последовательно бить случайное угадывание, любой истинный алгоритм повышения будет в состоянии увеличить точность окончательного ансамбля. Какой слабый ученик вы должны выбрать, это компромисс между 3 факторами:
- смещение модели. Более низкий уклон почти всегда лучше, но вы не хотите выбирать что-то, что будет overfit (да, повышение может и не overfit)
- на время обучения для слабого ученика. Обычно мы хотим быстро выучить слабого ученика, так как мы собираемся построить несколько сотен (или тысяч) из них.
- время предсказания для нашего слабого ученика. Если мы используем модель, которая имеет медленную скорость предсказания, наш ансамбль из них будет в несколько сотен раз медленнее!
классический слабый ученик-это дерево решений. Изменив максимальная глубина дерева, вы можете контролировать все 3 фактора. Это делает их невероятно популярными для повышения. То, что вы должны использовать, зависит от вашей индивидуальной проблемы, но деревья решений-это хорошая отправная точка.
Примечание: пока алгоритм поддерживает взвешенные экземпляры данных, любой алгоритм может использоваться для повышения. Приглашенный оратор в моем университете повышал 5-слойные глубокие нейронные сети для своей работы в вычислительной биологии.
слабые учащиеся в основном пороговые значения для каждого объекта. Один простой пример-1-уровень дерева решений называют решение обрубок приложенный в мешкать или форсировать. Он просто выбирает порог для одной функции и разбивает данные на этом пороге (например, чтобы определить, является ли цветок ириса Iris versicolor или Iris virginica на основе ширина лепестка). Затем он тренируется на этой конкретной функции, мешая или AdaBoost.