Бэггинг (агрегирование бутстрапов) - обзор, как это работает, преимущества

Ансамблевое машинное обучение в основном можно разделить на бэггинг и бустинг. Методика мешков полезна как для регрессии, так и для статистической классификации. Бэггинг используется с деревьями решений, где он значительно повышает стабильность моделей за счет уменьшения дисперсии и повышения точности, что устраняет проблему переобучения.

Упаковка

Рис. 1. Поток загрузки пакетов (агрегирование начальной загрузки). Источник

Для объединения в ансамблевое машинное обучение используется несколько слабых моделей, которые объединяют прогнозы, чтобы выбрать лучший прогноз. Слабые модели специализируются на отдельных участках пространства функций, что позволяет получать прогнозы кредитного плеча от каждой модели для достижения высшей цели.

Быстрые су ммары

  • Бэггинг и бустинг - два основных метода ансамблевого машинного обучения.
  • Бэггинг - это метод ансамбля, который можно использовать для регрессии и классификации.
  • Он также известен как агрегирование начальной загрузки, которое формирует две классификации упаковки.

Что такое бутстреппинг?

Бэггинг состоит из двух частей: агрегации и начальной загрузки. Самостоятельная загрузка - это метод выборки, при котором образец выбирается из набора с использованием метода замены. Затем алгоритм обучения запускается на выбранных образцах.

Методика самонастройки использует выборку с заменами, чтобы сделать процедуру выбора полностью случайной. Когда выборка выбирается без замены, последующий выбор переменных всегда зависит от предыдущего выбора, что делает критерии неслучайными.

Что такое агрегирование?

Прогнозы модели подвергаются агрегированию, чтобы объединить их для окончательного прогноза, чтобы учесть все возможные результаты. Агрегирование может быть выполнено на основе общего количества результатов или вероятности прогнозов, полученных из начальной загрузки каждой модели в процедуре.

Что такое метод ансамбля?

И бэггинг, и бустинг - самые известные техники ансамбля. Метод ансамбля - это платформа машинного обучения, которая помогает нескольким моделям в обучении с использованием одного и того же алгоритма обучения. Ансамблевый метод является участником большей группы мультиклассификаторов.

Мультиклассификаторы - это группа из нескольких учеников, которых исчисляются тысячи, с общей целью, которая может объединить и решить общую проблему. Еще одна категория мультиклассификаторов - гибридные методы. Гибридные методы используют набор учащихся, но, в отличие от мультиклассификаторов, они могут использовать разные методы обучения.

Обучение сталкивается с множеством проблем, таких как ошибки, которые в основном возникают из-за смещения, шума и дисперсии. Точность и стабильность машинного обучения гарантируются ансамблевыми методами, такими как бэггинг и бустинг. Комбинации нескольких классификаторов уменьшают дисперсию, особенно там, где классификаторы нестабильны, и они важны для представления более надежных результатов, чем один классификатор.

Применение бэггинга или бустинга требует в первую очередь выбора базового алгоритма обучаемого. Например, если кто-то выбирает дерево классификации, то бустинг и упаковка будут пулом деревьев с размером, равным предпочтениям пользователя.

Преимущества и недостатки упаковки в мешки

Случайный лес Случайный лес Случайный лес - это метод, используемый для моделирования прогнозов и анализа поведения и основанный на деревьях решений. Случайный лес содержит множество деревьев решений - один из самых популярных алгоритмов пакетирования. Бэггинг дает возможность многим слабым ученикам объединить усилия, чтобы превзойти одного сильного ученика. Это также помогает в сокращении дисперсии, следовательно, устранение переобучения. Переоборудование - это термин, используемый в статистике, который относится к ошибке моделирования, которая возникает, когда функция слишком близко соответствует определенному набору данных моделей в процедуре.

Одним из недостатков упаковки в мешки является то, что она приводит к потере интерпретируемости модели. При игнорировании правильной процедуры в результирующей модели может возникнуть большая ошибка. Несмотря на то, что упаковка в мешки является очень точной, она может быть дорогостоящей в вычислительном отношении, что может препятствовать ее использованию в определенных случаях.

Бэггинг против бустинга

Лучший метод, который следует использовать между упаковкой в ​​мешки и повышением, зависит от имеющихся данных, моделирования и любых существующих обстоятельств в данный момент. Дисперсия оценки значительно снижается за счет методов упаковки и повышения во время процедуры комбинирования, тем самым повышая точность. Следовательно, полученные результаты демонстрируют более высокую стабильность, чем индивидуальные результаты.

Когда соревнование представляет проблему низкой производительности, метод мешковины не приведет к лучшему смещению. Однако метод повышения генерирует унифицированную модель с меньшими ошибками, поскольку он концентрируется на оптимизации преимуществ и сокращении недостатков в одной модели.

Когда задача в одной модели переоснащена, метод упаковки работает лучше, чем метод повышения. Повышение давления сталкивается с проблемой переобучения, поскольку оно само по себе сопровождается переобучением.

Связанные чтения

Финансы предлагают сертификацию финансового моделирования и оценки (FMVA) ™. Сертификация FMVA®. Присоединяйтесь к более 350 600 студентам, которые работают в таких компаниях, как Amazon, JP Morgan и программы сертификации Ferrari, для тех, кто хочет вывести свою карьеру на новый уровень. Чтобы продолжить изучение и развитие своей базы знаний, ознакомьтесь с дополнительными соответствующими финансовыми ресурсами ниже:

  • Кластерная выборка Кластерная выборка В статистике кластерная выборка - это метод выборки, при котором вся совокупность исследования делится на внешне однородные, но внутренне однородные.
  • Предвзятость излишней самоуверенности. Предвзятость излишней самоуверенности - это ложная и вводящая в заблуждение оценка наших навыков, интеллекта или таланта. Короче говоря, это эгоистичное убеждение, что мы лучше, чем есть на самом деле. Это может быть опасным предубеждением и очень распространено в поведенческих финансах и рынках капитала.
  • Регрессионный анализ Регрессионный анализ Регрессионный анализ - это набор статистических методов, используемых для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными. Его можно использовать для оценки силы взаимосвязи между переменными и для моделирования будущей взаимосвязи между ними.
  • Анализ данных временных рядов Анализ данных временных рядов Анализ данных временных рядов - это анализ наборов данных, которые изменяются в течение определенного периода времени. Наборы данных временных рядов записывают наблюдения одной и той же переменной в разные моменты времени. Финансовые аналитики используют данные временных рядов, такие как динамика цен на акции или продажи компании с течением времени.