Методы ансамбля - обзор, категории, основные типы

Ансамблевые методы - это методы, направленные на повышение точности результатов в моделях путем объединения нескольких моделей вместо использования одной модели. Комбинированные модели значительно повышают точность результатов. Это повысило популярность ансамблевых методов в машинном обучении.

Краткое резюме

Методы ансамбля направлены на улучшение предсказуемости моделей путем объединения нескольких моделей для создания одной очень надежной модели.
Самые популярные методы ансамбля - бустинг, бэггинг и стекинг.
Ансамблевые методы идеальны для регрессии и классификации, где они уменьшают смещение и дисперсию, чтобы повысить точность моделей.

Категории ансамблевых методов

Методы ансамбля делятся на две широкие категории: методы последовательного ансамбля и методы параллельного ансамбля. Последовательные ансамблевые методы генерируют базовых обучающихся в последовательности, например, Adaptive Boosting (AdaBoost). Последовательное поколение базовых учеников способствует зависимости между базовыми учениками. Затем производительность модели улучшается за счет присвоения более высоких весов ранее искаженным учащимся.

В методах параллельного ансамбля базовые учащиеся генерируются в параллельном формате, например, случайный лес. Случайный лес. Случайный лес - это метод, используемый при моделировании прогнозов и анализа поведения и основанный на деревьях решений. Случайный лес содержит множество деревьев решений. Параллельные методы используют параллельное поколение базовых учащихся, чтобы способствовать независимости между базовыми учащимися. Независимость базовых учащихся значительно снижает ошибку из-за применения средних значений.

Большинство ансамблевых методов используют один алгоритм в базовом обучении, что приводит к однородности у всех базовых учащихся. Однородные базовые учащиеся относятся к базовым учащимся одного типа со схожими качествами. Другие методы применяют разнородных базовых учащихся, что приводит к разнородным ансамблям. Гетерогенные базовые ученики - это ученики разных типов.

Основные типы ансамблевых методов

1. Упаковка

Бэггинг, сокращенная форма для начального агрегирования, в основном применяется при классификации и регрессионном анализе. Регрессионный анализ. Регрессионный анализ - это набор статистических методов, используемых для оценки взаимосвязей между зависимой переменной и одной или несколькими независимыми переменными. Его можно использовать для оценки силы взаимосвязи между переменными и для моделирования будущей взаимосвязи между ними. . Это увеличивает точность моделей за счет использования деревьев решений, что в значительной степени снижает дисперсию. Уменьшение дисперсии увеличивает точность, тем самым устраняя переобучение, что является проблемой для многих прогнозных моделей.

Бэггинг подразделяется на два типа: самозагрузка и агрегация. Бутстрапирование - это метод выборки, при котором выборки извлекаются из всей генеральной совокупности (набора) с использованием процедуры замены. Выборка с методом замены помогает сделать процедуру отбора случайной. Базовый алгоритм обучения запускается на образцах для завершения процедуры.

Агрегация в мешках выполняется для включения всех возможных результатов прогноза и рандомизации результатов. Без агрегирования прогнозы не будут точными, поскольку не принимаются во внимание все результаты. Таким образом, агрегирование основывается на процедурах вероятностной начальной загрузки или на основе всех результатов прогнозных моделей.

Бэггинг является преимуществом, поскольку слабые базовые учащиеся объединяются в одного сильного учащегося, который более устойчив, чем учащиеся по отдельности. Это также устраняет любые отклонения, тем самым уменьшая переоснащение моделей. Одним из ограничений упаковки является то, что она требует больших вычислительных ресурсов. Таким образом, игнорирование надлежащей процедуры упаковки в мешки может привести к большему смещению в моделях.

2. Повышение

Повышение - это метод ансамбля, который учится на предыдущих ошибках предсказателя, чтобы делать более точные прогнозы в будущем. Этот метод объединяет несколько слабых базовых учащихся в одного сильного учащегося, что значительно улучшает предсказуемость моделей. Усиление работает за счет упорядочивания слабых учащихся в последовательности, так что слабые учащиеся учатся у следующего учащегося в последовательности, чтобы создавать лучшие модели прогнозирования.

Повышение имеет множество форм, включая повышение градиента, адаптивное усиление (AdaBoost) и XGBoost (усиление экстремального градиента). AdaBoost использует слабых учеников в виде деревьев решений, которые в основном включают одно разделение, известное как пни принятия решений. Главный пень принятия решения AdaBoost - это наблюдения, имеющие схожие веса.

Повышение градиента Повышение градиента Повышение градиента - это метод, используемый при создании моделей для прогнозирования. Этот метод в основном используется в процедурах регрессии и классификации. последовательно добавляет предикторы в ансамбль, где предыдущие предикторы корректируют своих последователей, тем самым повышая точность модели. Новые предикторы подходят для противодействия эффектам ошибок предыдущих предикторов. Градиент спуска помогает усилителю градиента выявлять проблемы в предсказаниях учащихся и соответствующим образом им противодействовать.

XGBoost использует деревья решений с усиленным градиентом, обеспечивая повышенную скорость и производительность. Он сильно зависит от скорости вычислений и производительности целевой модели. Обучение модели должно происходить в определенной последовательности, что замедляет внедрение машин с градиентным усилением.

3. Укладка

Укладка, другой метод ансамбля, часто называется наложенным обобщением. Этот метод работает, позволяя алгоритму обучения объединять несколько других предсказаний аналогичного алгоритма обучения. Стекинг успешно реализован в регрессии, оценках плотности, дистанционном обучении и классификациях. Его также можно использовать для измерения частоты ошибок при упаковке.

Снижение дисперсии

Ансамблевые методы идеальны для уменьшения дисперсии моделей, тем самым повышая точность прогнозов. Дисперсия устраняется, когда несколько моделей объединяются для формирования единого прогноза, который выбирается из всех других возможных прогнозов из объединенных моделей. Ансамбль моделей - это процесс комбинирования различных моделей для обеспечения наилучшего результата прогноза, основанного на рассмотрении всех прогнозов.

Дополнительные ресурсы

Finance является официальным поставщиком глобального сертификата Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification. Аккредитация Certified Banking & Credit Analyst (CBCA) ™ является мировым стандартом для кредитных аналитиков, который охватывает финансы, бухгалтерский учет, кредитный анализ, анализ денежных потоков. , моделирование ковенантов, погашение кредитов и многое другое. программа сертификации, призванная помочь любому стать финансовым аналитиком мирового уровня. Чтобы продолжить карьеру, вам пригодятся следующие дополнительные финансовые ресурсы:

Эластичная сеть Эластичная сеть Эластичная сеть линейно использует штрафы как от лассо, так и от техники гребня для регуляризации регрессионных моделей. Техника сочетает в себе лассо и
Переобучение Переобучение Переобучение - это термин, используемый в статистике, который относится к ошибке моделирования, которая возникает, когда функция слишком близко соответствует определенному набору данных.
Масштабируемость Масштабируемость Масштабируемость может падать как в финансовом контексте, так и в контексте бизнес-стратегии. В обоих случаях это означает способность объекта выдерживать давление
Спуфинг Спуфинг Спуфинг - это подрывная алгоритмическая торговая практика, которая включает размещение заявок на покупку или предложений на продажу фьючерсных контрактов и отмену заявок или предложений до исполнения сделки. Эта практика направлена на создание ложной картины спроса или ложного пессимизма на рынке.