Коэффициент инфляции дисперсии (VIF) - обзор, формула, использование

Коэффициент инфляции дисперсии (VIF) измеряет серьезность мультиколлинеарности в регрессионном анализе. Регрессионный анализ. Регрессионный анализ - это набор статистических методов, используемых для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными. Его можно использовать для оценки силы взаимосвязи между переменными и для моделирования будущей взаимосвязи между ними. . Это статистическая концепция, которая указывает на увеличение дисперсии коэффициента регрессии в результате коллинеарности.

Резюме

Коэффициент инфляции дисперсии (VIF) используется для определения степени мультиколлинеарности в обычном регрессионном анализе методом наименьших квадратов (OLS).
Мультиколлинеарность увеличивает дисперсию и ошибку типа II. Это делает коэффициент переменной непротиворечивым, но ненадежным.
VIF измеряет количество завышенных дисперсий, вызванных мультиколлинеарностью.

Коэффициент инфляции дисперсии и мультиколлинеарность

В обычном регрессионном анализе методом наименьших квадратов (МНК) мультиколлинеарность существует, когда две или более независимых переменных Независимая переменная Независимая переменная - это входные данные, допущения или драйверы, которые изменяются, чтобы оценить их влияние на зависимую переменную (результат) . демонстрируют линейную связь между ними. Например, для анализа взаимосвязи размеров и доходов компании с ценами на акции в регрессионной модели рыночная капитализация и выручка являются независимыми переменными.

Рыночная капитализация компании. Рыночная капитализация. Рыночная капитализация (рыночная капитализация) - это последняя рыночная стоимость выпущенных акций компании. Рыночная капитализация равна текущей цене акции, умноженной на количество акций в обращении. Сообщество инвесторов часто использует значение рыночной капитализации для ранжирования компаний, и его общий доход сильно коррелирован. По мере увеличения доходов компания также увеличивается в размерах. Это приводит к проблеме мультиколлинеарности в регрессионном анализе OLS. Если независимые переменные в регрессионной модели демонстрируют совершенно предсказуемую линейную зависимость, это называется совершенной мультиколлинеарностью.

При мультиколлинеарности коэффициенты регрессии по-прежнему согласованы, но больше не являются надежными, поскольку стандартные ошибки завышены. Это означает, что предсказательная сила модели не снижается, но коэффициенты могут не быть статистически значимыми с ошибкой типа II Ошибка типа II При статистической проверке гипотез ошибка типа II - это ситуация, в которой проверка гипотезы не может отклонить нулевую гипотезу, которая ложно. В других .

Следовательно, если коэффициенты переменных не являются индивидуально значимыми - не могут быть отклонены в t-тесте соответственно - но могут совместно объяснить дисперсию зависимой переменной с отклонением в F-тесте и высоким коэффициентом детерминации (R2), может существовать мультиколлинеарность. Это один из методов обнаружения мультиколлинеарности.

VIF - еще один широко используемый инструмент для определения наличия мультиколлинеарности в регрессионной модели. Он измеряет, насколько раздувается дисперсия (или стандартная ошибка) оцененного коэффициента регрессии из-за коллинеарности.

Использование коэффициента инфляции дисперсии

VIF можно рассчитать по следующей формуле:

Где R _i 2 представляет нескорректированный коэффициент детерминации для регрессии i-й независимой переменной по оставшимся. Обратный VIF известен как толерантность . Для обнаружения мультиколлинеарности можно использовать либо VIF, либо допуск, в зависимости от личных предпочтений.

Если R _i 2 равно 0, дисперсию оставшихся независимых переменных невозможно предсказать на основе i-й независимой переменной. Следовательно, когда VIF или допуск равны 1, i-я независимая переменная не коррелирует с остальными, что означает, что мультиколлинеарность не существует в этой регрессионной модели. В этом случае дисперсия i-го коэффициента регрессии не увеличивается.

Как правило, VIF выше 4 или допуск ниже 0,25 указывает на то, что может существовать мультиколлинеарность, и требуются дальнейшие исследования. Когда VIF выше 10 или допуск ниже 0,1, существует значительная мультиколлинеарность, которую необходимо исправить.

Однако бывают ситуации, когда высокие значения VFI можно безопасно игнорировать, не страдая от мультиколлинеарности. Вот три таких ситуации:

1. Высокие VIF существуют только в контрольных переменных, но не в интересующих переменных. В этом случае интересующие переменные не коллинеарны друг другу или контрольным переменным. На коэффициенты регрессии это не влияет.

2. Когда высокие VIF возникают в результате включения произведений или мощностей других переменных, мультиколлинеарность не оказывает отрицательного воздействия. Например, регрессионная модель включает как независимые переменные, так и x2.

3. Когда фиктивная переменная, представляющая более двух категорий, имеет высокий VIF, мультиколлинеарность не обязательно существует. Переменные всегда будут иметь высокие значения VIF, если в категории имеется небольшая часть наблюдений, независимо от того, коррелированы ли категориальные переменные с другими переменными.

Коррекция мультиколлинеарности

Поскольку мультиколлинеарность увеличивает дисперсию коэффициентов и вызывает ошибки типа II, очень важно ее обнаруживать и исправлять. Существует два простых и часто используемых способа исправить мультиколлинеарность, перечисленные ниже:

1. Первый - удалить одну (или несколько) сильно коррелированных переменных. Поскольку информация, предоставляемая переменными, является избыточной, коэффициент детерминации не будет значительно ухудшен при удалении.

2. Второй метод заключается в использовании анализа главных компонентов (PCA) или частичной регрессии наименьших квадратов (PLS) вместо регрессии OLS. Регрессия PLS может уменьшить количество переменных до меньшего набора без корреляции между ними. В PCA создаются новые некоррелированные переменные. Это сводит к минимуму потерю информации и улучшает предсказуемость модели.

Дополнительные ресурсы

Finance является официальным поставщиком глобального сертификата Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification. Аккредитация Certified Banking & Credit Analyst (CBCA) ™ является мировым стандартом для кредитных аналитиков, который охватывает финансы, бухгалтерский учет, кредитный анализ, анализ денежных потоков. , моделирование ковенантов, погашение кредитов и многое другое. программа сертификации, призванная помочь любому стать финансовым аналитиком мирового уровня. Чтобы продолжить карьеру, вам будут полезны следующие дополнительные ресурсы:

Основные концепции статистики в финансах Основные концепции статистики в финансах Твердое понимание статистики имеет решающее значение для того, чтобы помочь нам лучше понять финансы. Более того, концепции статистики могут помочь инвесторам отслеживать
Методы прогнозирования Методы прогнозирования Лучшие методы прогнозирования. В этой статье мы объясним четыре типа методов прогнозирования доходов, которые финансовые аналитики используют для прогнозирования будущих доходов.
Множественная линейная регрессия Множественная линейная регрессия Множественная линейная регрессия - это статистический метод, используемый для прогнозирования результатов зависимой переменной на основе значений независимых переменных.
Случайная величина Случайная величина Случайная величина (стохастическая переменная) - это тип переменной в статистике, возможные значения которой зависят от результатов определенного случайного явления.