Привет студент. Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности Методы диагноза мультиколлинеарности

  • 4. Статистическое оценивание параметров плр по методу наименьших квадратов. Свойства мнк – оценок
  • Свойства мнк-оценок:
  • 5. Проверка качества множественной линейной регрессии: значимость параметров, доверительные интервалы, адекватность модели. Прогнозирование.
  • 6. Множественная линейная регрессия (млр). Классические предположения. Мнк-оценка параметров модели.
  • 7. Свойства мнк-оценок множественной линейной регрессии. Теорема Гаусса- Маркова.
  • 8. Проверка качества множественной линейной регрессии: значимость параметров, доверительные интервалы, адекватность модели. Прогнозирование.
  • 5. Коэф. Детерминации
  • Прогнозирование по модели множественной линейной регрессии
  • 9. Спецификация эконометрической модели: способы и диагностика отбора экзогенных переменных. Тесты Рамсея и Амемья.
  • Критерий Рамсея (Ramsey):
  • 10. Спецификация эконометрической модели: выбор формы зависимости нелинейной модели
  • Принципы спецификаций
  • 11. Проблема наличия мультиколлинеарности. Последствия наличия и диагностики мультиколлинеарности.
  • Методы диагноза мультиколлинеарности:
  • 12. Методы устранения мультиколлинеарности. Метод главных компонент. Гребневая регрессия.
  • 13. Проблемы гетероскедастичности модели. Критерии ее диагностики.
  • 1. Критерий Парка (Park).
  • 2. Критерий Голдфелда-Кандта (Goldfeld-Quandt).
  • 3. Критерий Бриша-Пагана (Breusch-Pagan).
  • 4. Критерий Вайта (White).
  • 14. Обобщенный мнк (омнк). Свойства оценок млр по омнк. Взвешенный мнк в задаче оценивания параметров модели. Свойства оценок по взвешенному мнк.
  • Вопрос 15. Проблема автокорреляции остатков модели. Последствия автокорреляции при использовании модели.
  • Причины автокорреляции остатков
  • Последствия автокорреляции:
  • 16. Критерий диагностики автокорреляции Дарбина-Уотсона
  • 17.Методы устранения автокорреляции. Процедуры оценивания Кохрейна-Оркатта и Хильдрета-Лу
  • 18. Модели с распределенными лагами: структура лагов по Койку: Частные случаи (модель с неполной корректировкой и адаптивных ожиданий)
  • 19 Модели с распределенными лагами: линейно-арифметическая структура лагов и полиномиальная структура лагов по Алмон
  • 20. Тест h-Дарбина и множественный тест Лагранжа проверки автокорреляции в лаговых моделях
  • 21. Понятие временного ряда (вр). Модель вр, основные задачи анализа вр. Методы сглаживания вр (скользящего среднего, экспоненциального сглаживания, последовательных разностей)
  • 22 Стационарность временного ряда (вр). Характеристики корреляции уровней вр.
  • 23 Стационарные модели временных рядов: авторегрессии, скользящего среднего, арсс
  • 24. Нестационарная модель арисс. Оценка параметров модели.
  • 28. Прогнозирование временных рядов. Показатели точности прогнозов.
  • 30. Тест Чоу диагностики включения фиктивных переменных в эконометрическую модель.
  • 32. Системы одновременных эконометрических уравнений (соу). Структурная и приведенная форма соу (графическое и матричное представление).
  • 33. Проблемы идентификации систем одновременных уравнений (соу). Идентифицируемость уравнений соу (порядковый и ранговый критерии)
  • 34. Методы оценивания систем одновременных уравнений: косвенный мнк, двухшаговый мнк. Применимость и свойства оценок
  • 35. Современное состояние эконометрики. Примеры больших эконометрических моделей
  • 11. Проблема наличия мультиколлинеарности. Последствия наличия и диагностики мультиколлинеарности.

    Если имеется линейная связь экзогенных переменных , например , то МНК-оценки не будут существовать, т.к. не существует обратная к матрице, которая будет вырожденной. Такая ситуация в эконометрике носит название проблемымультиколлинеарности.

    Причины мультиколлинеарности:

    неправильная спецификация модели

    небрежное проведение сбора статданных (использование повторных наблюдений).

    Различают явную и неявную мультиколлинеарность.

    Явная – известна точная линейная зависимость между переменными модели.

    Например, если в модель инвестиционного процесса включить номинальную и реальную процентные ставки, т.е.

    где известна зависимость реальной и номинальной ставок и темпа инфляции

    то имеет место явная мультиколлинеарность.

    Неявная возникает, когда существует стохастическая (неопределенная, случайная) линейная зависимость между экзогенными переменными.

    преобладает неявная, ее наличие характеризуют 6 признаков :

    1. МНК-оценки параметров модели теряют свойства несмещенности .

    2. Дисперсия МНК-оценок возрастает:

    Вследствие того, что, коэффициент корреляции, тогда, что влечет

    3. Происходит уменьшение t -статистик, являющихся индикаторами значимости параметров:

    4. Коэффициент детерминации уже не является мерой адекватности модели, так как низкие значения t -статистик влекут недоверие к подобранной модели зависимости.

    5. Оценки параметров при неколлинеарных экзогенных переменных становятся очень чувствительными к изменению данных.

    6. Оценки параметров при неколлинеарных экзогенных переменных становятся незначимыми.

    Методы диагноза мультиколлинеарности:

    Шаг 1. В модели (исходной) множественной линейной регрессии переберем все подмодели, в которых какая-либо экзогенная переменная становится эндогенной, т.е.

    Шаг 2. Вычисляем коэффициенты детерминации всех полученных моделей , на основе которых рассчитаем так называемые инфляционные факторы:

    Если , то делают вывод о существовании мультиколлинеарности.

    а) в модели не изменяют никакую структуру, а, применяя компьютерный МНК, анализируют наличие проблемы мультиколлинеарности по визуальным методам.

    б) улучшают спецификацию модели, устраняя из исходной модели коллинеарные экзогенные переменные.

    в) увеличивают объем статистических данных.

    г) объединяют коллинеарные переменные и включают в модель общую экзогенную переменную.

    12. Методы устранения мультиколлинеарности. Метод главных компонент. Гребневая регрессия.

    Если основная задача модели − прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R 2 (≥ 0.9) наличие мультиколлинеарности зачастую не сказывается на прогнозных качествах модели.

    Если целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность представляется серьезной проблемой.

    Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

    МЕТОДЫ:

    Исключение переменной(ых) из модели

    Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого возможно получение смещенных оценок и осуществление необоснованных выводов. в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока коллинеарность не станет серьезной проблемой.

    Получение дополнительных данных или новой выборки

    Иногда достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, данный подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

    Изменение спецификации модели

    В ряде случаев проблема мультиколлинеарности может быть решена изменением спецификации модели: либо изменением формы модели, либо добавлением объясняющих переменных, которые не учтены в первоначальной модели, но существенно влияющие на зависимую переменную.

    Использование предварительной информации о некоторых параметрах

    Иногда при построении модели множественной регрессии можно воспользоваться некоторой предварительной информацией, в частности, известными значениями некоторых коэффициентов регрессии. Вполне вероятно, что значения коэффициентов, полученные для каких-либо предварительных (обычно более простых) моделей, либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.

    Для иллюстрации приведем следующий пример. Строится регрессия. Предположим, что переменные X1 и X2 коррелированы. Для ранее построенной модели парной регрессии Y = γ0 + γ1X1+υ был определен статистически значимый коэффициент γ1 (для определенности пусть γ1 = 0.8), связывающий Y с X1. Если есть основания думать, что связь между Y и X1 останется неизменной, то можно положить γ1 = β1 = 0.8. Тогда:

    Y = β0 + 0.8X1 + β2X2 + ε. ⇒ Y – 0.8X1 = β0 + β2X2 + ε.

    Уравнение фактически является уравнением парной регрессии, для которого проблема мультиколлинеарности не существует.

    Ограниченность использования данного метода обусловлена:

      получение предварительной информации зачастую затруднительно,

      вероятность того, что выделенный коэффициент регрессии будет одним и тем же для различных моделей, не высока.

    Преобразование переменных

    В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

    Например, пусть эмпирическое уравнение регрессии имеет вид Y = b0 + b1X1 + b2X2

    причем X1 и X2 − коррелированные переменные. В этой ситуации можно попытаться определять регрессионные зависимости относительных величин. Вполне вероятно, что в аналогичных моделях, проблема мультиколлинеарности будет отсутствовать.

    Метод главных компонент является одним из основных методов исключения переменных из модели множественной регрессии.

    Данный метод используется для исключения или уменьшения мультиколлинеарности факторных переменных модели регрессии. Суть метода : сокращение числа факторных переменных до наиболее существенно влияющих факторов . Это достигается с помощью линейного преобразования всех факторных переменных xi (i=0,…,n) в новые переменные, называемые главными компонентами, т. е. осуществляется переход от матрицы факторных переменных Х к матрице главных компонент F. При этом выдвигается требование, чтобы выделению первой главной компоненты соответствовал максимум общей дисперсии всех факторных переменных xi (i=0,…,n), второй компоненте – максимум оставшейся дисперсии, после того как влияние первой главной компоненты исключается и т. д.

    Если ни одну из факторных переменных, включённых в модель множественной регрессии, исключить нельзя, то применяют один из основных смещённых методов оценки коэффициентов модели регрессии – гребневую регрессию или ридж (ridge). При использовании метода гребневой регрессии ко всем диагональным элементам матрицы (ХТХ) добавляется небольшое число τ: 10-6 ‹ τ ‹ 0.1. Оценивание неизвестных параметров модели множественной регрессии осуществляется по формуле:

    где ln – единичная матрица.

    Под полной мультиколлинеарностью понимается существование между некоторыми из факторов линейной функциональной связи. Количественным выражением этого служит то обстоятельство, ранг матрицы Х меньше, чем (р +1), а матрица (Х’Х ) будет вырожденной, т.е. её определитель равен нулю, а обратной матрицы к ней не существует. В практике статистических исследований полная мультиколлинеарность встречается достаточно редко, т.к. её несложно избежать уже на предварительной стадии анализа и отбора множества объясняющих переменных.

    Реальная (или частичная) мультиколлинеарность возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными. Точных количественных критериев для определения наличия или отсутствия реальной мультиколлинеарности не существует. Тем не менее, существуют некоторые эвристические рекомендации по выявлению мультиколлинеарности.

    В первую очередь анализируют матрицу парных коэффициентов корреляции:

    точнее, ту её часть, которая относится к объясняющим переменным. Считается, что две переменные явно коллинеарны, если . В этом случае факторы дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдаётся фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

    Пусть, например, при изучении зависимости матрица парных коэффициентов корреляции оказалась следующей:

    Очевидно, что факторы х 1 и х 2 дублируют друг друга (). Однако в модель следует включить фактор х 2 , а не х 1 , поскольку корреляция фактора х 2 с у достаточно высокая (), а с фактором х 3 слабая ().

    Другим методом оценки мультиколлинеарности факторов может служить определитель матрицы парных коэффициентов корреляции между факторами (37). Обоснованием данного подхода служат такие рассуждения. Если бы факторы не коррелировали между собой, то в определителе (37) все внедиагональные элементы равнялись бы нулю, а на диагонали стояли бы единицы. Такой определитель равен единице. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты межфакторной корреляции равны единице, то определитель такой матрицы равен нулю. Следовательно, чем ближе к нулю определитель (37), тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице величина (37), тем меньше мультиколлинеарность факторов.

    Для оценки значимости мультиколлинеарности факторов выдвигается гипотеза Н 0:Δr 11 =1. Доказано, что величина имеет приближенное распределение χ 2 с степенями свободы. Если , то гипотеза Н 0 отклоняется, мультиколлинеарность считается доказанной.

    Другим методом выявления мультиколлинеарности является анализ коэффициентов множественной детерминации факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Например, коэффициент рассчитывается по следующей регрессии:

    где первый фактор взят в качестве результативного признака, а остальные факторы – как независимые переменные, влияющие на первый фактор. Чем ближе такой R 2 к единице, тем сильнее проявляется мультиколлинеарность факторов. Оставляя в уравнении регрессии факторы с минимальной R 2 , можно решить проблему отбора факторов.

    При этом рассчитывается статистика:

    (39)

    Если коэффициент статистически значим, то . В этом случае x j является линейной комбинацией других факторов, и его можно исключить из регрессии.

    Основные последствия мультиколлинеарности:

    1. Большие дисперсии оценок. Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.

    2. Уменьшаются t – статистики коэффициентов, что может привести к неоправданному выводу о несущественности влияния соответствующего фактора на зависимую переменную.

    3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т.е. они становятся неустойчивыми.

    4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

    5. Возможно получение неверного знака у коэффициента регрессии.

    Единого подхода к устранению мультиколлинеарности не существует. Существует ряд методов, которые не являются универсальными и применимы в конкретных ситуациях.

    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или нескольких коррелированных переменных. Здесь необходима осторожность, чтобы не отбросить переменную, которая необходима в модели по своей экономической сущности, но зачастую коррелирует с другими переменными (например, цена блага и цены заменителей данного блага).

    Иногда для устранения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Это приведёт к сокращению дисперсии коэффициентов регрессии и увеличению их статистической значимости. Однако при этом можно усилить автокорреляцию, что ограничивает возможности такого подхода.

    В некоторых случаях изменение спецификации модели, например, добавление существенного фактора, решает проблему мультиколлинеарности. При этом уменьшается остаточная СКО, что приводит к уменьшению стандартных ошибок коэффициентов.

    В ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно с помощью преобразования переменных.

    Например, пусть эмпирическое уравнение регрессии имеет вид:

    где факторы коррелированы. Здесь можно попытаться определить отдельные регрессии для относительных величин:

    Возможно, что в моделях, аналогичных (40), проблема мультиколлинеарности будет отсутствовать.

    Частная корреляция

    С помощью частных коэффициентов корреляции проводится ранжирование факторов по степени их влияния на результат. Кроме того, частные показатели корреляции широко используются при решении проблем отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции.

    Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

    Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в модель нового фактора к остаточной дисперсии, имевшей место до введения его в модель.

    Высокое значение коэффициента парной корреляции между исследуемой зависимой и какой-либо независимой переменной может означать высокую степень взаимосвязи, но может быть обусловлено и другой причиной, например, третьей переменной, которая оказывает сильное влияние на две первые, что и объясняет их высокую коррелированность. Поэтому возникает задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно сделать с помощью коэффициента частной корреляции.

    Коэффициенты частной корреляции определяются различными способами. Рассмотрим некоторые из них.

    Для простоты предположим, что имеется двухфакторная регрессионная модель:

    и имеется набор наблюдений . Тогда коэффициент частной корреляции между у и, например, х 1 после исключения влияния х 2 определяется по следующему алгоритму:

    1. Осуществим регрессию у на х 2 .

    2. Осуществим регрессию х 1 на х 2 и константу и получим прогнозные значения .

    3. Удалим влияние х 2 , взяв остатки и .

    4. Определим выборочный коэффициент частной корреляции между у и х 1 при исключении х 2 как выборочный коэффициент корреляции между e y и e 1 :

    (42)

    Значения частных коэффициентов корреляции лежат в интервале [-1,1], как у обычных коэффициентов корреляции. Равенство нулю означает отсутствие линейного влияния переменной х 1 на у .

    Существует тесная связь между коэффициентом частной корреляции и коэффициентом детерминации R 2 :

    (43)

    где - обычный коэффициент корреляции.

    Описанная выше процедура обобщается на случай, когда исключается влияние нескольких переменных. Для этого достаточно переменную х 2 заменить на набор переменных Х 2 , сохраняя определение (42) (при этом можно в число исключаемых переменных вводить и у , определяя частную корреляцию между факторами).

    Другой способ определения коэффициентов частной корреляции – матричный. Обозначив для удобства зависимую переменную как х 0 , запишем определитель матрицы парных коэффициентов корреляции в виде:

    (44)

    Тогда частный коэффициент корреляции определяется по формуле:

    , (45)

    где R ii - алгебраическое дополнение для элемента r ii в определителе (44).

    Существует ещё один способ расчета – по рекуррентной формуле. Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка. Соответственно коэффициенты парной корреляции называются коэффициентами нулевого порядка. Коэффициенты более высоких порядков можно определить через коэффициенты более низких порядков по рекуррентной формуле:

    (46)

    Если исследователь имеет дело лишь с тремя – четырьмя переменными, то удобно пользоваться соотношениями (46). При больших размерностях задачи удобнее расчет через определители, т.е. по формуле (45). В соответствии со смыслом коэффициентов частной корреляции можно записать формулу:

    (47)

    При исследовании статистических свойств выборочного частного коэффициента корреляции порядка k следует воспользоваться тем, что он распределен точно так же, как и обычный парный коэффициент корреляции, с единственной поправкой: объём выборки надо уменьшить на k единиц, т.е. полагать его равным n-k , а не n .

    Пример . По итогам года 37 однородных предприятий легкой промышленности были зарегистрированы следующие показатели их работы: у – среднемесячная характеристика качества ткани (в баллах), х 1 – среднемесячное количество профилактических наладок автоматической линии; х 2 – среднемесячное количество обрывов нити.

    По исходным данным были подсчитаны выборочные парные коэффициенты корреляции:

    Проверка статистической значимости этих величин показала отсутствие значимой статистической связи между результативным признаком и каждым из факторов, что не согласуется с профессиональными представлениями технолога. Однако расчет частных коэффициентов корреляции дал значения:

    которые вполне соответствуют нашим представлениям о естественном характере связей между изучаемыми показателями.

    Для оценки значимости фактора, дополнительно вводимого в модель, используется частный F- критерий . Не каждый фактор, вошедший в модель, существенно увеличивает долю объясненной дисперсии в общей дисперсии результата. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Для частного F – критерия используется формула:

    , (50)

    которая является частным случаем формулы (32). Здесь в числителе – разность между коэффициентом детерминации модели с полным набором факторов и коэффициентом детерминации модели до введения в неё фактора x j .

    С помощью частного F – критерия можно проверить значимость всех коэффициентов регрессии в предположении, что соответствующий фактор x j вводился в уравнение регрессии последним. Процедура проверки не отличается от таковой для статистики (32).

    Зная величину , можно определить и t – критерий для коэффициента регрессии при x j :

    Существует взаимосвязь между квадратом частного коэффициента корреляции и частным F – критерием:

    Частный F – критерий широко используется при построении модели методом включения переменных.

    1.В модели с двумя переменными одним из признаков мультиколлинеарности является близкое к единице значение коэффициента парной корреляции . Если значение хотя бы одного из коэффициентов парной корреляции больше, чем 0,8, то мультиколлинеарность представляет собой серьезную проблему.

    Однако в модели с числом независимых переменных больше двух, парный коэффициент корреляции может принимать небольшое значение даже в случае наличия мультиколлинеарности. В этом случае лучше рассматривать частные коэффициенты корреляции.

    2. Для проверки мультиколлинеарности можно рассмотреть детерминант матрицы коэффициентов парной корреляции |r|. Этот детерминант называется детерминантом корреляции |r| ∈(0; 1). Если |r| = 0, то существует полная мультиколлинеарность. Если |r|=1, то мультиколлинеарность отсутствует. Чем ближе |r| к нулю, тем более вероятно наличие мультиколлинеарности.

    3. Если оценки имеют большие стандартные ошибки, невысокую значимость, но модель в целом значима (имеет высокий коэффициент детерминации), то это свидетельствует о наличие мультиколлинеарности.

    4. Если введение в модель новой независимой переменной приводит к существенному изменению оценок параметров и небольшому изменению коэффициента детерминации, то новая переменная находится в линейной зависимости от остальных переменных

    65. Фиктивные переменные: определение, назначение, типы, смысл названий.

    Фиктивные переменные – это переменные с дискретным множеством значений, которые количественным образом описывают качественные признаки. В эконометрических моделях обычно используются фиктивные переменные бинарного типа “0-1”.

    Фиктивные переменные необходимы для оценки качественных признаков на эндогенную переменную. Например, при оценке спроса на некоторый товар мы построили регрессионную модель, регрессорами в которой в которой были количественные переменные – цены и дохода потребителя. Одним из способов уточнения данной модели может послужить включение таких качественных признаков, как вкус потребителя, возраст, национальные особенности, сезонность и т.д. Эти показатели нельзя представить в численном виде. Поэтому возникает задача отражения их влияния на значения эндогенной переменной, которая решается как раз при помощи введения фиктивных переменных.

    В общем случае, когда качественный признак имеет более двух значений, вводится несколько бинарных переменных. При использовании нескольких бинарных переменных необходимо исключить линейную зависимость между переменными, так как в противном случае, при оценке параметров, это приведет к совершенной мультиколлинеарности. Поэтому применяется следующее правило: если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k-1) фиктивная переменная.

    В регрессионных моделях применяются фиктивные переменные двух типов:

    1. Фиктивные переменные сдвига

    2. Фиктивные переменные наклона – это переменная, которая изменяет наклон линии регрессии. При помощи таких фиктивных переменных можно построить кусочно-линейные модели, которые позволяют учесть структурные изменения в экономических процессах (например, введение новых правовых или налоговых ограничений, изменение политической ситуации и т.д.) Такие переменные применяются, когда изменение качественного признака приводит не к параллельному сдвигу графика регрессии, а к изменению его наклона. Собственно поэтому такие фиктивные переменные и называются переменными наклона.

    66. Фиктивная переменная сдвига: спецификация регрессионной модели с фиктивной переменной сдвига.

    Фиктивные переменные сдвига – эти переменные применяются в динамических моделях, когда с определенного момента времени начинает действовать какой-либо качественный фактор (например, при рассмотрении производительности завода до забастовки рабочих и во время нее). Эти переменные применяются, когда изменение качественного признака приводит к параллельному сдвигу графика регрессионной модели, поэтому они и называются переменными сдвига.

    Спецификация парной регрессионной модели с фиктивной перемен­ной сдвига имеет вид:

    Где α, β, δ – параметры модели; – значение регрессора в наблюдении t;

    Фиктивная переменная;

    δ – параметр при фиктивной переменной.

    Значение фиктивной переменной dt=0 называется базовым (сравнительным). Базовое значение может либо определяться целями исследования, либо выбираться произвольно. Если заменить базовое значение переменной, то суть модели не изменится, изменится знак параметра δ на противоположный.

    Рассмотрим парную регрессионную модель с фиктивной переменной сдвига на примере.

    Пусть на продажи мороженого влияет наличие рекламы на фургоне у продавца. При помощи уравнения с фиктивными переменными можно, использую одно уравнение регрессии, получить результат как для продавцов с рекламой, так и для продавцов без рекламы.

    Пусть первоначальная модель описывается спецификацией:

    Где n – количество продавцов мороженого, – количество продаж для t-го продавца, – значение количественного регрессора для t-го продавца

    Введем фиктивную переменную сдвига


    Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
    Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
    Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
    Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
    Исключение переменной(ых) из модели
    Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
    Получение дополнительных данных или новой выборки
    Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
    Изменение спецификации модели
    В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
    Использование предварительной информации о некоторых параметрах
    Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
    Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
    Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
    Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.
    Пусть

    Множественный коэффициент
    корреляции между зависимой переменной Y и набором объясняющих переменных X 1,X 2,...,Xm. Он определяется как обычный парный коэффициент корреляции между Y и линейной функцией
    регрессии Y = b0 + KX1 + b2X2+... + bmXm. Пусть amp; = R-1 - матрица, обратная к матрице R:


    Тогда квадрат коэффициента Ry.X = Rr(xi,x2,..,x) может быть вычислен по формуле:


    Подправленная на несмещенность оценка R*2.X коэффициента детерминации R2y.X имеет вид:

    (Если поформуле (6.7) получают отрицательное число, то полагают


    Нижняя доверительная граница для

    определяется
    по формуле:

    На практике, при решении вопроса о том, какие объясняющие переменные следует включать в модель, часто используют процедуру последовательного присоединения элементов.
    (j = 1, 2,..., m) . При этом

    совпадает с квадратом обычного
    парного коэффициента корреляции

    Пусть


    тогда наиболее информативной будет переменная xp. Затем рассчитывают подправленный на несмещенность коэффициент
    (при m = 1) и его нижнюю доверительную границу R2min (1) .


    более информативной будет пара jxp,xq). Затемрассчитывают подправленный на несмещенность коэффициент(при m = 2)
    и его нижнюю доверительную границу R2min (2) .

    Процедуру продолжают до тех пор, когда на шаге (к +1) выполнится условие:
    Тогда в модель включают наиболее информативные переменные, полученные на первых к шагах. Отметим, что в расчетах используют формулы (6.7) и (6.8), в которых вместо т берут соответствующее значение номера шага к.
    На самом деле этот метод не гарантирует, что мы избавимся от мультиколлинеарности.
    Используют и другие методы устранения мультиколлинеарности.
    Пример 6.1. Имеются следующие условные данные (табл. 6.1):
    Таблица 6.1
    Данные для метода последовательного включения


    Х1

    Х2

    Х3

    У

    1

    1,5

    0,7

    12

    2

    2,5

    1,2

    20

    3

    1

    1,4

    15

    4

    5,5

    1,9

    41

    5

    3

    2,5

    33

    6

    3

    3,1

    35

    7

    2,8

    3,5

    38

    8

    0,5

    4

    28

    9

    4

    3,8

    47

    10

    2

    5,3

    40

    Рассмотрим влияние на зависимую переменную каждой из объясняющих переменных в отдельности. Вычисляя парные коэффициенты корреляции, получим, что наибольшее значение имеет коэффициент

    Тогда:


    Рассмотрим влияние на зависимую переменную пар переменных (x1, x2) и (x1, x3). Сначала рассмотрим влияние пары переменных (x1, x2).



    icuvum uvjpcuuivi, ыхсдул рсьимслдсіцшім мсіида ііи^ісдиьсіїсльпи-
    го присоединения переменных, в уравнение следует включить две объясняющие переменные. Следовательно, теоретическое уравнение примет вид:
    Гребневой метод
    Рассмотрим «гребневой метод» («ридж-регрессия») устранения мультиколлинеарности. Метод был предложен А. Э. Хоэрлом в 1962 г. и применяется, когда матрица (xtX) близка к вырожденной. К диагональным элементам матрицы (xtX) добавляют некоторое небольшое число (от 0,1 до 0,4). При этом получают смещенные оценки параметров уравнения. Но стандартные ошибки таких оценок в случае мультиколлинеарности ниже ошибок даваемых обычным методом наименьших квадратов.
    Пример 6.2. Исходные данные представлены « табл6 2 Коэффициент корреляции объясняющих переменных

    что
    свидетельствует о сильной мультиколлинеарности.
    Таблица 6.2
    Данные для исследования мультиколлинеарности гребневым методом


    x1

    x2

    У

    1

    1,4

    7

    2

    3,1

    12


    Тогда получим уравнение у = 2,63 +1,37x1 + 1,95x2. Диагональные элементы обратной матрицы значительно снизятся и будут равны z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, что приводит к снижению стандартных ошибок коэффициентов.
    Резюме
    Среди основных последствий, к которым может привести мультиколлинеарность, можно выделить следующие:
    1. при проверке основной гипотезы о незначимости коэффициентов множественной регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии при проверке с помощью A-критерия оказывается значимым, что говорит о завышенной величине коэффициента множественной корреляции;
    2. полученные оценки коэффициентов уравнения множественной регрессии в основном неоправданно завышены или имеют неправильные знаки;
    3. добавление или исключение из исходных данных одного- двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;
    4. наличие мультиколлинеарности в модели множественной регрессии может сделать ее непригодной для дальнейшего применения (например, для построения прогнозов).
    Вопросы для самопроверки
    1. Что такое мультиколлинеарность?
    2. Какие показатели свидетельствуют о наличии мультиколлинеарности?
    3. Чему равен определитель матрицы XTX в случае совершенной мультиколлинеарности?
    4. Что можно сказать о смысле коэффициентов при объясняющих переменных в случае мультиколлинеарности?
    5. Какое преобразование производят в гребневом методе, к чему оно приводит?
    6. Каков порядок действий в методе последовательного увеличения числа объясняющих переменных?
    7. Что показывает коэффициент корреляции?
    8. Что показывает частный коэффициент корреляции?

    Основные положения

    Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность . Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов , если определитель матрицы будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

    В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью , которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

    Среди последствий частичной мультиколлинеарности можно выделить следующие:

    • увеличение дисперсий оценок параметров
    • уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
    • получение неустойчивых оценок параметров модели и их дисперсий
    • возможность получения неверного с точки зрения теории знака у оценки параметра

    Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

    Методы устранения мультиколлинеарности

    Существует два основных подхода к решению этой задачи.

    Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.

    Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты - это метод предварительного центрирования . Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).