Лекція 6 «Множинна регресія в прогнозуванні соціально-економічних процесів»
Анотація
Основні властивості множинної регресії. Відбір регресорів. Бета-уявлення. Мультиколінеарність
6.1 Основні властивості множинної регресії
Статистична модель
|
(6.1)
|
де i = 1, 2,..., n;
к ≥ 2;
Yi — випадкова величина;
Хi(m), при 2 ≤ m ≤ k, — константа;
ε1, ε2, …, εn — незалежні нормальні випадкові величини з одним і тим же середнім, рівним 0, і стандартним відхиленням σ;
β1, β2, …, βk — не залежать від і константи моделі, називається моделлю лінійної регресії з k – 1регресорами.
Якщо к > 2, то модель (6.1) називається моделлю множинної регресії. Хочаі = 1, 2, ..., n являються просто індексами нумерації, в прогнозуванні вони зазвичай відповідають моментам часу, взятихз однаковим кроком, при цьому допускається, щоб деякі значення і були опущені.
Регресор вважається константою при фіксованому і. Це зауваження справедливе не тільки для випадку з одним регресором, а й при множинній регресії. Таким чином, при різних і значення кожного з регресорів можуть відрізнятися. Якщо і ≠ j, тоді Yi і Yj будуть різними випадковими величинами, які мають математичні очікування, рівні β1 + β2Xi(2) +…+ βkXi(k)іβ1 + β2Xj(2) +…+ βkXj(k) відповідно, і однакові стандартні відхилення, рівні σ.
Звертає на себе увагу той факт, що у формулі (6.1) відсутня X(1). Справа в тому, що при вивченні різних властивостей моделі (6.1) зручно вважати, що X(1) тотожно дорівнює одиниці (Х(1) ≡ 1). Тому модель (6.1) часто записується у вигляді:
,
|
(6.2)
|
де і = 1, 2, ..., n;
к ≥ 2.
При цьому, як уже сказано, Хi(1) ≡ 1 для всіх і. Добавимо ще одну умову, яка формулюється наступним чином:
Ні одна із змінних Х(1), Х(2),..., Х(k) не являється лінійною комбінацією інших.
З (6.1) випливає, що E(Yt) = β1 + β2Xi(2) +…+ βkXi(k). Таким чином, так же, які увипадкуз одним регресором, модель лінійної регресії з довільним числом регресорів ми могли б визначити як лінійну залежність E(Y) від змінних Х(1), Х(2),..., Х(k) з параметрами β1, β2, …, βk, що не залежать від і.
Запишемо формулу (6.1) у вигляді системи рівнянь:
|
(6.3)
|
Система рівнянь (6.3) може бути записана в матричній формі наступним чином:
(6.4)
де , — n-вимірні вектори;
— k-вимірний вектор;
— n×kматриця:
(6.5)
Змінні Х(2),..., Х(k) називаються пояснюючими, тому що при будь-якому i значення Yi однозначно ними визначено з точністю до випадкового члена εi. У число пояснюючих можуть входити і змінні, які не є заданими функціями часу f(і). У цьому випадку модель називається каузальною.
Визначення оптимальної кількості пояснюючих змінних, що адекватно описують зміни залежної змінної Y, - одне з найбільш важливих завдань, що стоять перед прогнозистом. Завдання це, як ми побачимо надалі, зовсім не просте є скоріше процесом, ніж одноразовим рішенням. Крім чіткого розуміння виробничої діяльності свого підприємства і знання макроекономічних показників прогнозист повинен також добре розбиратися в статистичних властивостях моделі множинної регресії.
2. Відбір регресорів.
При підготовці даних прогнозист повинен першза все знайти набір регресорів, здатних вплинути на процес, що генерує величини Y1, Y2, ..., Yn. На наступному етапі він повинен вирішити, які з цих регресорів слід залишити в моделі, тобто визначити регресори, необхідні для прогнозування майбутніх значень Y. Важливим показником оцінки моделі лінійної регресії (6.1) є коефіцієнт детермінації:
|
(6.6)
|
Буде вірною також наступна формула:
.
Як і у випадку з одним регресором, , оскільки між коефіцієнтами детермінації та кореляції існує наступний зв’язок: , звідки випливає, що .
При додаванні нових регресорів коефіцієнт детермінації R2k практично завжди зростає. Те, що коефіцієнт детермінації R2k не може зменшитися, випливає з того факту, що при скороченні числа регресорів отримана модель є окремим випадком первісної, коли коефіцієнти при відсутніх регресорах дорівнюють нулю. Тому величина R2k не може бути критерієм при вирішенні питання, чи потрібно вводити додаткові регресори в модель.
При визначенні числа регресорів в першу чергу намагаються позбавитися від регресорів, у яких 95%-і довірчі інтервали для відповідних коефіцієнтів можуть містити нулі.
95%-ний довірчий інтервал для коефіцієнта регресії βj буде наступним:
|
(6.7)
|
де zjj — j-й діагональний елемент матриці (М'М)-1.
Так як bj являється лінійною комбінацією нормальних випадкових величин Y1, Y2, ..., Yk, тоді bj також буде нормальною випадковою величиною. Величина називається стандартною помилкою bj, з тим же застереженням, що і для одного регресора.
Зазвичай замість 95%-ного довірчогоінтервалу для βj застосовують інший спосіб, який заснований на розгляді випадкової величини:
Припустимо, що βj = 0. В такому ипадку величина слідує t(n-k)-розподілу. Вона називається t-статистикою для коефіцієнта βj.
Для вихідних даних визначають Р-значення t-статистики для коефіцієнта βj. Воно дорівнює ймовірності того, що випадкова величина, яка слідує t(n-k)-розподілу, прийме значення, що по модулю перевищує абсолютне значення t-статистики. Тобто знаходять:
.
Якщо Р-значення менше 5%, тобто , то можна бути по крайній мірі на 95% впевненим, що βj ≠ 0. Якщо ж , то коефіцієнт bj не являється статистично значимим і регресор X(j) виключають з рівняння лінійної регресії.
Як визначити, чи збільшився коефіцієнт детермінації на стільки, щоб можна було залишити нові регресори в моделі? Для цього замість r2 розглядають скоригований коефіцієнт детермінації:
Скоригований коефіцієнт детермінації часто використовується, коли потрібно вирішити, чи слід додавати додаткові регресори в модель. Нові регресори додають за умови, що скоригований коефіцієнт детермінації збільшився. При практичному прогнозуваннізазвичай роблять навпаки. Спочатку вводять повний набір регресорів в комп'ютер і, після того як програма залишила тільки ті регресори, довірчі інтервали яких не містятьнулі, починають по черзі виключати регресори, у яких t-статистика не більше одиниці.
При порівнянні моделей з різним числом регресорівв прогнозуванні використовуються також два інших коефіцієнта – критерій Шварца:
та інформаційний критерій Акайка:
Як і скоригований коефіцієнт детермінації, обидва цих коефіцієнта призначені для того, щоб «карати»за включення в модель регресорів, що не призводять до значного підвищення здатності моделі описувати процес. Але на відміну від, рішення про те, щоб залишити нові регресори в рівнянні, приймають тільки при зменшенні SC або АIС.
6.3 Бета-уявлення
При вивченні рівняння регресії може виникнути також проблема, пов'язана з системами одиниць, в яких виражений той чи інший регресор. Наприклад, якщо ми представимо значення Y, Х(2), Х(3) в доларах, то рівняння регресії буде виглядати наступним чином:
де і = 1, 2, ..., 17.
Якщо порівняти отримане рівняння з рівнянням , то помітимо, що коефіцієнти b2 і b3 не змінились, а коефіцієнти b1 та b4 збільшились, кожний в 1000 разів. Для того щоб коефіцієнти регресії не залежали від масштабу, розглянемо рівняння регресії:
|
(6.8)
|
|
|
де i =1, 2, … , n; y', x'(2), … , x'(k) – стандартизовані значення змінних Y, X(2), … ,X(k), тобто ,
деσj – стандартне відхиленняX(j).
Коефіцієнти β*2, ..., β*k називаються коефіцієнтами «бета». Коефіцієнти «бета» розраховуються в більшості статистичних пакетів при визначенні рівняння регресії.
Легко помітити, що.
Дійсно, при підстановці коефіцієнтів β*2, ..., β*k в рівняння (6.8) ми знову отримаємо рівняння регресіїу формі відхилень від середніх. Так як стандартизовані значення у', х'(2) ,..., х'(k) не залежать від масштабу вихідних змінних, то звідси слідує, що коефіцієнти «бета» також не залежать від масштабу. Щоб зрозуміти важливість рівняння (6.8) для прогнозування, припустимо, що всі регресори є незалежними нормальними випадковими величинами. Ми зараз розглядаємо регресори як випадкові величини, тоді як при визначенні рівняння лінійної регресії було ясно сказано, що регресори являються константами. Справа в тому, що для кожного моменту часу і реалізація регресор X буде константою, в той час як сам регресор являється випадковою величиною і гіпотетично може приймати різні значення.
В такому випадку стандартизовані регресори х'(2), ..., х'(к) будуть рівноцінними в тому сенсі, що всі вони слідують одному й тому ж t(n-1)-розподіл. Тому їх вплив на зміни в значеннях Y визначається виключно величинами відповідних коефіцієнтів «бета». В дійсності через випадковий фактор буде існувати невелика кореляція між регресорами, яка відіб’ється на значеннях коефіцієнтів «бета».
6.4 Мультиколінеарність
Так як коефіцієнти b1, b2, ..., bk являються лише статистичними оцінками істинних, хоча і не спостережуваних коефіцієнтів β1, β2, …, βk, то через фактори випадковості перші можуть значно відрізнятися від других, що, в свою чергу, може стати причиною поганого прогнозу. Іншими словами, процес адекватно описується моделлю лінійної регресії навіть, можливо, з малою величиною σε = σ, а прогноз виявляється поганим. Причина тут, як правило, чисто статистична, звана мультиколінеарністю.
При expost прогнозуванні коефіцієнт при регресорі значно змінювався. Для цьогоє дві основні причини. По-перше, бізнес-процес може взагалі не слідувати моделі лінійної регресії. По-друге, стандартнівідхилення коефіцієнтів b1, b2, ..., bk можуть бутидуже великими, що, в свою чергу, означає, що їх числові значення зважаючи на випадковий характер процесу здатні з досить високим ступенем ймовірності приймати значення, що істотно відрізняються від параметрів системи β1, β2, …, βk. Основною причиною великих стандартних відхилень коефіцієнтів b1, b2, ..., bk являється мультиколінеарність.
Мультиколінеарністю називається вплив статистичної лінійної залежності між регресорами на стандартні відхилення коефіцієнтів регресії.
Так як зазвичай хоча б один із коефіцієнтів детермінації R(j)2k-1 при j = 2, …, k, то мультиколінеарність в тій чи іншій мірі завжди присутня в моделі множинної регресії. Щоб зрозуміти, якої шкоди може завдати мультиколінеарність, припустимо, що у нас є модель, яка досить добре описує бізнес-процес. Що станеться, якщо прогнозист, який бажає вдосконалити модель, вирішить додати ще один регресор, який має значну статистичну лінійну залежність від початкових регресорів? Оскільки додавання нового регресора може тільки збільшити коефіцієнт детермінації, то він зробить помилковий висновок про те, що нова модель є більш точною.Однак через мультиколінеарність прогноз, швидше за все, виявиться абсолютно невірним.
Чи існують способи, що дозволяють позбутися від мультиколінеарності? Прогнозист може виключити з моделі регресори з невиправдано великими стандартними помилками. При цьому можуть бути виключені окремі регресори, вплив яких необхідно враховувати для розуміння процесу. Так що ми маємо тут дві тенденції з діаметрально протилежним ефектом. З економічної точки зору регресор може виявитися істотним для отримання більш адекватної моделі, але з суто статистичних причин його включення може створити проблеми, пов'язані з мультиколінеарністю. По всій видимості, кращим виходом з положення тут могло б стати застосування expost прогнозування, яке дозволить виявити модель, що забезпечує найкращі результати.
Існує тісний зв'язок між мультиколінеарністю, числом регресорів і кількістю спостережень, яку також потрібно враховувати при прогнозуванні. Розглянемо матрицю:
Якщо n < k, то ранг матриці М буде менше, ніж k. У такому випадку n-мірні вектори 1, Х(2), Х(3),..., Х(k) будуть лінійнозалежні (тут 1- вектор, що складається з одиниць). Наприклад, якщо n = 2 і k = 3, це означає, що будь-які три вектори на площині будуть лінійно залежні. Тому при визначені моделі лінійної регресії має дотримуватися умова: n > k. Але при малих значеннях різниці (n - k) статистична залежність між векторами буде досить значна, що стане причиною мультиколінеарності. Звідси можна зробити два дуже важливих висновки:
- прималій кількості спостережень число регресорів має бути невеликим;
- по можливості слід збільшувати число спостережень.
Розбиття часових інтервалів на більш дрібні не гарантує підвищення точності прогнозу. Отримані значення представляють собою нові, хоча і тісно пов'язані з первісними, випадкові величини.
|