Biến giả và Kiểm định tính ổn định cấu trúc
của mô hình
Ta có mô hình hồi quy:
Y
t
=
α
1
+
α
2
D
t
+
β
1
X
t
+
β
2
(D
t
X
t
) + u
t
Hồi qui tuyến tính từng khúc
Hệ số góc của biến độc lập, X, có thể thay đổi
khi X đạt một mức
ng
ưỡ
ng
nào đó.
Phân tích mô hình có sự thay đổi về độ dốc,
nhưng cũng chỉ giới hạn trong trường hợp đoạn
thẳng được ước lượng vẫn là liên tục.
Công ty trả hoa hồng cho các đại lý dựa vào
doanh thu, nếu doanh thu dưới mức x* thì cách
tính tiền hoa hồng khác với cách tính tiền hoa
hồng khi doanh thu trên mức x*.
y
x*
Hình 7.3: Đường hồi qui tuyến tính từng
khúc
x doanh thu
tiền hoa hồng
0
Ước lượng hàm:
y = + x + xD + u (7.8)
Trong đó: y: tiền hoa hồng; x: doanh thu
x*: giá trị ngưỡng của doanh thu
Kiểm định = 0
1 nếu x > x
*
0 nếu x x
*
D
=
Biến phụ thuộc là biến giả
Biến giả có thể có 2 hoặc nhiều giá trị nhưng
trong trường hợp này chúng ta chỉ xem xét
trường hợp nó chỉ có 2 giá trị: 0 hoặc 1.
mô hình xác suất tuyến tính (LPM)
Ví dụ:
1 nếu một sinh viên tốt nghiệp ra
trường
0 nếu không tốt nghiệp
y =
1 nếu một gia đình có vay được vốn từ ngân
hàng
0 nếu không vay được
y =
Mô hình xác suất tuyến tính và hàm phân
biệt tuyến tính
Chúng ta viết mô hình xác suất tuyến
tính dưới dạng hồi qui thông thường như
sau:
y
i
= P
i
= E(y
i
|x
i
) =
i
’
x
i
+ u
i
(7.9)
với E(u
i
) = 0.
Kỳ vọng có điều kiện E(y
i
|x
i
) = ’
i
x
i
được
giải thích như là xác suất có điều kiện để
sự kiện xảy ra khi biến x
i
đã xảy ra.
Mô hình xác suất tuyến tính
Vì E(y
i
|x
i
) là một xác suất nên:
0 E(y
i
|x
i
) 1
Tuy OLS không đòi hỏi u
i
phải có phân
phối chuẩn, nhưng ta vẫn giả định nó có
phân phối chuẩn để phục vụ cho việc suy
diễn.
Giả định này bị vi phạm, vì thực sự u
i
theo phân phối Bernoulli.
Xét mô hình LPM 2 biến, ta có:
Mô hình xác suất tuyến tính
u
i
= Y
i
-
1
-
2
X
i
Khi Y
i
= 1, u
i
= 1 -
1
-
2
X
i
, với xác suất p
i
,
Khi Y
i
= 0, u
i
= -
1
-
2
X
i
, với xác suất 1- p
i
,
Ước lượng OLS vẫn không chệch, nên nếu dùng để
ước lượng điểm, kết quả vẫn tin cậy.
Có hiện tượng phương sai sai số thay đổi, do u
i
theo phân phối Bernoulli nên:
Var(u
i
) = P
i
(1 – P
i
) với P
i
= ’
i
X
i
E(y
i
|x
i
) có thể vượt khoảng (0,1) nếu X
i
có giá trị lớn.
R2 sẽ rất nhỏ
y
Hình 7.4: Dự báo từ mô hình xác suất
tuyến tính
x
1
0
Đường hồi qui tuyến
tính
Đường hồi qui thích hợp
hơn
Mô hình Probit và Logit
Trong mô hình LPM, ta có:
y
i
= P
i
= E(y
i
|x
i
) = F(
i
’
x
i
) =
i
’
x
i
+ u
i
,
Trong đó:
i
’
x
i
=
0
+
1
x
1
+
2
x
2
+ … +
k
x
k
Do y
i
là một xác suất nên thay vì ta dùng F(
i
’
x
i
) là
hàm tuyến tính như LPM, ta có thể cho F(x
i
) là một
hàm tích lũy xác su
ấ
t
(c.d.f).
Khi đó, chắc chắn 0 E(y
i
|x
i
) = F(
i
’
x
i
) 1.
Tùy theo dạng của F(
i
’
x
i
) được chọn, ta có các mô
hình: “
l
ự
a ch
ọ
n nh
ị
phân
” (binary choice) khác
nhau:
F(
i
’
x
i
) là c.d.f của phân phối chuẩn: probit model
F(
i
’
x
i
) là c.d.f của phân phối logistic: logit model
“Bi
ế
n
ẩ
n” và
Mô hình Probit và
Logit
Gọi y
i
* là một “biến ẩn”, không quan sát được từ
quan sát i:
y
i
* = x
i
’ + v
i
,
Trong đó v
i
thỏa các giả định của CLRM.
Giả sử ta quan sát được y
i
khi y
i
* vượt một ngưỡng
nào đó, chẳng hạn, 0, với:
y
i
= 1 khi y
i
* > 0, và
y
i
= 0 khi y
i
* 0.
Do v
i
có p.d.f đối xứng nên: 1-F(-x
i
’) = F(x
i
’). Ta
có:
P(y = 1|x
i
) = P(y* > 0|x
i
) = P(v
i
> -x
i
’) = 1 - F(-x
i
’) =
F(x
i
’)
Mô hình logit và probit
Tác động biên (marginal effect) của x
i
lên P
i
là:
Trong đó f(.) là p.d.f của F(.).
Ta thấy tác động từng phần này có cùng dấu
với
i
và phụ thuộc vào giá trị của x
i
, không
giống như các mô hình tuyến tính.
Do vậy, ta chỉ có thể tính tác động biên của x
i
lên P
i
ứng với các giá trị cụ thể của các x
i
.
'
ii
i
'
i
i
i
xf
x
xF
x
P
Mô hình logit và probit
'
i
'
i
x
x
'
iiii
e
e
xFPxyE
1
Hàm c.d.f. trong các mô
hình:
Mô hình logit:
Mô hình probit: F(.)
là c.d.f. của phân
phối chuẩn tắc.
'
i
'
i
x
/x
'
ii
exFP
2
2
1
Đây là các mô hình phi tuyến tính nên ước lượng bằng
phương pháp ML (Maximum Likelihood)