Tải bản đầy đủ (.pdf) (31 trang)

Kinh tế lượng ứng dụng chương 2 hồi qui với biến phụ thuộc là rời rạc mô hình LPM, logit và probit

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (815.88 KB, 31 trang )

ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
1
Chương 2
HỒI QUI VỚI BIẾN PHỤ THUỘC LÀ RỜI RẠC
MÔ HÌNH LPM, LOGIT VÀ PROBIT
Dichotomous: lưỡng phân
Binary: nhò phân
Discrete: rời rạc
Các mô hình hồi quy mà ta đề cập từ trước tới nay đều có biến phụ thuộc (Dependent
Variable) là biến đònh lượng (quantitative variable). Tuy nhiên trong thực tế chúng ta có thể
gặp trường hợp biến phụ thuộc là biến đònh tính (qualitative variable).
Chẳng hạn học sinh sau khi tốt nghiệp phổ thông trung học cần phải lựa chọn học tiếp
trường đại học hoặc học trường nghề. Một người có thể đến nơi làm việc bằng phương tiện
xe máy riêng hoặc xe ô tô buýt. Một người trưởng thành phải quyết đònh có lập gia đình
hoặc không. Biến biểu thò quyết đònh được lựa chọn trường của một học sinh, hay biến biểu
thò quyết đònh chọn phương tiện giao thông mà một người sử dụng, hay biến biểu thò quyết
đònh “đại đăng khoa” của 1 người trưởng thành là các biến đònh tính.
Để lượng hóa các biến đònh tính, như ta đã biết ở phần kinh tế lượng cơ bản, người ta sử
dụng biến giả (Dummy Variable). Biến giả có thể có hơn 2 giá trò. Ở đây ta chỉ xét biến giả
nhò phân (Binary Dummy Variable) có hai giá trò là 0 hoặc 1.
Để nghiên cứu các mô hình trong đó biến phụ thuộc là biến giả nhò phân người ta
thường sử dụng các mô hình sau đây:
 Mô hình xác suất tuyến tính LPM (The linear probability model)
 Mô hình LOGIT
 Mô hình PROBIT
I - MÔ HÌNH XÁC SUẤT TUYẾN TÍNH (LPM)
1- Mô hình
Chúng ta xét mô hình sau đây:
Y
i
= 


1
+ 
2
X
i
+ u
i
(2.1)
Trong đó: X : thu nhập gia đình, biến độc lập
Y = 1: gia đình có nhà ; Y= 0 : gia đình không có nhà
Y là biến ngẫu nhiên
Gọi p
i
= P(Y= 1/X
i
) : xác suất để Y = 1 với điều kiện X = X
i
1 p
i
= P( Y= 0/X
i
).
Như vậy Y
i
 B(1, p
i
).
Y
i
0 1

P 1-p
i
p
i
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
2
Với giả thiết E(u
i
) = 0, (trong phần KTL cơ bản) ta có: E(Y/X
i
) = 
1
+ 
2
X
i
(a)
Theo đònh nghóa kỳ vọng ta có: E(Y
i
)= E(Y/X
i
) = 1* p
i
+ 0* (1- p
i
) = p
i
(b)
Từ (a) và (b) ta có : E(Y/X
i

) = 
1
+ 
2
X
i
= p
i
Khi đó mô hình (2.1) được gọi là mô hình xác suất tuyến tính (LPM).
Mặt khác do 0  p
i
 1, nên 0  E(Y/X
i
)  1
2- Các giả thiết của OLS trong mô hình xác suất tuyến tính.
Trong mô hình hồi quy tuyến tính cổ điển, các yếu tố ngẫu nhiên thỏa mãn các giả thiết
nhất đònh, trong đó có các giả thiết sau:
 E(u
i
) = 0;
 cov(u
i
, u
j
) = 0 (i  j);
 var(u
i
) = 
2
(i)

Ta hãy xem các giả thiết trên có thỏa mãn hay không trong mô hình xác suất tuyến tính.
a- Trong LPM các sai số ngẫu nhiên không thuần nhất, phương sai của chúng
thay đổi.
Do u
i
= Y
i
- 
1
- 
2
X
i
nên:
1 - 
1
- 
2
X
i
nếu Y
i
= 1
u
i
=
Y
i
- 
1

- 
2
X
i
nếu Y
i
= 0
ta có bảng phân phối xác suất của u
i
như sau:
u
i
-
1
- 
2
X
i
1-
1
- 
2
X
i
Xác suất 1- p
i
p
i
Từ đó ta có: var(u
i

) = Eu
i
– E(u
i
)
2
= E(u
i
)
2
= (-
1
- 
2
X
i
)
2
(1-p
i
) + (1-
1
- 
2
X
i
)
2
p
i

= p
i
2
(1- p
i
) + (1- p
i
)
2
p
i
= p
i
(1- p
i
)
Như vậy phương sai của sai số ngẫu nhiên thay đổi.
b- Sai số ngẫu nhiên không phân phối theo qui luật chuẩn.
Phương pháp OLS không đòi hỏi u
i
phải có phân phối chuẩn, khi kiểm đònh giả thiết và
tìm khoảng tin cậy cho các hệ số hồi quy mới cần đến giả thiết này.
Trong mô hình xác suất tuyến tính, Y có phân phối nhò thức.
Do u
i
= Y
i
- 
1
- 

2
X
i
nên:
1 - 
1
- 
2
X
i
nếu Y
i
= 1
u
i
=
Y
i
- 
1
- 
2
X
i
nếu Y
i
= 0
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
3
Như vậy u

i
không phân phối theo quy luật chuẩn, nhưng các ước lượng nhận được bằng
phương pháp OLS vẫn là các ước lượng không chệch. Khi kích thước mẫu tăng lên, các ước
lượng sẽ tiệm cận chuẩn (asymptotic normality). Trong trường hợp này có thể dùng OLS để
ước lượng LPM.
c- Ước lượng của E(Y/X
i
) là
i
Y
ˆ
chưa chắc đã thỏa mãn điều kiện: 0

i
Y
ˆ

1
Ta đã chứng minh E(Y/X
i
) = p
i
và 0  p
i
 1. Nhưng khi dùng OLS để ước lượng mô hình
LPM thì không có gì đảm bảo để: 0 
i
Y
ˆ
 1.

Chúng ta có thể khắc phục bằng cách đặt
i
Y
ˆ
= 0 nếu
i
Y
ˆ
nhận được nhỏ hơn 0, và đặt
i
Y
ˆ
= 1 nếu
i
Y
ˆ
nhận được lớn hơn 1. Tuy nhiên người ta có thể sử dụng mô hình LOGIT và
PROBIT để khắc phục hiện tượng này.
3- Ước lượng mô hình LPM
Để ước lượng mô hình LPM, ta cần thực hiện các bước sau đây:
Bước 1: Dùng phương pháp OLS để ước lượng mô hình (2.1), từ đó thu được
i
Y
ˆ
.
Do u
i
không thuần nhất, var(u
i
) = p

i
(1- p
i
), nên cần phải thực hiện phép đổi biến số.
Bước 2: Đổi biến số
Do p
i
chưa biết, ta dùng ước lượng của p
i

i
Y
ˆ
.
Chúng ta sẽ bỏ các quan sát có
i
Y
ˆ
< 0 hoặc
i
Y
ˆ
> 1.
Đặt )
ˆ
1(
ˆ
ˆ
iii
YYw  .

Sau đó đổi biến số và ước lượng mô hình sau:
i
i
i
i
ii
i
w
u
w
X
ww
Y
ˆˆˆˆ
2
1



Từ kết quả ước lượng OLS mô hình trên (phương pháp GLS), ta suy ra ước lượng của 
1


2
và biết được mô hình dùng để ước lượng cho mô hình (2.1).
4- Thí dụ
Thí dụ 1: Bảng số liệu sau cho 21 quan sát về thời gian trên đường đến nơi làm việc của
công nhân bằng phương tiện cá nhân (X
1
), bằng phương tiện giao thông công cộng (X

2
) và
lựa chọn của công nhân về các phương tiện này (Y).
1 nếu đi bằng phương tiện cá nhân
Y
i
=
0 nếu đi bằng phương tiện công cộng.
X = X
2
– X
1
(chênh lệch thời gian giữa pt công cộng so với pt cá nhân)
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
4
Bảng 2.1
Số TT
X
1
X
2
X Y
i
Y
ˆ
i
w
ˆ
1 52,9 4,4 -48,5 0 0,144 0,123
2 4,1 28,5 24,4 0 0,657 0,225

3 4,1 86,5 82,4 1
1,065
NA
4 56,2 31,6 -24,6 0 0,312 0,215
5 51,8 20,2 -31,6 0 0,263 0,194
6 0,2 91,2 91 1
1,125
NA
7 27,6 79,7 52,1 1 0,851 0,126
8 89,9 2,2 -87,7 0
-0,13
NA
9 41,5 24,5 -17 0 0,365 0,232
10 95 43,5 -51,5 0 0,123 0,108
11 99,1 8,4 -90,7 0
-0,153
NA
12 18,5 84 65,5 1 0,946 0,051
13 82 38 -44 1 0,175 0,145
14 8,6 1,6 -7 0 0,436 0,246
15 22,5 74,1 51,6 1 0,848 0,129
16 51,4 83,8 32,4 1 0,713 0,205
17 81 19,2 -61,8 0 0,05 0,048
18 51 85 34 1 0,724 0,2
19 62,2 90,1 27,9 1 0,681 0,217
20 95,1 22,2 -72,9 0
-0,028
NA
21 41,6 91,5 49,9 1 0,836 0,137
Với số liệu cho ở bảng trên, hồi quy Y theo X ta được kết quả như sau:

i
Y
ˆ
= 0,0484934 + 0,007035 X
i
t = (6,787) (5,476)
Với kết quả tính ở bảng (2.1) ta thấy có 2 giá trò
i
Y
ˆ
lớn hơn 1 và có 3 giá trò
i
Y
ˆ
nhỏ hơn
0. Bỏ các quan sát tương ứng, đổi biến số sau đó ước lượng hàm:
i
i
i
i
ii
i
w
u
w
X
ww
Y
ˆˆˆˆ
2

1



ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
5
Kết quả ước lượng cho ở bảng sau:
Dependent Variable: Y/SQR(U)
Method: Least Squares
Date: 10/19/03 Time: 17:44
Sample: 1 21
Included observations: 16
Excluded observations: 5
Y/SQR(U)=C(1)/SQR(U)+C(2)*X/SQR(U)
Coefficient Std. Error t-Statistic Prob.
C(1) 0.500470 0.077658 6.444567 0.0000
C(2) 0.008199 0.001564 5.240475 0.0001
R-squared 0.688054 Mean dependent var 1.370903
Adjusted R-squared 0.665772 S.D. dependent var 1.500653
S.E. of regression 0.867564 Akaike info criterion 2.670214
Sum squared resid 10.53735 Schwarz criterion 2.766788
Log likelihood -19.36171 F-statistic 30.87956
Durbin-Watson stat 2.664002 Prob(F-statistic) 0.000071
Kết quả trên cho thấy: Ước lượng của 
1
là 0,50047 và ước lượng của 
2
là 0,008199.
CÁCH LÀM TRÊN EVIEWS 5.0
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2

6
Kết quả như sau:
Đồ thò của phần dư, giá trò thực Y và giá trò ước lượng Y
ˆ
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
7
Dùng lệnh genr
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
8
Chạy hồi quy
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
9
Kết quả như sau:
Thí dụ 2: Ký hiệu X (triệu đ/người-năm) là thu nhập.
Y là tình trạng xe máy của 1 người.
1 có xe máy
Y =
0 không có xe máy
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
10
Các số liệu của các biến Y và X cho ở bảng sau:
Bảng 2.3
Số TT X Y
i
Y
ˆ
i
w
ˆ
1 9.600000 0 -0.128638 NA

2 19.20000 1 0.688410 0.214502
3 21.60000 1 0.892672 0.095809
4 13.20000 0 0.177755 0.146158
5 14.40000 0 0.279886 0.201550
6 22.80000 1 0.994802 0.005170
7 24.00000 1 1.096933 NA
8 15.60000 0 0.382017 0.236080
9 10.80000 0 -0.026507 NA
10 12.00000 0 0.075624 0.069905
11 20.40000 1 0.790541 0.165586
12 21.60000 1 0.892672 0.095809
13 16.80000 0 0.484148 0.249749
14 24.00000 1 1.096933 NA
15 7.200000 0 -0.332900 NA
16 22.80000 1 0.994802 0.005170
17 19.20000 1 0.688410 0.214502
18 12.00000 0 0.075624 0.069905
19 9.600000 0 -0.128638 NA
20 21.60000 1 0.892672 0.095809
21 26.40000 1 1.301195 NA
22 19.20000 1 0.688410 0.214502
23 14.40000 0 0.279886 0.201550
24 13.20000 0 0.177755 0.146158
25 19.20000 1 0.688410 0.214502
26 13.20000 0 0.177755 0.146158
27 24.00000 1 1.096933 NA
28 21.60000 1 0.892672 0.095809
29 13.20000 0 0.177755 0.146158
30 12.00000 0 0.075624 0.069905
31 20.40000 1 0.790541 0.165586

32 15.60000 0 0.382017 0.236080
33 25.20000 1 1.199064 NA
34 24.00000 1 1.096933 NA
35 13.20000 0 0.177755 0.146158
36 9.600000 0 -0.128638 NA
37 20.40000 1 0.790541 0.165586
38 19.20000 1 0.688410 0.214502
39 8.400000 0 -0.230769 NA
40 20.40000 1 0.790541 0.165586
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
11
Hồi qui Y theo X ta được kết quả cho ở bảng sau:
Dependent Variable: Y
Method: Least Squares
Date: 10/19/03 Time: 18:10
Sample: 1 40
Included observations: 40
Variable Coefficient Std. Error t-Statistic
Prob.
C -0.945686 0.122841 -7.698428 0.0000
X 0.085109 0.006800 12.51534 0.0000
R-squared 0.804761 Mean dependent var 0.525000
Adjusted R-squared 0.799624 S.D. dependent var 0.505736
S.E. of regression 0.226385 Akaike info criterion -0.084453
Sum squared resid 1.947505 Schwarz criterion -9.31E-06
Log likelihood 3.689066 F-statistic 156.6336
Durbin-Watson stat 1.955187 Prob(F-statistic) 0.000000
Sau khi ước lượng được hàm hồi quy của Y đối với X ta tính được
i
Y

ˆ

i
w
ˆ
và loại bỏ các
giá trò của
i
w
ˆ
ứng với
i
Y
ˆ
> 1 hoặc
i
Y
ˆ
< 0 (có 12 giá trò loại bỏ).
Ước lượng mô hình với các biến số đã biến đổi, kết quả cho ở bảng dưới đây:
Dependent Variable: Y/SQR(U)
Method: Least Squares
Date: 10/19/03 Time: 18:23
Sample(adjusted): 2 40
Included observations: 28
Excluded observations: 11 after adjusting endpoints
Y/SQR(U)=C(1)/SQR(U)+C(2)*X/SQR(U)
Coefficient Std. Error t-Statistic
Prob.
C(1) -1.245592 0.120555 -10.33211 0.0000

C(2) 0.099657 0.005710 17.45438 0.0000
R-squared 0.981050 Mean dependent var 2.191518
Adjusted R-squared 0.980321 S.D. dependent var 3.556681
S.E. of regression 0.498942 Akaike info criterion 1.516095
Sum squared resid 6.472517 Schwarz criterion 1.611252
Log likelihood -19.22533 F-statistic 1345.999
Durbin-Watson stat 1.882836 Prob(F-statistic) 0.000000
Bài tập: số liệu ở c2-baitap1
Chúng ta xét mô hình sau đây:
Y
i
= 
1
+ 
2
X
i
+ u
i
(2.1)
Trong đó: X : thu nhập gia đình (ngàn $)
Y = 1: gia đình có nhà ; Y= 0 : gia đình không có nhà
Y là biến ngẫu nhiên
Hãy ước lượng các hệ số ?
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
12
II- MÔ HÌNH LOGIT
Mô hình LPM có nhược điểm:
(1) phương sai không đồng đều,
(2) sai số ngẫu nhiên U

i
không phân phối theo quy luật chuẩn;
(3)
i
Y
ˆ
có thể nằm ngoài khoảng (0, 1),
(4) R
2
thường thấp.
Chúng ta có thể dùng một số kỹ thuật (như WLS) hoặc tăng kích thước mẫu để khắc phục
những điều nói trên.
Nhưng vấn đề cơ bản của mô hình này là chúng ta đã giả thiết p
i
là một hàm tuyến tính của
X. Điều này là không đúng.
Để giải quyết vấn đề này người ta dùng mô hình LOGIT và mô hình PROBIT (còn gọi là
NORMIT).
1- Mô hình Logit – phương pháp Goldberger (1964)
Ta có 2 biến Y, X
2
.
Mô hình LOGIT, các p
i
được xác đònh bằng:
)](exp[1
1
)exp(1
)exp(
)/1(

221221
221
ii
i
ii
XX
X
XYEp







)exp(1
1
)exp(1
)exp(
11
221221
221
ii
i
i
XX
X
p








).exp(1
).exp(
11
).(
).(
221
221







i
i
i
X
i
X
i
X
i
X
i

X
X
e
e
e
e
p








(2.2)
Đặt: X
i
= (1, X
2i
) ;












2
1
Trong mô hình trên, p
i
không phải là hàm tuyến tính của biến độc lập.
Phương trình (2.2) được gọi là hàm phân phối (tích lũy) Logistic.
Trong hàm này khi (X.) nhận các giá trò từ  đến  thì p
i
nhận giá trò từ 0 đến 1.
p
i
phi tuyến với cả X và các tham số . Điều này có nghóa là ta không thể áp dụng trực tiếp
OLS để ước lượng. Người ta dùng phương pháp ước lượng hợp lý tối đa để ước lượng .
Vì Y chỉ nhận một trong hai giá trò 0 hoặc 1, Y có phân phối nhò thức, nên hàm hợp lý với
mẫu kích thước n như sau:




n
1i
Y1
i
Y
i
ii
)p1(pL























n
i
i
Y
i
i
Y
i
i

XX
X
L
1
1
).exp(1
1
).exp(1
).exp(


ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
13
 




n
i
i
i
Y
i
X
X
L
1
).exp(1
).exp(







n
i
i
T
X
t
L
1
*
)).exp(1(
)exp(


Trong đó:


















n
1i
ii2
n
1i
i
*
YX
Y
t
Lưu ý:


yx
y
x
ee
.
 ;
yxyx
eee

.

)ln()ln()ln( yx
y
x
 ; ln(x.y)= ln(x)+ln(y)
Ta cần tìm ước lượng hợp lý tối đa của .
Ta có:



n
1i
i
*T
)).Xexp(1(Lnt)L(Ln







n
i
i
i
i
X
X
X
tS

LLn
1
*
0
).exp(1
).exp(
)(
)(




(2.3)

i
n
i
i
i
X
X
X
tS




)
ˆ
exp(1

)
ˆ
.exp(
)
ˆ
(
*



Với 
ˆ
là ước lượng của .
Lưu ý:
 
u
u
u
'
'ln  ;


'.
'
uee
uu

Phương trình trên phi tuyến đối với .
Để giải hệ phương trình này, người ta dùng phương pháp Newton–Raphson để tìm 
ˆ

.
Sau khi tìm được 
ˆ
, ta có thể tính được ước lượng xác suất p
i
= P(Y =1/X
2i
)
)
ˆ
.Xexp(1
)
ˆ
.Xexp(
p
ˆ
i
i
i



Kết hợp với (2.3) ta có:



iiii
YXtXp *
ˆ
(dùng để kiểm nghiệm lại các

i
p
ˆ
)
Như vậy trong mô hình LOGIT chúng ta không nghiên cứu ảnh hưởng trực tiếp của
biến độc lập X
2
đối với Y mà xem xét ảnh hưởng của X
2
đến xác suất Y nhận giá trò bằng 1
hay kỳ vọng toán của Y.
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
14
Ảnh hưởng của X
2
đến p
i
được tính như sau:
22
2
2
)1(
)).exp(1(
).exp(



ii
i
ii

pp
X
X
X
p






22
2
2
ˆ
)
ˆ
1(
ˆ
ˆ
))
ˆ
.exp(1(
)
ˆ
.exp(
ˆ




ii
i
ii
pp
X
X
X
p





Thí dụ: Xét thí dụ về việc lựa chọn phương tiện đi làm đã nêu ở phần mô hình LPM.
Áp dụng phương pháp Goldberger ta có kết quả như sau:
Đồ thò của phần dư, giá trò thực Y và giá trò ước lượng Y
ˆ
của mô hình Logit.
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
15
Dạng hàm của mô hình Logit.
CÁCH LÀM TRONG EVIEWS
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
16
Lưu ý: Ta không thể gõ công thức sau vào phần Equation specification được:
y=c(1)+c(2)*x
Từ kết quả ước lượng trên, ta có:
i
X
i

X
i
e
e
p
2
ˆ
1
ˆ
2
ˆ
1
ˆ
1
ˆ






i
X
i
X
i
e
e
p
053,0237,0

053,0237,0
1
ˆ





Nhớ lại: X= X
2
(thời gian đi bằng ptiện công cộng) - X
1
(thời gian đi bằng ptiện cá nhân).
Giả sử rằng đi bằng phương tiện công cộng chậm hơn đi bằng phương tiện cá nhân 30 phút
(X=30), thì khả năng phương tiện cá nhân được lựa chọn và mức gia tăng khả năng được lựa
chọn là bao nhiêu?
-0,237 + 0,053* X
i
= -0,237 + 0,053* 30 = 1,353
7946,0
869,4
869,3
1
ˆ
353,1
353,1



e

e
p
i
Như vậy khi chênh lệch thời gian đi bằng phương tiện công cộng và phương tiện cá nhân là
30 phút thì xác suất chọn phương tiện cá nhân (Y=1) là 0,7946.
Trong Eviews: hàm @exp(3) là e
3
Câu hỏi: Hãy tìm cách thao tác trên Eviews sao cho việc xác đònh
i
p
ˆ
= 0.7946 thật nhẹ
nhàng, thi vò !
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
17
2
ˆ
)
ˆ
1(
ˆ
ˆ

ii
i
pp
X
p




008649,0)053,0).(7946,01(7946,0
ˆ



X
p
i
Vậy nếu mức chênh lệch này tăng thêm 1 phút thì xác suất chọn phương tiện cá nhân sẽ
tăng 0,008649.
2- Mô hình Logit – phương pháp Berkson (1953)
Trong thực tế, ta có thể gặp dữ liệu được gom nhóm (grouped) hoặc lặp lại (replicated).
Thí dụ Mum mum: Siêu thò Coop Mart Cống Quỳnh nghiên cứu hiệu lực của phiếu mua
hàng giảm giá (PMHGG) cho 1 sản phẩm được chọn (kẹo mút trái cây Mum Mum). 1000 gia
đình được chọn, phiếu mua hàng giảm giá và tờ quảng cáo được gởi tới mỗi nhà. PMHGG
có các mức giá giảm khác nhau, từ 5, 10, 15, 20, đến 30 $. Với mỗi mức giảm giá, có 200
nhà được chọn ngẫu nhiên.
Biến X là lượng giảm giá.
Biến Y là biểu thò khách hàng có/không sử dụng phiếu giảm giá trong khoảng thời gian 6
tháng.
Y= 1 nếu khách hàng có sử dụng phiếu giảm giá.
Mức Giá giảm (X) Số hộ gia đình (N
i
) Số phiếu được sử
dụng (n
i
)
1 5 200 30
2 10 200 55

3 15 200 70
4 20 200 100
5 30 200 137
Thường dữ liệu dạng này có cỡ mẫu lớn, thay vì dùng phương pháp Goldberger ta có thể sử
dụng phương pháp Berkson.
Ta có 2 biến Y và X.
Phương pháp này xác đònh p
i
như sau:
i
X
i
X
i
e
e
p
21
21
1







Ta có:
i
X

i
X
i
X
i
e
e
e
p
2121
21
1
1
1
11









i
X
i
i
e
p

p
21
1




ii
i
i
XZ
p
p
Ln
21
1











(2.4)
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
18

iii
i
i
i
uXu
p
p
LnL 










21
1

(2.5)
L không chỉ tuyến tính đối với biến số mà còn tuyến tính với các tham số.
Nhận xét:
 Khi Z biến thiên từ  đến + thì p biến thiên từ 0 đến 1, L biến thiên từ  đến +.
Như vậy dù p chỉ lấy giá trò thuộc khoảng (0, 1) nhưng L không bò giới hạn.
 Dù L là hàm tuyến tính của X nhưng xác suất (p
i
) không là hàm tuyến tính của X.
 Do

i
i
p
p
1
phản ánh cơ hội, khả năng, sự ưa thích Y=1, nên 
2
cho biết mức thay đổi
của L (ln cơ hội Y=1) khi X tăng 1 đơn vò. Còn 
1
cho biết sự ưa thích Y=1 khi X= 0.
Ước lượng của mô hình Logit
iii
i
i
i
uXu
p
p
LnL 











21
1

Do chưa biết p
i
nên chúng ta có thể sử dụng ước lượng của p
i
.
Giả sử rằng mẫu có N
i
giá trò X
i
, trong N
i
quan sát chỉ có n
i
giá trò mà Y
i
= 1, khi đó ước
lượng điểm của p
i

i
p
ˆ
= n
i
/N
i
.

Chúng ta có thể dùng
i
p
ˆ
để thu được mô hình:
i
i
i
i
X
p
p
LnL
21
ˆˆ
ˆ
1
ˆ
ˆ













Ta có Y
i
 B(N
i
, p
i
).
Ta có:
E(Y
i
) = N
i
p
i
và phương sai: var(Y
i
) = N
i
p
i
(1-p
i
).
Theo đònh lý giới hạn trung tâm, khi N
i
khá lớn thì Y
i
sẽ tiệm cận chuẩn:









 )p1(pN
1
,0N
iii
Như vậy mô hình (2.5) có phương sai của sai số thay đổi.
Với mỗi X
i
thì ước lượng của phương sai này là:
)p
ˆ
1(p
ˆ
N
1
ˆ
iii
2


Từ đó ta rút ra các bước sau:
Bước 1: Với mỗi X
i
ta tính

i
p
ˆ
= n
i
/N
i
rồi tính
i
i
i
i
X
p
p
LnL
21
ˆˆ
ˆ
1
ˆ
ˆ












 .
Từ đó tính được: )
ˆ
1(
ˆˆ
iiii
ppNw 
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
19
Bước 2: Thực hiện đổi biến số và dùng OLS để ước lượng mô hình:
iiiiiii
uwXwwLw
ˆˆˆˆ
21



iiiii
XwwLw
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
21



Hay:
iiii
vXwL 
*
21
*
ˆ


*
21
*
ˆ
ˆ
ˆ
ˆ
iii
XwL


Thí dụ: X – Thu nhập;
N
i
– số hộ gia đình có thu nhập là X
i
n
i
– Số hộ có nhà riêng với mức thu nhập là X
i

0 nếu hộ không có nhà riêng
Y
i
=
1 ngược lại
Các số liệu quan sát của X, N
i
, n
i
và các cột tính toán được cho ở bảng sau:
X
N
i
n
i
i
p
ˆ
1-
i
p
ˆ










i
i
p
ˆ
1
p
ˆ
Ln
i
w
ˆ
6 40 8 0,20 0,80 -1,3863 6,40
8 50 12 0,24 0,76 -1,1527 9,12
10
60 18 0,30 0,70 -0,8473
12,6
13 80 28 0,35 0,65 -0,619 18,2
15 100 45 0,45 0,55 -0,2007 24,75
20 70 36 0,514 0,486 0,0560 17,49
25 65 39 0,60 0,40 0,4055 15,60
30 50 33 0,66 0,34 0,6633 11,22
35 40 30 0,75 0,25 1,0986 7,50
40 25 20 0,80 0,20 1,3863 4,00
Dùng phương pháp OLS để ước lượng ta thu được kết quả sau đây:
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
20
Từ kết quả của bảng trên, ta có:
*
*

21
*
078669,0
ˆ
593238,1
ˆ
ˆ
ˆ
ˆ
ii
iii
Xw
XwL



Ở thí dụ này tỷ lệ p
i
/(1-p
i
) có thể giải thích là mức độ “ưa thích” có nhà riêng của hộ gia
đình có mức thu nhập là X
i
.
Từ kết quả hồi quy, để tìm ra p
i
ứng với X
i
ta cần sử dụng các phép tính trung gian.
Chẳng hạn, với X

i
= 10, cần tìm p
i
tương ứng, ta thực hiện việc tính toán như sau:
6,12*10*078669,06,12*593238,1)10X(L
ˆ
i
*
 = -2,8629
Suy ra:
6,12
8629,2
)10X(L
ˆ
i

 = -0,8065
446,0e
p
ˆ
1
p
ˆ
8065,0
i
i





446,01
446,0
ˆ


i
p 
i
p
ˆ
= 0,308
Cách làm trong Eviews:
D
ùng
lệnh
Genr
lmu10=(c(1)*sqr(@elem(wmu,3))+c(2)*sqr(@elem(wmu,3))*10)/sqr(@elem(wmu,3))
pmu10=exp(lmu10)/(1+exp(lmu10))
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
21
Ý nghóa của hệ số hồi quy 
2
:
2
ˆ
 = 0,078669 là mức thay đổi của L có trọng số


i
w

ˆ
do thay đổi một đơn vò có trọng số


i
w
ˆ
của X.


i
w
ˆ
ˆ
2

là mức thay đổi của L có trọng số


i
w
ˆ
do X thay đổi một đơn vò.
III- MÔ HÌNH PROBIT
Phương pháp này do Goldberger (1964) đề xuất với giả thiết rằng: Y sẽ nhận giá trò 0
hoặc 1 tùy thuộc vào độ thỏa dụng I được xác đònh bởi các biến độc lập. Độ thỏa dụng càng
lớn thì xác suất để Y = 1 càng lớn.
Ta có 2 biến Y, X
2
.

I
i
= 
1
+ 
2
X
2i
(2.6)
Giả sử tồn tại mức giới hạn I
*
để:
1 nếu I > I
*
Y =
0 nếu I < I
*
I
*
không quan sát được.
Ta giả thiết rằng I
*
= I + u hay:
I
*
i
= 
1
+ 
2

X
2i
+ u
i
Giả thiết rằng u phân phối theo quy luật chuẩn N(0, 1).
Khi đó ta có thể ước lượng được (2.6):
p
i
= P(Y=1/X
2i
) = P(I
*
i
< I
i
) = F(I
i
)
trong đó F là hàm phân phối xác suất tích lũy của u.
Vì u có phân phối chuẩn N(0, 1) nên:
F(I
i
= 
1
+ 
2
X
2i
) =
 






i221
X
2
dt2/texp
2
1
Đặt: X
i
= (1, X
2i
)
f là hàm mật độ xác suất của phân phối chuẩn N(0, 1).
Khi đó hàm hợp lý có dạng:




n
1i
Y1
i
Y
i
ii
))X(F1())X(F(L

 
 

n
1i
n
1i
iiii
))X(F1(Ln)Y1())X(F(LnY)L(Ln
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
22








n
i
ii
ii
ii
Xf
XFXF
XFY
LLn
S
1

))(1)((
))((
)(
)(













n
i
ii
ii
ii
Xf
XFXF
XFY
LLn
S
1
))
ˆ

(1)(
ˆ
(
))
ˆ
((
ˆ
)(
)
ˆ
(


















T

LLn
E
S
EI




)(
)
))((
()(
2
Ta có thể chứng minh rằng:




n
1i
T
ii
ii
2
i
XX
))X(F1)(X(F
f
)(I
Nếu 

ˆ
là nghiệm của S(
ˆ
) = 0, thì với các  trong lân cận của 
ˆ
ta có:
)
ˆ
(
)()(
)
ˆ
(
2











T
LLnLLn
S

 

)()()(
)(
ˆ
1
1
2



SIS
LLn
T














Chúng ta bắt đầu với  = 
0
, tính được S(
0

) và I(
0
),
 mới tìm được bằng công thức sau:
 = 
0
+ I(
0
)
-1
S(
0
)
I() là xác đònh dương ở mỗi bước lặp, nên quá trình sẽ hội tụ đến ước lượng hợp lý tối đa
dù 
0
như thế nào.
Cũng như mô hình LOGIT, mô hình PROBIT không nghiên cứu ảnh hưởng trực tiếp của
biến độc lập X
2
đối với Y mà xem xét ảnh hưởng của X
2
đến xác suất để Y nhận giá trò 1
hay kỳ vọng toán của Y.
Ảnh hưởng của X
2
đến p
i
được tính như sau:
2

2
2
22
.
2
)(
exp
2
1
).(
)(




















i
i
ii
X
Xf
X
XF
X
p
Thí dụ: Ta trở lại thí dụ về việc lựa chọn phương tiện đi làm đã xét ở mô hình LPM. Áp
dụng mô hình PROBIT ta có kết quả sau đây:
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
23
Đồ thò của phần dư, giá trò thực Y và giá trò ước lượng Y
ˆ
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
24
CÁCH LÀM TRÊN EVIEWS
Từ kết quả trên ta có ước lượng của độ khả dụng:
*
ˆ
I
= - 0,064331 + 0,03 X
2
ˆ
 =0,03 >0 cho biết nếu chúng ta tăng được sự khác biệt giữa thời gian đi bằng phương
tiện công cộng và thời gian đi bằng phương tiện cá nhân thì xác suất đi bằng phương tiện cá
nhân sẽ tăng.
Nhớ lại: X= X
2

(thời gian đi bằng ptiện công cộng) - X
1
(thời gian đi bằng ptiện cá nhân).
Giả sử rằng đi bằng phương tiện công cộng chậm hơn đi bằng phương tiện cá nhân 30 phút
(X=30), thì khả năng phương tiện cá nhân được lựa chọn và mức gia tăng khả năng được lựa
chọn là bao nhiêu?
ThS. Phạm Trí Cao * Kinh tế lượng ứng dụng – Phần nâng cao * Chương 2
25
Để trả lời câu hỏi trên, trước hết ta cần tính độ khả dụng khi X = 30.
Ta có:

ˆˆˆ
*
ˆ
21 i
XXI 
= - 0,064331 + 0,03* 30 = 0,83669
Tính: )83669,0(*)
ˆ
()
ˆ
(
ˆ
FIFXFp
ii


=
 




83669,0
2
2/exp
2
1
dtt

= 0,7986
Như vậy khi chênh lệch thời gian đi bằng phương tiện công cộng và phương tiện cá nhân là
30 phút thì xác suất chọn phương tiện cá nhân (Y=1) là 0,7986.
Cách tính tích phân trong Eviews:
dùng lệnh Genr
2
2
2
2
ˆ
.
2
)
ˆ
(
exp
2
1
ˆ
).
ˆ

(
ˆ















i
i
i
X
Xf
X
p
03,0.
2
)83669,0(
exp
2
1

2










= 0,281* 0,03 = 0,00843.
Vậy nếu mức chênh lệch này tăng thêm 1 phút thì xác suất chọn phương tiện cá nhân sẽ
tăng 0,00843.
CÁCH LÀM DỰ BÁO TRÊN EVIEWS
Nhấp đúp chuột vào Range và Sample để tăng cỡ mẫu lên 22.
tp= 1-@cnorm(-0.83669)

×