Tải bản đầy đủ (.pdf) (67 trang)

Bài giảng Kinh tế lượng Chương 6: Điều kiện vận dụng mô hình hồi qui tuyến tính bội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (546.78 KB, 67 trang )

1
Điều kiện vận dụng mô hình hồi
qui tuyến tính bội
2
Các nội dung chính
 Kiểm tra các điều kiện áp dụng
mô hình
 Số liệu quan sát sai lệch
 Các biến giả (dummy)
 Phương pháp từng bước
 Sự tương tác (Interaction)
3
Các điều kiện vận dụng mô hình
 Các điều kiện về dạng mô hình :
 Tuyến tính của các biến độc lập so với biến phụ
thuộc
 Các điều kiện về sai số mô hình (error):
 Các sai số mô hình là độc lập (không tự tương quan)
và phân phối giống nhau theo phân phối chuẩn với
trung bình bằng 0 và variance s
2
(homoscedasticity)
 Các điều kiện về các số dự đoán (prédicteurs):
 Các biến độc lập không ngẫu nhiên
 Các giá trị của các biến độc lập được đo lường
không có sai số
 Các số dự đoán (prédicteurs) là độc lập theo đường
thẳng, (không có bội tương quan giữa các biến độc
lập - multicollinearity)
 Các điều kiện về quan sát:


Tất cả các quan sát có cùng một vai trò
4
Mô hình với ảnh hưởng cố định ngược
với mô hình với ảnh hưởng ngẫu nhiên
 Về nguyên tắc, hồi qui được thực hiện đối
với các mô hình có ảnh hưởng cố định
 Các biến độc lập được kiểm soát
 Mô hình cũng hoạt động đối với các biến
có ảnh hưởng ngẫu nhiên
 Các biến độc lập là ngẫu nhiên
 Về nguyên tắc, các biến này phải tuân theo
một phân phối chuẩn đa biến
5
Tuyến tính
 Vẽ biểu đồ từng phần (partial plots)
 Để đánh giá đặc trưng tuyến tính của
một biến X
j
so với Y, chúng ta hồi qui
Y về toàn bộ các biến độc lập trừ X
j
,
và chúng ta hồi qui X
j
bằng các biến
độc lập khác
 Chúng ta vẽ biểu đồ các phần dư
(residues) của hai hồi qui. Như vậy,
chúng ta loại bỏ ảnh hưởng của các
biến độc lập khác.

6
Tuyến tính
tiếp
Partial Regression Plot
Dependent Variable: prix
surface
3000200010000-1000-2000
prix
200000
100000
0
-100000
-200000
7
Tuyến tính
tiếp
Partial Regression Plot
Dependent Variable: prix
age
806040200-20
prix
200000
100000
0
-100000
-200000
8
Scatterplot
Dependent Variable: prix
Regression Adjusted (Press) Predicted Value

4000003000002000001000000
Regression Studentized Residual
4
2
0
-2
-4
Biểu đồ phần dư (residues)
9
Biểu đồ (histogram) phần dư
(residues)
Regression Standardized Residual
3,2
5
2,7
5
2,25
1
,75
1,
25
,75
,25
-,2
5
-,75
-1,2
5
-1,75
-2

,25
-2,
75
-3,2
5
-3,75
Histogram
Dependent Variable: prix
Frequency
60
50
40
30
20
10
0
Std. Dev = 1,00
Mean = 0,00
N = 319,00
10
Normal probability plot
(Đồ thị theo hàm chuẩn)
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: prix
Observed Cum Prob
1,00,75,50,250,00
Expected Cum Prob
1,00
,75
,50

,25
0,00
11
Hai kiểm định nhanh để kiểm
tra phân phối chuẩn
 Nhờ vào hệ số mất cấn đối (skewnRSS)
 Trong đó, n là kích thước mẫu
 Nhờ vào kurtose
 Trong đó, n là kích thước mẫu
 Nếu giá trị tuyệt đối của Z lớn hơn 1.96,
phân phối là không chuẩn với sai số ở mức
rủi ro 5%
n
6
skewness
Z
n
24
kurtose
Z
12
Phép biến đổi các biến
 Các điều kiện vận dụng mô hình
thường xuyên không đạt được:
 Tuyến tính
 Phương sai không đổi của các sai số
(errors) của mô hình
 Một mô hình là tuyến tính nếu các
tham số hiện diện trong mô hình là
tuyến tính, ngay cả khi các biến độc

lập không tuyến tính
13
Phép biến đổi các biến
 Các ví dụ của các mô hình tuyến
tính:
 Ví dụ mô hình không tuyến tính:
tiếp
This image cannot currently be displayed.

 XY
21


2
321
XXY

 XY log
21

 XY
21



X
eY
2
1
14

Các phép biến đổi để làm cho
mô hình tuyến tính
 Hàm
 Phép biến đổi
 Dạng tuyến tính

 XY
X
log
'
X
,
Y
log
'
Y


'
X
log
'
Y




15
Các phép biến đổi để làm cho
mô hình tuyến tính

 Hàm
 Phép biến đổi
 Dạng tuyến tính
X
eY


Y
ln
'
Y

Xln'Y




tiếp
16
Các phép biến đổi để làm cho
mô hình tuyến tính
 Hàm
 Phép biến đổi
 Dạng tuyến tính
XlogY




Xlog'X


'XY




tiếp
17
Các phép biến đổi để làm cho
mô hình tuyến tính
 Hàm
 Phép biến đổi
 Dạng tuyến tính


X
X
Y
tiếp
X
1
'X,
Y
1
'Y 
'X'Y





18
Các phép biến đổi để làm cho
mô hình tuyến tính
 Hàm
 Phép biến đổi
 Dạng tuyến tính
X
X
e1
e
Y




tiếp
Y
1
Y
ln'Y


X'Y




19
Diễn giải các hệ số
 Nếu biến phụ thuộc là một biến

logarithm
 Hệ số của biến độc lập X
k
có thể được
hiểu là : sự biến đổi một đơn vị của X
k
dẫn đến 100(b
k
)% thay đổi của số
trung bình (mean) của Y
 Nếu biến độc lập là một số
logarithm
 Hệ số của biến độc lập X
k
có thể được
hiểu là: sự biến đổi 100% dẫn đến một
sự thay đổi b
k
đơn vị của số trung bình
của
Y
20
Diễn giải các hệ số
 Nếu biến phụ thuộc và biến độc lập là
các số logarithms
 Hệ số của biến độc lập X
k
có thể được
hiểu là : 1% biến đổi X
k

dẫn đến một
phần trăm biến đổi trung bình của Y của
b
k
. b
k
là tính đàn hồi (elasticity) của Y so
với X
k
.
tiếp
21
Những quan sát lệch lạc (
outliers
)
 Ba dạng:
 Các điểm bẫy (leverage values)
 Được đánh dấu bằng các giá trị của ma trận mũ
(hat values)
 Những quan sát cho thấy ảnh hưởng (influential)
 Sự hủy bỏ của các quan sát này nói chung làm thay
đổi quan trọng ước lượng các tham số của mô hình
 Được đánh dấu bằng các khoảng cách Cook
 Những quan sát lệch lạc (outliers):
 Những quan sát mà đối với nó, biến phụ thuộc có
một giá trị “không bình thường” (anormal) so với
các giá trị của các biến độc lập
 Những quan sát có giá trị lớn hơn hai hoặc ba lần
độ lệch chuẩn của đường trung tâm trong đồ thị
phần dư (residues)

 Được đánh dấu bằng các “studentized deleted
residuals”
22
Các yếu tố của ma trận mũ “hat
matrix” h
i
 Mỗi giá trị có thể được biểu thị theo các y
i
 h
iji
chỉ ra trong chừng mực nào Y
i
có thể ảnh hưởng đến
 Nếu h
ij
là lớn, quan sát thứ i
ème
có thể có một ảnh hưởng
quan trọng đến giá trị được điều chỉnh thứ j
ème
 Chúng ta có thể chứng tỏ rằng
 h
j
=h
jj
tóm lược ảnh hưởng tiềm tàng của y
i
đến tất cả các
giá trị được điều chỉnh
nnjiij2j21j1j

Yh Yh YhYhY
ˆ



j
2
ijii
hh
j
Y
ˆ
j
Y
ˆ
23
Các yếu tố của ma trận mũ “hat
matrix” h
i
 Các giá trị nằm giữa 0 và 1 và giá trị trung
bình bằng (p+1)/n
 Nếu p lớn hơn hoặc bằng 10 và n lớn hơn
hoặc bằng 50, quan sát được xem là một
điểm bẫy nếu nó lớn hơn 2(p+1)/n
 Nếu không, quan sát được xem như là một
điểm bẫy nếu nó lớn hơn 3(p+1)/n (với ví
dụ: 9/319=0,028)
 Một điểm bẫy là một giá trị sai lệch trong
khoảng không (trên đồ thị) của các biến
độc lập.

tiếp
24
Studentized Deleted Residuals
t
i
*

 : Chênh lệch giữa Y
i
và dựa trên mô hình
chứa đựng tất cả các quan sát , trừ i
 : dạng lỗi đối với mô hình chứa đựng tất cả các
quan sát, trừ i
 Một quan sát được xem như lệch lạc nếu
 là giá trị phê phán đối với kiểm định
hai bên ở mức rủi ro 5% (gần bằng 2)
 
 
*

1
i
i
i
i
e
t
S h



ˆ
i
Y
 
i
S
 
i
e
2
*


pni
tt
2pn
t

25
Distance de Cook D
i

 Với số dư chuẩn hoá
 Đo lường chênh lệch giữa các hệ số đạt được từ
tất cả các số liệu và các hệ số đạt được bằng
việc rút ra quan sát thứ i
 Nếu D
i
>4/(n-p-1), quan sát được xem như có
ảnh hưởng (trong ví dụ, 4/316=0,013)

 
2
2 1
i i
i
i
SR h
D
h


1
i
i
YX i
e
SR
S h


×