1
Điều kiện vận dụng mô hình hồi
qui tuyến tính bội
2
Các nội dung chính
Kiểm tra các điều kiện áp dụng
mô hình
Số liệu quan sát sai lệch
Các biến giả (dummy)
Phương pháp từng bước
Sự tương tác (Interaction)
3
Các điều kiện vận dụng mô hình
Các điều kiện về dạng mô hình :
Tuyến tính của các biến độc lập so với biến phụ
thuộc
Các điều kiện về sai số mô hình (error):
Các sai số mô hình là độc lập (không tự tương quan)
và phân phối giống nhau theo phân phối chuẩn với
trung bình bằng 0 và variance s
2
(homoscedasticity)
Các điều kiện về các số dự đoán (prédicteurs):
Các biến độc lập không ngẫu nhiên
Các giá trị của các biến độc lập được đo lường
không có sai số
Các số dự đoán (prédicteurs) là độc lập theo đường
thẳng, (không có bội tương quan giữa các biến độc
lập - multicollinearity)
Các điều kiện về quan sát:
Tất cả các quan sát có cùng một vai trò
4
Mô hình với ảnh hưởng cố định ngược
với mô hình với ảnh hưởng ngẫu nhiên
Về nguyên tắc, hồi qui được thực hiện đối
với các mô hình có ảnh hưởng cố định
Các biến độc lập được kiểm soát
Mô hình cũng hoạt động đối với các biến
có ảnh hưởng ngẫu nhiên
Các biến độc lập là ngẫu nhiên
Về nguyên tắc, các biến này phải tuân theo
một phân phối chuẩn đa biến
5
Tuyến tính
Vẽ biểu đồ từng phần (partial plots)
Để đánh giá đặc trưng tuyến tính của
một biến X
j
so với Y, chúng ta hồi qui
Y về toàn bộ các biến độc lập trừ X
j
,
và chúng ta hồi qui X
j
bằng các biến
độc lập khác
Chúng ta vẽ biểu đồ các phần dư
(residues) của hai hồi qui. Như vậy,
chúng ta loại bỏ ảnh hưởng của các
biến độc lập khác.
6
Tuyến tính
tiếp
Partial Regression Plot
Dependent Variable: prix
surface
3000200010000-1000-2000
prix
200000
100000
0
-100000
-200000
7
Tuyến tính
tiếp
Partial Regression Plot
Dependent Variable: prix
age
806040200-20
prix
200000
100000
0
-100000
-200000
8
Scatterplot
Dependent Variable: prix
Regression Adjusted (Press) Predicted Value
4000003000002000001000000
Regression Studentized Residual
4
2
0
-2
-4
Biểu đồ phần dư (residues)
9
Biểu đồ (histogram) phần dư
(residues)
Regression Standardized Residual
3,2
5
2,7
5
2,25
1
,75
1,
25
,75
,25
-,2
5
-,75
-1,2
5
-1,75
-2
,25
-2,
75
-3,2
5
-3,75
Histogram
Dependent Variable: prix
Frequency
60
50
40
30
20
10
0
Std. Dev = 1,00
Mean = 0,00
N = 319,00
10
Normal probability plot
(Đồ thị theo hàm chuẩn)
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: prix
Observed Cum Prob
1,00,75,50,250,00
Expected Cum Prob
1,00
,75
,50
,25
0,00
11
Hai kiểm định nhanh để kiểm
tra phân phối chuẩn
Nhờ vào hệ số mất cấn đối (skewnRSS)
Trong đó, n là kích thước mẫu
Nhờ vào kurtose
Trong đó, n là kích thước mẫu
Nếu giá trị tuyệt đối của Z lớn hơn 1.96,
phân phối là không chuẩn với sai số ở mức
rủi ro 5%
n
6
skewness
Z
n
24
kurtose
Z
12
Phép biến đổi các biến
Các điều kiện vận dụng mô hình
thường xuyên không đạt được:
Tuyến tính
Phương sai không đổi của các sai số
(errors) của mô hình
Một mô hình là tuyến tính nếu các
tham số hiện diện trong mô hình là
tuyến tính, ngay cả khi các biến độc
lập không tuyến tính
13
Phép biến đổi các biến
Các ví dụ của các mô hình tuyến
tính:
Ví dụ mô hình không tuyến tính:
tiếp
This image cannot currently be displayed.
XY
21
2
321
XXY
XY log
21
XY
21
X
eY
2
1
14
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
XY
X
log
'
X
,
Y
log
'
Y
'
X
log
'
Y
15
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
eY
Y
ln
'
Y
Xln'Y
tiếp
16
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
XlogY
Xlog'X
'XY
tiếp
17
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
X
Y
tiếp
X
1
'X,
Y
1
'Y
'X'Y
18
Các phép biến đổi để làm cho
mô hình tuyến tính
Hàm
Phép biến đổi
Dạng tuyến tính
X
X
e1
e
Y
tiếp
Y
1
Y
ln'Y
X'Y
19
Diễn giải các hệ số
Nếu biến phụ thuộc là một biến
logarithm
Hệ số của biến độc lập X
k
có thể được
hiểu là : sự biến đổi một đơn vị của X
k
dẫn đến 100(b
k
)% thay đổi của số
trung bình (mean) của Y
Nếu biến độc lập là một số
logarithm
Hệ số của biến độc lập X
k
có thể được
hiểu là: sự biến đổi 100% dẫn đến một
sự thay đổi b
k
đơn vị của số trung bình
của
Y
20
Diễn giải các hệ số
Nếu biến phụ thuộc và biến độc lập là
các số logarithms
Hệ số của biến độc lập X
k
có thể được
hiểu là : 1% biến đổi X
k
dẫn đến một
phần trăm biến đổi trung bình của Y của
b
k
. b
k
là tính đàn hồi (elasticity) của Y so
với X
k
.
tiếp
21
Những quan sát lệch lạc (
outliers
)
Ba dạng:
Các điểm bẫy (leverage values)
Được đánh dấu bằng các giá trị của ma trận mũ
(hat values)
Những quan sát cho thấy ảnh hưởng (influential)
Sự hủy bỏ của các quan sát này nói chung làm thay
đổi quan trọng ước lượng các tham số của mô hình
Được đánh dấu bằng các khoảng cách Cook
Những quan sát lệch lạc (outliers):
Những quan sát mà đối với nó, biến phụ thuộc có
một giá trị “không bình thường” (anormal) so với
các giá trị của các biến độc lập
Những quan sát có giá trị lớn hơn hai hoặc ba lần
độ lệch chuẩn của đường trung tâm trong đồ thị
phần dư (residues)
Được đánh dấu bằng các “studentized deleted
residuals”
22
Các yếu tố của ma trận mũ “hat
matrix” h
i
Mỗi giá trị có thể được biểu thị theo các y
i
h
iji
chỉ ra trong chừng mực nào Y
i
có thể ảnh hưởng đến
Nếu h
ij
là lớn, quan sát thứ i
ème
có thể có một ảnh hưởng
quan trọng đến giá trị được điều chỉnh thứ j
ème
Chúng ta có thể chứng tỏ rằng
h
j
=h
jj
tóm lược ảnh hưởng tiềm tàng của y
i
đến tất cả các
giá trị được điều chỉnh
nnjiij2j21j1j
Yh Yh YhYhY
ˆ
j
2
ijii
hh
j
Y
ˆ
j
Y
ˆ
23
Các yếu tố của ma trận mũ “hat
matrix” h
i
Các giá trị nằm giữa 0 và 1 và giá trị trung
bình bằng (p+1)/n
Nếu p lớn hơn hoặc bằng 10 và n lớn hơn
hoặc bằng 50, quan sát được xem là một
điểm bẫy nếu nó lớn hơn 2(p+1)/n
Nếu không, quan sát được xem như là một
điểm bẫy nếu nó lớn hơn 3(p+1)/n (với ví
dụ: 9/319=0,028)
Một điểm bẫy là một giá trị sai lệch trong
khoảng không (trên đồ thị) của các biến
độc lập.
tiếp
24
Studentized Deleted Residuals
t
i
*
: Chênh lệch giữa Y
i
và dựa trên mô hình
chứa đựng tất cả các quan sát , trừ i
: dạng lỗi đối với mô hình chứa đựng tất cả các
quan sát, trừ i
Một quan sát được xem như lệch lạc nếu
là giá trị phê phán đối với kiểm định
hai bên ở mức rủi ro 5% (gần bằng 2)
*
1
i
i
i
i
e
t
S h
ˆ
i
Y
i
S
i
e
2
*
pni
tt
2pn
t
25
Distance de Cook D
i
Với số dư chuẩn hoá
Đo lường chênh lệch giữa các hệ số đạt được từ
tất cả các số liệu và các hệ số đạt được bằng
việc rút ra quan sát thứ i
Nếu D
i
>4/(n-p-1), quan sát được xem như có
ảnh hưởng (trong ví dụ, 4/316=0,013)
2
2 1
i i
i
i
SR h
D
h
1
i
i
YX i
e
SR
S h