CHƯƠNG 6
HIỆN TƯỢNG ĐA CỘNG TUYẾN
(MULTICOLLINEARITY)
ĐA CỘNG TUYẾN
MỤC
TIÊU
1. Hiểu bản chất và hậu quả của
đa cộng tuyến
2. Biết cách phát hiện đa cộng
tuyến và biện pháp khắc phục
2
NỘI DUNG
1
Bản chất, nguyên nhân của đa cộng tuyến
2
Ước lượng các tham số
3
Hậu quả
4
Phát hiện đa cộng tuyến
5
Khắc phục đa cộng tuyến
3
Thu nhập Sự giàu có Chi tiêu
80
810
70
100
1009
65
120
1273
90
140
1425
95
160
1633
110
180
1876
115
200
2052
120
220
2201
140
240
2435
155
260
2686
150
Nguồn: Ramu Ramanathan
4
5
6
7
6.1 Bản chất của đa cộng tuyến
Khi lập mô hình hồi quy bội
Yˆi bˆ1 bˆ 2 X 2 i bˆ3 X 3i ... bˆk X ki
Có sự phụ thuộc tuyến tính cao giữa các biến
giải thích gọi là đa cộng tuyến.
a. Đa cộng tuyến hoàn hảo
Tồn tại 2, 3,… k không đồng thời bằng 0
sao cho
2X2 + 3X3 + …+ kXk = 0
Nói cách khác là xảy ra trường hợp một biến
giải thích nào đó được biểu diễn dưới dạng một
tổ hợp tuyến tính của các biến còn lại.
8
6.1 Bản chất của đa cộng tuyến
b. Đa cộng tuyến không hoàn hảo
2X2 + 3X3 + …+ kXk + vi= 0
Với vi là sai số ngẫu nhiên thì ta có hiện tượng đa
cộng tuyến không hoàn hảo giữa các biến giải
thích.
Nói cách khác là một biến giải thích nào đó có
tương quan với một số biến giải thích khác.
9
6.1 Bản chất của đa cộng tuyến
VD
X2
10
15
18
24
30
X3
50
75
90
120
150
X*3
V
52
2
75
0
97
7
129
9
152
2
X3i = 5X2i, vì vậy có cộng tuyến hoàn hảo giữa
X2 và X3 ; r23 = 1
X2 và X3* không có cộng tuyến hoàn hảo,
nhưng hai biến này có tương quan chặt
chẽ.
10
6.1 Bản chất của đa cộng tuyến
Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
11
6.1 Bản chất của đa cộng tuyến
Hình 6.1 Biểu đồ Venn mô tả hiện tượng đa cộng tuyến
12
6.1 Nguyên nhân của đa cộng tuyến
Một số nguyên nhân gây ra hiện tượng
đa cộng tuyến
- Khi chọn các biến độc lập mối quan có
quan hệ nhân quả hay có tương quan
cao vì đồng phụ thuộc vào một điều kiện
khác.
- Khi số quan sát nhỏ hơn số biến độc lập.
- Cách thu thập mẫu: mẫu không đặc
trưng cho tổng thể
- Chọn biến Xi có độ biến thiên nhỏ.
13
6.2 Ước lượng khi có đa cộng tuyến
1. Trường hợp có đa cộng tuyến hoàn hảo
Xét mô hình hồi qui 3 biến dưới dạng sau:
Yi = b2 X2i + b3 X3i + ei
giả sử X3i = X2i, mô hình được biến đổi thành:
Yi = (b2+ b3)X2i + ei = b0 X2i + ei
Phương pháp OLS
bˆo ( bˆ2 bˆ3 )
x y
x
2i i
2
2i
Không thể tìm được lời giải duy nhất cho
bˆ2 , bˆ3
14
6.2 Ước lượng khi có đa cộng tuyến
bˆ 2
y i x 2 i x 32i y i x3 i x 2 i x 3 i
2
2i
x x
2
3i
( x 2 i x3i )
2
2
3i
y
x
x
y
x
x
x
0
i
3
i
i
3
i
3
i
3i
ˆ
b2
2
2
2
2
2
2
x3i x3i x3i x3i
0
Các hệ số ước lượng không xác định
Phương sai và sai số chuẩn của b2 và b3
là vô hạn
15
6.2 Ước lượng các tham số khi có đa cộng tuyến
bˆ 2
y i x 2 i x 32i y i x3 i x 2 i x 3 i
2
2i
x x
2
3i
( x 2 i x3i )
2
2
3i
y
x
x
y
x
x
x
0
i
3
i
i
3
i
3
i
3i
ˆ
b2
2
2
2
2
2
2
x3i x3i x3i x3i
0
Các hệ số ước lượng không xác định: chúng ta không
tách rời tác động của từng biến Xi lên Y do không thể
giả định X2 thay đổi trong khi X3 không đổi.
16
6.2 Ước lượng các tham số khi có đa cộng tuyến
2. Trường hợp có đa cộng tuyến không hoàn hảo
• Đa cộng tuyến hoàn hảo thường không xảy ra trong
thực tế.
• Xét mô hình hồi qui 3 biến dưới dạng sau:
yi = b2 x2i + b3 x3i + ei
Giả định x3i = x2i + vi
Với 0 và vi là sai số ngẫu nhiên.
• Trong trường hợp này, các hệ số hồi qui b2 và
b3 có thể ước lượng được:
17
6.2 Ước lượng các tham số khi có đa cộng tuyến
Ta có thể ước lượng được các bˆ này nhưng s.e.
sẽ rất lớn.
18
6.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
•
Các ước lượng vẫn BLUE, nhưng:
1. Phương sai và hiệp phương sai của các ước
lượng OLS lớn.
r23 là hệ số tương
quan giữa X2 và
X3.
Khi r23 1, các giá
trị trên
19
6.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
2. Khoảng tin cậy rộng hơn.
Khoảng tin cậy của b2 và b3 (với độ tin cậy 1 – )
là:
^
^
b
b
b2 = 2 t /2 se ( 2);
^
^
b
b
3
b3 =
t /2 se ( 3);
trong đó:
^
^
b
se ( 2) =
se ( b 3) =
2
2
2
2
•
(1 r23 )x2i
(1 r23 )x3i
20
Giá trị của r23 Khoảng tin cậy 95% của B2
bˆ2 1.96* A
0
bˆ2 1.96* 1.33* A
0.5
bˆ2 1.96* 10.26 * A
0.95
0.995
bˆ2 1.96* 100* A
0.999
bˆ2 1.96* 500* A
A
2
x 22i
21
6.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
3. Tỉ số t "không có ý nghĩa".
Khi kiểm định giả thuyết H0: b2 = 0, chúng ta sử
dụng tỷ số t.
bˆ 2
t
se ( bˆ 2 )
và so sánh giá trị ước lượng của t với giá trị tra bảng
(tới hạn) của t.
Trong trường hợp cộng tuyến cao thì sai số chuẩn
sẽ rất lớn và do đó làm cho giá trị t sẽ nhỏ đi, kết
quả là sẽ làm tăng chấp nhận giả thuyết H0.
22
6.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
4. R2 cao nhưng tỉ số t ít có ý nghĩa.
•
Đa cộng tuyến cao:
•
- một hoặc một số tham số tương quan (hệ
số góc riêng) không có ý nghĩa về mặt thống
kê
•
- R2 trong những trường hợp này lại rất cao
(trên 0,9).
•
- kiểm định F thì có thể bác bỏ giả thuyết cho
rằng b2 = b3 = … = bk = 0.
23
6.3 Hậu quả của đa cộng tuyến
Nếu có cộng tuyến gần hoàn hảo:
5. Các ước lượng OLS và sai số chuẩn của chúng
trở nên rất nhạy với những thay đổi nhỏ trong
dữ liệu.
6. Dấu của các ước lượng của các hệ số hồi qui có
thể sai
7. Thêm vào hay bớt đi các biến cộng tuyến với các
biến khác, mô hình sẽ thay đổi về dấu hoặc
thay đổi về độ lớn của các ước lượng.
24
Ví dụ: Bảng 2 do nhập sai số liệu nên
xảy ra đa cộng tuyến
Bảng 1
Y
1
2
3
4
5
X2
2
0
4
6
8
X3
4
2
12
0
16
Bảng 2
Y
1
2
3
4
5
X2
2
0
4
6
8
X3
4
2
0
12
16
Yˆi 1 .193 0 .446 X 2 i 0 .003 X 3i
R 2 0 . 81; r23 0 .5523 ; cov( bˆ 2 , bˆ3 ) 0 . 00868
Yˆi 1.210 0.401X 2i 0.027X 3i
R2 0.81; r23 0.8285; cov(bˆ2 , bˆ3 ) 0.0282
Se (0.7736) (0.1848) (0.0850)
t (1.543) (2.415) (0.0358)
Se (0.7480) (0.2720) (0.1252)
t
(1.618) (1.4752) (0.2152)
25