1
Chương 5: Đa cộng tuyến
1. Bản chất của đa cộng tuyến
• Ví dụ:
Xét mối quan hệ phụ thuộc của Mức chi tiêu tích lũy tại
thời điểm t cho việc bảo trì của một chiếc xe hơi (E
t
) vào
Số dặm chiếc xe đã chạy (MILES
t
-1000) và Tuổi chiếc
xe (AGE
t
– tuần)
Ba mô hình được ước lượng:
1 2 2
2:
t t t
MH E MILES U
1 2 3 3
3:
t t t
MH E AGE MILES U
1 2 1
1:
t t t
MH E AGE U
Kết quả ước lượng dựa trên dữ liệu thực
của 1 trạm xe Toyota:
Biến MH1 MH2 MH3
Hằng số -626,24
(-5,98)
-796,07
(-5,91)
7,29
(0,06)
AGE 7,35
(22,16)
27,58
(9,58)
MILES 53,45
(18,27)
-151.15
(-7,06)
Adjusted R
2
0,897 0,856 0,946
R(AGE,MILES) = 0,996
• Trường hợp không có đa cộng tuyến
Các biến X
i
trong hồi quy không có tương quan với nhau.
Mỗi X
i
chứa một thông tin riêng về Y, thông tin này không
chứa trong bất kỳ biến X
i
nào khác.
• Đa cộng tuyến gồm 2 loại:
Đa cộng tuyến hoàn hảo và không hoàn hảo
• Khái niệm:
Cho mô hình hồi quy k biến:
Đa cộng tuyến hoàn hảo giữa các biến X
i
xảy ra nếu:
trong đó:
1
,
2
, ,
k
là các hằng số không đồng thời bằng không
X
1
=1 cho tất cả các quan sát.
1 1 2 2
i i i k ki i
Y X X X U
1 1 2 2
0
k k
X X X
2
Nếu:
Đa cộng tuyến không hoàn hảo:
Là trường hợp các biến giải thích có tương quan với
nhau theo nghĩa:
trong đó: V
i
là sai số ngẫu nhiên
1 3
2 2 1 3
2 2 2
0
k
i k
X X X X
1 1 2 2
0
i i k ki i
X X X V
Ví dụ:
• Nguyên nhân của đa cộng tuyến:
Do thu thập số liệu:
Các số liệu được thu thập chỉ trong 1 khoảng nhỏ của toàn bộ tổng
thể
Do bản chất của các biến trong mô hình có mối quan hệ sẵn có với
nhau:
Ví dụ: Tiền điện = f(Thu nhập, Kích cỡ nhà ở)
Trong hồi quy có chứa các biến giải thích với luỹ thừa bậc cao đặc
biệt đối với trường hợp mẫu chỉ là 1 khoảng nhỏ số liệu của tổng
thể.
Ví dụ:
Mô hình có nhiều biến hơn số quan sát:
Ví dụ: Trong điều tra sức khỏe chỉ hỏi 1 số ít bệnh nhân nhưng lại
có nhiều thông tin (biến) liên quan
3 3
1 2 3
i i i i i
Y X X X U
X
2
10 15 18 24 30
X
3
50 75 90 120 150
X
*
3
52 75 97 129 152
r(X
2
,X
3
)=1; ĐCTHH r
*
(X
2
,X
3
)=0,9959; ĐCTkHH
2. Ước lượng khi có đa cộng tuyến hoàn hảo
• Xét mô hình hồi quy ba biến:
• Ta có các ước lượng:
Giả sử X
3i
= X
2i
trong đó 0. Thay vào, ta có:
1 2 2 3 3
ˆ ˆ ˆ
ˆ
i i i
Y X X
2
2 3 3 2 3
2
2
2 2
2 3 2 3
ˆ
i i i i i i i
i i i i
y x x y x x x
x x x x
2
3 2 2 2 3
3
2
2 2
3 2 2 3
ˆ
i i i i i i i
i i i i
y x x y x x x
x x x x
2 2 2
2 2 2 2
2
2
2 2 2 2
2 2 2
0
ˆ
0
i i i i i i
i i i
y x x y x x
x x x
Biểu thức không xác định
Không thể ước lượng được các hệ số HQ
3. Hậu quả của đa cộng tuyến
a. Phương sai của các OLS lớn:
Ta có:
Trong đó: r
23
là hệ số tương quan giữa X
2
, X
3
2
2
3
2
2
2
2 2
2 2
2 23
2 3 2 3
ˆ
var( )
(1 )
i
i
i i i i
x
x r
x x x x
2
2
2
2
3
2
2 2
2 2
3 23
2 3 2 3
ˆ
var( )
(1 )
i
i
i i i i
x
x r
x x x x
2
2 3
2
23
2
2
3
2
i i
i
i
x x
r
x x
3
Khi r
23
tăng dần đến 1 (cộng tuyến tăng) thì phương
sai tăng dần đến vô hạn
b. Khoảng tin cậy của β
2
và β
3
rộng hơn:
Ta có:
Trong đó:
khi r
23
càng tiến gần tới 1 thì khoảng tin cậy cho các
hệ số càng rộng
c. Tỷ số t mất ý nghĩa:
KĐGT: H
0
:β
2
= 0
Lấy tỉ số so sánh với t
α/2
Khi có đa cộng tuyến hoàn hảo thì sai số tiêu chuẩn sẽ
rất cao làm tỉ số t nhỏ đi.
Tăng khả năng chấp nhận H
0
mặc dù có thể R
2
lớn
2 /2 2 3 /2 3
ˆ ˆ ˆ ˆ
;t se t se
2 2 3 3
ˆ ˆ ˆ ˆ
var( ); var( )
se se
2 2
ˆ ˆ
t se
d. Dấu của các ước lượng của hệ số hồi quy có thể
sai
Khi có đa cộng tuyến thì các ước lượng của các
hệ số HQ có thể có dấu trái với kỳ vọng.
e. Thêm vào hay bớt đi các biến cộng tuyến với các
biến khác làm mô hình thay đổi về độ lớn của các
ước lượng hoặc dấu của chúng
4. Phát hiện hiện tượng đa cộng tuyến
a. R
2
cao nhưng tỉ số t thấp:
R
2
> 0,8 mà tỉ số t thấp => dấu hiệu của ĐCT
b. Tương quan cặp giữa các biến giải thích cao
Nếu hệ số tương quan cặp giữa các biến giải
thích cao (>0,8) => ĐCT
c. Hồi quy phụ
Hồi quy phụ là hồi quy mỗi một biến giải thích
X
i
theo các biến giải thích còn lại.
Hệ số xác định của hồi quy này là R
2
i
.
Kiểm định sự phù hợp của hồi quy phụ:
Dùng kiểm định F
Thống kê F:
F
i
~ F(k-2,n-k+1)
Nếu F
i
> F
i
(k-2,n-k+1) => biến X
i
có liên hệ
tuyến tính (cộng tuyến) với các biến X khác
2
2
( 1)
(1 )( 2)
i
i
i
R n k
F
R k
5. Biện pháp khắc phục:
a. Thu thập thêm số liệu hoặc lấy thêm mẫu mới
• Đa cộng tuyến phát sinh từ mẫu số liệu => thay mẫu mới
• Thu thập thêm số liệu để kích thước mẫu tăng lên
b. Bỏ biến
B
1
: Xem cặp biến giải thích nào có quan hệ chặt chẽ
Giả sử thấy rằng X
2
có tương quan chặt chẽ với X
3
Nhiều thông tin về Y chứa ở X
2
thì cũng chứa ở X
3
Bỏ một trong hai biến X
2
hoặc X
3
B
2
: Tính R
2
hoặc trong các hồi quy: có và không có một trong
hai biến
Ví dụ:
R
2
của hồi quy Y đối với tất cả các biến X
2
, X
3
, , X
k
là 0,94.
R
2
khi loại biến X
2
là 0,87
R
2
khi loại biến X
3
là 0,92
loại X
3
2
R
4
c. Sử dụng sai phân cấp một
• Xét mô hình ba biến:
Đặt y
t
= Y
t
– Y
t-1
; x
2t
=X
2t
-X
2(t-1)
; x
3t
=X
3t
-X
3(t-1)
;
u
t
=U
t
-U
t-1
Ta có:
Phép trừ trên gọi là sai phân cấp một
Mất đi một số liệu trong mẫu nhưng tính đa cộng
tuyến sẽ giảm
1 2 2 3 3
(1)
t t t t
Y X X U
1 2 2 2( 1) 3 3 3( 1) 1
(1) (2) ( ) ( )
t t t t t t t t
Y Y X X X X U U
2 2 3 3
t t t t
y x x u
1 1 2 2( 1) 3 3( 1) 1
(2)
t t t t
Y X X U