Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
CHƯƠNG 5
Đa cộng tuyến
Các biến giải thích được xác định trong một mô hình kinh tế lượng thường xuất phát từ lý
thuyết hoặc hiểu biết căn bản về hành vi chúng ta đang cố gắng thiết kế mô hình, cũng như
từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm
không kiểm soát và thường tương quan với nhau. Điều này đặc biệt đúng đối với các biến
chuỗi thời gian thường có những xu hướng tiềm ẩn thông thường. Ví dụ, dân số và tổng sản
phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta
phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này,
nghóa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố
định và chỉ có giá trị của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương
quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại
vì khi biến sau thay đổi thì biến đầu thay đổi. Trong trường hợp này, thật khó tách biệt ảnh
hưởng riêng phần của một biến đơn. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc
thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn
dịch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện
khi các biến giải thích có các quan hệ gần như tuyến tính. Chương này khảo sát các hệ quả
của đa cộng tuyến trong phạm vi ước lượng các thông số, khảo sát các tính chất của chúng
và kiểm định giả thuyết về những hệ quả này. Trước hết chúng tôi trình bày các ví dụ về vấn
đề đa cộng tuyến phát sinh như thế nào trong thực tế và sau đó khảo sát vấn đề này một cách
chi tiết hơn.
}
5.1
Các Ví Dụ Về Đa Cộng Tuyến
Chúng tôi trình bày hai ví dụ trong đó việc thêm vào các biến có vẻ nhạy làm thay đổi
đáng kể các kết quả. Trước hết, chúng ta kiểm tra lại ví dụ về nhà ở trong Phần 4.5, ví dụ
này liên hệ số lượng nhà mới xây với một số biến tổng hợp; trong ví dụ thứ hai, chúng ta
liên hệ chi tiêu tích lũy cho việc bảo trì một chiếc xe hơi với tuổi của chiếc xe đó và số
dặm chiếc xe đó đã chạy.
} VÍ DỤ 5.1
Đặt HOUSING là số căn hộ (đơn vị hàng ngàn) có tại Hoa Kỳ trong năm t, POPt là dân số
Hoa Kỳ đơn vị tính là hàng triệu, GNPt là tổng sản phẩm quốc gia tính bằng tỷ đô la của
năm 1982, và INTRATE, là tỷ lệ thế chấp nhà mới tính theo phần trăm. Sử dụng tập tin
DATA4-3 mô tả trong Phụ lục D, ba mô hình sau được ước lượng: các kết quả được trình
bày trong Bảng 5.1 (xem Bài thực hành máy tính Phần 5.1).
Mô hình A: HOUSINGt = α1 + α2INTRATEt + α3POPt + u1t
Mô hình B: HOUSINGt = β1 + β2INTRATEt + β3GNPt + u2t
Ramu Ramanathan
1
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Mô hình C:
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
HOUSINGt = γ1 + γ2INTRATEt + γ3POPt + γ4GNPt + u3t
Chúng ta kỳ vọng số căn hộ sẽ bị ảnh hưởng bởi cả kích thước dân số lẫn mức thu
nhập. Vậy mà trong Mô hình C, có cả hai biến này, các trị thống kê t thấp và không có ý
nghóa. Tuy nhiên, khi chỉ có POP hoặc GNP được đưa vào, các hệ số tương ứng rất có ý
nghóa. Một kiểm định Wald về việc loại bỏ POP và GNP khỏi Mô hình C cho kết quả một
trị thống kê F bằng 6,42, có ý nghóa ở mức 1 phần trăm, cho thấy là các biến này có ý nghóa
một cách liên kết mặc dù các biến riêng rẽ lại không có ý nghóa. Vì vậy, phần kết luận có
vẻ như vô lý. Kết quả thứ hai là, các hệ số của POP và GNP trong Mô hình C hoàn toàn
khác trong các hệ số trong Mô hình A và B. Tuy nhiên, hệ số của INTRATE ít biến động
hơn. Mặc dù trước đây chúng ta nghó rằng cả dân số và thu nhập đều có trong mô hình, các
kết quả lại cho thấy là khi các biến này có mặt đồng thời trong mô hình sẽ xuất hiện những
thay đổi nghiêm trọng. Điều này là do dân số, tổng sản phẩm quốc và lãi suất có tương
quan rất cao. Các hệ số tương quan từng cặp của GNP, POP và INTRATE là
r(GNP, POP) = 0,99
}
r(GNP, INTRATE) = 0,88
r(POP, INTRATE) = 0,91
Baûng 5.1 Các Ước Lượng Của Các Quan Hệ Nhà Ở
Biến
Hằng số
INTRATE
POP
Mô hình A
− 3812,93
Mô hình B
687,90
Mô hình C
– 1315,75
-198,40
–169,66
–184,75
(−2,40)
(1,80)
(–3,87)
(–3,87)
33,82
(-3,18)
14,90
(3,61)
(0,41)
GNP
d.f.
−2
R
MSE
MAPE
(–0,27)
0,91
0,52
(3,64)
(0,54)
20
0,371
20
0,375
19
0,348
75,029
12,14
74,557
12,54
77,801
12,23
Ghi chú: MSE là trung bình bình phương sai số dự báo ( = ^σ 2 ). MAPE là trung bình trị tuyệt đối sai số phần
trăm. Các giá trị trong ngoặc là trị thống kê t.
Vì vậy, tồn tại quan hệ tuyến tính gần như hoàn hảo giữa GNP và POP, và cũng có một
quan hệ gần hoàn hảo với INTRATE. Như sẽ được trình bày sau này, các thay đổi trong
các hệ số tuyến tính được quan sát và các trị thống kê t là kết quả trực tiếp của những
tương quan chặt này. Có thể nhấn mạnh là một tương quan chặt giữa biến phụ thuộc và
một biến độc lập cho trước không chỉ không gây ra bất kỳ vấn đề nào mà thực tế tương
quan này rất được mong đợi. Chính những mối quan hệ chặt, tuyến tính giữa các biến giải
thích ảnh hưởng đến các kết quả của mô hình.
Ramu Ramanathan
2
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
}
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
VÍ DỤ 5.2
Đặt Et là chi tiêu tích lũy tại thời điểm t cho việc bảo trì (không tính xăng dầu) một chiếc
xe hơi cho trước, MILES, là số dặm chiếc xe đã chạy, tính bằng hàng ngàn dặm, và AGE,
là tuổi của chiếc xe tính bằng tuần kể từ khi mua lần đầu. Xem xét ba mô hình sau:
Mô hình A:
Mô hình B:
Mô hình C:
Et = α1 + α2AGEt + u1t
Et = β1 + β2MILESt + w2t
Et = γ1 + γ2AGEt + γ3MILESt + u3t
Moät chiếc xe chạy càng nhiều sẽ càng cần nhiều chi phí bảo trì. Tương tự, chiếc xe
càng cũ chi phí bảo trì càng nhiều. Cũng như vậy đối với hai chiếc xe cùng tuổi thì chiếc
nào chạy nhiều hơn sẽ có thể cần nhiều chi phí bảo trì hơn. Vì vậy, chúng ta kỳ vọng là α2,
β2, γ2 và γ3 sẽ dương. Bảng 5.2 trình bày các hệ số ước lượng và các trị thống kê t (trong
ngoặc) của ba mô hình, dựa trên dữ liệu thực của một trạm xe Toyota. Dữ liệu trong tập tin
DATA3-7 mô tả trong Phụ lục D (xem Bài thực hành máy tính Phần 5.2 để chứng minh các
kết quả này).
Thật lý thú khi thấy là mặc dù hệ số của MILES có giá trị dương trong Mô hình B, hệ
số này lại âm một cách có ý nghóa trong Mô hình C. Vì vậy, có một sự đổi ngược nghiêm
trọng về dấu. Hệ số của AGE cũng có sự thay đổi quan trọng như vậy. Thứ hai, các trị
thống kê t của AGE và MILES trong Mô hình C thấp hơn rất nhiều. Ở đây cũng vậy,
nguyên nhân của sự thay đổi có ý nghóa trong kết quả là sự tương quan cao giữa hai biến
giải thích, trong trường hợp này làAGE và MILES, hệ số tương quan giữa chúng là 0,996.
} Bảng 5.2 Các mô hình chi tiêu cho xe hơi
Biến
Mô hình A
Hằng số
− 626,24
(−5,98)
AGE
(−5,91)
7,35
Mô hình C
7,29
(0,06)
27,58
(22,16)
(9,58)
MILES
d.f.
−2
R
MSE
MAPE
Mô hình B
−796,07
53,45
−151,15
(18,27)
(−7,06)
55
0,897
55
0,856
54
0,946
135,861
227,9
190,941
278,2
72,010
47,3
Ghi chú: MSE là trung bình bình phương sai số dự báo ( = ^σ 2 ). MAPE là trung bình trị tuyệt đối sai số phần
trăm. Các giá trị trong ngoặc là trị thống kê t.
Từ những ví dụ trên chúng ta thấy là sự tương quan cao giữa các biến giải thích có thể
khiến cho các hệ số hồi qui trở nên không có ý nghóa hoặc làm đổi dấu chúng. Đa cộng
tuyến không chỉ giới hạn trong hai biến độc lập. Tính chất này có thể, và thường xảy ra
giữa nhiều biến độc lập có một mối quan hệ gần tuyến tính.
Ramu Ramanathan
3
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
5.2
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Đa Cộng Tuyến Chính Xác
Nếu hai hoặc nhiều hơn hai biến độc lập có quan hệ tuyến tính giữa hai biến hoặc giữa
nhiều biến, chúng ta có đa cộng tuyến chính xác (hoặc hoàn hảo). Trong trường hợp này,
không có một lời giải duy nhất cho các phương trình chuẩn rút ra từ nguyên tắc bình
phương tối thiểu. Điều này được minh họa với một mô hình có hai biến độc lập, X2 và X3,
cộng một hằng số. Mô hình như sau
(5.1)
yt = β2xt2 + β3xt3 + vt
trong đó số hạng không đổi bị loại khỏi bằng cách diễn tả mỗi biến như một sai biệt so với
giá trị trung bình của biến đó (xem Phần 4.A.1). Các phương trình chuẩn tương ứng như
sau (bỏ qua t nhoû):
^
^
β2 ∑x22 + β3 ∑x2x3 = ∑yx2
(5.2)
β2 ∑x2x3 + β3 ∑x32 = ∑yx3
(5.3)
^
^
Trước hết chúng ta hãy xem xét trường hợp đơn giản nhất của đa cộng tuyến chính
xác, với x3 = 2x2. Mặc dù một người có thể thắc mắc tại sao một nhà nghiên cứu lại đưa
biến x3 vào mô hình, nếu như vậy, như chúng ta sẽ thấy trong chương tiếp theo, tình huống
này sẽ có thể xuất hiện một cách thiếu cân nhắc. Thay x3 ở Phương trình (5.3), chúng ta có
^
^
β2 ∑x2(2x2) + β3 ∑x3(2x2) = ∑y(2x2)
Chúng ta dễ dàng thấy là, nếu chúng ta bỏ thừa số chung 2, phương trình này sẽ giống như
Phương trình (5.2). Vì vậy, hai phương trình chuẩn không độc lập với nhau, nhưng giản
lược thành một phương trình như nhau. Một phương trình đơn không đủ để có được một lời
^
^
giải duy nhất cho hai biến chưa biết β2 và β3. Vì vậy, không thể các hệ số hồi qui trong
trường hợp đa cộng tuyến chính xác.
Tổng quát hơn, giả sử là x2 và x3 hoàn toàn đa cộng tuyến với tương quan tuyến tính
x3= ax2 + b. Khi đó Phương trình (5.3) có thể được viết lại như sau
^
hoặc
hoặc
^
β2 ∑x2x3 + β3 ∑x3x3 = ∑yx3
^
^
β2 ∑x2(ax2 + b) + β3 ∑x3(ax2 + b) = ∑y(ax2 + b)
^
^
^
^
aβ2 ∑x22 + bβ2 ∑x2 + aβ3 ∑x2x3 + bβ3 ∑x3 = a∑yx2 + b∑y
vì x2, x3 và y được tính từ các giá trị trung bình của chúng, chúng ta có, từ Tính chất 2.A.4,
∑x2 = ∑x3 = ∑y = 0. Do đó, phương trình trên rút gọn (sau khi đơn giản a) thành
^
^
β2 ∑x22 + β3 ∑x2x3 = ∑yx2
Phương trình này giống như Phương trình chuẩn (5.2) đầu tiên. Trong một mô hình hồi qui
bội nếu một số biến độc lập có thể được biểu diễn bằng các tổ hợp tuyến tính của các biến
Ramu Ramanathan
4
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
độc lập khác, thì các hệ số hồi qui tương ứng không thể ước lượng được. Tuy nhiên, có thể
ước lượng được các tổ hợp tuyến tính của các thông số.
Nếu một nhà nghiên cứu tình cờ hồi qui một mô hình có đa cộng tuyến chính xác, hầu
hết các chương trình hồi qui sẽ báo lỗi dưới dạng “ma trận suy biến” hoặc “vấn đề cộng
tuyến chính xác”. Khi điều này xảy ra, nên loại một hoặc nhiều biến khỏi mô hình. Tuy
nhiên, trường hợp thường gặp nhất là tình huống khi một quan hệ gần tuyến tính (nhưng
không chính xác) tồn tại. Các hệ quả của trường hợp này sẽ được xem xét sau đây.
5.3
Gần Đa Cộng Tuyến
Khi các biến giải thích tương quan gần như tuyến tính, các phương trình chuẩn có thể
thường được giải để có những ước lượng duy nhất. Các câu hỏi đặt ra trong trường hợp này
là (1) các hệ quả của việc bỏ qua tính đa cộng tuyến là gì, (2) chúng ta xác định sự tồn tại
của đa cộng tuyến như thế nào, và (3) các biện pháp nào sẵn có để nhà nghiên cứu có thể
sử dụng nhằm tránh vấn đề này? Bây giờ chúng ta lần lượt xem xét các vấn đề này.
Các Hệ Quả Của Việc Bỏ Qua Tính Đa Cộng Tuyến
Một câu hỏi tự nhiên xuất hiện là đa
cộng tuyến có làm mất hiệu lực định lý Gauss−Markov, định lý cho rằng OLS tạo ra các
ước lượng không thiên lệch, tuyến tính tốt nhất (BLUE). Chúng ta thấy từ phát biểu của
định lý Gauss−Markov (xem Phần 3.3) là cần có các Giả định 3.2 đến 3.7 để chứng minh
định lý. Một tương quan chặt giữa các biến giải thích không vi phạm bất kỳ giả định nào.
Do đó, các ước lượng OLS vẫn BLUE; nghóa là, chúng không thiên lệch, nhất quán và
hiệụ quả. Cũng như vậy, cộng tuyến cao không có tác động gì đến giả thiết 3.8. Do đó,
phân phối của trị thống kê t cũng không bị ảnh hưởng. Tiếp tục như chúng ta đã làm trong
Phần 3.A.5, chúng ta có thể thấy là các ước lượng OLS vẫn có vẻ thích hợp nhiều nhất và
vì vậy vẫn nhất quán. Các dự báo vẫn không thiên lệch và các khoảng tin cậy vẫn có hiệu
lực. Do đó không có kết quả nào trong những kết quả trước đây bị ảnh hưởng bởi đa cộng
tuyến. Mặc dù các sai số chuẩn và các trị thống kê t của các hệ số hồi qui bị ảnh hưởng về
mặt trị số, các kiểm định dựa trên những giá trị này vẫn có hiệu lực.
KHÔNG THIÊN LỆCH VÀ CÁC TÍNH CHẤT KHÁC
Mặc dù đa cộng tuyến ảnh hưởng các hệ số hồi qui riêng lẻ,
tác động của nó đến các dự báo thường ít nghiêm trọng hơn và ngay cả có thể lại là những
tác động có lợi.
Ví dụ, trong Bảng 5.1, sai số bình phương trung bình (MSE) thời đoạn của mẫu của các giá
trị dự báo cũng như sai số phần trăm tuyệt đối trung bình (MAPE) hiện diện trong mỗi mô
hình. Lưu ý rằng, trong khi các hệ số thay đổi rất lớn giữa các mô hình, MSE không có
những thay đổi lớn như vậy. Các giá trị MSE và MAPE cũng được trình bày trong Bảng
5.2. Thật thú vị là Mô hình C có các hệ số của MILES ngược với các hệ số trong Mô hình
B, hoạt động tốt hơn xét về khía cạnh MSE và MAPE so với hai mô hình còn lại. Vì vậy,
trong trường hợp này, sự hiện diện của đa cộng tuyến thực sự có lợi cho việc dự báo.
ẢNH HƯỞNG ĐẾN DỰ BÁO
Ramu Ramanathan
5
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Từ thảo luận này rõ ràng là đa cộng tuyến không gây
ra bất kỳ thiệt hại gì đối với các tính chất lý thuyết hoặc các kiểm định thống kê. Vậy tại
sao chúng ta lại quan tâm đến đa cộng tuyến? Ngay lập tức ta sẽ thấy rằng mặc dù các ước
lượng là BLUE, các sai số chuẩn thường cao hơn, khiến trị thống kê t thấp hơn và có thể
không có ý nghóa. Đối với mô hình trong (5.1), các phương trình sau được rút ra từ Phụ lục
4.A (r là tương quan giữa X2 và X3, và S22 và S33 được định nghóa trong Phuï luïc 4.A).
^
σ2
(5.4)
Var(β2) =
S22 (1 − r2)
^
σ2
(5.5)
Var(β3) =
S33 (1 − r2)
^
^
− σ2 r
Cov(β2, β3) =
(5.6)
S22S33 (1 − r2)
Giả sử r2 rất gần 1; nghóa là, r gần ±1 (gần đa cộng tuyến). Rõ ràng từ Phương trình
ẢNH HƯỞNG ĐẾN SAI SỐ CHUẨN
^
^
(5.4) và (5.5) là các phương sai và do đó các sai số chuẩn, của β2 và β3 sẽ rất lớn khi r2 gần
bằng 1. Một phương sai lớn có nghóa là một độ chính xác kém và trị thống kê t thấp, dẫn
đến không có ý nghóa. Điều này giải thích vì sao, trong ví dụ đầu tiên, chúng ta đã tìm
thấy là khi cả dân số và GNP đều được đưa vào, các hệ số của chúng trở nên không có ý
nghóa. Thứ hai, chúng ta xem từ Phương trình (5.6) đồng phương sai giữa các hệ số hồi qui
sẽ lớn, về giá trị tuyệt đối, nếu r gần +1 hoặc −1. Nếu các ước lượng tương quan nhau, mỗi
hệ số giải thích được phần nào ảnh hưởng của X2 và X3 đến Y. Nói cách khác, chúng ta
không thể giữ X3 không đổi và chỉ tăng X2, bởi vì X3 do có tương quan với X2, nên kết quả
là cũng sẽ thay đổi.
Các kết quả của phần thảo luận trên được tóm tắt trong Tính chất 5.1
Tính chất 5.1
Các hệ quả của việc bỏ qua tính đa cộng tuyến như sau:
a. Nếu hai hoặc nhiều hơn các biến giải thích trong một mô hình hồi qui bội có quan hệ
tuyến tính một cách chính xác, thì mô hình đó không thể ước lượng được.
b. Nếu một số biến giải thích có quan hệ gần tuyến tính, thì các tham số ước lượng OLS
(và do đó dự báo căn cứ vào chúng) vẫn là BLUE và MLE và do đó không bị thiên
lệch, có hiệu quả, và nhất quán.
c. Tác động của tính chất gần đa cộng tuyến giữa các biến giải thích là làm gia tăng các
sai số chuẩn của các hệ số hồi qui và làm giảm trị thống kê t, vì vậy sẽ làm cho các hệ
số kém ý nghóa hơn (và thậm chí có thể mất ý nghóa). Tuy nhiên, các kiểm định giả
thuyết vẫn có hiệu lực.
d. Đồng phương sai giữa các hệ số hồi qui của một cặp các biến có tương quan cao sẽ rất
cao, về giá trị tuyệt đối, vì vậy khó có thể diễn dịch các hệ số riêng lẻ được.
e. Tính đa cộng tuyến có thể không có ảnh hưởng đến việc thực hiện dự báo của một mô
hình và thậm chí có thể cải thiện dự báo.
Trong một mô hình với một vài biến, các cơ hội xuất hiện tính đa cộng tuyến lớn hơn
và do đó việc diễn dịch các kết quả có thể khó khăn hơn. Tính đa cộng tuyến có thể gây ra
việc làm mất đi mức ý nghóa của nhiều hệ số, trong khi sự phù hợp của một trong số các hệ
số đó thôi lại có thể tạo ra một hệ số có ý nghóa.
Ramu Ramanathan
6
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Sự nguy hiểm của tính đa cộng tuyến là một đề tài tranh cãi không nhỏ phản biện lại
việc sử dụng không phân biệt các biến giải thích. Tầm quan trọng của lý thuyết trong việc
lập mô hình một lần nữa nên được nhấn mạnh. Có thể có những lý do thuyết phục về mặt
lý thuyết cho việc đưa vào một biến ngay cả nếu như tính đa cộng tuyến có thể khiến cho
một hệ số của nó bị mất ý nghóa. Trong trường hợp này, biến đó cần được duy trì trong mô
hình ngay cả khi tính chất đa cộng tuyến tồn tại.
SỰ VẮNG MẶT CỦA TÍNH ĐA CỘNG TUYẾN Để hoàn tất, hãy xem xét trường hợp cực đoan
khác, trong đó r = 0, có nghóa là trường hợp trong đó X2 và X3 không có tương quan (có
nghóa là không có tính đa cộng tuyến) ngược với tương quan hoàn toàn. Trong trường hợp
này, S23 = 0 và do đó hai công thức thông thường trở thành như sau (xem Phụ lục 5.A)
và
Xin lưu ý rằng các công thức này giống như các công thức thông thường khi Y được
hồi qui một cách riêng biệt theo X2 và X3. Đó là bằng chứng cho thấy khi S23 = 0, giá trị
^ , có được từ việc có cả X và X trong mô hình, đồng nhất với giá trị có được khi Y
của β
2
2
3
^
được hồi qui theo số hạng không đổi và chỉ có X2. Một kết quả tương tự đối với β3. Đồng
phương sai giữa hai hệ số hồi qui, có giá trị bằng không, cho thấy rằng tác động riêng phần
là hoàn toàn do biến được đưa vào và không phải do bất kỳ tác động gián tiếp nào từ những
biến đã có khác. Một cách lý tưởng, chúng ta thích r phải tiến tới không, nhưng trong thực
tế điều này thường không xảy ra như vậy.
Nhận dạng Tính chất Đa cộng tuyến
Trong một tình huống thực tế, tính đa cộng tuyến thường xuất hiện dưới một số dạng.
GIÁ TRỊ R2 CAO VỚI CÁC GIÁ TRỊ CỦA TRỊ THỐNG KÊ t THẤP Như chúng ta thấy trong Bài
tập 5.2, có thể tìm thấy một tình huống mà trong đó mọi hệ số hồi qui đều không có ý nghóa
(nghóa là có giá trị t thấp) nhưng trị thống kê F của kiểm định Wald thì lại rất có ý nghóa.
Tương tự, như trong Ví dụ 5.1, giá trị F của kiểm định Wald đối với một nhóm các hệ số có
thể có ý nghóa cho dù các giá trị t riêng lẻ thì không có ý nghóa.
Các tương quan từng mỗi cặp giữa các
biến giải thích có thể cao, giống như trong Ví dụ 5.1 và 5.2. Nói chung đây là một thực
hành tốt để đạt được các tương quan giữa mỗi cặp biến trong một mô hình hồi qui và kiểm
tra những giá trị cao giữa các biến giải thích. Xin lưu ý rằng một hệ số tương quan cao giữa
biến phụ thuộc và một biến độc lập không phải là một dấu hiệu của tính đa cộng tuyến.
Thực ra một tương quan như vậy rất được mong muốn.
NHỮNG GIÁ TRỊ CAO CHO CÁC HỆ SỐ TƯƠNG QUAN
Mặc dù một sự tương quan cao giữa các cặp biến
độc lập là một điều kiện đủ cho tính đa cộng tuyến, điều kiện đảo lại không cần thiết phải
đúng. Nói cách khác, tính đa cộng tuyến có thể hiện diện mặc dù sự tương quan giữa hai
biến giải thích thể hiện không cao. Điều này là do ba hay nhiều hơn các biến có thể gần
tuyến tính. Tuy vậy, những tương quan cặp có thể không cao. Kmenta (1986, trang 434) đã
đưa ra một ví dụ trong đó ba biến có liên hệ tuyến tính một cách chính xác, nhưng những
CÁC HỆ SỐ HỒI QUI NHẠY VỚI ĐẶC TRƯNG
Ramu Ramanathan
7
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
tương quan giữa bất kỳ cặp nào cũng không cao hơn 0,5. Trong trường hợp như vậy, bằng
chứng thật sự của tính đa cộng tuyến là sự quan sát cho thấy rằng các hệ số hồi qui bị thay
đổi đáng kể (ngay cả các dấu có thể đảo ngược lại, như trong Ví dụ 5.2) khi các biến được
thêm vào hoặc bỏ ra.
Mặc dù các kiểm định đã
được đề nghị, những thủ tục này đều được đề cập thoáng qua bởi vì chúng còn gây khá
nhiều tranh cãi. Do tính đa cộng tuyến là một vấn đề đối với dữ liệu hơn là đối với tự thân
một mô hình, nhiều nhà kinh tế lượng lý luận rằng các kiểm định thông thường nếu không
vô nghóa thì cũng chẳng thu thập được gì (xem Maddala, 1977, trang 186).
Farrar và Glauber (1967) đã đề nghị một nhóm các kiểm định để nhận dạng sự tính
nghiêm trọng của tính chất đa cộng tuyến. Các kiểm định này bao gồm một kiểm định Chi
bình phương, một kiểm định F, và một kiểm định t. Kiểm định chi bình phương là để xác
định xem tính đa cộng tuyến nói chung có hiện diện hay không. Sau đó sẽ là kiểm định F,
để tìm xem có những biến nào đang gây ra tính đa cộng tuyến, và cuối cùng là kiểm định t
để phát hiện bản chất của tính đa cộng tuyến. Những kiểm định này được thiết lập dưới
dạng các khái niệm có liên quan đến kiến thức về đại số tuyến tính. Những độc giả có quan
tâm với một kiến thức cơ bản về đại số ma trận có thể muốn đọc các bài báo của các tác
giả này.
Belsley, Kuh, và Welsch (1980, chương 3) đã đề nghị một thủ tục gồm hai bước để
kiểm định tính đa cộng tuyến. Bước thứ nhất là để tính toán một “con số điều kiện” cho ma
trận các số liệu. Các vấn đề cần quan tâm về tính cộng tuyến được chỉ ra nếu con số này
vượt quá 30. Trong bước hai, một đại lượng đo lường “sự phân tán phương sai” được sử
dụng. Phương pháp của họ cũng đòi hỏi một sự hiểu biết về đại số tuyến tính và vượt quá
phạm vi của cuốn sách này.
CÁC KIỂM ĐỊNH THÔNG THƯỜNG ĐỐI VỚI TÍNH ĐA CỘNG TUYẾN
Các giải pháp
Không có lời giải đơn lẻ nào có thể một lần loại bỏ được tính đa cộng tuyến. Việc xử lý vấn
đề này đòi hỏi một sự suy xét khá phức tạp. Tuy nhiên, cũng có một số phương pháp tổng
quát nhất định có thể hữu ích cho việc xử lý tính đa cộng tuyến, và các phương pháp này sẽ
được thảo luận trong nội dung sau đây.
Nếu một nhà phân tích ít quan tâm đến việc diễn dịch từng hệ số
riêng lẻ nhưng lại chú trọng nhiều hơn vào việc dự báo, thì tính đa cộng tuyến có thể không
phải là một vấn đề nghiêm trọng. Người ta có thể bỏ qua nó mà không phải chịu một hậu
quả xấu nào đáng kể. Một cách tương tự, ngay cả khi có tương quan cao giữa các biến độc
lập, nếu như các hệ số hồi qui là có ý nghóa và có những dấu và giá trị có ý nghóa, người ta
không phải quá bận tâm về vấn đề đa cộng tuyến. Nếu một hệ số có ý nghóa ngay cả trong
trường hợp có sự hiện diện của tính đa cộng tuyến, thì đó rõ ràng mới là một kết quả mạnh.
Cuối cùng, nếu một biến thuộc một mô hình vì những lý do về mặt lý thuyết, thì có thể an
toàn hơn khi chúng ta giữ biến đó lại ngay cả khi có tính đa cộng tuyến.
SỰ BỎ QUA NHẸ NHÀNG
Ramu Ramanathan
8
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Vì tính đa cộng tuyến là do những mối quan hệ chặt chẽ giữa các biến
giải thích, cách chắc chắn nhất để loại bỏ hoặc giảm bớt các tác động của tính đa cộng
tuyến là bỏ một hoặc nhiều biến ra khỏi mô hình. Như chúng tôi đã lưu ý trong nhiều ví dụ
trước, thủ tục này thường làm cải thiện sai số chuẩn của các hệ số còn lại và có thể làm cho
các biến không ý nghóa trước đó trở thành có ý nghóa, vì việc loại bỏ một biến sẽ làm giảm
bất kỳ tính đa cộng tuyến nào do biến đó gây ra. Mô hình B của Bảng 5.1 chứng tỏ điểm
này. Việc loại bỏ POP, biến có trị thống kê t thấp nhất (không kể số hạng không đổi mà nó
không bao giờ bị loại bỏ vì nó nắm giữ các tác động quân bình của các biến bị loại bỏ), làm
cho GNP trở nên có ý nghóa và làm tăng các giá trị t của hai hệ số khác. Thủ tục đơn giản
hóa mô hình dựa trên cơ sở dữ liệu, đã được đề cập ở chương trước, là một cách hiệu quả để
giảm thiểu tính đa cộng tuyến.
Các nhà khảo sát thường hay gộp quá nhiều biến vào một mô hình vì sợ rằng nếu
không thì sẽ gặp phải thiên lệch do biến bị loại bỏ đã được mô tả trong Phần 4.5. trong
trường hợp như vậy, việc loại bỏ các biến có trị thống kê t thấp nói chung sẽ làm cải thiện
mức ý nghóa của các biến còn lại. Điều quan trọng xảy ra trong tình huống này là các biến
còn lại có khả năng nắm giữ những tác động của các biến bị loại bỏ có liên quan chặt chẽ
với chúng. Người ta sẽ nhận thấy rằng sự đơn giản hóa mô hình dựa trên dữ liệu là cốt lõi
của phương pháp mô hình hóa Hendry/LSE từ tổng quát-đến-đơn giản. Tuy nhiên, có một
điểm nguy hiểm trong việc loại bỏ quá nhiều biến khỏi đặc trưng mô hình, bởi vì việc này
sẽ dẫn đến thiên lệch trong các ước lượng. Nói chung đây là một thực tế thích hợp để xem
xét tầm quan trọng về mặt lý thuyết của việc duy trì một biến không ý nghóa nếu trị số
thống kê của nó ít nhất là 1 về giá trị tuyệt đối hoặc giá trị p nhỏ hơn 0,25. Các trị số thống
kê lựa chọn mô hình đã được thảo luận trong Chương 4 nên là những hướng dẫn hữu ích
trong công việc này. Tuy nhiên, xin nhớ rằng khi hai biến giải thích có tương quan chặt chẽ
và một bị loại khỏi mô hình, biến còn lại chịu tác động của cả hai biến chứ không chỉ tác
động của biến còn lại. Điểm này hữu ích cho việc xem xét thảo luận về thiên lệch biến bị
loại bỏ trong Phần 4.5.
LOẠI BỎ CÁC BIẾN
Trong nhiều tình huống, tái xác định mô hình có thể làm giảm
tính đa cộng tuyến. Ví dụ như chúng ta có thể diễn đạt các biến theo kiểu tính trên đầu
người hơn là đưa dân số vào như là một biến giải thích. Trong Ví dụ 5.1 chẳng hạn, biến
phụ thuộc sẽ là HOUSING/POP và, thay vì POP và GNP một cách riêng biệt, chúng ta sẽ
chỉ có GNP/POP. GNP trên đầu người thì hầu như ít có tương quan với biến INTRATE hơn
biến GNP và POP. Mô hình được ước lượng bây giờ trở thành là (xem Phần Thực hành trên
máy tính 5.3)
TÁI THIẾT LẬP MÔ HÌNH
GNP
HOUSING
− 0,698 INTRATE
= 2,079 + 0,936
POP
POP
(0,62)
(2,55)
(- 3,75)
–
R2 = 0,377
d.f. = 20
r(GNP/POP, INTRATE) = 0,843
Mặc dù R2 có hiệu chỉnh ở đây hơi cao hơn trong Ví dụ 5.1, hai giá trị không thể so sánh
được với nhau vì các biến phụ thuộc khác nhau. Tính đa cộng tuyến cũng không bị loại bỏ
mà chỉ được làm giảm đi.
Ramu Ramanathan
9
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Do các biến chuỗi thời gian có nhấn mạnh vào các xu hướng một cách đặc trưng,
người ta sẽ kỳ vọng tính cộng tuyến cao giữa chúng. Một cách phổ biến để tránh điều này
là hình thành mô hình đối với những khác biệt đầu tiên, nghóa là sử dụng các biến như là
những thay đổi từ một thời đoạn này sang thời đoạn khác. Chẳng hạn, thay vì hình thành
một hàm tiêu thụ như
Ct = β1 + β2Ct-1 + β3Yt + β4Yt-1 + ut
Trong đó tất cả các biến giải thích sẽ có tương quan cao, chúng ta có thể đặt mối liên hệ
giữa thay đổi trong tiêu thụ với thay đổi trong thu nhập. Từ đó chúng ta sẽ thu được
Ct − Ct-1 = α1 + α2 (Yt − Yt-1) + vt
Nên chú ý rằng hai cách trình bày này không tương đương nhau và, cụ thể là cách
trình bày thứ nhất giải thích mức độ tiêu thụ trong khi cách thứ hai diễn tả những thay đổi
trong tiêu thụ. Người ta có thể dùng lý thuyết để quyết định một sự ưu tiên xem biến nào
phù hợp. Nếu mục tiêu là để dự báo chi phí cho tiêu dùng, một so sánh dự báo có thể được
thực hiện sau khi sử dụng mô hình thứ hai để phát ra một dự báo của mức độ tiêu dùng cho
từng thời đoạn. Tất cả các bước này đòi hỏi suy nghó và cân nhắc kỹ lưỡng.
Đôi khi các mô hình được tái thiết lập với sự kết hợp tuyến tính của các biến tương
quan được sử dụng thay vì từøng biến một như là một biến riêng biệt. Một vấn đề xuất hiện
đối với việc quyết định trọng số cho sự kết hợp tuyến tính này. Phân tích thành phần cơ sở
là một cách để thể hiện vấn đề này (xem Judge et al., 1985).
Phương pháp sử dụng thông tin bên ngoài thường được áp
dụng trong các nghiên cứu về sự ước lượng các hàm nhu cầu. Dữ liệu chuỗi thời gian về thu
nhập và giá của một mặt hàng thường thể hiện một tương quan cao, mà nó làm cho việc
ước lượng các độ co giãn về giá và thu nhập trở nên khó khăn. Một giải pháp cho vấn đề
này là ước lượng độ co giãn thu nhập từ các nghiên cứu chéo và sau đó sử dụng thông tin
đó trong mô hình chuỗi thời gian để ước lượng độ co giãn về giá. Độ co giãn giá không thể
được ước lượng từ dữ liệu chéo bởi vì mặc dù người tiêu dùng hoàn toàn khác nhau trong
các mức thu nhập, thì về cơ bản họ vẫn phải chịu cùng một loại giá. Do đó không có sự
khác nhau trong giá bán, yếu tố rất quan trọng đối việc ước lượng thành công độ co giãn về
giá (tham khảo phần thảo luận Giả thiết 3.2 trong Chương 3). Một vấn đề nghiêm trọng đối
với phương pháp này là độ co giãn thu nhập chéo và độ co giãn thu nhập theo chuỗi thời
gian có thể đo lường những thứ hoàn toàn khác nhau. Điểm này đã được Meyer và Kuh
thảo luận năm 1957.
SỬ DỤNG THÔNG TIN BÊN NGOÀI
Thủ tục để gia tăng kích thước mẫu đôi khi được đề xuất dựa trên
cơ sở cho rằng việc gia tăng sẽ làm cải thiện độ chính xác của một ước lượng và do đó
giảm thiểu được những yếu tố phản tác dụng của tính đa cộng tuyến. Điểm lưu ý trong
phương trình (5.4) và (5.5) là nếu kích thước mẫu tăng thì S22 và S33 sẽ cũng tăng. Nếu giá
trị của r2, bao gồm cả mẫu mới, giảm xuống hoặc gần như không đổi, thì các phương sai
của
và
sẽ giảm đáng kể và sẽ giảm tác động của tính đa cộng tuyến. Tuy nhiên,
2
nếu r tăng nhiều thì việc tăng kích thước mẫu có thể sẽ không có ích gì. Hơn nữa, một nhà
khảo sát thu thập cụ thể tất cả những dữ liệu nào sẵn có (phụ thuộc vào những ràng buộc
về ngân sách và thời gian), và do đó việc thêm dữ liệu có thể không khả thi vì một vấn đề
thực tế.
TĂNG KÍCH THƯỚC MẪU
Ramu Ramanathan
10
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
CÁC BIỆN PHÁP KHÁC Một số phương pháp đã được đưa ra trong cơ sở lý thuyết, hầu hết
chúng đều không theo thể thức, và không được sự nhất trí cho lắm giữa các nhà kinh tế
lượng về mức độ hữu ích của các phương pháp này. Hai trong số những kỹ thuật này là hồi
qui ngọn sóng và phân tích thành phần chính. Các kỹ thuật không được thảo luận ở đây vì
chúng đòi hỏi kiến thức đại số tuyến tính và thống kê toán học vượt quá phạm vi của cuốn
sách này. Đối với những độc giả có được nền tảng kiến thức như trên, có thể tìm thấy một
phương cách xử lý tính đa cộng tuyến khá hay trong sách của Judge, Griffiths, Hill, và Lee
(1985). Còn có những bài đọc tham khảo khác cũng hữu ích được liệt kê trong phần tài liệu
tham khảo, nhưng một số tài liệu đòi hỏi phải nắm vững kiến thức đại số ma trận hoặc các
phương pháp được trình bày ở Chương11.
} 5.4 Các ứng dụng
Chi phí bảo trì trong ngành ô-tô
Người ta đã thấy rằng một trong những tác động của tính đa cộng tuyến là làm thay đổi các
hệ số hồi qui một cách đáng kể. Tuy nhiên, nếu mối quan hệ gần tuyến tính giữa các biến
độc lập được đưa vào xem xét, thì những khác biệt hầu như không lớn lắm. Chẳng hạn như,
trong ví dụ của Toyota, nếu biến MILES được hồi qui theo một hằng số và biến AGE,
chúng ta có được (xem Phần Thực hành trên máy tính 5.4)
MILES = 4,191 + 0,134 AGE
(8,74)
(88,11)
–
Các trị thống kê t trong ngoặc đơn ở mức ý nghóa rất cao, và giá trị của R2 là 0,993,
cho ta thấy một sự ăn khớp gần như hoàn hảo. Nếu mối quan hệ này được thay thế trong
Mô hình C của Bảng 5.2, chúng ta sẽ có
^
E = 7,29 + 27,58 AGE – 151,15(4,191 + 0,134 AGE)
= - 626,18 + 7,33 AGE
con số này rất gần với giá trị trong Mô hình A. Vì vậy, cho dù Mô hình C thể hiện khác
biệt rất nhiều so với Mô hình A, khi mối quan hệ giữa hai biến độc lập MILES và AGE
được đưa vào xem xét rõ ràng, thì hai mô hình này cũng rất gần với nhau. Tuy nhiên, trong
thực tế, việc cố đạt được tất cả các quan hệ có thể có và sử dụng toàn bộ chúng là điều
không tưởng. Lời giải ở đây là để nhận dạng những biến thừa và loại bỏ chúng ra khỏi mô
hình.
Các Tỷ Lệ Mức Độ Nghèo Khó Và Các Yếu Tố Quyết Định
Bảng Dữ liệu 4-6 có dữ liệu về các tỷ lệ nghèo khó và một con số của các yếu tố có thể tác
động đến những tỷ lệ này ở 58 địa hạt của California. Biến phụ thuộc lấy tên là povrate
được xác định bằng phần trăm các gia đình có thu nhập dưới mức nghèo khó. Các biến độc
lập thì được xác định như sau (xem thêm chi tiết ở Phụ lục D và Phần Thực hành trên máy
tính 5.5):
urb = Phần trăm của tổng dân số thành thị
Ramu Ramanathan
11
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
famsize
unemp
highschl
college
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Số người trong một hộ gia đình
Tỷ lệ phần trăm thất nghiệp
Phần trăm dân số (25 tuổi trở lên) có trình độ học vấn bậc trung học
Phần trăm dân số (25 tuổi trở lên) đã hoàn tất chương trình cao đẳng
hoặc đại học trở lên
medinc = Giá trị trung vị của thu nhập gia đình tính theo đơn vị ngàn đô-la
Bảng 5.3 có phần in ra từ máy tính có kèm chú thích để nghiên cứu.
} Bảng 5.3
=
=
=
=
Phần in ra từ máy tính có chú thích cho Ứng dụng ở Phần 5.4
[Ma trận của các hệ số tương quan theo từng cặp được trình bày ở đây. Cột cuối cùng chỉ số
biến. Vì vậy, sự tương quan giữa biến #5 (highschl) và biến #4 (unemp) là - 0,109. Các giá
trị trên đường chéo đều bằng 1,000 bởi vì sự tương quan giữa một biến và chính nó là 1.
Xin lưu ý rằng các hệ số tương quan cho thấy một vài giá trị cao. Như chúng ta đã kỳ vọng,
tỷ lệ trình độ bậc cao đẳng đại học có tương quan dương với trung vị thu nhập và tương
quan âm với tỷ lệ thất nghiệp. Chúng ta có thể kỳ vọng rằng những tương quan này cho
thấy sự xuất hiện của tính đa cộng tuyến giữa các biến này và có tác động đến các kết quả
hồi qui.]
Các hệ số tương quan, sử dụng số quan saùt 1 – 58
3) famsize
4) unemp
5) highschl
6) college
0.350
0.110
0.211
- 0.358
1.000
0.485
- 0.508
- 0.300
1.000
- 0.109
- 0.757
1.000
- 0.358
1.000
7)
medinc
- 0.084 (2
- 0.035 (3
- 0.714 (4
- 0.280 (5
0.848 (6
1.000 (7
[Ước lượng mô hình tổng quát với tất cả các biến giải thích.]
2) urb
1.000
(2
(3
(4
(5
(6
MODEL 1: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
0)
2)
3)
4)
5)
6)
7)
VARIABLE
COEFFICIENT
STDERROR
T STAT
2Prob(t > |T|)
const
urb
famsize
unemp
highschl
college
medinc
16.8176
-0.0187
6.0918
-0.0118
-0.1186
0.1711
-0.5360
8.5026
0.0148
1.8811
0.1195
0.0681
0.0982
0.0704
1.978
-1.270
3.238
-0.099
-1.741
1.743
-7.619
0.053350
0.210010
0.002116
0.921724
0.087742
0.087355
0.000000
Mean of dep. var.
Error Sum of Sq (ESS)
Unadjusted R-squared
F-statistic (6. 51)
Durbin-Watson stat.
Ramu Ramanathan
9.903
146.0911
0.836
43.3875
1.904
S.D. of dep. variable
Std Err of Resid. (sgmahat)
Adjusted R-squared
p-value for F()
First-order autocorr. coeff
12
*
***
*
*
***
3.955
1.6925
0.817
0.000000
0.040
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
MODEL SELECTION STATISTICS
SGMASQ
HQ
GCV
2.86453
3.53259
3.2577
AIC
SCHWARZ
RICE
3.20646
4.11172
3.32025
FPE
SHIBATA
3.21025
3.1268
Excluding the constant. p-value was highest for variable 4 (uemp).
} Bảng 5.3 (tiếp theo)
[Ta lưu ý rằng biến urb và unemp có giá trị p cao hơn bất cứ mức chấp nhận hợp lý nào và
do đó sẽ là những biến bị loại ra khỏi mô hình. đặc biệt bởi vì về lý thuyết không có lý do
nào để giữ chúng lại. Nghiêm trọng hơn, ta lưu ý biến college có dấu dương không đúng
như kỳ vọng, dấu dương. Mọi yếu tố khác như nhau, nếu một quốc gia có phần trăm dân số
có trình độ đại học cao hơn, ta kỳ vọng tỷ lệ nghèo của quốc gia đó thấp hơn. Như vậy ta
kỳ vọng dấu âm cho biến college, điều này trái với ước lượng thực tế. Sự đa cộng tuyến có
thể gây nên dấu “sai”? Bởi vì biến unemp cực kỳ không ý nghóa, với giá trị p trên 90%, ta
có thể loại bỏ nó một cách an toàn mà không sợ ảnh hưởng kết quả.]
MODEL 2: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
0)
2)
3)
5)
6)
7)
VARIABLE
COEFFICIENT
STDERROR
T STAT
2Prob(t > |T|)
const
urb
famsize
highschl
college
medinc
16.5654
-0.0184
6.0496
-0.1166
0.1746
-0.5343
8.0325
0.0142
1.8145
0.0646
0.0905
0.0677
2.062
-1.296
3.334
-1.805
1.929
-7.894
0.044192
0.200710
0.001583
0.076822
0.059138
0.000000
Mean of dep. var.
Error Sum of Sq (ESS)
Unadjusted R-squared
F-statistic (5. 52)
Durbin-Watson stat.
9.903
146.1190
0.836
53.0737
1.901
**
***
*
*
***
S.D. of dep. variable
3.955
Std Err of Resid. (sgmahat)
1.6763
Adjusted R-squared
0.820
p-value for F()
0.000000
First-order autocorr. coeff
0.041
MODEL SELECTION STATISTICS
SGMASQ
HQ
GCV
2.80998
3.36659
3.13421
AIC
SCHWARZ
RICE
3.09837
3.83444
3.1765
FPE
SHIBATA
3.10067
3.04053
Excluding the constant. p-value was highest for variable 2 (urb).
Of the 8 model selection statistics. 8 have improved.
[Khoâng có sự thay đổi trong các hệ số ước lượng và độ lệch chuẩn. Urb vẫn không có ý
nghóa và sẽ được loại bỏ tiếp theo.]
MODEL 3: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
VARIABLE
Ramu Ramanathan
COEFFICIENT STDERROR
13
T STAT
2Prob(t > |T|)
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
0)
3)
5)
6)
7)
const
famsize
highschl
college
medinc
Phương pháp phân tích
Bài đọc
19.1721
5.4140
-0.1388
0.1953
-0.5523
7.8263
1.7581
0.0627
0.0897
0.0667
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
2.450
3.079
-2.214
2.178
-8.274
0.017634
0.003283
0.031161
0.033882
0.000000
**
***
**
**
***
} Bảng 5.3 (tiếp theo)
Mean of dep. var.
Error Sum of Sq (ESS)
Unadjusted R-squared
F-statistic (4. 53)
Durbin-Watson stat.
9.903
150.8385
0.831
65.0877
2.025
S.D. of dep. variable
3.955
Std Err of Resid. (sgmahat)
1.6870
Adjusted R-squared
0.818
p-value for F()
0.000000
First-order autocorr. coeff
-0.025
MODEL SELECTION STATISTICS
SGMASQ
HQ
GCV
2.84601
3.31139
3.1145
AIC
SCHWARZ
RICE
3.09003
3.69066
3.14247
FPE
SHIBATA
3.09135
3.04905
Of the 8 model selection statistics. 8 have improved.
[Bây giờ tất cả hệ số đều có ý nghóa ở mức dưới 5%, nhưng hệ số của biến college vẫn có
dấu sai. Những hệ số khác đã thay đổi một cách đáng kể hơn. Bởi vì trung vị của thu nhập
được xác định bởi phần trăm tốt nghiệp trung học và đại học, loại bỏ biến này ra khỏi mô
hình là có ý nghóa ngay cả khi nó có hệ số rất có ý nghóa. Hiệu ứng của biến này được thể
hiện một cách gián tiếp bởi biến highscl và college. Tham khảo phần thảo luận trong phần
4.7, diễn giải các hệ số hồi qui.]
MODEL 4: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
0)
3)
5)
6)
VARIABLE
COEFFICIENT
STDERROR
T STAT
2Prob(t > |T|)
const
famsize
highschl
college
53.2862
-3.9594
-0.4137
-0.4744
9.9879
2.0194
0.0798
0.0582
5.335
-1.961
-5.182
-8.151
0.000002
0.055081
0.000003
0.000000
Error Sum of Sq (ESS)
Unadjusted R-squared
F-statistic (3. 54)
346.1406
0.612
28.3753
***
*
***
***
Std Err of Resid. (sgmahat)
2.5318
Adjusted R-squared
0.590
p-value for F()
0.000000
MODEL SELECTION STATISTICS
SGMASQ
HQ
GCV
6.41001
7.24045
6.88483
AIC
SCHWARZ
RICE
6.85058
7.8966
6.92281
FPE
SHIBATA
6.85208
6.79111
[Một điều đáng quan tâm là giờ đây biến college có dấu âm như kỳ vọng và có ý nghóa. Sự
thay đổi xảy ra có thể do sự đa cộng tuyến tồn tại giữa biến medinc và vài hoặc tất cả các
biến giải thích khác. Tuy nhiên, có sự giảm đáng kể trong giá trị R 2 từ 0,818 xuống 0,590.
Ramu Ramanathan
14
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ngoài ra, tất cả các trị thống kê lựa chọn mô hình đều trở nên xấu đi. Bởi vì dấu dương của
biến college không có nghóa về mặt lý thuyết, ta không nên đặt biến medinc vào lại mô
hình chỉ nhằm để tăng độ phù hợp có hiệu chỉnh hoặc để cải thiện chỉ tiêu lựa chọn. Từ đây
rõ rằng thấy rằng cần phải có sự xét đoán tốt và kinh nghiệm khi đánh giá các kết quả. Dựa
mù quáng trên những đo lường cứng nhắc có thể dẫn ta lạc lối.
Để chứng thực sự đa cộng tuyến đáng ngờ, ta liên kết biến medinc với các yếu tố
quyết định của nó.]
} Bảng 5.3 (tiếp theo)
MODEL 5: OLS estimates using the 58 observations 1-58
Dependent variable: medinc
0)
3)
4)
5)
6)
VARIABLE
COEFFICIENT
STDERROR
T STAT
2Prob(t > |T|)
const
famsize
unemp
highschl
college
-44.9132
16.8193
-0.4677
0.3649
0.9921
15.3482
2.6613
0.2193
0.1222
0.1287
-2.926
6.320
-2.133
2.986
7.707
0.005042
0.000000
0.037586
0.004277
0.000000
Mean of dep. var.
Error Sum of Sq (ESS)
Unadjusted R-squared
F-statistic (4. 53)
35.338
589.6206
0.849
74.2331
***
***
**
***
***
S.D. of dep. variable
8.264
Std Err of Resid. (sgmahat) 3.3354
Adjusted R-squared
0.837
p-value for F()
0.000000
MODEL SELECTION STATISTICS
SGMASQ
HQ
GCV
11.1249
12.9441
12.1744
AIC
SCHWARZ
RICE
12.0788
14.4266
12.2838
FPE
SHIBATA
12.084
11.9186
[Tất cả các hệ số đều rất ý nghóa và có dấu như kỳ vọng. Ngoài ra, bình phương R có hiệu
chỉnh có giá trị cao, như vậy khẳng định rằng đa cộng tuyến hẳn phải là lý do về dấu dương
không như kỳ vọng của biến college trong mô hình tỷ lệ nghèo.]
Tóm tắt
Nếu một mối quan hệ tuyến tính đúng đắn tồn tại giữa hai hay nhiều biến giải thích, các
biến đó được gọi là đa cộng tuyến một cách chính xác. Trong tình huống như vậy, các hệ số
hồi qui tương ứng với các biến độc lập này không thể ước lượng một cách duy nhất.
Nếu vài biến giải thích là gần đa cộng tuyến, các ước lượng OLS vẫn không thiên lệch,
nhất quán, và là ước lượng không thiên lệch tuyến tính tốt nhất (BLUE). Do đó, các dự báo
cũng không thiên lệch và là nhất quán. Hơn nữa, tất cả các kiểm định của các giả thuyết
đều hiệu lực.
Hiệu ứng của gần đa cộng tuyến là tăng độ lệch chuẩn của các hệ số hồi qui và giảm
các trị thống kê t của chúng. Điều này có khuynh hướng làm cho các hệ số kém ý nghóa hơn
nếu không có sự đa cộng tuyến. Do đó, nên chú ý khi rút ra suy luận và không đưa ra kết
luận rằng mọi biến không có ý nghóa nên bị loại bỏ.
Ramu Ramanathan
15
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Nếu hai biến là gần đa cộng tuyến, đồng phương sai giữa cặp hệ số hồi qui là cao, chỉ
ra rằng mỗi hệ số được thể hiện một phần qua hiệu ứng của biến khác. Có thể có dấu ngược
khi thêm vào hay bỏ đi một biến mới. Điều này làm cho việc diễn giải một hệ số hồi qui
riêng lẻ khó khăn hơn. Do vậy, hiệu ứng riêng phần của một biến đơn khó đo lường được.
Nếu một cặp biến độc lập không tương quan, thì hệ số hồi qui của mỗi biến là không
thay đổi cho dù biến kia được đưa vào mô hình hay không.
Đa cộng tuyến có thể được nhận dạng bằng cách khảo sát dạng tương quan giữa các
biến giải thích. Vì các biến chuỗi thời gian có chiều hướng phát triển cùng nhau, các mô
hình dựa trên chúng sẽ thiên về các bài toán đa cộng tuyến hơn là các mô hình chéo. Nếu
bỏ một hay nhiều biến độc lập làm biến đổi mạnh kết quả, thì chắc chắn sự đa cộng tuyến
là nguyên nhân.
Không có giải pháp duy nhất để loại bỏ sự đa cộng tuyến. Nếu trọng tâm là dự báo, đa
cộng tuyến có thể thường được làm ngơ vì khả năng dự báo thường không bị tác đôïng
nhiều. Nếu các biến tương tự có mặt trong mô hình, thì khuyên nên loại bỏ các biến thừa.
Các biến có thể loại bỏ là những biến có giá trị t rất thấp. Đơn giản hóa mô hình dựa trên
dữ liệu là cách tiếp cận có thể dùng được ở đây. Tuy nhiên, ta nên nhớ việc loại bỏ các biến
quan trọng sẽ gây ra sự thiên lệch. Nên dùng các kiến thức lý thuyết để quyết định nên hay
không giữ một biến lại mặc dù các vấn đề của đa cộng tuyến có thể có.
Tăng kích thước mẫu cũng là lời khuyên, với điều kiện dữ liệu mới có cùng hoặc ít
cộng tuyến hơn dữ liệu gốc. Các phương pháp khác như hồi qui ngọn sóng và phân tích
thành phần chính có thể được dùng, nhưng đây là các thủ tục không theo thể thức và không
có sự nhất trí về sự hữu dụng của chúng giữa các nhà kinh tế lượng.
Thuật ngữ
Absence of multicollinearity
Exact multicollinearity
First differences
Multicollinearity
Near multicollinearity
Perfect multicollinearity
Ramu Ramanathan
Sự vắng mặt của đa cộng tuyến
Đa cộng tuyến chính xác
Sai phân bậc nhất
Đa cộng tuyến
Gần đa cộng tuyến
Đa cộng tuyến hoàn hảo
16
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
5.A PHỤ LỤC
Chứng Minh các Phương Trình (5.4) đến (5.6)
Dùng các ký hiệu của Phần 4.A.1. các Phương trình chuẩn (5.2) và (5.3) có thể được
giải cho các hệ số β như sau (xem Phương trình 4.A.6 đến 4.A.15).
βˆ 2 =
S y 2 S33 - S y 3 S 23
βˆ 3 =
Trong đó
Dễ dàng thấy rằng
(5.A.1)
∆
S y 3 S22 - S y 2 S23
(5.A.2)
∆
∆ = S22S33 – S223
(5.A.3)
E(Sy2) = β2S22 + β3S23
(5.A.4)
E(Sy3) = β2S23 + β3S33
(5.A.5)
Sy2 = ∑yx2 = ∑x2(β2x2 + β3x3 + v)
= β2S22 + β3S23 + Sv2
(5.A.6)
Ta có
Sử dụng phương trình (5.1). Bởi vì E(v) = 0 và các x là không ngẫu nhiên. E(Sv2) =
E(∑vx2) = ∑x2E(v) = 0. Do đó. E(Sy2) = β2S22 + β3S23, vậy phương trình (5.A.4) được
chứng minh. Chứng minh phương trình (5.A.5) tương tự. Tiếp theo ta chứng minh
raèng
σ 2 S33
∆
(5.A.7)
σ 2 S22
Var (βˆ 3 ) =
∆
(5.A.8)
Var (βˆ 2 ) =
- σ 2 S23
Cov(βˆ 2 , βˆ 3 ) =
∆
(5.A.9)
Từ (5.A.6) và Tính chất 2.8c. Var(Sy2) = Var(Sv2). Từ Tính chất 2.9e.
Var (Sy2) = ∑x22Var(v) = σ2∑x22 = σ2S22
Ramu Ramanathan
17
Thuc Doan/Hao Thi
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Var (Sy3) = ∑x32Var(v) = σ2∑x32 = σ2S33
Cov(Sy2, Sy3) = ∑x2x3Var(v) = σ2S23
Ngoài ra, từ Tính chaát 2.4a
Var(βˆ 2 ) =
=
=
1 2
[S33 Var (S y 2 ) + S223 Var (S y 3 ) - 2S33 S23 Cov(S y 2 , S y 3 )]
2
∆
σ2 2
[S33 S 22 + S223 S33 - 2S33 S23 S23 ]
∆2
σ2
∆2
[ S 332 S 22 - S223S33 ] =
σ2
∆2
S 33 [ S 33 S 22 - S223 ] =
σ 2 S 33
∆
Vậy phương trình (5.A.7) chứng minh xong. Thủ tục chứng minh (5.A.8) và (5.A.9)
tương tự.
Gọi r là hệ số tương quan giữa X2 và X3 (xem Phương trình 2.11). Theo định
nghóa, r 2 = S223 /(S22 S33 ) . Do đó.
∆ = S22S33(1 – r2)
Dùng kết quả này vào Phương trình (5.A.7). (5.A.8), và (5.A.9), ta được Phương
trình (5.4). (5.5), vaø (5.6).
Ramu Ramanathan
18
Thuc Doan/Hao Thi