Tải bản đầy đủ (.docx) (32 trang)

HIỆN TƯỢNG ĐA CỘNG TUYẾN TRONG KINH TẾ LƯỢNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (334.46 KB, 32 trang )

Hànội - 2013
TRƯỜNG ĐẠI HỌC THƯƠNG MẠI
KHOA MARKETING

BÀI THẢO LUẬN
MÔN: KINH TẾ LƯỢNG
ĐỀ TÀI:
HIỆN TƯỢNG ĐA CỘNG TUYẾN
Giáo viên hướng dẫn:
Nhóm sinh viên thực hiện: Nhóm 7
Lớp học phần: 1312AMAT0411
Mục lục
LỜI MỞ ĐẦU
I, Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo.
Nguyên nhân.
II, Ước lượng khi có đa cộng tuyến
1. Ước lượng trong trường hợp có đa cộng tuyến hoàn hảo.
2. Ước lượng trong trường hợp có đa cộng tuyến không hoàn hảo.
III, Hậu quả của đa cộng tuyến
1. Phương sai và hiệp phương sai của các ước lượng bình quân bé nhất
lớn.
2. Khoảng tin cậy rộng hơn.
3. Tỷ số t mất ý nghĩa.
4. R
2
cao nhưng tỉ số t ít ý nghĩa.
5. Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của
chúng trở nên rất nhạy đối với những thay đổi nhỏ trong số liệu.
6. Dấu của các ước lượng của hệ số hồi quy có thể sai
7. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình
sẽ thay đổi về độ lớn của các ước lượng hoặc dấu của chúng.


IV, Phát hiện ra sự tồn tại của đa cộng tuyến.
1. R
2
cao nhưng tỉ số t thấp.
2. Tương quan cặp giữa các biến giải thích cao.
3. Xem xét tương quan riêng.
4. Hồi quy phụ.
5. Nhân tử phóng đại phương sai.
6. Độ đo Theil.
V, Biện pháp khắc phục.
1. Sử dụng thông tin tiên nghiệm
2. Thu thập thêm số liệu hoặc lấy thêm mẫu mới.
3. Bỏ biến.
4. Sử dụng sai phân cấp một.
5. Giảm tương quan trong hồi quy đa thức.
6. Một số biện pháp khác.
VI, Bài tập ví dụ.
Cộng hòa xã hội chủ nghĩa Việt Nam
Độc lập - Tự do - Hạnh phúc
***
BIÊN BẢN HỌP NHÓM
Nhóm 7 - lớp 1312AMAT0411
Ngày: 30/03/2013
Địa điểm: sân thư viên Đại Học Thương Mại
Nội dung: Tổng hợp nội dung phân công, thảo luận nói rõ về đề tài
Stt Thành viên Chức vụ Phân công
1 Nguyễn Thị Nga Nhóm trưởng Tìm số liệu, tổng
hợp bài
2 Thành viên Lý thuyết
3 Nguyễn Thị Ngân Thành viên Bài ví dụ

4 Vũ Thị Ngân Thành viên Bài ví dụ
5 Hoàng Trung Nghĩa Thành viên Làm slide
6 Đào Thị Ngoan Thành viên Tính cấp thiết của
đề tài + tổng kết
7 Nguyễn Quý Ngọc Thành viên Thuyết trình + làm
ví dụ
8 Phạm Thị Ngọc Lý thuyết
9 Phùng Hồng Ngọc Thành viên Thuyết trình lý
thuyết
10 Thành viên
Nhóm trưởng
Nguyễn Thị Nga
LỜI MỞ ĐẦU
Trong mô hình phân tích hồi quy bội, chúng ta giả thiết giữa các biến giải thích
X
i
của mô hình độc lập tuyến tính với nhau, tức là các hệ số hồi quy đối với một
biến cụ thể là số đo tác động riêng phần của biến tương ứng khi tất cả các biến
khác nhau trong mô hình được giữ cố định. Tuy nhiên khi giả thiết đó bị vi phạm
tức là các biến giải thích có tương quan thì chúng ta không thể tách biệt sự ảnh
hưởng riêng biệt của 1 biến nào đó.
Hiện tượng trên được gọi là đa cộng tuyến. Vậy để hiểu đa cộng tuyến là gì? Hậu
quả của hiện tượng này như thế nào? Làm thế nào để phát hiện và biện pháp khắc
phục nó. Để trả lời câu hỏi trên, sau đây chúng ta cùng đi thảo luận về đề tài “Hiện
tượng đa cộng tuyến”.
I, Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo.
Nguyên nhân.
1. Bản chất của đa cộng tuyến – đa cộng tuyến hoàn hảo và không hoàn hảo.
Khi xây dựng mô hình hồi quy bội, trường hợp lý tưởng là các biến X
i

trong mô
hình không có tương quan với nhau; mỗi biến X
i
chứa một thông tin riêng về Y,
thông tin không chứa trong bất kì biến X
i
khác. Trong thực hành, khi điều này xảy
ra ta không gặp hiện tượng đa cộng tuyến.
Trong những trường hợp còn lại, ta gặp hiện tượng đa cộng tuyến. Giả sử ta phải
ước lượng hàm hồi quy Y gồm k biến giải thích X
1
, X
2
, X
3
,… ,X
k
Y
1
= β
1
+ β
2
X
2i
+ β
3
X
3i
+ U

i
,
),1( ni =
Các biến X
2
, X
3
, , X
k
gọi là các đa cộng tuyến hoàn hảo hay còn gọi là đa cộng
tuyến chính xác. Điều này xảy ra nếu tồn tại λ
2
, , λ
k
là các hằng số không đồng
thời bằng không sao cho:
λ
2
X
2
+ λ
3
X
3
+ + λ
k
X
k
= 0
Các biến X

2
, X
3
, , X
k
gọi là các đa cộng tuyến không hoàn hảo nếu tồn tại
λ
2
, , λ
k
không đồng thời bằng không sao cho:
λ
2
X
2
+ λ
3
X
3
+ + λ
k
X
k
+ V
i
= 0 (1.1)
trong đó V
i
là sai số ngẫu nhiên.
Trong (1.1) giả sử


λ
i
≠ 0 khi đó ta biểu diễn:
X
i
=
32 2
2 3

i i i i
V
X X
λ
λ λ
λ λ λ λ
− − − − −
(1.2)
Từ (1.2) ta thấy hiện tượng đa cộng tuyến xảy ra khi một biến giải thích được
biểu diễn dưới dạng tổ hợp tuyến tính của các biến giải thích còn lại đối với mọi
điểm của tập số liệu.
2. Nguyên nhân.
 Do phương pháp thu thập dữ liệu: Các giá trị của các biến độc lập phụ thuộc
lẫn nhau trong mẫu nhưng không phụ thuộc lẫn nhau trong tổng thể.
 Do mẫu lấy không ngẫu nhiên
 Do quá trình xử lý tính toán số liệu
 Do bản chất kinh tế xã hội các biến ít nhiều có quan hệ tuyến tính với nhau
 Một số nguyên nhân khác
Ví dụ: Nữ sẽ có khuynh hướng chi tiêu nhiều hơn Nam cho việc mua sắm quần

áo. Điều này có thể đúng với mẫu mà không đúng với tổng thể. Trong tổng thể sẽ
có các quan sát về các cá nhân là Nam nhưng chi tiêu cho việc mua sắm quần áo
lại nhiều hơn nữ.
• Các dạng mô hình dễ xảy ra đa cộng tuyến:
- Hồi quy dạng các biến độc lập được bình phương sẽ xảy ra đa cộng tuyến, đặc
biệt khi phạm vi giá trị ban đầu của biến độc lập là nhỏ.
- Các biến độc lập vĩ mô được quan sát theo chuỗi thời gian.
II. Ước lượng khi có đa cộng tuyến
1. Ước lượng trong trường hợp có đa cộng tuyến hoàn hảo.
Sau đây chúng ta sẽ chỉ ra rằng khi có đa cộng tuyến hoàn hảo thì các hệ số hồi
quy là không xác định còn các sai số tiêu chuẩn là vô hạn. Để đơn giản về mặt
trình bày chúng ta sẽ xét mô hình hồi quy 3 biến và sử dụng dạng độ lệch trong đó
YYy
ii
−=
;
XXx
ii
−=
;
),1( ni =
(1.3)

=
=
n
i
i
Y
n

Y
1
1
;

=
=
n
i
i
X
n
X
1
1
(1.4)
thì mô hình hồi quy 3 biến có thể viết lại dưới dạng:
iiiii
exxy ++=
∧∧
3322
ββ
(1.5)
Theo tính toán trong chương hồi quy bội ta thu được các ước lượng:
( )
( ) ( )
( )( ) ( )
2
2
2

2
2
2
2
2
2
2
22
2
∑∑∑
∑∑∑


=

iii
iiiii
xxx
xyxxy
β
(1.6)
( )
( )
( )( )
( )( )
( )
2
32
2
2

2
3
322
2
23
3
∑∑∑
∑∑∑∑


=

iiii
iiiiiii
xxxx
xxxyxxy
β
(1.7)
Giả sử:
ii
XX
23
λ
=
trong đó
λ
là hằng số khác không, thay điều kiện này vào
(1.6) ta được:
( )
( )

( )
( )
( )( ) ( )
2
2
2
22
2
2
2
2
22
2
22
2
∑∑∑
∑∑∑∑


=

iii
iiiiii
xxx
xxyxxy
λλ
λλλ
β
(1.8)
là biểu thức không xác định. Tương tự như vậy ta cũng có thể chỉ ra


3
β
không
xác định.
Vì sao chúng ta lại thu được kết quả như ở (1.8)? Lưu ý đến ý nghĩa của

2
β

thể giải thích điều đó.

2
β
cho ta tốc độ thay đổi trung bình của
Y
khi
2
X

thay đổi
1 đơn vị còn
3
X
không đổi. Nhưng khi
ii
XX
23
λ
=

thì điều đó có nghĩa là không
thể tách ảnh hưởng của
2
X

3
X
khỏi mẫu đã cho. Trong kinh tế lượng thì điều
này phá hủy toàn bộ ý định tách ảnh hưởng riêng của từng biến lên biến phụ thuộc.
Thí dụ:
ii
XX
23
λ
=
thay điều kiện này vào (1.5) ta được:
iiiiiiii
exexexxy +=++=++=
∧∧∧∧∧
22322322
()(
αβλβλββ
Trong đó:
)(
32
∧∧∧
+=
βλβα
Áp dụng công thức tính ước lượng của phương pháp bình phương nhỏ nhất thông
thường ta được:



=+=
∧∧∧
i
ii
x
yx
2
2
32
)(
βλβα
Như vậy dù
α
được ước lượng một cách duy nhất thì cũng không thể xác định
được

2
β

3

β
từ một phương trình 2 ẩn.
Như vậy trong trường hợp đa cộng tuyến hoàn hảo, chúng ta không thể nhận
được lời giải duy nhất cho các hệ số hồi quy riêng, nhưng trong khi đó ta lại có thể
nhận được lời giải duy nhất cho tổ hợp tuyến tính của các hệ số này. Chú ý rằng
trong trường hợp đa cộng tuyến hoàn hảo thì phương sai và các sai số tiêu chuẩn
của các ước lượng


2
β

3

β
là vô hạn.
2. Ước lượng trong trường hợp có đa cộng tuyến không hoàn hảo
Đa cộng tuyến hoàn hảo chỉ là 1 trường hợp đặc biệt hiếm xảy ra. Trong các số
liệu liên quan đến chuỗi thời gian, thường xảy ra đa cộng tuyến không hoàn hảo.
Xét mô hình (1.5). Bây giờ chúng ta giả thiết giữa
2
X

3
X
có cộng tuyến
không hoàn hảo theo nghĩa:

iii
Vxx
+=
23
λ
Trong đó
0≠
λ
,
i

V
là nhiễu ngẫu nhiên sao cho
0
2
=

ii
Vx
Trong trường hợp này theo phương pháp bình phương nhỏ nhất ta dễ dàng thu
được các ước lượng

2
β

3

β
.
Chẳng hạn:
( )
( )
( )
( )
( )( ) ( )
2
2
2
2
2
222

2
2
2
i2
22
2
2
2
2
V
∑∑ ∑∑
∑∑ ∑∑ ∑∑
−+
+−+
=
ii
i
i
i
iiiiiii
xVxx
xyxyVxxy
λλ
λλλ
β
(1.9)
Trong trường hợp này không có lý do gì để nói rằng (1.9) là không ước lượng
được.
III. Hậu quả của đa cộng tuyến
Trong trường hợp có tồn tại đa cộng tuyến gần hoàn hảo thì có thể gặp một số

tình huống sau:
1. Phương sai và hiệp phương sai của các ước lượng bình quân bé nhất lớn.
Xét mô hình hồi quy 3 biến dạng (1.5), theo công thức tính phương sai và hiệp
phương sai của các ước lượng và ta có:
var() = (1.10)
var() = (1.11)
và cov() = (1.12)
trong đó là hệ số tương quan giữa ,
từ (1.10) và (1.11) ta thấy khi tăng dần đến 1 (nghĩa là cộng tuyến tăng) thì
phương sai của 2 ước lượng này tăng dần đến vô hạn. (1.12) chỉ ra rằng khi tăng
dần đến 1 thì cov(, ) tăng về giá trị tuyệt đối.
2. Khoảng tin cậy rộng hơn
Như ta đã biết trong chương trước khoảng tin cậy 95% cho và khi đã biết
là:
± 1.96se() và ± 1.96se()
Trong đó:
Se() = =
Se() = =
Cho nên ta có thể viết lại các khoảng tin cậy 95% cho là:
± 1.96 (1.13)
Và cho là:
± 1.96 (1.14)
(1.13) và (1.14) chứng tỏ khi càng gần tới 1 thì khoảng tin cậy cho các tham số
càng rộng.
Do đó, trong trường hợp có đa cộng tuyến gần hoàn hảo thì số liệu của mẫu có
thể thích hợp với tập các giả thiết khác nhau. Vì thế xác suất chấp nhận giả thiết sai
tăng lên (tức là tăng sai lầm loại II).
3. Tỷ số t mất ý nghĩa
Như đã biết, khi kiểm định giả thiết : = 0, chúng ta đã sử dung tỷ số
t = và đem so sánh giá trị t đã được ước lượng với giá trị tới hạn t. Nhưng khi có

đa cộng tuyến gần hoàn hảo thì sai số tiêu chuẩn ước lượng được sẽ rất cao vì vậy
làm cho tỷ số t nhỏ đi về giá trị tuyệt đối. Kết quả là sẽ làm tăng khả năng chấp
nhận giả thiết .
4. cao nhưng tỷ số t ít ý nghĩa.
Để giải thích điều này, ta xét mô hình hồi quy k biến như sau:
Trong trường hợp có đa cộng tuyến gần hoàn hảo, như đã chỉ ra ở trên, ta có thể
tìm được một hoặc một số hệ số góc riêng là không có ý nghĩa về mặt thống kê trên
cơ sở kiểm định t. Nhưng trong khi đó lại có thể rất cao, nên bằng kiểm định F,
chúng ta có thể bác bỏ giả thiết: : = = …… = = 0. Mâu thuẫn này cũng là tín hiệu
của đa cộng tuyến.
5. Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của chúng trở nên rất
nhạy đối với những thay đổi nhỏ trong số liệu
6. Dấu của các ước lượng của hệ số hồi quy có thể sai.
Khi có đa cộng tuyến gần hoàn hảo thì có thể thu được các ước lượng của các hệ
số hồi quy trái với điều chúng ta mong đợi. Chẳng hạn lý thuyết kinh tế cho rằng
đối với hàng hóa bình thường khi thu nhập tăng, cầu hàng hóa tang, nghĩa là khi
hồi quy thu nhập là một trong các biến giải thích, biến phụ thuộc là lượng cầu của
hàng hóa, nếu xảy ra hiện tượng đa cộng tuyến gần hoàn hảo thì ước lượng của hệ
số của biến thu nhập có thể mang dấu âm – mâu thuẫn với điều ta mong đợi.
7. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô hình sẽ thay đổi về
độ lớn của các ước lượng hoặc dấu của chúng.
Tóm lại triệu chứng chủ yếu của đa cộng tuyến mà ta đã nói ở trên là tăng sai số
tiêu chuẩn. Sai số tiêu chuẩn cao hơn có ngụ ý rằng sự biến thiên của hệ số hồi quy
từ mẫu này đến mẫu khác cao hơn do đó một sự thay đổi nhỏ trong số liệu hoặc
trong mô hình hồi quy (như thêm vào hoặc bớt đi một biến) sẽ gây ra sự thay đổi
lớn của các hệ số.
Như vậy chúng ta đã biết được một số hậu quả của đa cộng tuyến. Nhưng dù hậu
quả thế nào đi chăng nữa thì điều quan trọng là làm thế nào để thấy được sự tồn tại
của nó để ta có thể ngăn ngừa những hậu quả tai hại đối với thủ tục ước lượng và
sử dụng mô hình hồi quy để dự đoán, điều khiển hoặc hiểu quá trình liên quan với

nó.
II. Các cách phát hiện hiện tượng đa cộng tuyến
1. R
2
cao nhưng tỉ số t thấp
Trong trường hợp R
2
cao (thường R
2
> 0,8) mà tỉ số t thấp thì đó chính là dấu hiệu
của hiện tượng đa cộng tuyến .
2. Tương quan cặp giữa các biến giải thích cao
Nếu hệ số tương quan cặp giữa các biến giải thích cao (vượt 0,8) thì có khả năng
có tồn tại đa cộng tuyến. Tuy nhiên tiêu chuẩn này thường không chính xác. Có
những trường hợp tương quan cặp không cao nhưng vẫn có đa cộng tuyến. Thí dụ,
ta có 3 biến giải thích X
1
, X
2
, X
3
như sau
X
1
= (1,1,1,1,1, 0,0,0,0,0, 0,0,0,0,0, 0,0,0,0,0)
X
2
= (0,0,0,0,0, 1,1,1,1,1, 0,0,0,0,0, 0,0,0,0,0)
X
3

= (1,1,1,1,1, 1,1,1,1,1, 0,0,0,0,0, 0,0,0,0,0)
Rõ ràng X
3
= X
2
+ X
1
nghĩa là ta có đa cộng tuyến hoàn hảo, tuy nhiên tương
quan cặp là:
r
12
= -1/3 ; r
13
= r
23
=0,59
Như vậy đa cộng tuyến xảy ra mà không có sự bảo trước cuả tương quan cặp
những dẫu sao nó cũng cung cấp cho ta những kiểm tra tiên nghiệm có ích.
3. Xem xét tương quan riêng
Vì vấn đề được đề cập đến dựa vào tương quan bậc không. Farrar và Glauber đã
đề nghị sử dụng hệ số tương quan riêng. Trong hồi quy của Y đối với các biến X
2
,
X
3
,X
4
. Nếu ta nhận thấy rằng r
2
234,1

cao trong khi đó r
2
34,12
; r
2
24,13
; r
2
23,14
tương đối
thấp thì điều đó có thể gợi ý rằng các biến X
2
, X
3
và X
4
có tương quan cao và ít
nhất một trong các biến này là thừa.
Dù tương quan riêng rất có ích nhưng nó cũng không đảm bảo rằng sẽ cung cấp
cho ta hướng dẫn chính xác trong việc phát hiện ra hiện tượng đa cộng tuyến.
4. Hồi quy phụ
Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến là hồi quy
phụ. Hồi quy phụ là hồi quy mỗi một biến giải thích X
i
theo các biến giải thích
còn lại. R
2
được tính từ hồi quy này ta ký hiện R
2
i

Mối liên hệ giữa F
i
và R
2
i
:
F
i
=
)1/()1(
)2/(
2
2
+−−

knR
kR
i
i
F
i
tuân theo phân phối F với k – 2 và n - k +1 bậc tự do. Trong đó n là cơ sở
mẫu, k là số biến giải thích kể cả hệ số chặn trong mô hình. R
2
i
là hệ số xác định
trong hồi quy của biến X
i
theo các biến X khác. Nếu F
i

tính được vượt điểm tới
hạn F
i
(k-2,n-k+1) ở mức ý nghĩa đã cho thì có nghĩa là X
i
có liên hệ tuyến tính
với các biến X khác. Nếu F
i
có ý nghĩa về mặt thống kê chúng ta vẫn phải quyến
định liệu biến X
i
nào sẽ bị loại khỏi mô hình. Một trở ngại của kỹ thuật hồi quy
phụ là gánh nặng tính toán. Nhưng ngày nay nhiều chương trình máy tính đã có
thể đảm đương được công việc tính toán này.
5. Nhân tử phóng đại phương sai
Một thước đo khác của hiện tượng đa cộng tuyến là nhân tử phóng đại phương
sai gắn với biến X
i
, ký hiệu là VIF(X
i
).
VIF(X
i
) được thiết lập trên cơ sở của hệ số xác định R
2
i
trong hồi quy của biến X
i
với các biến khác nhau như sau:
VIF(X

i
) =
R1
1
2
i

(1.15)
Nếu VIF ≥ 10 thì có hiện tượng đa cộng tuyến xảy ra giữa 2 biến độc lập trong mô
hình.
Nhìn vào công thức (1.15) có thể giải thích VIF(X
i
) bằng tỷ số chung của phương
sai thực của β
1
trong hồi quy gốc của Y đối với các biến X và phương sai của ước
lượng β
1
trong hồi quy mà ở đó X
i
trực giao với các biến khác. Ta coi tình huống
lý tưởng là tình huống mà trong đó các biến độc lập không tương quan với nhau,
và VIF so sánh tình huống thực và tình huống lý tưởng. Sự so sánh này không có
ích nhiều và nó không cung cấp cho ta biết phải làm gì với tình huống đó. Nó chỉ
cho biết rằng các tình huống là không lý tưởng.
Đồ thị của mối liên hệ của R
2
i
và VIF là
6. Độ đo Theil

Khía cạnh chủ yếu của VIF chỉ xem xét đến tương quan qua lại giữa các biến giải
thích. Một độ đo mà xem xét tương quan của biến giải thích với biến được giải
thích là độ đo Theil. Độ đo Theil được định nghĩa như sau:
m = R
2
-

=
k
i 2
( R
2
- R
2
i−
)
Trong đó R
2
là hệ số xác định bội trong hồi quy của Y đối với các biến X
2
, X
3

X
k
trong mô hình hồi quy:
Y = β
1
+ β
2

X
i2
+ β
3
X
i3
+ ……. + β
k
X
ki
+ U
i
R
2
i−
là hệ số xác định bội trong mô hình hồi quy của biến Y đối với các biến X
2
,
X
3
, … , X
1

i
, X
1+i
, … , X
k

Đại lượng R

2
- R
2
i−
được gọi là “đóng góp tăng thêm vào” vào hệ số xác định bội.
Nếu X
2
, X
3
… X
k
không tương quan với nhau thì m = 0 vì những đóng góp tăng
Như hình vẽ chỉ ra khi R
2
i
tăng từ 0,9 đến 1 thì VIF tăng rất mạnh. Khi
R
2
i
= 1 thì VIF là vô hạn
VIF
50
100
10
0,9 1
1
0
R
2
i

thêm đó cộng lại bằng R
2
. Trong các trường hợp khác m có thể nhận giá trị âm
hoặc dương lớn.
Để thấy được độ đo này có ý nghĩa, chúng ta xét trường hợp mô hình có 2 biến
giải thích X
2
và X
3
. Theo ký hiệu đã sử dụng ở chương trước ta có:
m = R
2
- ( R
2
- r
2
12
) – (R
2
– r
2
13
)
Tỷ số t liên hệ với tương quan riêng r
2
3,12
, r
2
2,13
Trong phần hồi quy bội ta đã biết:

R
2
= r
2
12
+ (1- r
2
12
) r
2
2,13
R
2
= r
2
13
+ (1- r
2
13
) r
2
3,12
Thay 2 công thức này vào biểu thức xác định m ta được:
m = R
2
- [r
2
12
+ (1- r
2

12
) r
2
2,13
- r
2
12
] – [r
2
13
+ (1- r
2
13
) r
2
3,12
- r
2
13
]
= R
2
- [(1- r
2
12
) r
2
2,13
+ (1- r
2

13
) r
2
3,12
] (1.16)
Đặt 1- r
2
12
= w
2
; 1- r
2
13
= w
3
và gọi là các trọng số. Công thức (1.16) được viết
lại dưới dạng
m = R
2
- (w
2
r
2
2,13
+ w
3
r
2
3,12
)

Như vây độ đo Theil bằng hiệu giữa hệ số xác định bội và tổng có trọng số của
các hệ số tương quan riêng.
Như vậy chúng ta đã biết một số độ đo đa cộng tuyến nhưng tất cả đều có ý nghĩa
sử dụng hạn chế. Chúng chỉ cho ta những thông báo rằng sự việc không phải là lý
tưởng.
Còn một số độ đo nữa nhưng liên quan đến giá trị riêng hoặc thống kê Bayes
chúng ta không trình bày ở đây.
III. Biện pháp khắc phục
1. Sử dụng thông tin tiên nghiệm
Một trong các cách tiếp cận để giải quyết vấn đề đa cộng tuyến là phải tận dụng
thông tin tiên nghiệm hoặc thông tin từ nguồn khác để ước lượng các hệ số riêng.
Thí dụ : ta muốn ước lượng hàm sản xuất của 1 quá trình sản xuất nào đó có dạng :
Q
t
=AL
α
t
K
β
t
e
Ut
(1.17)
Trong đó Q
t
là lượng sản phẩm được sản xuất thời k• t; L
t
lao động thời k•; Kt vốn
thời k• t ; U
t

là nhiễu ; A, α, β là các tham số mà chúng ta cần ước lượng. Lấy ln cả
2 vế (1.17) ta được :
LnQ
t
= LnA + αlnL=t + βK U
t
Đặt LnQ
t
= Q*
t
; LnA = A* ; LnL
t
= L*
t
Ta được Q*
t
= A* + αL*
t
+ βK*
t
+ U
t
(1.18)
Giả sử K và L có tương quan rất cao dĩ nhiên điều này sẽ dẫn đến phương
sai của các ước lượng của các hệ số co giãn của hàm sản xuất lớn .
Giả sử từ 1 nguồn thông tin có lới theo quy mô nào đó mà ta biết được rằng
ngành công nghiệp này thuộc ngành có lợi tức theo quy mô không đổi nghĩa là α +
β =1 .Với thông tin này ,cách xử lý của chúng ta sẽ là thay β = 1 - α vào (1.18) và
thu được :
Q*

t
= A* + αL*
t
+ (1 - α)K*
t
+ U
t
(1.19)
Từ đó ta được Q*
t
– K*
t
= A* + α(L*
t
– K*
t
) + U
t
Đặt Q*
t
– K*
t
= Y*
t
và L*
t
– K*
t
= Z*t ta được
Y*

t
= A* + α Z*
t
+ U
t
Thông tin tiên nghiệm đã giúp chúng ta giảm số biến độc lập trong mô hình
xuống còn 1 biến Z*
t
Sau khi thu được ước lượng của α thì tính được từ điều kiện
2. Thu thập số liệu hoặc lấy thêm mẫu mới
Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác liên quan đến
cùng các biến trong mẫu ban đầu mà đa cộng tuyến có thể không nghiêm trọng
nữa. Điều này có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấp nhận
được trong thực tế .
Đôi khi chỉ cần thu thập thêm số liệu, tăng c— mẫu có thể làm giảm tính nghiêm
trọng của đa cộng tuyến.
3. Bỏ biến
Khi có hiện tượng đa cộng tuyến nghiêm trọng thì cách “ đơn giản nhất” là bỏ
biến cộng tuyến ra khỏi phương trình. Khi phải sử dụng biện pháp này thì cách
thức tiến hành như sau :
Giả sử trong mô hình hồi quy của ta có Y là biến được giải thích còn X
2
, X
3

X
k
là các biến giải thích . Chúng ta thấy rằng X
2
tương quan chặt chẽ với X

3
. Khi
đó nhiều thông tin về Y chứa ở X
2
thì cũng chứa ở X
3
. Vậy nếu ta bỏ 1 trong 2
biến X
2
hoặc X
3
khỏi mô hình hồi quy, ta sẽ giải quyết được vấn đề đa cộng tuyến
nhưng sẽ mất đi 1 phần thông tin về Y .
Bằng phép so sánh R
2

2
R
trong các phép hồi quy khác nhau mà có và không
có 1 trong 2 biến chúng ta có thể quyết định nên bỏ biến nào trong biến X
2
và X
3
khỏi mô hình.
Thí dụ: R
2
đối với hồi quy của Y đối với tất cả các biến X
1
, X
2

, X
3
… X
k

0,94; R
2
khi loại biến X
2
là 0,87 và R
2
khi loại biến X
3
là 0,92; Như vậy trong
trường hợp này ta loại X
3
Chúng ta lưu ý 1 hạn chế của biện pháp này là trong các mô hình kinh tế có
những trường hợp đòi hỏi nhất định phải có biến này hoặc biến khác ở trong mô
hình. Trong trường hợp như vậy việc loại bỏ 1 biến phải được cân nhắc cẩn thận
giữa sai lệch khi bỏ 1 biến cộng tuyến với việc tăng phương sai của các ước lượng
hệ số khi biến đó ở trong mô hình.
4. Sử dụng sai phân cấp 1
Thủ tục được trình bày trong chương 7 – tự tương quan. Mặc dù biện pháp này
có thể giảm tương quan qua lại giữa các biến nhưng chúng cũng có thể được sử
dụng như 1 giải pháp cho vấn đề đa cộng tuyến.
Thí dụ: Chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa các biến Y và các
biến phụ thuộc X2 và X3 theo mô hình sau:
Y
t
= β

1
+ β
2
X
2t
+ β
3
X
3t
+ U
t
(1.20)
Trong đó t là thời gian . Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa
là :
Y
t - 1
= β
2
+ β
2
X
2t-1
+ β
3
X
3t-1
+ U
t-1
(1.21)
Từ (1.20) và (1.21) ta được :

Y
t
– Y
t - 1
= β
2
(X
2t
- X
2t-1
) + β
3
(X
3t
- X
3t-1
) + U
t
- U
t-1
(1.22)
Đặt y
t
= Y
t
– Y
t - 1

x
2t

= X
2t
- X
2t-1
X
3t
= X
3t
- X
3t-1
V
t
= U
t
- U
t - 1

Ta được : y
t
= β
2
X
2t
+ β
3
X
3t
+ V
t
(1.23)

Mô hình hồi quy dạng (1.23) thường làm giảm tính nghiêm trọng của đa cộng
tuyến vì dù X
2
và X
3
có thể tương quan cao nhưng không có lý do tiên nghiệm nào
chắc chắn rằng sai phân của chúng cũng tương quan cao.
Tuy nhiên biến đổi sai phân bậc nhất sinh ra 1 số vấn đề chẳng hạn như số hạng
sai số Vt trong (1.23) có thể không thỏa mãn giả thiết của mô hình hồi quy tuyến
tính cổ điển là các nhiễu không tương quan. Vậy thì biện pháp sửa chữa này có thể
lại còn tồi tệ hơn căn bệnh .
5. Giảm tương quan trong hồi quy đa thức
Nét khác nhau của hồi quy đa thức là các biến giải thích xuất hiện với lũy thừa
khác nhau trong mô hình hồi quy. Trong thực hành để giảm tương quan trong hồi
quy đa thức người ta thường sử dụng dạng độ lệch. Nếu việc sử dụng dạng độ lệch
mà vẫn không giảm đa cộng tuyến thì người ta có thể phải xem xét đến kỹ thuật
“đa thức trực giao “.
6. Một số biện pháp khác
Ngoài các biện pháp đã kể trên người ta còn sử dụng 1 số biện pháp khác nữa để
cứu chữa căn bệnh này như sau :
- hồi quy thành phần chính
- Sử dụng các ước lượng từ bên ngoài
Nhưng tất cả các biện pháp đã trình bày ở trên có thể làm giải pháp cho vấn đề
đa cộng tuyến như thế nào còn phụ thuộc vào bản chất của tập số liệu và tính
nghiêm trọng của vấn đề đa cộng tuyến.
VI. Bài tập ví dụ:
Bài tập: Nghiên cứu mối quan hệ phụ thuộc giữa chỉ số GDP hàng năm(Y- đơn vị:
tỉ đồng) , xuất khẩu, nhập khẩu(X
,
Z - đơn vị: triệu USD) và GDP nông nghiệp theo

giá hiện hành(T

- đơn vị: tỉ đồng) của Việt Nam từ năm 1985 đến năm 2006 người
ta điều tra và thu được bảng sau:
thu được bảng sau:
năm GDP Xuất khẩu nhập khẩu GDP nông nghiệp theo giá hiện hành
1985 117 699 1857 47
1990 72105 2404 2752 16252
1991 76707 2087 2338 31058
1992 110535 2581 2541 37513
1993 136571 2985 3924 40796
1994 170259 4054 5826 48865
1995 228895 5449 8155 63219
1996 272036 7256 11144 70334
2000 441646 14483 15637 108356
2001 481295 15027 16162 113322
2002 535762 16705 19733 123268
2003 613443 20716 25226 124566
2004 715307 26500 31516 145555
2005 839211 32447 36761 173335
2006 947200 39826 44891 194333
Như chúng ta đã biết, tổng sản phẩm quốc nội ( GDP) của một quốc gia
là tổng số tiền mà các hộ gia đình trong quốc gia đó chi mua các hàng
hóa cuối cùng. Như vậy trong một nền kinh tế giản đơn ta có thể dễ dàng
tính tổng sản phẩm quốc nội như là tổng chi tiêu hàng hóa và dịch vụ
cuối cùng hàng năm.
GDP=C+G+I+NX
Trong đó:
• C là tiêu dùng của hộ gia đình
• G là tiêu dùng của chính phủ

• I là tổng dầu tư
I=De+In
De là khấu hao
In là đầu tư ròng
• NX là cán cân thương mại
NX=X-M
X (export) là xuất khẩu
M (import) là nhập khẩu
TIÊU DÙNG (C) bao gồm những khoản chi cho tiêu dùng cá nhân
của các hộ gia đình về hàng hóa và dịch vụ. ( xây nhà và mua nhà
không được tính vào TIÊU DÙNG mà được tính vào ĐẦU TƯ TƯ
NHÂN).
ĐẦU TƯ (I) là tổng đầu tư ở trong nước của tư nhân. Nó bao gồm
các khoản chi tiêu của doanh nghiệp về trang thiết bị và nhà xưởng
hay sự xây dựng, mua nhà mới của hộ gia đình. (lưu ý hàng hóa
tồn kho khi được đưa vào kho mà chưa đem đi bán thì vẫn được
tính vào GDP)
CHI TIÊU CHÍNH PHỦ (G) bao gồm các khoản chi tiêu của chính
phủ cho các cấp chính quyền từ TW đến địa phương như chi cho
quốc phòng, luật pháp, đường xá, cầu cống, giáo dục, y tế, Chi
tiêu chính phủ không bao gồm các khoản CHUYỂN GIAO THU
NHẬP như các khoản trợ cấp cho người tàn tât, người nghèo,
XUẤT KHẨU RÒNG (NX)= Giá trị xuất khẩu (X)- Giá trị nhập
khẩu(M)
Ngoài ra, GDP còn được tính bằng tổng GDP nông nghiệp cùng
với công nghiệp và dịch vụ
B1: Lập mô hình hàm hồi quy
Ta có mô hình hàm hồi quy tuyến tính thể hiện sự phụ thuộc của GDP theo
xuất khẩu, nhập khẩu và GDP nông nghiệp theo giá hiện hành ở Việt Nam:
Y

i
=
1
β
+
2
β
X +
3
β
Z +β
4
T +U
Mô hình ước lượng của hàm hồi quy:
T
Từ bảng số liệu, sử dụng phần mềm eviews ta được kết quả sau:
Dependent Variable: Y
Method: Least Squares
Date: 04/12/13 Time: 09:31
Sample: 1 15
Included observations: 15
Variable Coefficient Std. Error t-Statistic Prob.
C -20502.18 11126.78 -1.842598 0.0925
X 1.060295 4.931381 0.215010 0.8337
Z 8.396798 4.295245 1.954906 0.0765
T 2.963541 0.328603 9.018617 0.0000
R-squared 0.997410 Mean dependent var 376072.6
Adjusted R-squared 0.996703 S.D. dependent var 302259.9
S.E. of regression 17355.49 Akaike info criterion 22.58438
Sum squared resid 3.31E+09 Schwarz criterion 22.77320

Log likelihood -165.3829 Hannan-Quinn criter. 22.58237
F-statistic 1411.782 Durbin-Watson stat 1.280992
Prob(F-statistic) 0.000000

Từ kết quả ước lượng ta thu được hàm hồi quy mẫu sau:
ˆ
Y
i
= -20502,18 + 1,060295 X + 8,396798 Z – 2,963541 T
B2. Phát hiện ra sự tồn tại của hiện tượng đa cộng tuyến
2.1. R
2
cao nhưng tỷ số t thấp;
Từ bảng kết quả eviews ta có:
R
2
= 0,997410
t
1
= 0,215010
t
2
= 1,954906
t
3
= 9,018617
Ta thấy rằng hệ số xác định bội R
2
của mô hình là rất gần 1, điều này chứng
tỏ mô hình đưa ra là rất phù hợp. Trong khi đó thống kê t

1
lại có giá trị rất gần 0
tương ứng với sác xuất ý nghĩa bằng 0,8337 là khá lớn, kết quả là làm tăng khả
năng chấp nhận không có ý nghĩa về mặt thống.Vậy có thể nghi ngờ rằng có hiện
tượng đa cộng tuyến xảy ra trong mô hình.
2.2. Xét hồi quy phụ
TH1: Ta tiến hành hồi quy X theo Z và T:
Sử dụng phần mềm eviews ta có bảng sau:
Dependent Variable: X
Method: Least Squares
Date: 04/12/13 Time: 09:39
Sample: 1 15
Included observations: 15
Variable Coefficient Std. Error t-Statistic Prob.
C -984.6713 586.0468 -1.680192 0.1187
Z 0.825633 0.080092 10.30861 0.0000
T 0.015000 0.018742 0.800345 0.4391
R-squared 0.994160 Mean dependent var 12881.27
Adjusted R-squared 0.993187 S.D. dependent var 12308.57
S.E. of regression 1015.963 Akaike info criterion 16.86192
Sum squared resid 12386160 Schwarz criterion 17.00353
Log likelihood -123.4644 Hannan-Quinn criter. 16.86041
F-statistic 1021.443 Durbin-Watson stat 1.243277
Prob(F-statistic) 0.000000
Ta kiểm định cặp giả thuyết
2
2
2
1 2
: 0

: 0
o
H R
H R





=

Xây dựng tiêu chuẩn kiểm định F
i
=
Ta có miền bác bỏ
( )
{ }
2, 1
W :
k n k
tn tn
f f f
α
α
− − +
= >
Từ bảng eviews ta có
Với n = 15, k = 4,
α
= 0,05 ta có f

0,05
(2,12)
= 3,89

f
tn
= 1021,443 > 3,89

f
tn
ϵ W
α

bác bỏ giả thuyết H
o
Vậy với mức ý nghĩa 5% thì X

có mối liên hệ tuyến tính với Z và T
KL: Mô hình có xảy ra hiện tượng đa cộng tuyến.
TH2 : Ta tiến hành hồi quy Z theo X và T:
Sử dụng phần mềm eviews ta có bảng sau:
Dependent Variable: Z
Method: Least Squares
Date: 04/12/13 Time: 09:40
Sample: 1 15
Included observations: 15
Variable Coefficient Std. Error t-Statistic Prob.
C 636.1770 724.9085 0.877596 0.3974
X 1.088299 0.105572 10.30861 0.0000
T 0.006694 0.022000 0.304259 0.7661

R-squared 0.993896 Mean dependent var 15230.87
Adjusted R-squared 0.992878 S.D. dependent var 13821.79
S.E. of regression 1166.429 Akaike info criterion 17.13814
Sum squared resid 16326678 Schwarz criterion 17.27975
Log likelihood -125.5360 Hannan-Quinn criter. 17.13663
F-statistic 976.9022 Durbin-Watson stat 1.429787
Prob(F-statistic) 0.000000
Ta kiểm định cặp giả thuyết:




=
0
0
2
31
2
30
RH
RH
Xây dựng tiêu chuẩn kiểm định F
i
=
Ta có miền bác bỏ
( )
{ }
2, 1
W :
k n k

tn tn
f f f
α
α
− − +
= >
Từ bảng eviews ta có
Với n = 15, k = 4,
α
= 0,05 ta có f
0,05
(2,12)
= 3,89

f
tn
= 976,9022 > 3,89

f
tn
ϵ W
α

bác bỏ giả thuyết H
o
Vậy với mức ý nghĩa 5% thì Z

có mối liên hệ tuyến tính với X và T
KL: Mô hình có xảy ra hiện tượng đa cộng tuyến.
TH3 : Ta tiến hành hồi quy T theo X và Z:

Sử dụng phần mềm eviews ta có bảng sau:
Dependent Variable: T
Method: Least Squares
Date: 04/12/13 Time: 09:41
Sample: 1 15
Included observations: 15
Variable Coefficient Std. Error t-Statistic Prob.
C 25119.34 6554.769 3.832223 0.0024
X 3.378251 4.220992 0.800345 0.4391
Z 1.143672 3.758873 0.304259 0.7661
R-squared 0.942886 Mean dependent var 86054.60
Adjusted R-squared 0.933367 S.D. dependent var 59065.24
S.E. of regression 15246.68 Akaike info criterion 22.27897
Sum squared resid 2.79E+09 Schwarz criterion 22.42058
Log likelihood -164.0923 Hannan-Quinn criter. 22.27746
F-statistic 99.05372 Durbin-Watson stat 0.383276
Prob(F-statistic) 0.000000
Ta kiểm định cặp giả thuyết :




=
0
0
2
41
2
40
RH

RH
Xây dựng tiêu chuẩn kiểm định F
i
=
Ta có miền bác bỏ
( )
{ }
2, 1
W :
k n k
tn tn
f f f
α
α
− − +
= >
Từ bảng eviews ta có

×