Tải bản đầy đủ (.docx) (20 trang)

Hiện tượng Đa Cộng Tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (159.7 KB, 20 trang )

MỤC LỤC


LỜI NÓI ĐẦU
Trong mô hình phân tích hồi quy bội, chúng ta đã giả thiết giữa các biến giải thích của
mô hình không có đa cộng tuyến. Nhưng giả thuyết đó bị vi phạm thì hậu quả sẽ như
thế nào và làm thế nào để phát hiện đa cộng tuyến và các biện pháp khắc phục hiện
tượng này.
Trong bài thảo luận này, nhóm em đã nghiên cứu về bản chất, nguyên nhân, hậu quả,
các cách phát hiện đa cộng tuyến và một số biện pháp khắc phục hiện tượng đa cộng
tuyến.
Bài thảo luận của nhóm 11 bao gồm 2 phần chính:
Phần I: Cơ sở lý thuyết
Phần II: Bài tập minh họa
Do tầm hiểu biết còn hạn chế, một số nguyên nhân chủ quan và khách quan khác nên
bài thảo luận của chúng em vẫn còn nhiều sai sót, mong thầy và các bạn góp ý để bài
thảo luận của chúng em được hoàn thiện hơn nữa.
Chúng em xin chân thành cảm ơn thầy Nguyễn Đức Minh đã tạo cơ hội cho chúng em
để nghiên cứu về đề tài này.

I.
Nhóm 11

CƠ SỞ LÝ THUYẾT
2


1. Bản chất và nguyên nhân của hiện tượng đa cộng tuyến
1.1.
Bản chất của hiện tượng đa cộng tuyến


Đa cộng tuyến xảy ra khi 2 hay nhiều hơn 2 biến giải thích có liên quan với nhau.
Xét hàm hồi quy đa bội :
Trong trường hợp lý tưởng là các biến trong môi trường hồi quy bội không có tương
quan với nhau, mỗi biến chứa một thông tin riêng về , thông tin không chứa trong bất
kỳ các biến nào khác. Trong thực hành nếu trường hợp này xảy ra thì không có hiện
tượng đa cộng tuyến.
Có hai loại hiện tượng đa cộng tuyến: Đa cộng tuyến toàn phần và đa cộng tuyến
không toàn phần.
Đa cộng tuyến toàn phần xảy ra giữa các biến giải thích nếu tồn tại

λ 2 , λ3 ,..., λ k

không

đồng thời bằng 0 sao cho:
λ 2 X 2i + λ3 X 3i + ... + λ k X ki = 0 ∀i
,

Hiện tượng đa cộng tuyến không toàn phần xảy ra giữa các biến giải thích nếu tồn tại
λ 2 , λ3 ,..., λ k

không đồng thời bằng 0 sao cho:
λ 2 X 2i + λ3 X 3i + ... + λ k X ki + vi = 0 ∀i
,

Trong đó là sai số ngẫu nhiên
Trong thực tế, hiện tượng đa cộng tuyến toàn phần ít xảy ra.
1.2.
Nguyên nhân gây ra hiện tượng đa cộng tuyến
- Chọn các biến độc lập có mối quan hệ nhân quả hay có tương quan cao.

- Số quan sát nhỏ hơn số biến độc lập.
- Cách thu thập mẫu: mẫu không có đặc trưng cho tổng thể.
- Chọn biến có độ biến thiên nhỏ.

2. Ước lượng khi có đa cộng tuyến hoàn hảo.
Nhóm 11

3


Khi có đa cộng tuyến hoàn hảo thì các hệ số hồi quy là không xác định còn các sai số
tiêu chuẩn là vô hạn.
Xét mô hình hồi quy 3 biến , chúng ta sử dụng dạng độ lệch chuẩn trong đó:
;

;

Thì mô hình hồi quy 3 biến có thể viết lại dưới dạng:
(1.1)
Theo tính toán trong chương hồi quy bội ta thu được các ước lượng:
(1.2)
(1.3)
Giả sử trong đó là hằng số khác không, thay điều kiện này vào (1.2) ta được:

(1.4)
Là biểu thức không xác định. Tương tự như vậy ta cũng có thể chỉ ra không xác định.
Vì sao chúng ta lại thu được kết quả như ở (1.4). Lưu ý đến ý nghĩa của có thể giải
thích điều đó. cho ta tốc độ thay đổi trung bình của Y khi thay đổi 1 đơn vụ còn
không đổi. Nhưng khi thì điều đó có nghĩa là không thể tách ảnh hưởng của và khỏi
mẫu đã cho. Trong kinh tế lượng thì điều này phá hủy toàn bộ ý định tách ảnh hưởng

riêng của từng biến lên biến phụ thuộc.
Thí dụ: thay vào (1.1.) ta được:

Trong đó:
Áp dụng công thức tính ước lượng của phương pháp bình phương nhỏ nhất ta được:

Như vậy dù được ước lượng một cách dy nhất thì cũng không thể xác định được và
từ một phương trình 2 ẩn.
Như vậy, trong trường hợp đa cộng tuyến hoàn hảo, chúng ta không thể thừa nhận
được lời giải thích duy nhất cho các hệ số hồi quy riêng, nhưng trong khi đó ta lại có
thể nhận được lời giải thích duy nhất cho tổ hợp tuyến tính của các hệ số này. Chú ý
Nhóm 11

4


rằng trong trường hợp đa cộng tuyến hoàn hảo thì phương sai và các sai số tiêu chuẩn
của các ước lượng và là vô hạn.
3. Ước lượng khi có đa cộng tuyến không hoàn hảo

Đa cộng tuyến hoàn hảo là trường hợp đặc biệt hiếm xảy ra. Trong các số liệu liên
quan đến chuỗi thời gian, thường xảy ra đa cộng tuyến không hoàn hảo.
Xét mô hình (1.1)
Ta giả thiết giữa và có đa cộng tuyến không hoàn hảo theo nghĩa:
Trong đó là nhiễu ngẫu nhiên sao cho
Trong trường hợp này theo phương pháp bình phương nhỏ nhất ta dễ dàng tìm được
và .
Chẳng hạn:
(1.5)
Trong trường hợp này ta không có lý do gì để nói rằng (1.5) là không ước lượng được.

4. Hậu quả của hiện tượng đa cộng tuyến

Trong trường hợp đa cộng tuyến toàn phần: các hệ số hồi quy mẫu là không xác định
và các độ lệch tiêu chuẩn là vô hạn.
Trong trường hợp đa cộng tuyến không toàn phần: có thể xác định được các hệ số hồi
quy mẫu nhưng dẫn đến những hậu quả sau:

Phương sai và độ lệch tiêu chuẩn của các hệ số hồi quy mẫu sẽ rất lớn.

4.1.

Xét mô hình hồi quy dưới dạng:
Theo công thức tính phương sai và hiệp phương sai, ta có:
(1.6)
(1.7)
(1.8)
Trong đó, là hệ số tương quan giữa và
Nhóm 11

5


Từ (1.6)(1.7), ta thấy khi tăng dần đến 1 thì phương sai của 2 ước lượng này tăng đến
vô hạn. (1.8) chỉ ra rằng khi tăng dần đến 1 thì tăng về giá trị tuyệt đối.
4.2.
Khoảng tin cậy của các hệ số hồi quy mẫu sẽ rất lớn
Khoảng tin cậy 95% cho và khi đã biết là:

Trong đó:


Viết lại khoảng tin cậy 95% cho và là:
(1.9)
(1.10)
Từ (1.9) và (1.10) chứng tỏ càng gần tới 1 thì khoảng tin cậy cho các tham số càng
rộng.
Do đó, trong trường hợp đa cộng tuyến gần hoàn hảo thì số liệu của mẫu có thể thích
hợp với tập các giả thiết khác nhau. Vì thế, xác suất chấp nhận giả thuyết sai tăng lên.
4.3.

Tỷ số T mất ý nghĩa

Khi kiểm định giả thuyết , ta sử dụng tỷ số và so sánh giá trị t đã được ước lượng với
giá trị tới hạn t.
Nhưng khi có đa cộng tuyến gần hoàn hảo thì sai số tiêu chuẩn ước lượng sẽ rất cao,
vì vậy, làm cho tỷ số t nhỏ đi. Kết quả làm tăng khả năng chấp nhận giả thiết .
4.4.

Hệ số xác định bội cao nhưng t nhỏ

Ta xét mô hình hồi quy k biến sau:
Trong trường hợp có đa cộng tuyến gần hoàn hảo, ta có thể tìm thấy một hoặc một số
hệ số góc riêng là không có ý nghĩa về mặt thống kê trên cơ sở kiểm định t. Nhưng
trong khi đó lại có thể cao, nên bằng kiểm định F, ta có thể bác bỏ giả thuyết: . Mâu
thuẫn này cũng là tín hiệu của đa cộng tuyến.
4.5.
Dấu các ước lượng của các hệ số hồi quy sao do đó các ước lượng bình
4.6.
Nhóm 11

phương nhỏ nhất trở nên nhạy cảm với những thay đổi nhỏ trong số liệu.

Dấu của các ước lượng của hệ số hồi quy có thể sai
6


Khi có hiện tượng đa cộng tuình. Trong những trường hợp như
vậy, việc bỏ biến cần được cân nhắc cẩn thận giữa những sai lệch khi bỏ một biến
cộng tuyến với việc tăng phương sai của các ước lượng hệ số khi biến đó ở trong mô
hình.
6.2.

Thu thập dữ liệu và lấy mẫu mới

Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có mẫu khác nhau liên quan đến
cùng các biến trong mẫu ban đầu mà cộng tuyến có thể không nghiêm trọng nữa. Điều
này chỉ có thể làm được khi chi phí cho việc lấy mẫu khác có thể chấp nhận được
trong thực tế.
Việc thu thập thêm số liệu, tăng cỡ mẫu có thể làm giảm tình nghiêm trọng của đa
cộng tuyến.
6.3.

Sử dụng sai phân cấp một

Xét mối liên hệ giữa Y với và theo thời gian như sau:
(1.11)
Trong đó t là thời gian. Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa là:
(1.12)
Từ (1.11) và (1.12) ta được:
Đặt:

Nhóm 11


9


Ta được:
(1.13)
Mô hình (1.13) thường làm giảm tính nghiêm trọng của đa cộng tuyến vì dù và có
thể tương quan cao nhưng không có nghĩa sai phân của chúng cũng tương quan cao.
Tuy nhiên, biện pháp này phát sinh một số vấn đề như số hạng trong (1.13) có thể
không thoả mãn giả thiết của mô hình hồi quy tuyến tính cổ điển là các nhiễu không
tương quan. Vì vậy biện pháp sửa chữa này có thể lại làm tồi tệ hơn.
Sử dụng thông tin tiên nghiệm

6.4.

Xét hàm hồi quy sau:
(1.14)
Trong đó: Y: biến phụ thuộc

: là nhiễu

X, Z là các biến giải thích

: là các tham số cần ước lượng

Lấy ln 2 vế (1.14), được:
Đặt: ; ; ;
Ta được:

(1.15)


Giả sử từ một nguồn thông tin nào đó mà ta biết được mối quan hệ giữa 2 biến phụ
thuộc thay vào (1.15) ta được:
Đặt , ta được:
Nhờ có thông tin tiên nghiệm đã giúp chúng ta làm giảm số biến độc lập từ 2 biến ,
xuống còn 1 biến => giảm khả năng có hiện tượng đa cộng tuyến => khắc phục được
hiện tượng đa cộng tuyến.

Các biện pháp khắc phục khác

6.5.

Ngoài ra, để khắc phục hiện tượng đa cộng tuyến, ta có thể sử dụng một trong những
biện pháp sau:
-

Giảm tương quan trong hồi quy đa thức
Hồi quy thành phần chính

Nhóm 11

10


-

Sử dụng các ước lượng từ bên ngoài

Tóm lại, các biện pháp nêu trên có thể giải quyết vấn đề đa cộng tuyến như thế nào
còn phụ thuộc vào bản chất của của tập số liệu và tính nghiêm trọng của vấn đề đa

cộng tuyến.

II.

BÀI TẬP MINH HỌA: Cho số liệu sau: Với
Y
70
65
90
95
110
115

Nhóm 11

X
80
100
120
140
160
180

Z
81
100,9
127,3
142,5
163,3
187,6

11


120
140
155
150
Y
165
180
175
165
195
190
200
185
170
205
Trong đó:

200
220
240
260
X
280
300
320
340
360

380
400
420
440
460

205,2
220,1
243,5
268,6
Z
279,8
300,2
322,6
344,2
366,1
380,9
410,6
429,8
437,7
469,2

Y: chi phí tiêu dùng (triệu đồng/năm)
X: thu nhập (triệu đồng/năm)
Z: tiền tích lũy (triệu đồng)
Hãy phát hiện hiện tượng đa cộng tuyến và tìm biện pháp khắc phục hiện tượng đa
cộng tuyến, với .
1. Ước lượng mô hình hồi quy mẫu
Dependent Variable: Y
Method: Least Squares

Sample: 1 20
Included observations: 20
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
X
Z

51.76164
0.047137
0.301076

8.949858
0.954802
0.947533

5.783516
0.049368
0.317748

0.0000
0.9612

0.7545

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

0.891157
Mean dependent var
0.878352
S.D. dependent var
15.32253
Akaike info criterion
3991.258
Schwarz criterion
-81.34007
Hannan-Quinn criter.
69.59442
Durbin-Watson stat
0.000000

Từ bảng eviews trên ta suy mô hình hồi quy mẫu:
Nhóm 11

12

147.0000

43.93177
8.434007
8.583366
8.463163
0.898257


Ý nghĩa của hệ số hồi quy:
= 0,047137: Khi tiền tích lũy không thay đổi, nếu thu nhập trong 1 năm tăng lên 1
triệu đồng thì chi phí tiêu dùng trung bình trong 1 năm tăng 47137 nghìn đồng.
=0,301076: Khi thu nhập trong 1 năm không thay đổi, nếu tiền tích lũy tăng lên 1
triệu đồng thì chi phí tiêu dùng trung bình trong 1 năm tăng 301076 nghìn đồng.
2. Phát hiện hiện tượng đa cộng tuyến
2.1.
cao nhưng tỷ số t thấp

Với ta có:
Từ bảng eviews suy ra:

(1)

Thống kê t của hệ số ứng với X:

(2)

Thống kê t của hệ số ứng với Y:

(3)

Từ (1)(2)(3), suy ra mô hình hồi quy có hiện tượng đa cộng tuyến.

2.2.

Hệ số tương quan giữa các biến giải thích cao.
X
1.000000
0.999516

X
Z

Z
0.999516
1.000000

Từ bảng eviews trên ta thấy: suy ra mô hình có hiện tượng đa cộng tuyến.
2.3.
Sử dụng hồi quy phụ
 Xét hồi quy biến X theo biến Z
Dependent Variable: X
Method: Least Squares
Sample: 1 20
Included observations: 20
Variable

Coefficient

Std. Error

t-Statistic


Prob.

C
Z

-1.836735
0.991906

2.166529
0.007278

-0.847778
136.2855

0.4077
0.0000

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

0.999032
0.998978
3.782516
257.5337
-53.93295

18573.75
0.000000

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat

Từ bảng số liệu trên, ta có:
Nhóm 11

13

270.0000
118.3216
5.593295
5.692868
5.612733
2.446074


Với suy ra:
(5)
 Kết luận: Từ (5) suy ra mô hình có hiện tượng đa cộng tuyến.
2.4.
Sử dụng nhân tử phóng đại VIF

Suy ra mô hình hồi quy có hiện tượng đa cộng tuyến.

2.5.

Độ đo Theil

Hệ số tương quan giữa các biến Y và X, Z

Y
1.000000
0.943669
0.944003

Y
X
Z

X
0.943669
1.000000
0.999516

Z
0.944003
0.999516
1.000000

Ta tính được:


Do đó độ đo Theil về mức độ đa cộng tuyến là 0,889869


3. Khắc phục hiện tượng đa cộng tuyến
3.1.
Bỏ biến
 Xét hồi quy biến Y theo biến X
Dependent Variable: Y
Method: Least Squares
Sample: 1 20
Included observations: 20
Variable

Nhóm 11

Coefficient

Std. Error

t-Statistic

14

Prob.


C
X

52.39850
0.350376

R-squared

Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

0.890511
0.884428
14.93497
4014.962
-81.39928
146.4000
0.000000

8.501926
0.028958

6.163133
12.09959

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat

0.0000
0.0000

147.0000
43.93177
8.339928
8.439501
8.359366
0.975344

Từ bảng eviews, suy ra:
 Xét hồi quy biến Y theo biến Z
Dependent Variable: Y
Method: Least Squares
Sample: 1 20
Included observations: 20
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
Z

51.67506
0.347831

8.529696

0.028654

6.058254
12.13889

0.0000
0.0000

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

0.891142
0.885094
14.89189
3991.830
-81.34150
147.3527
0.000000

Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat


147.0000
43.93177
8.334150
8.433723
8.353588
0.887869

Từ bảng eviews suy ra:
 Kết luận: Ta thấy: và . Như vậy, trong trường hợp này ta loại bỏ biến X khỏi mô

hình để khắc phục hiện tượng đa cộng tuyến

Thu thập thêm dữ liệu

3.2.

Ta tiến hành thu thập thêm dữ liệu với

Nhóm 11

3.3.

3.4.

3.5.

Y

X


Z

3.6.

3.7.

3.8.

7

8

81

3.9.

3.10.

3.11.
15


Nhóm 11

6

1

10


3.12.

3.13.

3.14.

9

1

12

3.15.

3.16.

3.17.

9

1

14

3.18.

3.19.

3.20.


1

1

16

3.21.

3.22.

3.23.

1

1

18

3.24.

3.25.

3.26.

1

2

20


3.27.

3.28.

3.29.

1

2

22

3.30.

3.31.

3.32.

1

2

24

3.33.

3.34.

3.35.


1

2

26

3.36.

3.37.

3.38.

1

2

27

3.39.

3.40.

3.41.

1

3

30


3.42.

3.43.

3.44.

1

3

32

3.45.

3.46.

3.47.

1

3

34

3.48.

3.49.

3.50.


1

3

36

3.51.

3.52.

3.53.

1

3

38
16


Nhóm 11

3.54.

3.55.

3.56.

2


4

41

3.57.

3.58.

3.59.

1

4

42

3.60.

3.61.

3.62.

1

4

43

3.63.


3.64.

3.65.

2

4

46

3.66.

3.67.

3.68.

2

4

49

3.69.

3.70.

3.71.

2


5

50

3.72.

3.73.

3.74.

2

5

52

3.75.

3.76.

3.77.

2

5

53

3.78.


3.79.

3.80.

2

5

55

3.81.

3.82.

3.83.

1

2

27

3.84.

3.85.

3.86.

1


2

23

3.87.

3.88.

3.89.

1

2

28

3.90.

3.91.

3.92.

1

2

25

3.93.


3.94.

3.95.

1

2

21
17


3.96.

3.97.

3.98.

1

2

29

3.99.

3.100. 3.101.

1


2

22

3.102. 3.103. 3.104.

1

2

27

3.105. 3.106. 3.107.

1

2

26

3.108. 3.109. 3.110.

1

2

27

3.111. 3.112. 3.113.


1

2

28

3.114. 3.115. 3.116.

1

2

26

3.117. 3.118. 3.119.

1

2

23

3.120. 3.121. 3.122.

2

2

29


3.123. 3.124. 3.125.

1

Nhóm 11

2

20

18


3.126.
3.127.

Ta có bảng eviews với như sau:

3.128.

Dependent Variable: Y
3.132.

3.129. Sample: 1 40

3.130.

3.131.
3.135.


3.133. Included observations: 40
3.136.
3.141.
3.146. Variabl
e
3.151.
3.156.

3.161. C

3.137.
3.142.
3.147. Coe

3.138.
3.143.
3.148. Std.

3.134.
3.139.
3.144.

3.140.
3.145.

3.149. t- 3.150. Pr

fficient
Error

Statistic
ob.
3.152.
3.153.
3.154.
3.155.
3.157.
3.158.
3.159.
3.160.
3.162. 62.6 3.163. 10.01 3.164. 6.252 3.165. 0.0
1650

514

185

000

3.167. 0.01 3.168. 0.755 3.169. 0.014 3.170. 0.9
3.166. X
3.171. Z
3.176.
3.181.
3.186. Rsquare
d

0651

681


095

888

3.172. 0.03 3.173. 0.075 3.174. 0.397 3.175. 0.6
0160
3.177.
3.182.

873
3.178.
3.183.

3.187. 0.74 3.188.

503
3.179.
3.184.

Mean dependent

4583 var

933
3.180.
3.185.

3.189. 15
5.9750


3.190. Adjuste
d Rsquare
d

3.191. 0.73 3.192.

S.D. dependent

0776 var

3.193. 43.
55220

3.194. S.E. of
regress 3.195. 22.5 3.196.
ion

Akaike info

9783 criterion

3.197. 9.1
45623

3.198. Sum
square
d resid

3.202. Log

likeliho
od

3.206. Fstatistic

3.199. 188

3.201. 9.2

94.49 3.200.

3.203. - 3.204.

Schwarz criterion
Hannan-Quinn

3.205. 9.1

Durbin-Watson

3.209. 1.6

179.9125 criter.

3.207. 53.9 3.208.

72289

91422


3047 stat

22300

3.210. Prob(F
statistic 3.211. 0.00
)

3.215.

0000

3.212.

3.213.

3.214.

Từ bảng số liệu eviews, ta có: , có thể thấy rằng, hiện tượng đa cộng tuyến

đã được khắc phục so với ban đầu.


3.216.

3.217.

KẾT LUẬN
Khi nghiên cứu về hiện tượng đa cộng tuyến, chúng tôi thấy rằng các mô


hình hồi quy trên thực tế thường xảy ra hiện tượng đa cộng tuyến. Vì vậy, khi nghiên
cứu các mô hình kinh tế, thì cần phải kiểm tra lại mô hình trước khi tiến hành phân
tích nhằm phát hiện ra hiện tượng đa cộng tuyến và tìm ra biện pháp khắc phục. Từ
đó, tránh được các hậu quả do đa cộng tuyến gây ra.
3.218.

Để khắc phục được hiện tượng đa cộng tuyến có rất nhiều cách khác nhau,

tuy nhiên mỗi biện pháp lại có những ưu, nhược điểm khác nhau, vì vậy, việc lựa
chọn biện pháp nào để giải quyết vấn đề đa cộng tuyến còn phụ thuộc vào bản chất
của của tập số liệu và tính nghiêm trọng của vấn đề đa cộng tuyến.



×