Tải bản đầy đủ (.pptx) (40 trang)

slide kinh tế lượng: Đa cộng tuyến các cách phát hiện và khắc phục đa cộng tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.21 MB, 40 trang )

CHÀO M NG TH Y GIÁO VÀ CÁC B N Ừ Ầ Ạ
Đ N V I BÀI TH O LU N C A NHÓM 1Ế Ớ Ả Ậ Ủ
Đ TÀIỀ

ĐA CỘNG TUYẾN- CÁCH PHÁT HIỆN VÀ KHẮC PHỤC
ĐA CỘNG TUYẾN
M Đ UỞ Ầ

Trong mô hình phân tích hồi quy bội, chúng ta giả thiết giữa các biến giải thích
của mô hình độc lập tuyến tính với nhau, tức là các hệ số hồi quy đối với một
biến cụ thể là số đo tác động riêng phần của biến tương ứng khi tất cả các biến
khác trong mô hình được giữ cố định. Tuy nhiên khi giả thiết đó bị vi phạm tức là
các biến giải thích có tương quan thì chúng ta không thể tách biệt sự ảnh hưởng
riêng biệt của một biến nào đó.

Hiện tượng trên được gọi là đa công tuyến.Vậy đa cộng tuyến là gì, hậu quả của
hiện tượng này như thế nào, làm thế nào để phát hiện và biện pháp khắc phục nó.
Để trả lời được những câu hỏi trên, sau đây chúng ta cùng đi thảo luận về đề tài “
Hiện tượng đa cộng tuyến”



BẢN CHẤT CỦA ĐA CỘNG TUYẾN

Xét mô hình hồi quy tuyến tính cổ điển nhiều biến:

Đa cộng tuyến xảy ra khi một biến giải thích được biểu diễn dưới dạng tổ hợp tuyến tính của các
biến giải thích còn lại đối với mọi điểm của tập số liệu. Hay có thể nói nếu tồn tại các không
đồng nhất bằng 0 sao cho:
;
Trong đó là nhiễu (sai số ngẫu nhiên) ; E()=0;


Trong trường hợp này chúng ta có thể nói là có đa cộng tuyến.

Đa cộng tuyến toàn phần(đa cộng tuyến hoàn hảo) xảy ra khi một biến giải thích được biểu diễn
dưới dạng tổ hợp tuyến tính của các biến giải thích còn lại đối với mọi điểm của tập số liệu.
Hoặc có thể nói: Đa cộng tuyến toàn phần giữa các biến giải thích xảy ra nếu điều kiện sau
được thỏa mãn:
Trong đó là các hằng số không đồng thời bằng không.


H U QU C A ĐA C NG TUY NẬ Ả Ủ Ộ Ế
1. Phương sai và hiệp phương sai của các ước lượng bình quân bé
nhất lớn
2. Khoảng tin cậy rộng hơn
3. Tỷ số t mất ý nghĩa
4. cao nhưng tỉ số t ít ý nghĩa
5. Các ước lượng bình phương bé nhất và các sai số tiêu chuẩn của
chúng trở lên rất nhạy đối với những thay đổi nhỏ trong số liệu.
Dấu của các ước lượng của các hệ số hồi quy có thể sai
6. Thêm vào hay bớt đi các biến cộng tuyến với các biến khác, mô
hình sẽ thay đổi về độ lớn trong các ước lượng hoặc dấu của
chúng


PHÁT HIỆN SỰ TỒN TẠI CỦA ĐA CỘNG TUYẾN
1. cao nhưng tỉ số t thấp
2. Tương quan cặp giữa các biến giải thích cao
3. Xem xét tương quan riêng
4. Hồi quy phụ
5. Nhân tử phóng đại phương sai
6. Độ đo theil





Trong trường hợp cao mà tỷ số t thấp đó chính là dấu hiệu của hiện
tượng đa cộng tuyến.


T ng quan c p gi a các bi n gi i thích caoươ ặ ữ ế ả

Nếu hệ số tương quan cặp giữa các biến giải thích cao (>0,8) thì có
khả năng có tồn tại đa cộng tuyến. Tuy nhiên tiêu chuẩn này thường
không chính xác.

Có những trường hợp tương quan cặp không cao nhưng vẫn có đa
cộng tuyến.
Xem xét t ng quan riêngươ

Vì vấn đề được đề cập đến liên quan đến tương quan bậc không.
Farrar và Glauber đã đề nghị sử dụng hệ số tương quan riêng. Trong
hồi quy của Y đối với các biến X2, X3, X4 Nếu ta nhận thấy răng cao
trong khi đó , , tương đối thấp thì điều đó có thể gợi ý rằng các biến
X2, X3 và X4 có tương quan cao và ít nhất một trong các biến này là
thừa.

Dù tương quan riêng rất có ích nhưng nó cũng không đảm bảo rằng sẽ
cung cấp cho ta hướng dẫn chính xác trong việc phát hiện ra hiện
tượng đa cộng tuyến.



H i quy phồ ụ

Một cách có thể tin cậy được để đánh giá mức độ của đa cộng tuyến
là hồi quy phụ. Hồi quy phụ là hồi quy mỗi một biến giải thích theo
các biến giải thích còn lại. được tính hồi quy này ta kí hiệu là

Mối liên hệ giữa và :


Một trở ngại của kỹ thuật hồi quy phụ là gánh nặng tính toán. Nhưng
ngày nay nhiều chương trình máy tính đã có thể đảm đương được
công việc tính toán này.


Nhân t phóng đ i ph ng saiử ạ ươ

Một thước đo khác của hiện tượng đa cộng tuyến là
nhân tử phóng đại phương sai gắn với biến
Kí hiệu là VIF().
VIF() được thiết lập trên cơ sở của hệ số xác định trong
hồi quy của biến với các biến khác nhau như sau:
VIF()=
VIF() 10 ta nghi ngờ có hiện tượng đa cộng tuyến.


Đ đo Theilộ

Khía cạnh chủ yếu của VIF chỉ xem xét đến tương quan qua lại giữa
các biến giải thích. Một độ đo mà xem xét tương quan của biến giải
thích với biến được giải thích là độ đo Theil. Độ đo Theil được định

nghĩa như sau:
m= -
Trong đó là hệ số xác định bội trong mô hình hồi quy của Y với các
biến trong mô hình hồi quy:
là hệ số xác định bội trong mô hình hồi quy của Y với các biến


Sử dụng thông tin
tiên nhiệm
Thu thập thêm số
liệu hoặc lấy thêm
mẫu mới
Bỏ biến
Sử dụng sai phân
cấp 1
Giảm tương quan
trong hồi quy đa
thức
BI N PHÁP KH C PH CỆ Ắ Ụ
S d ng thông tin tiên nhi mử ụ ệ

Một trong các cách tiếp cận để giải quyết vấn đề đa
cộng tuyến là phải tận dụng thông tin tiên nghiệm hoặc
thông tin từ nguồn khác để ước lượng các hệ số riêng.
Thu thập thêm số liệu hoặc lấy thêm mẫu mới

Vì đa cộng tuyến là đặc trưng của mẫu nên có thể có
mẫu khác liên quan đến cùng các biến trong mẫu ban
đầu mà đa cộng tuyến có thể không nghiêm trọng nữa.
Điều này có thể làm được khi chi phí cho việc lấy mẫu

khác có thể chấp nhận được trong thực tế .

Đôi khi chỉ cần thu thập thêm số liệu , tăng cỡ mẫu có
thể làm giảm tính nghiêm trọng của đa cộng tuyến .
Bỏ biến

Khi có hiện tượng đa cộng tuyến nghiêm trọng thì cách “đơn giản nhất” là bỏ biến
cộng tuyến ra khỏi phương trình. Khi phải sử dụng biện pháp này thì cách thức
tiến hành như sau:

Giả sử trong mô hình hồi quy của ta có Y là biến được giải thích còn là các biến
giải thích. Chúng ta thấy rằng tương quan chặt chẽ với X3. Khi đó nhiều thông
tin về Y chứa ở thì cũng chứa ở . Vậy nếu ta bỏ 1 trong 2 biến hoặc khỏi mô
hình hồi quy, ta sẽ giải quyết được vấn đề đa cộng tuyến nhưng sẽ mất đi 1 phần
thông tin về Y.

Bằng phép so sánh và trong các phép hồi quy khác nhau mà có và không có 1
trong 2 biến chúng ta có thể quyết định nên bỏ biến nào trong biến X2 và X3 khỏi
mô hình.

Thí dụ đối với hồi quy của Y đối với tất cả các biến là 0.94; khi loại biến là 0.87
và khi loại biến là 0.92; như vậy trong trường hợp này ta loại X3.


Sử dụng sai phân cấp một.

Mặc dù biện pháp này có thể giảm tương quan qua lại giữa các biến nhưng chúng
cũng có thể được sử dụng như 1 giải pháp cho vấn đề đa cộng tuyến.
Thí dụ chúng ta có số liệu chuỗi thời gian biểu thị liên hệ giữa biến Y và các biến
phụ thuộc X2 và X3 theo mô hình sau :

(1)
Trong đó t là thời gian. Phương trình trên đúng với t thì cũng đúng với t-1 nghĩa là :
(2)
Từ (1) và (2) ta được :



S d ng sai phân c p m t.ử ụ ấ ộ
Đặt
Ta được : (*)
Mô hình hồi quy dạng (*) thường làm giảm tính nghiêm trọng của đa cộng
tuyến vì dù X2 và X3 có thể tương quan cao nhưng không có lý do tiên
nghiệm nào chắc chắn rằng sai phân của chúng cũng tương quan cao.
Tuy nhiên biến đổi sai phân bậc nhất sinh ra 1 số vấn đề chẳng hạn như số
hạng sai số Vt trong (*) có thể không thỏa mãn giả thiết của mô hình hồi quy
tuyến tính cổ điển là các nhiễu không tương quan. Vậy thì biện pháp sửa chữa
này có thể lại còn tồi tệ hơn.


Giảm tương quan trong hồi quy đa thức.

Nét khác nhau của hồi quy đa thức là các biến giải thích
xuất hiện với lũy thừa khác nhau trong mô hình hồi quy.
Trong thực hành để giảm tương quan trong hồi quy đa
thức người ta thường sử dụng dạng độ lệch. Nếu việc sử
dụng dạng độ lệch mà vẫn không giảm đa cộng tuyến thì
người ta có thể phải xem xét đến kỹ thuật “đa thức trực
giao”.
CHƯƠNG 2: BÀI TẬP MINH HỌA


Xét mô hình hồi quy tuyến tính thể hiện sự phụ thuộc của doanh
thu ngành vật liệu xây dựng vào doanh thu ngành xây dựng,
ngành bất động sản và ngành thép. Với mức ý nghĩa phát hiện đa
cộng tuyến và khắc phục.
Với:

Y là doanh thu thuần ngành vật liệu xây dựng

X2 là doanh thu thuần ngành xây dựng.

X3 là doanh thu thuần ngành bất động sản.

X4 là doanh thu thuần ngành thép


BẢNG SỐ LIỆU DOANH THU NGÀNH VẬT LIỆU XÂY DỰNG
GIAI ĐỌAN 2008-2014
(Nguồn: />QUY Y X2 X3 X4
Q1-2008 3054106 1939599 1641393 3681423
Q2-2008 3532975 5753745 3720531 5323753
Q3-2008 3343507 5983308 2469816 3579227
Q4-2008 3661761 7736230 3113957 3258550
Q1-2009 3665974 7384164 3243241 4697978
Q2-2009 5085580 9411726 5487895 7636375
Q3-2009 5155771 11743832 7552851 8030660
Q4-2009 6388280 16490393 10293855 8049650
Q1-2010 4977303 10949777 6995784 8836442
Q2-2010 6281331 15538223 10512520 10543908
Q3-2010 6378068 15722558 7456818 11659082
Q4-2010 7472663 26162460 15769250 12785368

Q1-2011 6613090 15122925 6566764 13487431
Q2-2011 8094543 17965018 6390333 13380983
Q3-2011 7305562 18274328 6956641 14561045
Q4-2011 8234635 24958195 9841902 13403275
Q1-2012 6737742 13668292 7584756 12669686
Q2-2012 6397607 16235899 7698571 14490131
Q3-2012 7293585 14362234 8702287 18264958
Q4-2012 8496836 23745444 11859956 14787717
Q1-2013 6832055 13583320 6107322 12691912
Q2-2013 9589141 16336281 8096563 12936652
Q3-2013 8415378 13642926 17143941 14469160
Q4-2013 9184096 22411700 17606319 12878549
Q1-2014 7717762 13217202 12470604 12437701
Q2-2014 9621828 18682972 14641097 14870092
Lập mô hình hồi quy

Ta có mô hình hàm hồi quy tuyến tính thể hiện sự phụ thuộc của
doanh thu thuần ngành vật liệu xây dựng vào doanh thu thuần ngành
xây dựng, ngành bất động sản và ngành thép:

Mô hình ước lượng của hàm hồi quy tuyến tính:

Từ bảng số liệu, sử dụng phần mềm eviews ta có kết quả sau:


-
Bảng 1:
Từ bảng ước lương ta thu được hàm hồi quy mẫu sau:
1695941+ 0.076738 0.131056+ 0.238812
= = 2.074


Phát hiện đa cộng tuyến
1. cao nhưng tỉ số t thấp.
Từ bảng kết quả eviews ta có:
>0.8
= 3,726862 > 2,074
= 1,680355 < 2,074
2.423722 > 2,074
= 4.088575 > 2,074
Ta thấy rằng hệ số xác định bội của mô hình là rất gần 1, điều này chứng tỏ mô hình là rất
phù hợp. Trong khi đó thống kê lại có giá trị rất gần 0, kết quả là làm tăng khả năng chấp
nhận không có ý nghĩa về mặt thống kê. Vậy có thể nghi ngờ rằng có hiện tượng đa cộng
tuyến xảy ra trong mô hình.



Phát hiện đa cộng tuyến

2. T ng quan c p gi a các bi n gi i thích cao.ươ ặ ữ ế ả

Sử dụng phần mềm eviews ta có bảng 2:
 Y X2 X3 X4
Y 1.000000 0.825307 0.784742 0.864943
X2 0.825307 1.000000 0.733562 0.747489
X3 0.784742 0.733562 1.000000 0.636793
X4 0.864943 0.747489 0.636793 1.000000
Phát hi n đa c ng tuy nệ ộ ế

Từ bảng trên ta thấy:


Hệ số tương quan giữa biến và 0,733562 < 0.8

Hệ số tương quan giữa biến và là 0,747489< 0.8

Hệ số tương quan giữa biến và là 0,636793 < 0.8

Chưa thể nghi ngờ có hiện tượng đa cộng tuyến xảy ra
trong mô hình.


×