Tải bản đầy đủ (.doc) (8 trang)

Những điều căn bản về Phân tích Hồi quy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (282.71 KB, 8 trang )

Những Điều Căn Bản về Phân Tích Hồi Quy
Allen Bellas
Trần Tùng

Quan Hệ Hàm Số
Phần này nói về ước lượng quan hệ toán học giữa các biến. Những mối quan hệ này còn được gọi
là mối quan hệ hàm số. Chúng cố gắng mô tả các biến giải thích (còn được gọi là biến độc lập) tác
động lên biến phụ thuộc như thế nào.
Biến giải thích là biến xảy ra.
Biến phụ thuộc là biến kết quả.
Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người, chúng ta có thể sử dụng các
biến giải thích là thu nhập và độ tuổi. Khi giải thích giá của một chiếc ô tô, các biến giải thích có
thể là kích cỡ, động cơ máy, độ tin cậy của hãng sản xuất cũng như độ an toàn của chiếc ô tô. Để
giải thích giá của một ngôi nhà các biến giải thích có thể là kích cỡ, số phòng, tỷ lệ tội phạm của
khu dân cư cũng như độ tuổi của ngôi nhà. Để dự đoán khả năng một học sinh cuối cấp trung học
phổ thông vào đại học, chúng ta có thể xem xét đến điểm các bài kiểm tra, trình độ giáo dục của
cha mẹ cũng như thu nhập của gia đình anh ta.
Vậy với những trường hợp khác thì sao? Đây sẽ là một bài tập dành cho các học viên trong lớp.
Hãy đưa ra những ví dụ về các biến phụ thuộc của sự ham muốn. Tại sao mọi người lại ham muốn
và những biến giải thích quan trọng nhất của nó trong phương trình hồi quy là gì? Làm thế nào để
định lượng được biến phụ thuộc và biến giải thích?
Ví Dụ trên mặt phẳng 2 chiều
Tưởng tượng rằng chúng ta có thông tin về thu nhập và chi tiêu tiêu dùng, chúng ta tin tưởng rằng
chi tiêu tiêu dùng phụ thuộc vào thu nhập và chúng ta biểu diễn cả 2 biến này lên đồ thị. Biểu diễn
biến phụ thuộc lên trục tung, còn biến giải thích (biến độc lập) lên trục hoành.
Mục đích của phân tích hồi quy là qua những điểm dữ liệu[1], chúng ta có thể kẻ ra một đường
tuyến tính biểu diễn mối quan hệ giữa hai biến thu nhập và chi tiêu tiêu dùng một cách đáng tin
cậy nhất.
Nếu đường tuyến tính có độ dốc hướng lên trên chứng tỏ các điểm dữ liệu có mối tương quan
dương. Nếu đường tuyến tính dốc xuống dưới thi mối tương quan là âm. Còn nếu đường tuyến tính
mà nằm ngang thì là không có mối tương quan giữa các điểm số liệu.


Chúng ta nên thận trọng khi sử dụng kết quả hồi quy để lập báo cáo về những gì đang xảy ra ở
nhiều mức độ qua những điều đã quan sát được. Ví dụ nếu chúng ta quan sát mức thu nhập từ
$10.000 - $30.000 và chúng ta sẽ dụng những dữ liệu thu được này để ước lượng tương quan giữa
thu nhập và tiêu dùng, chúng ta nên thận trọng trong việc sử dụng mối tương quan này để dự
đoán mức tiêu dùng khi thu nhập là $60.000
Hàm Tuyến Tính
Phương trình hồi quy mà chúng ta sẽ xem xét sẽ ước lượng mối tương quan tuyến tính giữa biến
phụ thuộc và biến độc lập (hay biến giải thích).
Tương quan tuyến tính cơ bản:


Y là một hàm của X
Nếu X tăng 1 đơn vị thì Y tăng b1 đơn vị
Đồ thị của một hàm tuyến tính


Ví dụ: nếu chúng ta xem xét Thu Nhập và Tiêu Dùng: C = b 0 + b1I
Tiêu Dùng (C) là một hàm của Thu Nhập (I). Nếu chúng ta hồi quy phương trình này, chúng ta có
thể thu được giá trị ước lượng: C=8.435+0.631. Ý nghĩa của những hệ số ước lượng này là gì?
Hãy xem xét những ví dụ trước đây. Các hệ số này được giải thích như thế nào?
Bây giờ, nếu chúng ta vẽ những điểm dữ liệu lên đồ thị thì rõ ràng mối tương quan này sẽ không
phải là một đường tuyến tính. Nếu chúng ta cố gắng ước lượng một tương quan tuyến tính giữa
biến giải thích và biến phụ thuộc khi mà tương quan này vốn đã không phải là tuyến tính thì sẽ sai.
Đáng tiếc là chúng ta không thể ước lượng được yếu tố phi tuyến tính; vậy chúng ta phải làm gì?
Nếu tương quan là dương và vồng xuống, chúng ta có thể ước lượng mối tương quan dạng:
. Điều đó có nghĩa là chúng ta có thể sử dụng đồng thời cả hai biến
giải thích X và X2 trong phương trình tuyến tính.


Nếu tương quan là dương và vồng lên, chúng ta có thể ước lượng mối tương quan dạng:

trong đó b1 > 0.


Nếu tương quan là âm và vồng lên, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b1 < 0, hoặc tổng quát hơn
> 0.

trong đó b1 < 0 và a


Nếu tương quan là âm và vồng xuống, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b1 < 0. Hoặc tổng quát hơn,
trong đó 0

Dấu Hiệu Dự Đoán các Hệ Số.
Trước khi ước lượng một mô hình cụ thể, chúng ta nên biết những dấu hiệu của các hệ số khác
biệt. Nếu tương quan giữa biến phụ thuộc với biến độc lập nào đó là dương thì hệ số biến độc lập
là dương. Nếu tương quan giữa biến phụ thuộc với biến độc lập nào đó là âm thì hệ số biến độc lập
đó là âm.


Hãy xem xét các ví dụ trước đây và dự đoán các hệ số.
Ví Dụ: Xem xét chi tiêu tiêu dùng là một hàm của tuổi và thu nhập C = f(I,A). Viết hàm số này dưới
dạng phương trình tuyến tính:
b2 là gì?

. Dấu hiệu hệ số b1 là gì? Dấu hiệu hệ số

Lớp sẽ đưa ra nhiều ví dụ hơn.

Phần Dư và Yếu Tố Sai Số.
Yếu tố sai số là một trong những thực tiễn tiêu chuẩn trong quá trình định ra phương trình ước
lượng. Giá trị thực tế của biến phụ thuộc bằng giá trị dự đoán (được tính qua phương trình và các
hệ số ước lượng) cộng với yếu tố sai số ngẫu nhiên. Điều này thường được viết dưới dạng:

Sau khi hoàn thành ước lượng thực tế, mỗi điểm
thu được sẽ chênh lệch với điểm dữ liệu
một lượng nhất định. Chênh lệch dương giữa giá trị thực tế của Yi với giá trị ước lượng của Yi (còn
được gọi là Yi mũ) được gọi là phần dư và được biểu diễn là
(epsiloni)là yếu tố sai số sử dụng
trong mô hình và ei là phần dư trong quá trình ước lượng xem xét phương trình biểu diễn ở trên.
Dựa vào phương trình ở trên, kết quả ước lượng mô hình có thể viết dưới dạng:

Tương Quan Nội Sinh
Tương Quan Nội Sinh[2] là hiện tượng khi một biến giải thích trong mô hình phụ thuộc vào các biến
giải thích khác. Kết quả phân tích hồi quy sẽ không có giá trị và nó cũng là một vấn đề thú vị nảy
sinh khi xem xét lại những công việc của một người nào đó.
Ví Dụ: Nếu chúng ta đang cố gắng xác định tác động của chương trình hướng thanh thiếu niên
tránh xa các tệ nạn, chúng ta có thể nhìn vào mối quan hệ giữa biến phụ thuộc là khả năng một cá
nhân bị bắt với nhiều biến giải thích là các yếu tố khác nhau của chương trình. Điều này có thể
chẳng đem lại kết quả gì, tuy nhiên, khi mà khả năng phạm tội của một thanh thiếu niên tham gia
vào chương trình là phụ thuộc vào các biến giải thích.
Ví Dụ: giả sử rằng chúng ta đang cố gắng xác định chương trình tác động đến khu dân cư không
phạm tội. Các biến giải thích và các biến phụ thuộc sẽ là như thế nào? Làm thế nào để hiện tượng
tự tương quan ăn khớp ở đây và có phải nó sẽ khiến cho chương trình dường như tác động tới khu
dân cư nhiều hoặc ít hơn so với mức độ tác động thực tế không?

[1] Data points
[2] Endogeneity




×