Mô Hình Cổ Điển
Allen Bellas
Trần Tùng
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng
mối quan hệ tuyến tính giữa các biến phụ thuộc với các biến giải thích hay các biến độc lập nào đó.
Theo nghĩa nào đó, phương pháp này là phương pháp đáng tin cậy nhất để ước lượng mối quan hệ
tuyến tính này. Nó là "đáng tin cậy nhất", tuy nhiên mô hình ước lượng phải thoả mãn 7 giả định.
Những giả định này thuộc về kỹ thuật, nhưng ở đây chúng ta sẽ cố gắng giải thích chúng là gì và
chúng tác động đến kết quả hồi quy như thế nào.
I. Mô hình hồi quy là tuyến tính theo các hệ số. Mô hình phải được định dạng đúng và có thêm yếu
tố sai số.
Giả định này gồm có 3 phần. Chúng ta sẽ xem xét từng phần một.
Đầu tiên, mô hình này phải là mô hình tuyến tính theo các hệ số. Điều này có nghĩa là quá trình
thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng
hoặc mối quan hệ thực tế đó có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế. Tốt nhất là
nên xem xét phần này trong mối liên hệ với phần thứ hai của giả định.
Phần thứ hai của giả định là mô hình phải được định dạng đúng.
Kết hợp hai phần đầu tiên của giả định này, chúng ta xem xét việc quá trình xác định biến phụ
thuộc thực tế là như thế nào và mối quan hệ tuyến tính hay đạo hàm của nó là tuyến tính. Trong
khi đối với các quá trình khoa học tự nhiên đơn giản thì việc định dạng mô hình theo phương trình
tuyến tính một cách chính xác là hoàn toàn có thể nhưng đối với quá trình quyết định hoạt động của
một người có lý trí trong một môi trường phức tạp thì việc này là bất khả thi. Theo một nghĩa thực
tế, chúng ta có thể phụ thuộc vào việc định rõ bằng cách nói rằng đó chỉ là định mức sử dụng trong
việc xem xét hoàn cảnh đang nghiên cứu. Nếu chúng ta tìm kiếm những bản báo cáo, giấy tờ, hay
những nghiên cứu dử dụng mô hình cụ thể, đó là lý do có thể chấp nhận được cho việc sử dụng nó.
Ngược lại cũng như vậy. Mặt khác, nếu chúng ta sử dụng mô hình mà chưa từng có ai đã sử dụng
thì kết quả của nó có thể gây tranh cãi và bị bác bỏ.
Phần thứ ba của giả định này là phải có thêm yếu tố sai số.Điều này đơn giản có nghĩa là yếu tố sai
số được thêm vào giá trị dự đoán sao cho
hơn là giữ nguyên nó, ví dụ:
Có lẽ điều này chẳng có nhiều nghi ngờ hơn giả định là chúng ta có mô hình đúng và mô hình là
tuyến tính, nhưng hãy nhìn vào số dư của nó (chúng ta có những số dư e
i
này sau khi ước lượng mô
hình, chúng có thể được quyết định là đúng hay không. Nếu mô hình là sai, chúng ta có thể gặp
phải những vấn đề như khi mà mô hình đúng là phi tuyến tính nhưng mô hình ước lượng là tuyến
tính.
II. Trung bình tổng thể sai số là bằng 0.
Điều này có nghĩa là giá trị của là bằng 0 .
Bởi vì , điều này có nghĩa là
Do vậy, giá trị ước lượng bằng giá trị thực tế Y
i
. Điều này chẳng có gì là biến động cả.
Khi chúng ta thực hiện hồi quy, thì giá trị trung bình của các phần dư về cơ bản là sẽ bằng 0. Đó là
một vấn đề thực tế và nó chỉ có liên quan lỏng lẻo đối với những lý thuyết đã được trình bày ở trên.
Về cơ bản, mô hình ước lượng sẽ có yếu tố sai số với giá trị trung bình của nó bằng 0. Do vậy khi
mô hình lý thuyết không có yếu tố sai số với giá trị ước lượng của nó là bằng 0, thì hai kiểu mô hình
này sẽ là trái ngược nhau.
III. Tất cả các biến giải thích là không tương quan với yếu tố sai số.
Điều này có nghĩa là khi bất kỳ biến giải thích nào mà lớn hơn hay nhỏ đi thì yếu tố sai số sẽ không
thay đổi theo nó. Nếu điều này là không đúng, ví dụ, biến sai sẽ lớn hơn khi một trong các biến giải
thích lớn hơn, và nhỏ hơn khi biến giải thíhc nhỏ hơn. Nếu điều này đúng, thì có mô hình khá hơn
dựa vào giá trị của biến giải thích.
Có ít nhất 2 cách để kiểm định xem điều kiện này có được thỏa mãn hay không.
• Các phần dư (giá trị chênh lệch giữa giá trị thực tế của biến phụ thuộc với các giá trị dự
đoán) có thể được minh họa trên đồ thị với nhiều biến giải thích khác nhau.
• Có thể tính toán được hệ số tương quan giữa các phần dư với các biến giải thích khác nhau.
Không nên có các mô hình dễ nhận thức rõ trên đồ thị và các hệ số tương quan nên là rất nhỏ.
IV. Không có sự tương quan giữa các quan sát của yếu tố sai số (không có tương quan chuỗi).
Nếu chúng ta xem xét các chuỗi số liệu thời gian (dữ liệu được thu thập từ một nguồn trong nhiều
khoảng thời gian khác nhau). Yếu tố sai số trong khoảng thời gian này không có bất kỳ
một tương quan nào với yếu tố sai số trong khoảng thời gian trước đó. Một cách để kiểm định điều
này là minh họa các yếu tố sai số theo thời gian lên đồ thị và xem xét cả các giá trị dương hay giá
trị âm có theo một khuôn mẫu hay theo một loạt theo thời gian hay không.
Chúng ta có thể nhìn vào vài điểm nào đó tron kiểm định runs test. Cơ bản điều này là một kiểm
định để xem xét khi nào có nhiều quan sát đồng thời với cả phần dư âm hoặc phần dư dương là rất
đáng ngờ.
Xem xét dữ liệu tiêu dùng gas ở Califonia ở trên, chúng ta thấy xuất hiện tương quan chuỗi với một
vài dạng mô hình.
V. Phương sai các yếu tố sai số là bằng nhau
1
(phương sai thuần nhất
2
).
Điều này có nghĩa là các sai số của các quan sát này không trải dài ra nhiều hơn các sai số các quan
sát khác. Điều này rất khó để mô tả, nhưng có một biểu hình đáng tin cậy trong cuốn sách của
Studenmund, trang 99 (bản in lần thứ ba).
Biểu hình của Studenmund đưa ra một biểu đồ phân tán (scatterplot) các biến giải thích theo trục
hoành, các biến phụ thuộc theo trục tung và minh họa đường hồi quy. Khi các giá trị của biến thích
càng lớn thì các điểm của biểu đồ phân tán này là càng cách xa đường hồi quy.
Đây là một biểu đồ khác nữa.
Yếu tố sai số có xu hướng là ngày càng nhỏ khi mà biến độc lập SQFT ngày càng nhỏ. Khi SQFT
tăng, yếu tố sai số cũng sẽ tăng thêm. Điều này có vẻ là dễ dàng hơn việc xem xét khi mà bạn biểu
diễn bình phương các các sai số này lên biểu đồ.
Về cơ bản, khi chúng ta minh họa bình phương các sai số này lên đồ thị dựa vào tất cả các biến giải
thích, kích cỡ của các phần dư có sẽ không phụ thuộc vào giá trị của các biến giải thích. Nếu các
phần dư tăng khi biến phụ thuộc tăng (hoặc giảm) thì chúng ta có phương sai không thuần nhất.
Một ví dụ cho trường hợp này trong đó phương sai không thuần là trong mô hình giá nhà như một
hàm của các đặc điểm ngôi nhà. Biến động các yếu tố sai số có thể sẽ lớn hơn với giá nhà đắt hơn
và biến động các yếu tố sai số có thể nhỏ hơn với giá nhà rẻ hơn. Khoảng tin cậy 95% cho giá trị
thực của ngôi nhà khi giá trị ước lượng của nó là 40.000$ có thể sẽ là [$38.000, $42.000] trong khi
với khoảng tin cậy tương tự cho ngôi nhà với giá trị ước lượng của nó là $2.000.000 có thể là
[$1.900.000, $2.100.000].
Trong cuốn sách của Kennedy (các trang 118 - 21) có một thảo luận rất đáng tin cậy về hệ quả của
phương sai không thuần nhất, phương pháp kiểm định phương sai không thuần nhất và một mô tả
còn chưa rõ ràng về việc làm thế nào để giải quyết hiện tượng. Kennedy đề xuất ra 4 phương pháp
kiểm định hiện tượng phương sai không thuần nhất.
• Dùng mắt kiểm định các phần dư.
• Kiểm định Goldfeld-Quandt.
• Kiểm định Breusch-Pagan.
• Kiểm định White.
Bạn có thể sử dụng phương pháp đầu tiên trong 4 phương pháp kiểm định này trong Excel. Các
phương pháp khác có thể dùng trong phần mềm hữu ích nào đó.
Để giải quyết hiện tượng tự tương quan, chúng ta có 2 lựa chọn.
• Chúng ta có thể sử dụng phương pháp hồi quy bình weighted least square (hơn là phương
pháp bình thông thường (OLS)).
• Chúng ta có thể lựa chọn phương pháp tiếp cận theo tư tưởng và loại trừ hiện tượng phương
sai không thuần nhất theo một phương pháp tâm linh hơn.
VI. Không có biến giải thích nào là hàm tuyến tính hoàn hảo của các bất kỳ các biến giải thích khác
(không có đa cộng tuyến hoàn hảo) (no perfect multicollinearity).
Điều này có nghĩa là không có biến giải thích nào là một hàm tuyến tính của một hoặc nhiều biến
giải thích khác.
Điều này có nghĩa là chúng ta tính đến cả biến giải thích X và biến giải thích X
2
.
Ví dụ như chúng ta không thể tính đếm nhiệt độ Fahrenheit và nhiệt độ Celsius (C) bởi vì F = 32 +
1.8 C. Điều này có nghĩa là Celsius là một hàm tuyến tính của Fahrenheit.
Đây là lý do tại sao chúng ta phải loại trừ một trong các biến giả. Ví dụ khi chúng ta có các biến giả
cho nam (M) và biến giả cho nữ (F) và không có giới tính khác. Khi ấy, với mỗi quan sát M + F = 1
hoặc F = 1 - M hoặc M = 1 - F. Bởi vì có 2 biến này là các hàm tuyến tính của các biến khác, một
trong số biến này phải được loại trừ.
Một cách để xem xét khi nào hiện tượng này là một vấn đề khó khăn là sử dụng ma trận hệ số
tương quan với tất cả các biến giải thích và biến phụ thuộc. Điều này sẽ không cho chúng ta điều gì
cả khi mà một số lượng lớn các biến có tương quan tuyến tính nhưng nó sẽ cho chúng ta biết khi
nào hai biến này là tương quan tuyến tính với nhau.
Như một sự lựa chọn, khi chúng ta tiến hành hồi quy tuyến tính trong SPSS, chúng ta có thể yêu
cầu chuẩn đoán Thống Kê/Cộng Tuyến (Statistics/Collinearity diagnostic). Thêm vào đó, với tất cả
những điều tuyệt vời chúng ta thường có được với kết quả hồi quy của mình, chúng ta sẽ có được
Các Nhân Tố Thổi Phồng Biến Động (VIF) với mỗi biến giải thích. Các nhân tố này càng lớn thì rất có
thể chúng ta sẽ có càng nhiều đa cộng tuyến. VIF này được tính toán dựa trên phân tích hồi quy
mỗi biến giải thích cũng như tất cả các biến giải thích, và VIF là bằng với 1/(1-R
2
) thu được từ hồi
quy này.
Kennedy (trang 183-89) có một lựa chọn đa cộng tuyến rất đáng tin cậy. Một trích dẫn thú vị trong
phần này:
"Khi có hiện tượng đa cộng tuyến thì người ta vẫn không có những định kiến về phương pháp OLS
mà trên thực tế thì nó là tốt (BLUE). Phân tích R
2
không bị ảnh hưởng gì cả. Trên thực tế, khi tất cả
những giả định CLR (nói đúng ra là) vẫn được thỏa mãn, phương pháp ước lượng OLS vẫn giữ được
những đặc tính rất có giá trị như đã ghi chú trong chương 3. Hậu quả tồi tệ nhất của hiện tượng đa
cộng tuyến chính là những chênh lệch tương đối lớn của phương pháp OLS với những tham số của
các biến cộng tuyến. Những chênh lệch không nhỏ này nảy sinh bởi vì khi có hiện tượng đa cộng
tuyến, quá trình ước lượng OLS không đưa ra được biến động đủ độ tin cậy để tính toán toán tác
động của biến độc lập lên biến phụ thuộc."
VII. Yếu tố sai số được phân bổ thông thường
3
.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những
phạm vi mẫu là nhỏ. Nhưng với phạm vi mẫu lớn hơn, điều này sẽ trở nên không mấy quan trọng.
Để xem xét khi nào các phần dư được phân bố thông thường, chúng ta có thể đưa ra một biểu đồ
các phần dư và xem xét khi nào nó xuất hiện thông thường.
Hầu hết là phải hoàn toàn trung thực khi thực hiện kiểm định thống kê để xác định xem các biếndư
có phân bổ thông thường hay không.
Một Ví Dụ về Vi Phạm Giả Định: Tự Tương Quan.
Theo giáo sư Lundberg, "Hiện tượng tự tương quan
4
là một vấn đề khi mà một trong các biến bên
vế phải có tương quan với yếu tố sai số bởi vì nó được xác định như là một phần của hệ thống hành
vi mà phương trình hồi quy là một phần trong hệ thống hành vi ấy. Như khi chúng ta đang cố gắng
giải thích số giờ mọi người xem TV, chúng ta đặt nhiều tập các hộ gia đình và vế bên phải của số
giờ xem TV là một lời từ chối. Cả số giờ và tập các hộ gia định sẽ bị tác động bởi thị hiếu xem TV,
và hệ số số các tập sẽ trở nên vô nghĩa (mặc dù số các tập này là rất lớn và đáng kể). Do vậy, hiện
tượng tự tương quan là một vấn đề rất rõ ràng và cần phải giải quyết nó bằng cách giảm các mô
hình ước lượng chỉ với các biến ngoại sinh bên vế phải, IV hoặc sử dụng phương pháp đồng nhất
thức (simultaneous-equtions) nào đó."
Chúng ta hãy xem xét tiếp vấn đề này. Giả sử rằng có biến Y
i
nào đó mà chúng ta rất thích. Như
vậy sẽ có nhiều biến giải thích X
1i
, X
2i
, X
3i
, X
4i
, và X
5i
mà chúng ta muốn xem xét đến trong phân
tích hồi quy. Như vậy, phương trình ước lượng sẽ là:
Tuy nhiên, nếu X
1
được xác định là tự tương quan, chúng ta sẽ đưa ra một vi phạm giả định của mô
hình cổ điển, nghĩa là kết quả thu được từ phương pháp OLS có thể là không đáng tin cậy. Ví dụ.
chúng ta cho rằng
trong đó là yếu tố sai số.
Nếu điều này là thế, thì mô hình đúng mà chúng ta nên ước lượng sẽ là
Viết lại phương trình dưới dạng
Phương trình này có yếu tố không đổi , yếu tố sai số và các hệ số gán cho
mỗi một biến giải thích. Nếu X
1i
được tính đến trong hồi quy này, nó sẽ tương quan với yếu tố sai số
bởi vì X
1i
là phương trình tuyến tính của yếu tố sai số . Bởi vì yếu tố sai số là tương quan với một
trong các biến giải thích, nên giả định 3 (III. Các biến giải thích là không có tương quan với yếu tố
sai số) bị vi phạm. Do vậy, phương pháp OLS sẽ không còn giá trị.
Bây giờ, biết rằng điều này có thể là một vấn đề khó khăn, vậy chúng ta có thể và chúng ta nên
làm gì để giải quyết nó? Trong cuốn sách của Kennedy (chương 10) có mô tả các bước tiếp cận khác
nhau để giải quyết vấn đề này. Và nếu bạn thích, tôi rất sẵn lòng chia sẻ chúng.
1 a constrant variance
2 no heteroskedasticity
3 normally distributed
4 endogeneity