Tải bản đầy đủ (.doc) (85 trang)

Học Cách Sử Dụng Phân Tích Hồi QuyAllen Bellas

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.97 MB, 85 trang )

Học Cách Sử Dụng Phân Tích Hồi Quy
Allen Bellas
Trần Tùng
Trong công việc của bản thân chúng ta, nếu chúng ta nắm được những thủ thuật phù hợp với
những hoàn cảnh khác nhau, nắm được những khó khăn có thể gặp phải cũng như làm thế
nào để giải quyết được chúng và nếu như chúng ta nắm được những giải thích kết quả phù
hợp thì chúng ta có thể tự do lựa chọn kiểu phân tích phù hợp nhất với điều mà chúng ta quan
tâm.
Quan trọng hơn, nếu chúng ta nắm được tất cả những điều này, chúng ta có thể thành công
trong việc
Các Bước Ứng Dụng Phân Tích Hồi Quy.
Những bước này là rất quan trọng trong phân tích về trách nhiệm. Quan trọng hơn (như trên),
nó cũng cung cấp một bộ khung đáng tin cậy về những câu hỏi về những phân tích bạn đã đọc
để có thể quyết định khi nào công việc đó được thực hiện một cách có trách nhiệm.
1. Xem xét lại tài liệu và phát triển mô hình lý thuyết.
Cách tốt nhất để làm điều này là xem xét những bài báo cũng như những bài thuyết trình viết
về chủ đề này. Nó cũng cho chúng ta biết những mô hình và các bước tiếp cận mô hình đã
được sử dụng và những vấn đề khó khăn có thể gặp phải.
Đối với những chủ để học thuật thì chúng ta nên bắt đầu bằng dữ liệu "EconLit". Nó chứa
những bài báo từ vô số những tập san khoa học xã hội. Và tất nhiên, chúng ta có thể sử dụng
rất nhiều nguồn khác để tìm kiếm những bài báo liên quan đến những gì chúng ta quan tâm.
2. Định dạng mô hình: Lựa chọn biến độc lập và dạng hàm.
Ví dụ, nếu chúng ta xem xét lượng cầu về gas trong vùng, chúng ta nên lựa chọn biến nào và
chúng ta nên sử dụng mối quan hệ toán học cụ thể nào? Có rất nhiều khả năng để lựa chọn và
khả năng nào là tốt hơn những khả năng khác. Trong trường hợp này, chúng ta có thể lựa
chọn dạng mô hình
Trong trường hợp này, hệ số giá B
1
biểu thị độ dốc của đường cầu ước lượng.
Có tin hay không, một mô hình đáng tin cậy có thể là:
Trong trường hợp này, hệ số giá B


1
biểu thị độ co giãn giá ước lượng của đường cầu.
Studenmund có đưa ra một vài chỉ dẫn (tôi nghĩ nó nằm trong Chương 6) cho việc lựa chọn
các biến độc lập cũng như các biến giải thích.
Chúng ta sẽ nói về những dạng toán học khác nhau mà chúng ta có thể sử dụng và giải thích
chúng ta có thể tiến hành.
3. Đưa ra giả thuyết về những dấu hiệu dự đoán các hệ số.
Từ ví dụ gas ở trên, mỗi hệ số có những dấu hiệu gì?
Đây là phương pháp đáng tin cậy để quyết định điều gì làm cho phân tích sai lệch đáng kể.
Nếu một hệ số có những dấu hiệu đối lập với dự báo thì cần phải xem xét vấn đề này xa hơn
nữa. Hãy nhớ rằng, khi phân tích này có thể là sai lầm, thì ngay cả những dự báo ban đầu của
nó đã là không đúng.
Trong trường hợp không có dấu hiệu dự đoán hệ số thì phương pháp phân tích có thể là đáng
tin cậy. Thực sự thì mục đích nghiên cứu có thể quyết định dấu hiệu của hệ số là gì. Chúng ta
có thể xem xét các ví dụ về điều này được không?
Điều đó có nghĩa là chúng ta có thể xem xét hoàn cảnh đưa ra số liệu và ước lượng mô hình để
xem khi nào tác động của yếu tố giải thích là dương hoặc âm?
4. Thu thập dữ liệu.
Hy vọng là, người khác sẽ đủ tin cậy để thu thập và xắp xếp những số liệu chúng ta sẽ sử
dụng. Tuy nhiên, tốt hơn là chúng ta nên tự thu thập số liệu.
Hãy sử dụng óc suy xét. Thu thập nhiều số liệu luôn luôn là tốt hơn, nhưng nếu số liệu là
không đáng tin cậy thì thật là tồi tệ, mặc dù chúng ta có số quan sát nhiều hơn số các hệ số
để ước lượng. Chênh lệch giữa chúng chính là số cấp tự do trong phân tích hồi quy của chúng
ta.
Hãy thận trọng trong việc xác định số lượng các biến gốc định tính. Hãy nêu một vài ví dụ về
các biến gốc định tính làm thế nào mà có thể sử dụng chúng trong phân tích hồi quy?
Đồng thời cũng phải cẩn thận trong việc phân bổ nguồn lực giữa các công việc đối lập là đưa
ra những mẫu có phạm vi lớn với việc đưa ra mẫu ngẫu nhiên đáng tin cậy.
5. Ước lượng và đánh giá phương trình.
Vì chúng ta đã thực hiện tốt công việc thu thập dữ liệu và xây dựng mô hình hồi quy bao gồm

các biến và quan hệ hàm số.
Trong thực tế, khi chúng ta sớm khám phá ra tất cả, thì có hàng triệu mô hình có thể đưa ra
và chúng ta sẽ thực sự, thực sự muốn tiến hành tất cả các mô hình ấy (cộng với cả một vài
mô hình khác nữa) để thỏa mãn mức độ hiểu biết gần như không thật của bản thân.
Điều quan trọng là cuối cùng chúng ta có thể phụ thuộc vào mô hình một cách hợp lý cũng
như những kết quả được chọn để báo cáo qua các mô hình khác.
Biện hộ hợp lý cho những kết quả lựa chọn bao gồm:
1. So sánh với các mô hình có thể khác,
2. Rất nhiều biến giải thích có nhiều hệ số với các dấu hiệu dự đoán.
3. Những người khác thiết lập mô hình này cho những hiện tượng tương tự.
6. Tài liệu và kết quả.
Viết rõ ràng, kiểm tra lại chính tả, cho bạn bè hoặc đồng nghiệp xem xét công việc của mình
trước khi đệ trình và đưa tham khảo ý kiến của mọi người,v v những điều dường như rất rõ
ràng đối với chúng ta có thể, về khía cạnh khác, không tường tận hơn đối với mọi người khác
trong đề án.
Sử dụng các ví dụ lớp học đưa ra để minh hoạ cho những bước này.
Hai chủ đề bổ sung.
1. Biến chậm. (Lagged variables)
Biến chậm được nêu ra khi chúng ta làm việc với dữ liệu chuỗi thời gian, dữ liệu thu thập được
về các biến cụ thể qua một khoảng thời gian (thường là qua các năm)
Ví dụ khi chúng ta xem xét mối quan hệ giữa tỷ lệ thất nghiệp với tỷ lệ lạm phát ở nước Mỹ,
chúng ta có thể sử dụng thông tin thu thập được về 2 biến này qua một số năm. Nó chính là
dữ liệu chuỗi thời gian.
Như một sự lựa chọn, chúng ta có thể nhìn vào lượng mưa với việc tiêu dùng nước trong một
cộng đồng dân cư qua một khoảng thời gian để xem xét khi nào chúng có tương quan với
nhau. Đó cũng là dữ liệu chuỗi thời gian.
Biến chậm là giá trị của biến từ khoảng thời gian trước, thường là khoảng thời gian ngay trước
đó.
Ví dụ, khi chúng ta tin rằng tỷ lệ thất nghiệp cao sẽ dẫn tới kết quả là tỷ lệ lạm phát thấp,
chúng ta có thể ước lượng phương trình

Và xem xét những hệ số ước lượng U
t
của tỷ lệ thất nghiệp trong khoảng thời gian t là gì.
Tuy nhiên, khi chúng ta tin tưởng rằng tỷ lệ lạm phát không phụ thuộc vào tỷ lệ thất nghiệp
hiện tại, nhưng dĩ nhiên là nó phụ thuộc vào tỷ lệ lạm phát thời kỳ trước (trong quý trước hoặc
năm trước), chúng ta có thể hồi quy tỷ lệ lạm phát qua biến chậm tỷ lệ lạm phát cũng như tỷ
lệ lạm phát kỳ trước
Trong bảng tính, các số liệu sẽ có dạng
Với nhiều trường hợp thì giá trị các biến giải thích kỳ trước có thể là hữu ích trong việc dự
đoán hoặc dự báo giá trị các biến phụ thuộc hiện tại. giá trị hơn, khi chúng ta biết giá trị các
biến giải thích hiện tại, chúng ta có thể dự đoán giá trị các biến phụ thuộc kỳ tiếp theo.
Những ví dụ bao gồm các câu hỏi về tương quan chuỗi. Những ví dụ này có thể là các sinh
viên "khéo léo điêu luyện" trong các môn thể thao (đặc biệt là trong môn bóng rổ) hoặc cũng
có thể là những thay đổi trong thị trường chứng khoán. Có phải thành công của nỗ lực này dự
đoán cho những thành công ở những nỗ lực tiếp theo không? Có phải sự tăng lên trong một
ngày dự đoán cho tất cả những điều về ngay ngày hôm sau?
Có một câu chuyện thông thường ở đây là về giá cây trồng. Những người nông dân có thể lập
kế hoạch cho những quyết định của mình dựa trên giá cây trồng tại thời điểm gieo trồng hoặc
dựa vào vụ mùa trước đó.
2. Biến giả. (Dummy variables)
Biến giả được sử dụng bao gồm cả các biến định tính trong hồi quy. Thường thì biến giả lấy giá
trị là 1 khi có một điều kiện được thoả mãn, là 0 khi một điều kiện không được thoả mãn. Điều
này cho phép ước lượng tác động của biến phụ thuộc khi điều kiện này được thoả mãn.
Ví dụ, nếu chúng ta xem xét thu nhập cá nhân tính cả đến biến giả trong đó biến giả lấy giá trị
là 1 nếu như cá nhân là nam, là 0 nếu như cá nhân là nữ. Sau đó, chúng ta sẽ ước lượng hệ số
biến giả. Giá trị ước lượng là phần chênh lệch dự đoán giữa thu nhập cá nhân khi cá nhân là
nam với thu nhập cá nhân khi cá nhân là nữ, các điều khác là không đổi.
Những biến nào khác có thể tính đến các trong hồi quy này và tại sao biến này lại có thể là hệ
số của lãi suất?
Nếu chúng ta hồi quy thu nhập cá nhân qua tuổi và giới tính, phương trình hồi quy có thể là

Hệ số B
1
là độ dốc (slope) của đường tuyến tính.
Hệ số giới tính B
2
là sự thay đổi đường tuyến tính với những cá nhân nam. Kết quả có thể được
biểu diễn trên đồ thị dưới đây:
Như một sự lựa chọn, chúng ta có thể thêm yếu tố tác động qua lại lẫn nhau[1]. Điều này cho
phép ảnh hưởng của giới tính lên thu nhập của nam và nữ là khác biệt. trong trường hợp này,
mô hình có thể là
Thể hiện kết quả có thể lên đồ thị:
Nếu bạn muốn tính đến một vài đặc điểm loại trừ tác động qua lại lẫn nhau này như là các
biến giải thích trong đó mỗi biến đều có biến giả nhưng một trong số chúng phải được bị loại
trừ trong quá trình thực hiện hồi quy.
Ví dụ, nếu chúng ta thực hiện hồi quy thu nhập cá nhân như ví dụ ở trên và quyết định xem
xét đến cả thước đo giáo dục nào đó thì có vài cách thực hiện hồi quy. Xem xét cả đến số năm
giáo dục mà không quan tâm đến những tác động phi tuyến tính của chứng chỉ, văn bằng.
Chúng ta có thể có các biến giả với trình độ phổ thông, chứng nhận tốt nghiệp phổ thông,
trình độ cao đẳng, bằng cấp cao đẳng, chứng nhận tốt nghiệp đại học, bằng cấp thạc sĩ và tiến
sĩ. Ở đây sẽ có 7 biến giả, nhưng chỉ 6 biến giả được tính đến khi thực hiện hồi quy. Nếu loại
trừ biến giả đầu tiên (trình độ phổ thông), giải thích cho từng biến giả còn lại có thể là mức
chênh lệch thu nhập được dự báo
Nếu chúng ta thực hiện hồi quy và thu được các kết quả.
Giải thích có thể là một người trình độ phổ thông có mức thu nhập ước lượng là $14398,
những người có chứng nhận tốt nghiệp phổ thông có mức thu nhập ước lượng hơn những
người trình độ phổ thông là $4569, và những người có bằng cấp tiến sĩ có thu nhập cá nhân
ước lượng kém những người trình độ phổ thông là $9875.
Chúng ta cũng có thể có biến phụ thuộc giả[2]. Nghĩa là, chúng ta có thể thiết lập mô hình
trong đó các sự kiện đã không hoặc có xảy ra như kết quả của một số yếu tố giải thích.
Ví dụ, nếu chúng ta xem xét tài liệu rượt bắt của cảnh sát, chúng ta có thể quan tâm đến các

yếu tố liên quan đến kết thúc của rượt đuổi trong các vụ đụng độ. Do vậy với dữ liệu về theo
đuổi tội phạm từ những phòng ban cụ thể, chúng ta có thể sử dụng những dữ liệu đó như biến
phụ thuộc trong đó một biến giả lấy giá trị là 1 nếu như rượt đuổi tội phạm kết thúc bằng
những vụ đụng độ, biến giả lấy giá trị là 0 nếu như ngược lại. Các biến giải thích có thể rất thú
vị và định tính (số năm kinh nghiệm của các nhân viên theo dõi tội phạm) hoặc chúng cũng có
thể là biến giả (biến giả theo giới tính nam ví dụ như biến giả sẽ lấy giá trị là 1 nếu nhân viên
theo dõi tội phạm là nam và giá trị là 0 nếu như nhân viên theo dõi tội phạm là nữ).
[1] Interactive term
[2] dummy dependent variable
Những Điều Căn Bản về Phân Tích Hồi Quy
Allen Bellas
Trần Tùng
Quan Hệ Hàm Số
Phần này nói về ước lượng quan hệ toán học giữa các biến. Những mối quan hệ này còn được
gọi là mối quan hệ hàm số. Chúng cố gắng mô tả các biến giải thích (còn được gọi là biến độc
lập) tác động lên biến phụ thuộc như thế nào.
Biến giải thích là biến xảy ra.
Biến phụ thuộc là biến kết quả.
Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người, chúng ta có thể sử dụng
các biến giải thích là thu nhập và độ tuổi. Khi giải thích giá của một chiếc ô tô, các biến giải
thích có thể là kích cỡ, động cơ máy, độ tin cậy của hãng sản xuất cũng như độ an toàn của
chiếc ô tô. Để giải thích giá của một ngôi nhà các biến giải thích có thể là kích cỡ, số phòng, tỷ
lệ tội phạm của khu dân cư cũng như độ tuổi của ngôi nhà. Để dự đoán khả năng một học sinh
cuối cấp trung học phổ thông vào đại học, chúng ta có thể xem xét đến điểm các bài kiểm tra,
trình độ giáo dục của cha mẹ cũng như thu nhập của gia đình anh ta.
Vậy với những trường hợp khác thì sao? Đây sẽ là một bài tập dành cho các học viên trong
lớp. Hãy đưa ra những ví dụ về các biến phụ thuộc của sự ham muốn. Tại sao mọi người lại
ham muốn và những biến giải thích quan trọng nhất của nó trong phương trình hồi quy là gì?
Làm thế nào để định lượng được biến phụ thuộc và biến giải thích?
Ví Dụ trên mặt phẳng 2 chiều

Tưởng tượng rằng chúng ta có thông tin về thu nhập và chi tiêu tiêu dùng, chúng ta tin tưởng
rằng chi tiêu tiêu dùng phụ thuộc vào thu nhập và chúng ta biểu diễn cả 2 biến này lên đồ thị.
Biểu diễn biến phụ thuộc lên trục tung, còn biến giải thích (biến độc lập) lên trục hoành.
Mục đích của phân tích hồi quy là qua những điểm dữ liệu[1], chúng ta có thể kẻ ra một đường
tuyến tính biểu diễn mối quan hệ giữa hai biến thu nhập và chi tiêu tiêu dùng một cách đáng
tin cậy nhất.
Nếu đường tuyến tính có độ dốc hướng lên trên chứng tỏ các điểm dữ liệu có mối tương quan
dương. Nếu đường tuyến tính dốc xuống dưới thi mối tương quan là âm. Còn nếu đường tuyến
tính mà nằm ngang thì là không có mối tương quan giữa các điểm số liệu.
Chúng ta nên thận trọng khi sử dụng kết quả hồi quy để lập báo cáo về những gì đang xảy ra
ở nhiều mức độ qua những điều đã quan sát được. Ví dụ nếu chúng ta quan sát mức thu nhập
từ $10.000 - $30.000 và chúng ta sẽ dụng những dữ liệu thu được này để ước lượng tương
quan giữa thu nhập và tiêu dùng, chúng ta nên thận trọng trong việc sử dụng mối tương quan
này để dự đoán mức tiêu dùng khi thu nhập là $60.000
Hàm Tuyến Tính
Phương trình hồi quy mà chúng ta sẽ xem xét sẽ ước lượng mối tương quan tuyến tính giữa
biến phụ thuộc và biến độc lập (hay biến giải thích).
Tương quan tuyến tính cơ bản:
Y là một hàm của X
Nếu X tăng 1 đơn vị thì Y tăng b
1
đơn vị
Đồ thị của một hàm tuyến tính
Ví dụ: nếu chúng ta xem xét Thu Nhập và Tiêu Dùng: C = b
0
+ b
1
I
Tiêu Dùng (C) là một hàm của Thu Nhập (I). Nếu chúng ta hồi quy phương trình này, chúng ta
có thể thu được giá trị ước lượng: C=8.435+0.631. Ý nghĩa của những hệ số ước lượng này là

gì?
Hãy xem xét những ví dụ trước đây. Các hệ số này được giải thích như thế nào?
Bây giờ, nếu chúng ta vẽ những điểm dữ liệu lên đồ thị thì rõ ràng mối tương quan này sẽ
không phải là một đường tuyến tính. Nếu chúng ta cố gắng ước lượng một tương quan tuyến
tính giữa biến giải thích và biến phụ thuộc khi mà tương quan này vốn đã không phải là tuyến
tính thì sẽ sai. Đáng tiếc là chúng ta không thể ước lượng được yếu tố phi tuyến tính; vậy
chúng ta phải làm gì?
Nếu tương quan là dương và vồng xuống, chúng ta có thể ước lượng mối tương quan dạng:
. Điều đó có nghĩa là chúng ta có thể sử dụng đồng thời cả hai
biến giải thích X và X
2
trong phương trình tuyến tính.
Nếu tương quan là dương và vồng lên, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b
1
> 0.
Nếu tương quan là âm và vồng lên, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b
1
< 0, hoặc tổng quát hơn trong đó b
1
< 0
và a > 0.
Nếu tương quan là âm và vồng xuống, chúng ta có thể ước lượng mối tương quan dạng:
trong đó b
1
< 0. Hoặc tổng quát hơn,
trong đó 0<b<1.

Dấu Hiệu Dự Đoán các Hệ Số.
Trước khi ước lượng một mô hình cụ thể, chúng ta nên biết những dấu hiệu của các hệ số khác
biệt. Nếu tương quan giữa biến phụ thuộc với biến độc lập nào đó là dương thì hệ số biến độc
lập là dương. Nếu tương quan giữa biến phụ thuộc với biến độc lập nào đó là âm thì hệ số biến
độc lập đó là âm.
Hãy xem xét các ví dụ trước đây và dự đoán các hệ số.
Ví Dụ: Xem xét chi tiêu tiêu dùng là một hàm của tuổi và thu nhập C = f(I,A). Viết hàm số
này dưới dạng phương trình tuyến tính: . Dấu hiệu hệ số b
1
là gì?
Dấu hiệu hệ số b
2
là gì?
Lớp sẽ đưa ra nhiều ví dụ hơn.
Phần Dư và Yếu Tố Sai Số.
Yếu tố sai số là một trong những thực tiễn tiêu chuẩn trong quá trình định ra phương trình ước
lượng. Giá trị thực tế của biến phụ thuộc bằng giá trị dự đoán (được tính qua phương trình và
các hệ số ước lượng) cộng với yếu tố sai số ngẫu nhiên. Điều này thường được viết dưới dạng:
Sau khi hoàn thành ước lượng thực tế, mỗi điểm thu được sẽ chênh lệch với điểm dữ
liệu một lượng nhất định. Chênh lệch dương giữa giá trị thực tế của Yi với giá trị ước lượng của
Yi (còn được gọi là Yi mũ) được gọi là phần dư và được biểu diễn là (epsilon
i
)là yếu tố sai số
sử dụng trong mô hình và e
i
là phần dư trong quá trình ước lượng xem xét phương trình biểu
diễn ở trên.
Dựa vào phương trình ở trên, kết quả ước lượng mô hình có thể viết dưới dạng:
Tương Quan Nội Sinh
Tương Quan Nội Sinh[2] là hiện tượng khi một biến giải thích trong mô hình phụ thuộc vào các

biến giải thích khác. Kết quả phân tích hồi quy sẽ không có giá trị và nó cũng là một vấn đề
thú vị nảy sinh khi xem xét lại những công việc của một người nào đó.
Ví Dụ: Nếu chúng ta đang cố gắng xác định tác động của chương trình hướng thanh thiếu niên
tránh xa các tệ nạn, chúng ta có thể nhìn vào mối quan hệ giữa biến phụ thuộc là khả năng
một cá nhân bị bắt với nhiều biến giải thích là các yếu tố khác nhau của chương trình. Điều
này có thể chẳng đem lại kết quả gì, tuy nhiên, khi mà khả năng phạm tội của một thanh
thiếu niên tham gia vào chương trình là phụ thuộc vào các biến giải thích.
Ví Dụ: giả sử rằng chúng ta đang cố gắng xác định chương trình tác động đến khu dân cư
không phạm tội. Các biến giải thích và các biến phụ thuộc sẽ là như thế nào? Làm thế nào để
hiện tượng tự tương quan ăn khớp ở đây và có phải nó sẽ khiến cho chương trình dường như
tác động tới khu dân cư nhiều hoặc ít hơn so với mức độ tác động thực tế không?
R
2
Điều Chỉnh.
Bây giờ, mô hình lý tưởng sẽ có mức giải thích rất cao. Điều này có nghĩa là ESS/TSS = R
2
gần
bằng 1. Thêm càng nhiều biến vào phương trình ước lượng thì sẽ làm tăng giá trị R
2
chứ không
giảm. Kết quả là mô hình với rất nhiều biến giải thích vô dụng sinh ra một đạo hàm có vẻ như
có mức độ giải thích rất cao. Nhưng R
2
sẽ chỉ đơn thuần là sự tương quan không thực.
Để khắc phục điều này, chúng ta tính R
2
điều chỉnh[7] (adjusted R
2
)
trong đó

n = số các quan sát trong tập dữ liệu.
K = số lượng các hệ số.
Trong ví dụ hồi quy thịt bò ở trên, n là số năm thu thập dữ liệu, còn K bằng 2 bởi vì có một hệ
số ước lượng giá và một hệ số ước lượng thu nhập.
Thêm biến vào phương trình hồi qui, thậm chí biến này chẳng có ảnh hưởng gì tới biến phụ
thuộc thì điều này có khả năng làm R
2
tăng, nhưng sẽ làm K giảm và có thể làm R
2
điều chỉnh
giảm.
Một quy luật tổng quát đáng tin cậy trong việc lựa chọn giữa các mô hình là lựa chọn mô hình
nào có R
2
điều chỉnh cao. Khi chúng ta đang xem xét việc thêm một biến mới vào phương trình
hồi qui, chúng ta xem xét xem nếu nó làm R
2
tăng hay không. Nếu có thì chúng ta nên thêm
biến mới đó vào phương trình.
Tuy nhiên, nên áp dụng qui luật này một cách thận trọng, như ví dụ trong Studenmund 2.5 đã
giải thích.
Cách tốt nhất để lựa chọn các biến cho phương trình hồi quy là tìm hiểu các biến phụ thuộc, và
dựa vào những hiểu biết về biến đó của bản thân để quyết định các biến nào nên được tính
đến đầu tiên khi thực hiện hồi quy. Mô hình của chúng ta hơi mang tính lý thuyết và chúng ta
cần phải đưa ra giải thích đáng tin cậy cho những kết luận về từng biến cũng như bao gồm tất
cả các biến giải thích.
Cấp Tự Do (Degrees of Freedom)
Số cấp tự do trong hồi qui là bằng với chênh lệch giữa số các quan sát (n) trong tập dữ liệu trừ
đi số lượng các hệ số ước lượng (K+1).
(n-K-1) phải lớn hơn hoặc bằng 0.

Để biết tại sao, xem xét trường hợp hồi quy đơn với một điểm dữ liệu.
Bởi vì có hai hệ số ước lượng (b
0
và b
1
), chúng ta có K+1 = 1+1 = 2. Do vậy, ở đây chúng ta
phải có ít nhất 2 điểm ước lượng đường tuyến tính.
1. Nếu chúng ta ước lượng mối quan hệ OLS với một quan sát thì sao?
2. Làm thế nào chúng ta có thể ước lượng mối quan hệ OLS với một quan sát? Chúng ta cần
phải giả định điều gì?
Những Câu Hỏi Khó mà Bạn Có Thể Trả Lời?
Studenmund (trang 49) có đưa ra một vài câu hỏi mà bạn có thể và bạn nên đặt ra khi đọc
báo cáo liên quan đến phương pháp hồi quy OLS.
1. Phương trình ước lượng đưa ra có hợp với lý thuyết không?
Ở một mức độ, hãy hỏi chính bản thân là khi nào thì các biến giải thích được xem là có nghĩa
và khi nào thì bạn cho là nên thêm các biến khác nữa vào trong mô hình. Có thể phương trình
ước lượng đưa ra những kết luận đáng tin cậy, nhưng bạn nên đặt ra những câu hỏi cho chính
mình.
2. Thực hiện hồi quy có phù hợp với số liệu hay không?
Điều này liên quan đến R
2
. R
2
không nhất thiết có nghĩa là mô hình là không đáng tin cậy,
nhưng nên tăng các yếu tố cần thiết cho việc đưa ra kết quả. Điều này được hiểu là nếu R
2

thấp thì mức độ quan sát cho tất cả từng quan sát có thể là rất thấp mặc dù đối với một số
lượng lớn các quan sát thì nó có thể là rất đáng tin cậy. Tương tự như vậy, R
2

rất cao cũng có
thể đưa ra một số điều không thực.
3. Tập số liệu đã đủ lớn và đúng đắn chưa?
Số lượng các quan sát là rất quan trọng, nhưng số cấp tự do còn quan trọng hơn nhiều. Thêm
nữa, bạn nên hỏi bản thân là có phải có thể xác định số lượng cũng như tính toán được tất cả
các quan sát hay không và làm thế nào để tính toán chúng được một cách chính xác.
4. Đối với phương trình này, liệu phương pháp OLS có phải là phương pháp tốt nhất hay
không?
Chúng ta sẽ bàn luận đến một vài phương pháp khác, mặc dù chúng cơ bản là dựa trên
phương pháp OLS.
5. Làm thế nào các hệ số ước lượng phù hợp với các hệ số dự đoán được các nhà nghiên cứu
phát triển trước khi thu thập số liệu?
Hãy xem xét các dấu hiệu hệ số khác lạ. Ví dụ nếu lượng cầu là tương quan dương với giá thì
bạn cũng nên đặt ra một số câu hỏi cho vấn đề không thực này.
6. Có phải tất cả các biến quan sát quan trọng đã được tính đến trong phương trình này?
7. Có phải đây là dạng phương trình logic theo lý thuyết thông dụng nhất hay không?
Xem xét ví dụ thịt bò? Có phải giá thịt bò dự đoán tăng khoảng $0.50/pound là có nghĩa
không? Có một mô hình khác có thể cũng phù hợp. Có cần tăng số biến giải thích tới một mức
độ nhất định để mô tả một cách chính xác chúng tác động tới biến độc lập như thế nào?
8. Có phải hồi quy hóa ra là không chứa đựng các trục trặc, vấn đề chính của kinh tế lượng
hay không?
Chúng ta sẽ đề cập nhiều hơn nữa tới vấn đề này. Một điều mà chúng ta đã nói đến là bạn nên
ghi nhớ hiện tượng tự tương quan. Bạn có thể giả định một mô hình trong đó một trong các
biến giải thích được giải thích bởi các biến giải thích khác không?
Trả Lời Các Câu Hỏi ở Mô Hình về Thịt Bò.
1. Giải thích hệ số của P
t
.
Là số pound tiêu dùng thịt bò thay đổi hàng năm khi giá thịt bò tăng $0.01.
2. Giải thích hệ số của Yd

t
.
Là số pound tiêu dùng thịt bò thay đổi hàng năm khi thu nhập trên đầu người tăng $1.000.
3. Thịt bò có phải là hàng hóa thông thường hay không?
Đúng. Các số liệu dường như đưa ra rằng thịt bò là hàng hóa thông thường bởi vì hệ số của
thu nhập là dương, do vậy, khi thu nhập tăng (trong khi các yếu tố khác là không đổi) thì
lượng thịt bò tiêu thụ sẽ tăng.
4. Các giá trị hệ số ước lượng có phù hợp với luật cầu hay không?
Có. Hệ số ước lượng của giá là dương, chứng tỏ khi giá thịt bò tăng (trong khi các yếu tố khác
là không đổi) thì lượng cầu sẽ giảm.
5. Theo mô hình, nếu giá thịt bò tăng $0.02/pound thì lượng thịt bò tiêu thụ trên đầu người
trong năm t sẽ thay đổi như thế nào?
Nếu giá thịt bò tăng $0.02/pound, mô hình dự đoán là lượng thịt bò tiêu thụ trên đầu người
hàng năm sẽ giảm một lượng 2*0.88=1.76 pounds.
6. Theo mô hình, nếu thu nhập ròng trên đầu người tăng $2.000 thì lượng thịt bò tiêu thụ trên
đầu người trong năm t sẽ thay đổi như thế nào?
Nếu thu nhập ròng trên đầu người tăng $2.000, mô hình dự đoán là lượng thịt bò tiêu thụ
hàng năm trên đầu người sẽ tăng một lượng 11.9*2=23.8 pounds.
7. Theo mô hình, nếu giá thịt bò tăng gấp đôi thì lượng thịt bò tiêu thụ trên đầu người trong
năm t sẽ thay đổi như thế nào?
Ở đây, chúng ta không thể không biết giá hiện tại của thịt bò bởi vì chúng ta không biết số
lượng thịt bò tăng theo cent/pound.
8. Theo mô hình, nếu giá thịt bò tăng $0.50 thì lượng thịt bò tiêu thụ trên đầu người trong
năm t sẽ thay đổi như thế nào? Kết quả thu được có đáng tin cậy hay không? Giải thích vấn đề
và nêu phương pháp khắc phục.
Nếu giá thịt bò tăng $0.50/pound thì lượng thịt bò tiêu thụ giảm 50*0.88=44 (pound). Điều
này dường như là hơi nhiều và tôi cho rằng lượng thịt bò tiêu thụ trong mô hình có thể còn có
tương quan với căn bậc hai của giá.
9. Hệ số ước lượng sẽ thay đổi như thế nào khi lượng thịt bò tiêu thụ được tính theo
kilogam/người?

Bởi vì là 2,2pound/kilogam, nên mỗi hệ số sẽ được chia cho 2.2. Ví dụ, để lượng tiêu thụ thịt
bò trên đầu người tăng 1 kg, giá phải giảm xuống 2,2 lần.
Khi giá được tính theo đôla/pound?
Khi giá được tính theo đôla/pound thì hệ số ước lượng của Pt sẽ tăng lên 100 lần. Trong mọi
trường hợp, giá tăng 1 đôla thì lượng thịt bò tiêu thụ trên đầu người hàng năm sẽ giảm 88
pound.
[1] Ordinary Least Square
[2] Standard Error of Estimate
[3] Total Sum of Squares
[4] Explained Sum of Squares
[5] Residual Sum of Squares
[6] disposable income
Mô Hình Cổ Điển
Allen Bellas
Trần Tùng
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước
lượng mối quan hệ tuyến tính giữa các biến phụ thuộc với các biến giải thích hay các biến độc
lập nào đó. Theo nghĩa nào đó, phương pháp này là phương pháp đáng tin cậy nhất để ước
lượng mối quan hệ tuyến tính này. Nó là "đáng tin cậy nhất", tuy nhiên mô hình ước lượng
phải thoả mãn 7 giả định. Những giả định này thuộc về kỹ thuật, nhưng ở đây chúng ta sẽ cố
gắng giải thích chúng là gì và chúng tác động đến kết quả hồi quy như thế nào.
I. Mô hình hồi quy là tuyến tính theo các hệ số. Mô hình phải được định dạng đúng và có thêm
yếu tố sai số.
Giả định này gồm có 3 phần. Chúng ta sẽ xem xét từng phần một.
Đầu tiên, mô hình này phải là mô hình tuyến tính theo các hệ số. Điều này có nghĩa là quá
trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng
hoặc mối quan hệ thực tế đó có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế. Tốt
nhất là nên xem xét phần này trong mối liên hệ với phần thứ hai của giả định.
Phần thứ hai của giả định là mô hình phải được định dạng đúng.
Kết hợp hai phần đầu tiên của giả định này, chúng ta xem xét việc quá trình xác định biến phụ

thuộc thực tế là như thế nào và mối quan hệ tuyến tính hay đạo hàm của nó là tuyến tính.
Trong khi đối với các quá trình khoa học tự nhiên đơn giản thì việc định dạng mô hình theo
phương trình tuyến tính một cách chính xác là hoàn toàn có thể nhưng đối với quá trình quyết
định hoạt động của một người có lý trí trong một môi trường phức tạp thì việc này là bất khả
thi. Theo một nghĩa thực tế, chúng ta có thể phụ thuộc vào việc định rõ bằng cách nói rằng đó
chỉ là định mức sử dụng trong việc xem xét hoàn cảnh đang nghiên cứu. Nếu chúng ta tìm
kiếm những bản báo cáo, giấy tờ, hay những nghiên cứu dử dụng mô hình cụ thể, đó là lý do
có thể chấp nhận được cho việc sử dụng nó. Ngược lại cũng như vậy. Mặt khác, nếu chúng ta
sử dụng mô hình mà chưa từng có ai đã sử dụng thì kết quả của nó có thể gây tranh cãi và bị
bác bỏ.
Phần thứ ba của giả định này là phải có thêm yếu tố sai số.Điều này đơn giản có nghĩa là yếu
tố sai số được thêm vào giá trị dự đoán sao cho
hơn là giữ nguyên nó, ví dụ:
Có lẽ điều này chẳng có nhiều nghi ngờ hơn giả định là chúng ta có mô hình đúng và mô hình
là tuyến tính, nhưng hãy nhìn vào số dư của nó (chúng ta có những số dư e
i
này sau khi ước
lượng mô hình, chúng có thể được quyết định là đúng hay không. Nếu mô hình là sai, chúng ta
có thể gặp phải những vấn đề như khi mà mô hình đúng là phi tuyến tính nhưng mô hình ước
lượng là tuyến tính.
II. Trung bình tổng thể sai số là bằng 0.
Điều này có nghĩa là giá trị của là bằng 0 .
Bởi vì , điều này có nghĩa là
Do vậy, giá trị ước lượng bằng giá trị thực tế Y
i
. Điều này chẳng có gì là biến động cả.
Khi chúng ta thực hiện hồi quy, thì giá trị trung bình của các phần dư về cơ bản là sẽ bằng 0.
Đó là một vấn đề thực tế và nó chỉ có liên quan lỏng lẻo đối với những lý thuyết đã được trình
bày ở trên. Về cơ bản, mô hình ước lượng sẽ có yếu tố sai số với giá trị trung bình của nó bằng
0. Do vậy khi mô hình lý thuyết không có yếu tố sai số với giá trị ước lượng của nó là bằng 0,

thì hai kiểu mô hình này sẽ là trái ngược nhau.
III. Tất cả các biến giải thích là không tương quan với yếu tố sai số.
Điều này có nghĩa là khi bất kỳ biến giải thích nào mà lớn hơn hay nhỏ đi thì yếu tố sai số sẽ
không thay đổi theo nó. Nếu điều này là không đúng, ví dụ, biến sai sẽ lớn hơn khi một trong
các biến giải thích lớn hơn, và nhỏ hơn khi biến giải thíhc nhỏ hơn. Nếu điều này đúng, thì có
mô hình khá hơn dựa vào giá trị của biến giải thích.
Có ít nhất 2 cách để kiểm định xem điều kiện này có được thỏa mãn hay không.
• Các phần dư (giá trị chênh lệch giữa giá trị thực tế của biến phụ thuộc với các giá trị
dự đoán) có thể được minh họa trên đồ thị với nhiều biến giải thích khác nhau.
• Có thể tính toán được hệ số tương quan giữa các phần dư với các biến giải thích khác
nhau.
Không nên có các mô hình dễ nhận thức rõ trên đồ thị và các hệ số tương quan nên là rất nhỏ.
IV. Không có sự tương quan giữa các quan sát của yếu tố sai số (không có tương quan chuỗi).
Nếu chúng ta xem xét các chuỗi số liệu thời gian (dữ liệu được thu thập từ một nguồn trong
nhiều khoảng thời gian khác nhau). Yếu tố sai số trong khoảng thời gian này không
có bất kỳ một tương quan nào với yếu tố sai số trong khoảng thời gian trước đó. Một cách để
kiểm định điều này là minh họa các yếu tố sai số theo thời gian lên đồ thị và xem xét cả các
giá trị dương hay giá trị âm có theo một khuôn mẫu hay theo một loạt theo thời gian hay
không.
Chúng ta có thể nhìn vào vài điểm nào đó tron kiểm định runs test. Cơ bản điều này là một
kiểm định để xem xét khi nào có nhiều quan sát đồng thời với cả phần dư âm hoặc phần dư
dương là rất đáng ngờ.
Xem xét dữ liệu tiêu dùng gas ở Califonia ở trên, chúng ta thấy xuất hiện tương quan chuỗi với
một vài dạng mô hình.
V. Phương sai các yếu tố sai số là bằng nhau
1
(phương sai thuần nhất
2
).
Điều này có nghĩa là các sai số của các quan sát này không trải dài ra nhiều hơn các sai số các

quan sát khác. Điều này rất khó để mô tả, nhưng có một biểu hình đáng tin cậy trong cuốn
sách của Studenmund, trang 99 (bản in lần thứ ba).
Biểu hình của Studenmund đưa ra một biểu đồ phân tán (scatterplot) các biến giải thích theo
trục hoành, các biến phụ thuộc theo trục tung và minh họa đường hồi quy. Khi các giá trị của
biến thích càng lớn thì các điểm của biểu đồ phân tán này là càng cách xa đường hồi quy.
Đây là một biểu đồ khác nữa.
Yếu tố sai số có xu hướng là ngày càng nhỏ khi mà biến độc lập SQFT ngày càng nhỏ. Khi
SQFT tăng, yếu tố sai số cũng sẽ tăng thêm. Điều này có vẻ là dễ dàng hơn việc xem xét khi
mà bạn biểu diễn bình phương các các sai số này lên biểu đồ.
Về cơ bản, khi chúng ta minh họa bình phương các sai số này lên đồ thị dựa vào tất cả các
biến giải thích, kích cỡ của các phần dư có sẽ không phụ thuộc vào giá trị của các biến giải
thích. Nếu các phần dư tăng khi biến phụ thuộc tăng (hoặc giảm) thì chúng ta có phương sai
không thuần nhất.
Một ví dụ cho trường hợp này trong đó phương sai không thuần là trong mô hình giá nhà như
một hàm của các đặc điểm ngôi nhà. Biến động các yếu tố sai số có thể sẽ lớn hơn với giá nhà
đắt hơn và biến động các yếu tố sai số có thể nhỏ hơn với giá nhà rẻ hơn. Khoảng tin cậy 95%
cho giá trị thực của ngôi nhà khi giá trị ước lượng của nó là 40.000$ có thể sẽ là [$38.000,
$42.000] trong khi với khoảng tin cậy tương tự cho ngôi nhà với giá trị ước lượng của nó là
$2.000.000 có thể là [$1.900.000, $2.100.000].
Trong cuốn sách của Kennedy (các trang 118 - 21) có một thảo luận rất đáng tin cậy về hệ
quả của phương sai không thuần nhất, phương pháp kiểm định phương sai không thuần nhất
và một mô tả còn chưa rõ ràng về việc làm thế nào để giải quyết hiện tượng. Kennedy đề xuất
ra 4 phương pháp kiểm định hiện tượng phương sai không thuần nhất.
• Dùng mắt kiểm định các phần dư.
• Kiểm định Goldfeld-Quandt.
• Kiểm định Breusch-Pagan.
• Kiểm định White.
Bạn có thể sử dụng phương pháp đầu tiên trong 4 phương pháp kiểm định này trong Excel.
Các phương pháp khác có thể dùng trong phần mềm hữu ích nào đó.
Để giải quyết hiện tượng tự tương quan, chúng ta có 2 lựa chọn.

• Chúng ta có thể sử dụng phương pháp hồi quy bình weighted least square (hơn là
phương pháp bình thông thường (OLS)).
• Chúng ta có thể lựa chọn phương pháp tiếp cận theo tư tưởng và loại trừ hiện tượng
phương sai không thuần nhất theo một phương pháp tâm linh hơn.
VI. Không có biến giải thích nào là hàm tuyến tính hoàn hảo của các bất kỳ các biến giải thích
khác (không có đa cộng tuyến hoàn hảo) (no perfect multicollinearity).
Điều này có nghĩa là không có biến giải thích nào là một hàm tuyến tính của một hoặc nhiều
biến giải thích khác.
Điều này có nghĩa là chúng ta tính đến cả biến giải thích X và biến giải thích X
2
.
Ví dụ như chúng ta không thể tính đếm nhiệt độ Fahrenheit và nhiệt độ Celsius (C) bởi vì F =
32 + 1.8 C. Điều này có nghĩa là Celsius là một hàm tuyến tính của Fahrenheit.
Đây là lý do tại sao chúng ta phải loại trừ một trong các biến giả. Ví dụ khi chúng ta có các
biến giả cho nam (M) và biến giả cho nữ (F) và không có giới tính khác. Khi ấy, với mỗi quan
sát M + F = 1 hoặc F = 1 - M hoặc M = 1 - F. Bởi vì có 2 biến này là các hàm tuyến tính của
các biến khác, một trong số biến này phải được loại trừ.
Một cách để xem xét khi nào hiện tượng này là một vấn đề khó khăn là sử dụng ma trận hệ số
tương quan với tất cả các biến giải thích và biến phụ thuộc. Điều này sẽ không cho chúng ta
điều gì cả khi mà một số lượng lớn các biến có tương quan tuyến tính nhưng nó sẽ cho chúng
ta biết khi nào hai biến này là tương quan tuyến tính với nhau.
Như một sự lựa chọn, khi chúng ta tiến hành hồi quy tuyến tính trong SPSS, chúng ta có thể
yêu cầu chuẩn đoán Thống Kê/Cộng Tuyến (Statistics/Collinearity diagnostic). Thêm vào đó,
với tất cả những điều tuyệt vời chúng ta thường có được với kết quả hồi quy của mình, chúng
ta sẽ có được Các Nhân Tố Thổi Phồng Biến Động (VIF) với mỗi biến giải thích. Các nhân tố
này càng lớn thì rất có thể chúng ta sẽ có càng nhiều đa cộng tuyến. VIF này được tính toán
dựa trên phân tích hồi quy mỗi biến giải thích cũng như tất cả các biến giải thích, và VIF là
bằng với 1/(1-R
2
) thu được từ hồi quy này.

Kennedy (trang 183-89) có một lựa chọn đa cộng tuyến rất đáng tin cậy. Một trích dẫn thú vị
trong phần này:
"Khi có hiện tượng đa cộng tuyến thì người ta vẫn không có những định kiến về phương pháp
OLS mà trên thực tế thì nó là tốt (BLUE). Phân tích R
2
không bị ảnh hưởng gì cả. Trên thực tế,
khi tất cả những giả định CLR (nói đúng ra là) vẫn được thỏa mãn, phương pháp ước lượng
OLS vẫn giữ được những đặc tính rất có giá trị như đã ghi chú trong chương 3. Hậu quả tồi tệ
nhất của hiện tượng đa cộng tuyến chính là những chênh lệch tương đối lớn của phương pháp
OLS với những tham số của các biến cộng tuyến. Những chênh lệch không nhỏ này nảy sinh
bởi vì khi có hiện tượng đa cộng tuyến, quá trình ước lượng OLS không đưa ra được biến động
đủ độ tin cậy để tính toán toán tác động của biến độc lập lên biến phụ thuộc."
VII. Yếu tố sai số được phân bổ thông thường
3
.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong
những phạm vi mẫu là nhỏ. Nhưng với phạm vi mẫu lớn hơn, điều này sẽ trở nên không mấy
quan trọng.
Để xem xét khi nào các phần dư được phân bố thông thường, chúng ta có thể đưa ra một biểu
đồ các phần dư và xem xét khi nào nó xuất hiện thông thường.
Hầu hết là phải hoàn toàn trung thực khi thực hiện kiểm định thống kê để xác định xem các
biếndư có phân bổ thông thường hay không.
Một Ví Dụ về Vi Phạm Giả Định: Tự Tương Quan.
Theo giáo sư Lundberg, "Hiện tượng tự tương quan
4
là một vấn đề khi mà một trong các biến
bên vế phải có tương quan với yếu tố sai số bởi vì nó được xác định như là một phần của hệ
thống hành vi mà phương trình hồi quy là một phần trong hệ thống hành vi ấy. Như khi chúng
ta đang cố gắng giải thích số giờ mọi người xem TV, chúng ta đặt nhiều tập các hộ gia đình và
vế bên phải của số giờ xem TV là một lời từ chối. Cả số giờ và tập các hộ gia định sẽ bị tác

động bởi thị hiếu xem TV, và hệ số số các tập sẽ trở nên vô nghĩa (mặc dù số các tập này là
rất lớn và đáng kể). Do vậy, hiện tượng tự tương quan là một vấn đề rất rõ ràng và cần phải
giải quyết nó bằng cách giảm các mô hình ước lượng chỉ với các biến ngoại sinh bên vế phải,
IV hoặc sử dụng phương pháp đồng nhất thức (simultaneous-equtions) nào đó."
Chúng ta hãy xem xét tiếp vấn đề này. Giả sử rằng có biến Y
i
nào đó mà chúng ta rất thích.
Như vậy sẽ có nhiều biến giải thích X
1i
, X
2i
, X
3i
, X
4i
, và X
5i
mà chúng ta muốn xem xét đến
trong phân tích hồi quy. Như vậy, phương trình ước lượng sẽ là:
Tuy nhiên, nếu X
1
được xác định là tự tương quan, chúng ta sẽ đưa ra một vi phạm giả định
của mô hình cổ điển, nghĩa là kết quả thu được từ phương pháp OLS có thể là không đáng tin
cậy. Ví dụ. chúng ta cho rằng
trong đó là yếu tố sai số.
Nếu điều này là thế, thì mô hình đúng mà chúng ta nên ước lượng sẽ là
Viết lại phương trình dưới dạng
Phương trình này có yếu tố không đổi , yếu tố sai số và các hệ số gán
cho mỗi một biến giải thích. Nếu X
1i

được tính đến trong hồi quy này, nó sẽ tương quan với
yếu tố sai số bởi vì X
1i
là phương trình tuyến tính của yếu tố sai số . Bởi vì yếu tố sai số là
tương quan với một trong các biến giải thích, nên giả định 3 (III. Các biến giải thích là không
có tương quan với yếu tố sai số) bị vi phạm. Do vậy, phương pháp OLS sẽ không còn giá trị.
Bây giờ, biết rằng điều này có thể là một vấn đề khó khăn, vậy chúng ta có thể và chúng ta
nên làm gì để giải quyết nó? Trong cuốn sách của Kennedy (chương 10) có mô tả các bước
tiếp cận khác nhau để giải quyết vấn đề này. Và nếu bạn thích, tôi rất sẵn lòng chia sẻ chúng.
1 a constrant variance
2 no heteroskedasticity
3 normally distributed
4 endogeneity
Hồi qui sử dụng biến giả
Tác giả: Nguyễn Trọng Hoài
Trước đây chúng ta chỉ sừ dụng biến giải thích định lượng. Trong bài giảng này chúng ta đề
cập trong mô hình biến giải thích định tính nhằm giải quyết các tình huống như: tìm hiểu sự
khác biệt về giới tính trong việc thanh tóan lương, sư khác biệc về doanh số giữa các mùa
trong năm, và sự khác biệt giữa hai giai đọan chính sách khác nhau . . .
Công cụ xừ lý đó chính là biến giả (dummy). Chúng ta giải thích trong nhiếu trường hợp khác
nhau từ đơn giản đến phức tạp. Biến giả thể hiện các biến định tính.
1) Mô hình chỉ có biến giải thích là biến giả
2) Mô hình có biến giải thích định lượng và biến giả. Trong mô hình này lại có nhiều trường
hợp khác nhau mà chúng ta sẽ đề cập sau.
Trường hợp 1: Hồi qui với một biến giả duy nhất là biến độc lập
Y
i
= b
1
+ b

2
D
i
+ (11.1)
Nam: E(Y
i
|D = 1) = b
1
+ b
2
Nữ: E(Y
i
|D = 0) = b
1

×