Tải bản đầy đủ (.pdf) (21 trang)

Các mô hình hồi quy biến phụ thuộc giới hạn Domadar N. Gujarati

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 21 trang )

Chương 11
Các mô hình hồi quy biến phụ thuộc giới hạn
Domadar N. Gujarati
(Econometrics by example, 2011).

Người dịch và diễn giải: Phùng Thanh Bình, MB (29/12/2017)

Trong các mô hình logit và probit chúng ta đã thảo luận trước đây, biến phụ
thuộc được giả định có các giá trị 0 và 1, 0 đại diện cho không có một thuộc tính
và 1 đại diện cho có thuộc tính đó, chẳng hạn như hút thuốc và không hút thuốc,
hoặc sở hữu nhà hay không sở hữu nhà, hoặc thuộc hoặc không thuộc công
đoàn. Như đã lưu ý, mô hình logit sử dụng phân phối xác suất logistic và mô
hình probit sử dụng phân phối chuẩn. Chúng ta đã biết trong chương 8 các ước
lượng và giải thích các mô hình đó như thế nào, thông qua ví dụ minh họa về
hành vi hút thuốc lá.
Nhưng bây giờ hãy xem xét vấn đề này: một người hút bao nhiêu gói thuốc, khi
cho trước các biến về kinh tế - xã hội của người ấy? Bây giờ câu hỏi này chỉ có
ý nghĩa nếu một người hút thuốc; một người không hút thuốc có thể không quan
tâm đến câu hỏi này. Trong ví dụ về người hút thuốc của chúng ta được thảo
luận ở chương 8, chúng ta có một mẫu gồm 1.196 người, trong đó khoảng 38%
hút và 62% không hút. Vì thế chúng ta có thể thu thập thông tin về số gói thuốc
được hút chỉ cho 38% số người trong mẫu.
Giả sử chúng ta chỉ xem xét mẫu gồm những người hút thuốc và cố gắng ước
lượng một hàm cầu về số gói thuốc được hút một ngày dựa trên các thông tin
kinh tế - xã hội chỉ của những người hút thuốc. Hàm cầu này sẽ tin cậy như thế

1


nào nếu chúng ta bỏ qua 62% những người trong mẫu 1.196 người? Như bạn
có thể hoài nghi, hàm cầu như thế có lẽ không thể tin cậy.


Vấn đề ở đây là chúng ta có một mẫu kiểm duyệt (censored sample), một mẫu
trong đó thông tin về biến phụ thuộc sẵn có chỉ cho một số quan sát nhưng
không sẵn có cho tất cả các quan sát, mặc dù chúng ta có thể có thông tin về
các biến giải thích cho tất cả các đơn vị trong mẫu. Có lẽ cần lưu ý rằng biến
phụ thuộc có có thể bị kiểm duyệt phía trái (left-censored) [nghĩa là nó không
thể nhận một giá trị dưới một ngưỡng nhất định, điển hình, nhưng không phải
luôn luôn, là bằng 0] hoặc có thể bị kiểm duyệt phía phải (right-censored) [nghĩa
là nó không thể nhận một giá trị trên một ngưỡng nhất định, ví dụ người ta kiếm
được hơn một triệu đôla thu nhập], hoặc nó có thể bị kiểm duyệt cả hai phía trái
và phía phải.
Một mô hình có quan hệ rất gần nhưng hơi khác một chút so với mô hình có
mẫu kiểm duyệt là mô hình mẫu bị xén (truncated sample model), trong đó
thông tin về cả biến phụ thuộc và các biến giải thích đều không có sẵn cho một
số quan sát. Điều này có thể do thiết kế, như trong thí nghiệm về thuế thu nhập
âm ở New Jersey ở đó dữ liệu của những người với thu nhập cao hơn 1.5 lần
mức thu nhập ngưỡng nghèo đói năm 1967 không được đưa vào reong mẫu1.
Rồi chúng ta ước lượng các mô hình ấy như thế nào, các mô hình này cũng
được gọi là các mô hình hồi quy biến phụ thuộc giới hạn (limited dependent
variable regression models) bởi vì sự giới hạn gán lên các giá trị nhận được bởi
biến phụ thuộc? Trước hết chúng ta sẽ thảo luận mô hình hồi quy kiểm duyệt
(censored regression model) và sau đó thảo luận ngắn gọn mô hình hồi quy bị
xén (truncated regression model). Cũng như nhiều mô hình khác nhau trong
cuốn sách này, trọng tâm của chúng ta sẽ là các áp dụng thực tế.

1

Xem J. A. Hausman and D. A. Wise, Social Experimentation, NBER Economic Research Conference Report,
University of Chicago Press, Chicago, 1985.

2



11.1 Các mô hình hồi quy kiểm duyệt
Một mô hình được sử dụng phổ biến trong những tình huống này là mô hình
Tobit (Tobit model), được phát triển đầu tiên bởi James Tobin, một nhà kinh tế
nhận giải Nobel2. Trước khi thảo luận mô hình Tobit, trước hết chúng ta hãy
thảo luận OLS được áp dụng cho một mẫu kiểm duyệt. Xem Table 11.1, có sẵn
trên trang web đồng hành cùng cuốn sách.

Ước lượng OLS cho dữ liệu kiểm duyệt
Với mục đích này, chúng ta sử dụng dữ liệu được thu thập bởi Mroz3. Mẫu của
ông ta cung cấp dữ liệu của 753 phụ nữ có gia đình, trong đó có 428 người đi
làm bên ngoài và 325 người không đi làm bên ngoài, và vì thế mà số giờ làm
việc của họ bằng 0.
Một số biến kinh tế - xã hội có ảnh hưởng đến quyết định đi làm được xem xét
bởi Mroz là tuổi, giáo dục, kinh nghiệm, kinh nghiệm bình phương, thu nhập gia
đình, số con dưới 6 tuổi, và tiền lương của chồng. Table 11.1 cũng cung cấp dữ
liệu về các biến khác được xem xét bởi Mroz.
Áp dụng OLS về số giờ làm việc trong mối quan hệ với các biến kinh tế xã hội
của tất cả các quan sát, chúng ta có các kết quả trong Bảng 11.2.
Các kết quả trong bảng này được giải thích theo khuôn khổ mô hình hồi quy
tuyến tính chuẩn. Như bạn biết, trong mô hình hồi quy tuyến tính mỗi hệ số dốc
cho biết ảnh hưởng biên của biến đó lên giá trị trung bình của biến phụ thuộc,
khi tất cả các biến khác trong mô hình được giữ nguyên không đổi. Ví dụ, nếu
tiền lương của chồng tăng thêm một đôla, thì số giờ làm việc trung bình của phụ

2

James Tobin (1958) Estimation of Relationship for Limited Dependent Variables, Econometrica, vol. 26, pp. 24
– 36.

3
Xem T. A. Mroz, (1987) The sensitivity of an empirical model of married women’s hours of work to economic
and statistical assumptions, Econometrica, vol. 55, pp. 765 – 99. Nhớ lại rằng chúng ta sử dụng các dữ liệu này
trong chương 4 khi thảo luận về đa cộng tuyến.

3


nữ có gia đình giảm khoảng 71 giờ, khi tất cả các biến khác được giữ nguyên
không đổi. Ngoại trừ hệ số của biến giáo dục, tất cả các hệ số khác dường như
có ý nghĩa thống kê cao. Nhưng hãy cẩn thận với các kết quả này, vì trong mẫu
có 325 người có giờ làm việc bằng 0.
Bảng 11.2: Ước lượng OLS hàm số giờ làm việc.

Giả sử, thay vì sử dụng tất cả các quan sát trong mẫu, chúng ta chỉ sử dụng dữ
liệu của 428 phụ nữ đi làm. Kết quả OLS dựa vào mẫu (kiểm soát) này được
cho trong Bảng 11.3.

4


Nếu bạn so sánh các kết quả trong Bảng 11.2 và 11.3, thì bạn sẽ thấy một số
khác biệt rõ rệt giữa hai kết quả này4. Biến giáo dục bây giờ dường như có ý
nghĩa cao, mặc dù nó lại có dấu âm. Nhưng chúng ta cũng nên cẩn thận về các
kết quả này.
Bảng 11.3: Ước lượng OLS hàm số giờ làm việc chỉ những phụ nữ đi làm.

Điều này là bởi vì các giá trị ước lượng OLS của các mô hình hồi quy kiểm duyệt,
dù chúng ta có bao gồm toàn bộ mẫu (Hình 11.1) hay một tập con của mẫu
(Hình 11.2), bị chệch và cũng không nhất quán – nghĩa là, cho dù cỡ mẫu lớn

bao nhiêu, thì các tham số ước lượng sẽ không hội tụ về các giá trị trung bình

4

Trong mô hình hồi quy truyền thống, giá trị trung bình của hạng nhiễu ui được giả định bằng 0, nhưng không
có gì đảm bảo rằng điều này sẽ đúng nếu chúng ta chỉ sử dụng một tập con của các giá trị mẫu, như trong ví dụ
này.

5


của chúng5. Lý do của điều này là sự thật rằng trong các mô hình hồi quy kiểm
duyệt cũng như các mô hình hồi quy bị xén, trung bình có điều kiện của hạng
nhiễu, ui, là không bằng 0 và hạng nhiễu có tương quan với các biến giải thích.
Như chúng ta biết, nếu hạng nhiễu và các biến giải thích có tương quan, thì các
ước lượng OLS bị chệch và không nhất quán [Xem chương 19].
Hình 11.1: Số giờ làm việc và thu nhập, mẫu đầy đủ.
[

Để hiểu sơ qua về lý do tại sao các giá trị ước lượng OLS có thể bị chệch và
cũng không nhất quán, chúng ta vẽ đồ thị số giờ làm việc theo thu nhập gia đình

5

Một chứng minh chặt chẽ, xem Jeffrey M. Wooldridge, Introductory Econometrics: A Modern Approach, SouthWestern, USA, 4th edn, 2006, Ch.17. Cũng nên xem Christaan Heij, Paul de Boer, Philip Hans Franses, Teun Kloek,
and Herman K. van Dijk, Econometric Methods with Applications in Business and Economics, Oxford University
Press, Oxford, UK, 2004, Ch. 6.

6



trong Hình 11.1 và số giờ làm việc và thu nhập gia đình chỉ cho các phụ nữ đi
làm trong Hình 11.2.
Hình 11.2: Số giờ làm việc và thu nhập cho các phụ nữ đi làm.

Trong Hình 11.1, có nhiều quan sát (thực sự là 325 quan sát) nằm trên trục
hoành bởi vì các quan sát này có số giờ làm việc bằng 0.
Trong Hình 11.2, không có quan sát nào nằm trên trục hoành, vì các quan sát
này cho 428 phụ nữ đang đi làm. Các hệ số dốc của các đường hồi quy trong
hai đồ thị dĩ nhiên sẽ khác nhau.
Một phương pháp được sử dụng phổ biến để giải quyết các mẫu kiểm duyệt là
mô hình Tobit, bây giờ chúng ta thảo luận mô hình này.

7


11.2 Ước lượng ML của mô hình hồi quy kiểm duyệt: mô hình Tobit
Một trong số những mô hình hồi quy mẫu kiểm duyệt được sử dụng phổ biến là
mô hình Tobit. Có nhiều biến thể của mô hình Tobit, nhưng ở đây chúng ta xem
xét mô hình đơn giản nhất, được gọi là mô hình Tobit chuẩn (standard Tobit
model)6. Chúng ta sẽ tiếp tục với dữ liệu của Mroz.
Để biết các quan sát kiểm duyệt được xử lý như thế nào, chúng ta thực hiện
như sau: Cho

Trong đó, Yi* là số giờ làm việc mong muốn (desired hours of work). Bây giờ

Trong đó, ui ~ N(0, 2) và Yi là số giờ làm việc thực tế7. Các biến giải thích lần
lượt là tuổi tính theo năm, giáo dục tính theo số năm đi học, kinh nghiệm làm
việc tính theo năm, số con dưới 6 tuổi, thu nhập gia đình tính theo ngàn đôla,
và tiền lương theo giờ của chồng.

Biến Yi* được gọi là một biến tiềm ẩn (latent variable), là biến được quan tâm
chính. Dĩ nhiên, chúng ta thực sự không quan sát được biến này cho tất cả các
quan sát. Chúng ta chỉ quan sát nó đối với những quan sát có số giờ làm việc

6

Một thảo luận chi tiết, nhưng hơi nâng cao có thể tìm thấy trong A. Colin Cameron and Pravin K. Trivedi,
Microeconometrics: Methods and Applications, Cambridge University Press, New York, 2005, Chapter 16.
7
Bạn có thể sử dụng phân phối xác suất giá trị cực đại hoặc logistic thay vì phân phối chuẩn.

8


dương bởi vì sự kiểm duyệt. Nhớ lại rằng chúng ta đã thảo luận khái niệm các
biến tiềm ẩn trong chương trước8.
Lưu ý rằng chúng ta đang giả định rằng hạng nhiễu theo phân phối chuẩn với
trung bình bằng 0 và phương sai cố định (phương sai không đổi). Chúng ta sẽ
phải nói nhiều hơn về giả định này sau.
Trước khi đi tiếp, điều hữu ích cần lưu ý sự khác biệt giữa mô hình probit và mô
hình Tobit. Trong mô hình probit, Yi = 1 nếu Yi* lớn hơn 0, và nó bằng 0 nếu
biến tiềm ẩm bằng 0. Trong mô hình Tobit, Yi có thể nhận bất kỳ các giá trị nào
miễn là biến tiềm ẩn lớn hơn 0. Đó là lý do tại sao mô hình Tobit cũng được gọi
là probit của Tobin.
Để ước lượng một mô hình mà ở đó một số quan sát về biến phụ thuộc bị kiểm
duyệt (bởi vì chúng không được quan sát), mô hình Tobit sử dụng phương pháp
hợp lý tối đa (ML), mà chúng ta đã gặp trong nhiều trường hợp9. Các cơ chế
thực sự của phương pháp ML cho mô hình Tobit thì khá phức tạp, nhưng Stata,
Eviews và các phần mềm khác có thể ước lượng một hình này rất dễ dàng10.
Sử dụng Eviews 6, chúng ta có được các kết quả trong Bảng 11.4 cho ví dụ của

chúng ta về số giờ làm việc của phụ nữ có gia đình.

Giải thích các giá trị ước lượng của mô hình Tobit
Chúng ta giải thích các kết quả này như thế nào? Nếu bạn chỉ xem xét các dấu
của các biến giải thích khác nhau, thì bạn sẽ thấy chúng giống trong các Bảng
11.2 và 11.3. Và về mặc định tính, chúng có ý nghĩa. Ví dụ, nếu tiền lương của
chồng tăng lên, thì trung bình, một phụ nữ sẽ làm việc ít hơn trong thị trường
lao động, khi tất cả các yếu tố khác được giữ nguyên không đổi. Biến giáo dục
8

Trong ngữ cảnh hiện tại, chúng ta có thể giải thích biến tiềm ẩn như khuynh hướng hoặc mong muốn đi làm
của một phụ nữ có gia đình.
9
Có một số phương pháp thay thế ước lượng ML, một số trong đó có thể được tìm thấy trong sách của Greene,
op cit.
10
Chi tiết về phương pháp ML của Tobin có thể tìm thấy trong Christiaan Heij, op cit.

9


không có ý nghĩa thống kê trong Bảng 11.2, nhưng nó có ý nghĩa trong Bảng
11.3, mặc dù có dấu âm. Trong Bảng 11.4, nó có ý nghĩa thống kê và có dấu
dương, điều này có ý nghĩa.
Các hệ số dốc của các biến giải thích khác nhau trong Bảng 11.4 cho biết tác
động biên của biến đó lên giá trị trung bình của biến tiềm ẩn Yi*, nhưng trong
thực tế chúng ta quan tâm đến tác động biên của một biến giải thích lên giá trị
trung bình của Yi, tức các giá trị thực được quan sát trong mẫu.
Bảng 11.4: Ước lượng ML của mô hình hồi quy kiểm duyệt.


10


Không may, không giống các giá trị ước lượng OLS trong Bảng 11.2, chúng ta

không thể giải thích hệ số của Tobit của một biến giải thích như tác động biên
của biến giải thích đó lên giá trị trung bình của biến phụ thuộc được quan sát.
Điều này là bởi vì trong các mô hình hồi quy kiểm duyệt loại Tobit, thì một sự
thay đổi đơn vị trong giá trị của một biến giải thích có hai ảnh hưởng: (1) ảnh
hưởng lên giá trị trung bình của biến phụ thuộc được quan sát, và (2) ảnh hưởng
lên xác suất mà Yi* thực sự được quan sát11.
Ví dụ, lấy tác động của biến tuổi. Hệ số của biến tuổi là khoảng -54 trong Bảng
11.4 có nghĩa rằng, khi các biến khác được giữ nguyên không đổi, nếu tuổi tăng
thêm một năm, thì tác động trực tiếp của nó lên số giờ làm việc một năm sẽ
giảm khoảng 54 giờ một năm và xác suất mà một người phụ nữ tham gia lực
lượng lao động cũng sẽ giảm. Vì thế, chúng ta phải nhân -54 với xác suất mà
điều này xảy ra. Trừ khi chúng ta biết được xác suất này, chúng ta sẽ không thể
tính được tác động tổng gộp của tăng thêm một tuổi lên số giờ làm việc. Và việc

tính toán xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình và
các hệ số của chúng.
Thật thú vị, hệ số dốc cho biết tác động biên một cách trực tiếp của một biến
giải thích lên biến tiềm ẩn, Yi*, như đã được lưu ý trước đây. Vì thế, hệ số của
biến tuổi là -54 có nghĩa là nếu tuổi tăng lên một năm, thì số giờ làm việc mong

muốn sẽ giảm 54 giờ, khi các yếu tố khác được giữ nguyên không đổi. Dĩ nhiên,
chúng ta thực sự không quan sát được số giờ làm việc mong muốn, vì nó là một
cấu trúc trừu tượng (abstract contruct).
Trong ví dụ của chúng ta, chúng ta có 753 quan sát. Đó là một công việc mất
thời gian để tính toán tác động biên của mỗi biến giải thích cho tất cả 753 quan


Nghĩa là, [Y | Xi]/Xi = Bi*Pr(0 < Yi* < ) và xác suất này phụ thuộc vào tất cả các biến giải thích trong mô hình
và các hệ số của chúng.
11

11


sát. Trong thực tế, chúng ta có thể tính toán tác động biên tại giá trị trung bình
của mỗi biến giải thích.
Vì xác suất của Y* phải nằm giữa 0 và 1, nên tích của mỗi hệ số dốc nhân với
xác suất này sẽ nhỏ hơn (theo giá trị tuyệt đối) chính bản thân hệ số dốc. Vì
thế, tác động biên của một biến giải thích lên giá trị trung bình của biến phụ
thuộc được quan sát sẽ nhỏ hơn (theo giá trị tuyệt đối) giá trị của hệ số dốc
được chỉ ra trong Bảng 11.4. Dấu của tác động biên phụ thuộc vào dấu của hệ
số dốc, vì xác suất để quan sát được Yi* là luôn luôn dương. Các phần mềm
như Stata và Eviews có thể tính toán tác động biên của mỗi biến giải thích.

Ý nghĩa thống kê của các hệ số ước lượng
Bảng 11.4 trình bày các sai số chuẩn, các thống kê Z (các giá trị phân phối
chuẩn hóa) và các giá trị xác suất p của mỗi hệ số ước lượng12. Như bảng kết
quả hồi quy cho thấy tất cả các hệ số đều có ý nghĩa thống kê ở mức ý nghĩa
10% hoặc thấp hơn.
Với mô hình Tobit, không có thước đo thông thường của R2. Điều này là bởi vì
mô hình hồi quy tuyến tính chuẩn ước lượng các tham số bằng cách tối thiểu
hóa tổng bình phương phần dư (RSS), trong khi mô hình Tobit tối đa hóa hàm
hợp lý (likelihood function). Nhưng nếu bạn muốn tính một R2 tương đương với
R2 thông thường, thì bạn có thể làm bằng cách bình phương hệ số tương quan
giữa các giá trị Y thực tế và các giá trị Y được ước lượng từ mô hình Tobit.
Kiểm định các biến bị bỏ sót hoặc các biến thừa có thể được thực hiện trong

khuôn khổ của các kiểm định với mẫu lớn thông thường, chẳng hạn như tỷ số
hợp lý (LR), Wald, hoặc nhân tử Lagrange (L). Thử điều này bằng cách đưa
thêm biến kinh nghiệm bình phương vào mô hình hoặc biến giáo dục của cha
và biến giáo dục của mẹ vào mô hình.
12

Bởi vì cỡ mẫu lớn, nên chúng ta sử dụng phân phốn chuẩn hơn là phân phối t.

12


Những cảnh báo trước
Trong mô hình Tobit, chúng ta giả định rằng hạng nhiễu theo phân phối chuẩn
với trung bình bằng 0 và phương sai cố định (tức phương sai không đổi).

Sự không chuẩn của hạng nhiễu
Trong các mô hình hồi quy kiểm duyệt dưới phân phối không chuẩn của hạng
nhiễu thì các ước lượng không nhất quán. Một lần nữa, một vài phương pháp
khắc phục được đề xuất trong lý thuyết. Một cách khắc phục là thay đổi giả định
về phân phối của hạng nhiễu. Ví dụ, Eviews có thể ước lượng các mô hình như
thế dưới các giả định phân phối xác suất khác cho hạng nhiễu (chẳng hạn như
logistic hoặc extreme value). Một thảo luận chi tiết, bạn có thể xem các sách
của Maddala và Wooldridge13.

Phương sai thay đổi
Trong mô hình hồi quy tuyến tính thông thường, nếu hạng nhiễu có phương sai
thay đổi, thì các ước lượng OLS vẫn nhất quán mặc dù không hiệu quả. Tuy
nhiên, trong các mô hình kiểu Tobit, thì các ước lượng không nhất quán và cũng
không hiệu quả. Có một vài phương pháp để xử lý vấn đề này, nhưng một thảo
luận chi tiết có thể sẽ đưa chúng ta đi quá xa14. Tuy nhiên, các phần mềm thống

kê như Stata và Eviews có thể tính toán các sai số chuẩn cải thiện (robust
standard errors), như được trình bày trong Bảng 11.5.
Như bạn có thể thấy, không có những khác biệt lớn trong các sai số chuẩn ước
lượng trong hai bảng, nhưng điều này không phải luôn luôn đúng như vậy.

13

Một thảo luận chi tiết nhưng hơi nâng cao, xem G. S. Maddala, Limited Dependent and Qualitative Variables
in Econometrics, Cambridge University Press, Cambridge, UK, 1983; và Wooldridge, J. M., Econometric Analysis
of Cross and Panel Data, MIT Press, Cambridge, MA, 2002.
14
Một thảo luận nâng cao, xem Maddala và Wooldridge, op cit.

13


Bảng 11.5: Ước lượng các sai số chuẩn cải thiện của mô hình Tobit.

[

11.3 Các mô hình hồi quy mẫu bị xén
Trước đây chúng ta đã thảo luận khác biệt giữa các mô hình hồi quy mẫu kiểm
duyệt và mẫu bị xén. Sau khi đã thảo luận mô hình hồi quy mẫu kiểm duyệt,
bây giờ chúng ta tập trung vào các mô hình hồi quy mẫu bị xén.
Trong các mẫu bị xén nếu chúng ta không có thông tin về biến phụ thuộc, thì
chúng ta không thu thập thông tin về các biến giải thích mà các biến đó có thể
có quan hệ với biến phụ thuộc. Trong ví dụ minh họa của chúng ta, chúng ta
không có dữ liệu về số giờ làm việc của 325 phụ nữ. Vì thế, chúng ta có thể

14



không xem xét đến các thông tin về các biến kinh tế - xã hội của những quan
sát này, mặc dù chúng ta có thông tin về các biến này trong ví dụ hiện tại.
Bảng 11.6: Ước lượng ML của mô hình hồi quy bị xén.

Thì tại sao không ước lượng hàm số giờ làm việc cho tập con của mẫu chỉ gồm
428 phụ nữ đang làm việc bằng phương pháp OLS? Sự thật là chúng ta đã làm
như thế trong Bảng 11.2. Tuy nhiên, các ước lượng OLS không nhất quán trong
trường hợp này. Vì mẫu bị xén, nên giả định rằng hạng nhiễu trong mô hình này
theo phân phối chuẩn với trung bình  và phương sai 2 không thể được thỏa
mãn. Vì thế, chúng ta phải sử dụng phân phối chuẩn bị xén (truncated normal

15


distribution). Trong trường hợp đó, chúng ta phải sử dụng một phương pháp ước
lượng phi tuyến, chẳng hạn như phương pháp ML.
Sử dụng ML, chúng ta có được các kết quả trong Bảng 11.6. Nếu bạn so sánh
các kết quả này với các kết quả OLS được cho trong Bảng 11.2, thì bạn sẽ thấy
những khác biệt rõ ràng, mặc dù dấu của các hệ số là giống nhau.
Nếu bạn so sánh các kết quả của hồi quy kiểm duyệt được cho trong Bảng 11.5
với hồi quy bị xén được cho trong Bảng 11.6, thì một lần nữa bạn sẽ thấy những
khác biệt trong độ lớn và ý nghĩa của các hệ số. Đặc biệt lưu ý rằng hệ số của
biến giáo dục là dương trong mô hình hồi quy kiểm duyệt, nhưng âm trong mô
hình hồi quy bị xén.

Giải thích các hệ số hồi quy bị xén
Như trong mô hình Tobit, một hệ số hồi quy riêng lẻ đo lường ảnh hưởng biên
của biến đó lên giá trị trung bình của biến phụ thuộc cho tất cả các quan sát –

nghĩa là, bao gồm cả những quan sát không được đưa vào. Nhưng nếu chúng
ta chỉ xem xét các quan sát trong mẫu (bị xén), thì hệ số hồi quy (riêng) thích
hợp phải được nhân với một thừa số nhỏ hơn 1. Vì thế, ảnh hưởng biên trong
mẫu (within-sample) của một biến giải thích nhỏ hơn (theo giá trị tuyệt đối) giá
trị của hệ số của biến đó, như trong trường hợp của mô hình Tobit.

Mô hình hồi quy Tobit với mô hình hồi quy bị xén
Bây giờ, giữa các mô hình hồi quy kiểm duyệt và bị xén, mô hình nào tốt hơn?
Vì mô hình hồi quy Tobit sử dụng nhiều thông tin (753 quan sát) hơn mô hìnhhồi
quy bị xén (428 quan sát), nên các giá trị ước lượng có được từ mô hình Tobit
được kỳ vọng hiệu quả hơn15.

15

Về mặt kỹ thuật, đây là kết quả từ sự thật rằng hàm hợp lý của Tobit là tổng của các hàm hợp lý của mô hình
hồi quy bị xén và hàm hợp lý của probit.

16


11.4 Tóm tắt và kết luận
Trong chương này chúng ta đã thảo luận bản chất của các mô hình hồi quy
kiểm duyệt. Mấu chốt ở đây là khái niệm biến tiềm ẩn, là một biến mà, mặc dù
về thực chất là quan trọng, có lẽ không thể luôn luôn quan sát được. Điều này
dẫn đến một mẫu kiểm duyệt trong đó dữ liệu về biến phụ thuộc không có sẵn
cho nhiều quan sát, mặc dù dữ liệu về các biến giải thích có sẵn cho tất cả các
quan sát.
Trong nhiều trường hợp như thế này, thì các ước lượng OLS bị chệch và cũng
không nhất quán. Giả định rằng hạng nhiễu theo phân phối chuẩn với trung bình
bằng 0 và phương sai không đổi, chúng ta có thể ước lượng các mô hình hồi

quy kiểm duyệt theo phương pháp hợp lý tối đa (ML). Vì thế các ước lượng thu
được là nhất quán.
Các hệ số dốc được ước lượng bằng ML cần phải được giải thích một cách cẩn
thận. Mặc dù chúng ta có thể giải thích hệ số dốc như là tác động biên của một
biến lên giá trị trung bình của biến tiềm ẩn, khi giữ nguyên các biến khác không
đổi, nhưng chúng ta không thể giải thích nó như vậy theo giá trị quan sát của
biến tiềm ẩn. Ở đây chúng ta phải nhân hệ số dốc với xác suất quan sát biến
tiềm ẩn. Và xác suất này phụ thuộc vào tất cả các biến giải thích và các hệ số
của chúng. Tuy nhiên, các phần mềm thống kê hiện đại có thể làm điều này
một cách tương đối dễ dàng.
Một cảnh báo quan trọng là các ước lượng ML chỉ nhất quán nếu các giả định
về hạng nhiễu là thích hợp. Trong các trường hợp phương sai thay đổi và hạng
nhiễu không theo phân phối chuẩn, thì các ước lượng ML không nhất quán. Các
phương pháp thay thế cần được tham khảo trong các trường hợp như thế. Vài
giải pháp sẵn có trong lý thuyết. Tuy nhiên, chúng ta có thể tính các sai số
chuẩn cải thiện, như được minh họa trong một ví dụ cụ thể.

17


Mô hình hồi quy bị xén khác mô hình hồi quy kiểm duyệt ở điểm là trong mô
hình hồi quy bị xén chúng ta quan sát các giá trị của các biến giải thích chỉ nếu
chúng ta có dữ liệu về biến phụ thuộc. Trong mô hình hồi quy kiểm duyệt, chúng
ta có dữ liệu về các biến giải thích cho tất cả các giá trị của biến phụ thuộc kể
cả những giá trị của biến phụ thuộc không quan sát được hoặc bị gán bằng 0
hoặc bằng một giới hạn nào đó.
Trong thực tế, các mô hình hồi quy kiểm duyệt có thể ưa thích hơn các mô hình
hồi quy bị xén bởi vì trong các mô hình hồi quy kiểm duyệt chúng ta sử dụng tất
cả các quan sát trong mẫu, trong khi đó trong các mô hình hồi quy bị xén chúng
ta chỉ sử dụng các quan sát trong mẫu bị xén.

Cuối cùng, sự thật rằng chúng ta có phần mềm để ước lượng các mô hình hồi
quy kiểm duyệt không có nghĩa là các mô hình loại Tobit là phù hợp trong tất cả
các tình huống. Một số tình huống trong đó nhiều mô hình như thế là không thể
áp dụng đã được thảo luận trong các tài liệu tham khảo trong chương này./.

18


Hướng dẫn Stata (😊)
. use "D:\My Blog\Econometrics by example\Table11_1.dta", clear

19


. tobit hours age educ exper expersq faminc kidsl6 hwage, ll(0) robust

20


. marginsplot

-60

-50

-40

-30

-20


Average Marginal Effects of age with 95% CIs

20

30

40

50

Wife's age

. quietly truncreg hours age educ exper expersq faminc kidsl6 hwage, ll(0) robust
. margins, dydx(age) predict(e(0, 4950)) at(age=(20 30 40 50))
‘ marginsplot

-30

-20

-10

0

Average Marginal Effects of age with 95% CIs

20

30


40
Wife's age

21

50



×