Tải bản đầy đủ (.pdf) (6 trang)

Hiện tượng nội sinh Endogeneity

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (279.41 KB, 6 trang )

9/15/21, 2:29 PM

Hiện tượng nội sinh (Endogeneity) – How to STATA

How to STATA
A set of guides and tutorials for beginners on using Stata
effectively

Hiện tượng nội sinh (Endogeneity)
Posted on December 21, 2020December 21, 2020 by Chung Mai
Chào các bạn,
Hôm nay, ad sẽ giải thích về một hiện tượng mà có lẽ nếu bạn đã từng bắt tay thực hiện nghiên cứu thì bạn
đã được nghe về nó ít nhất một lần – đó là hiện tượng nội sinh. Cái tên của hiện tượng này quá mĩ miều và
‘fancy’ nên khiến chúng ta hơi ngại nói về nó. Thêm vào đó, cách thức giải quyết hiện tượng nội sinh là rất
phức tạp nên làm chúng ta càng ngại hơn. Bản thân ad cũng rất ngại vấn đề này mặc dù ad biết khá rõ bản
chất của vấn đề này cũng như một vài cách thức để giải quyết. Tuy nhiên, biết là một chuyện, cịn thực hiện
nó lại là một chuyện khác
Nhưng trong bài viết hôm nay, ad chỉ tạm dừng lại ở mức độ chia sẻ với các bạn
về hiện tượng này, những nguyên nhân chính dẫn đến hiện tượng này và phương pháp sử dụng biến công cụ
để xử lý hiện tượng này nhé.
1. Định nghĩa
Hiện tượng nội sinh là một thuật ngữ diễn tả hiện tượng khi một hoặc nhiều biến giải thích (biến X) có mối
quan hệ với sai số của mơ hình. Như trong một số bài viết trước, các bạn đã biết sai số của mơ hình là hiệu số
giữa giá trị quan sát được của Y và giá trị dự báo của Y được tính tốn dựa trên các hệ số hồi quy và giá trị
của biến X. Giả sử ta có mơ hình hồi quy dạng Y = a + bX + u thì  sai số u cho mỗi dịng quan sát sẽ được tính
là: u = Y – (a+b*X). Sai số của mơ hình sẽ đại diện cho ảnh hưởng của những biến mà mình khơng quan sát
được/khơng đưa vào mơ hình. Những ảnh hưởng không quan sát được này phải là những ảnh hưởng khơng
mang tính hệ thống (nghĩa là nó ảnh hưởng đến đối tượng này, nhưng không ảnh hưởng đến đối tượng
khác), không tuân theo một quy luật nào cả, và là những ảnh hưởng không quá đáng kể.
Lưu ý là tất cả các mơ hình đều có sai số, tuy nhiên điều quan trọng là sai số đó cần phải thỏa mãn một trong
những giả định rất quan trọng của mơ hình hồi quy đó là: E(u|X) = 0. Giả định này nói rằng, giá trị trung bình


của các sai số dựa trên điều kiện của các biến X trong mơ hình phải bằng 0. Đơn giản hơn, giả định này u
cầu sai số khơng được có mối quan hệ với X. Nếu như giả định này không được đảm bảo, điều đó có nghĩa là
trong sai số chứa đựng những thành phần nào đó (mà mình đã khơng đưa vào mơ hình) có thể giải thích
được Y và bản thân các biến X chắc chắn phải là những biến có mối quan hệ với Y. Vơ hình chung, biến X và
sai số có mối quan hệ với nhau và như vậy hiện tượng nội sinh xảy ra. Khi đó, các hệ số hồi quy ước lượng
theo phương pháp hồi quy tuyến tính OLS sẽ bị chệch (biased) và nó sẽ không phản ánh đúng được mối quan
hệ giữa X và Y. Hay nói một cách đơn giản, ta khơng thể nào sử dụng các hệ số hồi quy này được.

/>
1/6


9/15/21, 2:29 PM

Hiện tượng nội sinh (Endogeneity) – How to STATA

Để dễ hình dung hơn thì ad nói về một ví dụ nhé. Giả sử như ad muốn tìm mối quan hệ giữa số năm đi học và
thu nhập của mỗi người. Như vậy, ad sẽ thực hiện hồi quy biến X là biến số năm đi học trên biến Y là biến thu
nhập để tìm hiểu xem liệu học nhiều có giúp mình kiếm được thu nhập cao hơn trong tương lai hay khơng?
Vấn đề trong mơ hình của ad là có thể có nhiều yếu tố khác ảnh hưởng đến thu nhập mà ad đã quên đưa vào
mô hình ví dụ như khả năng của mỗi người. Ta có thể thấy là khả năng có mối quan hệ khá chặt chẽ với số
năm đi học của mỗi người và cả thu nhập trong tương lai. Vậy nên, mô hình của ad chắc chắn bị hiện tượng
nội sinh và biến số năm đi học thường được gọi là biến nội sinh.
2. Nguyên nhân
Hiện tượng nội sinh thường xảy ra do 3 nguyên nhân: bỏ sót biến, mối quan hệ đồng thời và lỗi đo lường biến.
Ad sẽ giải thích từng nguyên nhân với những ví dụ cụ thể nhé.
2.1. Bỏ sót biến (omitted variable bias)
Đây là lỗi mà chúng ta bỏ sót một hoặc một vài biến quan trọng trong mơ hình. Ví dụ về lỗi này thì ad vừa
trình bày ở trên ln. Để làm cho nó có vẻ kinh tế lượng hơn thì mình sẽ giải thích theo mơ hình nhé.
Mơ hình đúng mà ad nên ước lượng là:


( />Tuy nhiên, vì một lý do nào đó, ad khơng có dữ liệu về khả năng nên ad chỉ có thể ước lượng được mơ hình
sau:

( />Lúc này, sai số u của mơ hình sẽ là:
( />Và hệ số hồi quy beta 1 sẽ được ước lượng theo công thức sau:

( />Sai số ε trong mơ hình đúng sẽ khơng có mối quan hệ với biến số năm đi học nên Cov(ε, số năm đi học)= 0.

/>
2/6


9/15/21, 2:29 PM

Hiện tượng nội sinh (Endogeneity) – How to STATA

( />Ad để thêm dấu mũ trên beta 1 để mọi người phân biệt đó là hệ số hồi quy ước lượng được thơng qua mơ
hình bị sai, cịn beta 1 là hệ số hồi quy hồi quy chuẩn (true beta). Tất nhiên là ta cần true beta = giá trị ước
lượng, nhưng trong trường hợp này vì khơng có biến khả năng trong mơ hình nên hệ số hồi quy ước lượng sẽ
không phản ánh đúng hệ số hồi quy chuẩn.
2.2. Mối quan hệ đồng thời (simultaneity bias)
Vấn đề này xảy ra khi biến X và biến Y tác động lẫn nhau. Một trong những ví dụ kinh điển của vấn đề này là
mối quan hệ giữa tỷ lệ phạm tội và số lượng cảnh sát. Tỷ lệ phạm tội quyết định số lượng cảnh sát cần có hay
là số lượng cảnh sát làm ảnh hưởng đến tỷ lệ phạm tội? Cả hai mối quan hệ này đều có ý nghĩa và xảy ra
đồng thời. Vậy thì hiện tượng nội sinh sẽ xảy ra như thế nào?
Vì X và Y đều có thể tác động lẫn nhau nên mối quan hệ giữa X và Y được thể hiện như sau:

( />Giả sử trong trường hợp này chúng ta ko có hiện tượng bỏ sót biến như ở trên nhé và mối quan hệ mà ta
quan tâm là tác động của X lên Y (mơ hình 1). Sai số u của mơ hình (1) có mối quan hệ với Y, mà Y lại có thể

tác động lên X như trong mơ hình (2) nên X và u có quan hệ với nhau. Ngược lại, sai số v của mơ hình (2) có
mối quan hệ với X, mà X lại tác động lên Y như trong mơ hình (1) nên Y và v có mối quan hệ với nhau. Như
vậy, nếu chúng ta chỉ xem xét 1 trong 2 mơ hình trên, chúng ta đã bỏ qua tác động của hiện tượng nội sinh và
vì vậy, chúng ta ko thể ước lượng được hệ số hồi quy chuẩn a1 và b1. Bạn có thể chứng minh tương tự như
cách ở trên để xem thử hệ số hồi quy ước lượng và hệ số hồi quy chuẩn bị lệch nhau như thế nào nhé.
2.3. Lỗi đo lường biến (measurement error)
Lỗi này có tên gọi đơn giản nhất và dễ hiểu nhất. Nó xảy ra khi chúng ta đo lường biến giải thích bị sai.  
Giả sử mơ hình chúng ta cần ước lượng là:

( />Tuy nhiên, vì một lý do nào đó, chúng ta khơng thể đo lường chính xác biến X mà chúng ta lại đo lường biến
X* với một sai số đo lường nào đó.

( />Như vậy, mơ hình mà chúng ta muốn ước lượng vơ tình trở thành:
/>
3/6


9/15/21, 2:29 PM

Hiện tượng nội sinh (Endogeneity) – How to STATA

( />Sai số u bây giờ bao gồm sai số ε và một phần của sai số đo lường v. Điều này gây ra hiện tượng nội sinh vì
thành phần v trong sai số mới có mối quan hệ trực tiếp với biến X*. Và hiện tượng này làm cho chúng ta
không thể ước lượng được hệ số hồi quy chuẩn như chúng ta mong muốn.
Đây chính là 3 nguyên nhân chính gây ra hiện tượng nội sinh và lưu ý rằng khi hiện tượng này xảy ra, hệ số
hồi quy ước lượng theo phương pháp OLS sẽ bị lệch chuẩn (biased). Cách để giải quyết hiện tượng này thông
thường dựa vào việc sử dụng các phương pháp hồi quy có liên quan đến biến công cụ (instrument variable).
Thông thường biến cơng cụ được ký hiệu là Z trong mơ hình hồi quy. Ta có thể dùng một hoặc nhiều biến
cơng cụ cho biến giải thích X. Biến cơng cụ Z cần phải thoải mãn được cả hai điều kiện:
Một là, biến Z có mối quan hệ càng mật thiết càng tốt với biến X.

Hai là, biến Z khơng được có mối quan hệ với sai số u của mơ hình.
Việc tìm kiếm và chứng minh một biến cơng cụ tốt khơng phải đơn giản nếu khơng muốn nói là rất phức tạp.
Với điều kiện thứ nhất, chúng ta có thể dễ dàng chứng minh được bằng cách thực hiện hồi quy với Z là biến
giải thích và X là biến phụ thuộc. Nếu hệ số hồi quy của Z trên X có ý nghĩa thống kê mạnh và thống kê F có
giá trị càng lớn càng tốt thì coi như chúng ta đã có thể chứng minh được điều kiện 1. Tuy nhiên, với điều kiện
thứ 2, khơng hề có một cách gì để chúng ta có thể kiểm tra nó được. Nhiều bạn có thể nghĩ là sao chúng ta
khơng chạy mơ hình của Y lên X, lấy ra sai số u rồi sau đó chạy mơ hình giữa u và Z. Nghe thì có vẻ hợp lý,
nhưng cách này không được nha. Đối với giả định này, chúng ta cần phải giải thích để chứng minh là Z và u
khơng có mối quan hệ với nhau. Có thể có nhiều cách giải thích, miễn sao chúng ta thuyết phục được là được.
Cách thức vận hành khi chúng ta sử dụng biến cơng cụ là mơ hình sẽ được ước lượng theo hai bước.
Bước 1: Chúng ta sẽ ước lượng X từ Z bằng cách chạy hồi quy X trên Z.

( />Sau đó, chúng ta sẽ lấy ra ước lượng của X:

( />Bước 2: Thay vì dùng X, chúng ta sẽ dùng ước lượng của X trong mơ hình hồi quy với Y.

( /> />
4/6


9/15/21, 2:29 PM

Hiện tượng nội sinh (Endogeneity) – How to STATA

Như vậy, hệ số b1 mà chúng ta cần ước lượng sẽ không bị chệch nữa. Nếu bạn cần ad chứng minh vì sao làm
được như vậy thì inbox cho ad nha.
Các phương pháp ước lượng liên quan đến biến cơng cụ đều có thể giúp chúng ta thực hiện 2 bước này trong
một câu lệnh, chứ chúng ta không cần phải làm 2 bước riêng biệt như ad trình bày ở trên. Nhưng nếu bạn
muốn làm 2 bước thì cũng okay, chỉ có điều sai số của hệ số hồi quy sẽ khơng được tính chính xác so với việc
chúng ta chạy kết hợp trong 1 câu lệnh.  

Quay trở lại ví dụ về số năm đi học và thu nhập trong tương lai của mỗi người mà ad nói ở trên. Biến số năm
đi học chắc chắn là biến nội sinh trong mơ hình vì nó có thể liên quan đến các yếu tố cũng ảnh hưởng đến thu
nhập nhưng chúng ta không quan sát được như khả năng, động lực, hoặc nền tảng gia đình, v.v… Tất cả
những yếu tố này đều được thể hiện qua sai số u. Trong trường hợp này, chúng ta có thể chọn biến cơng cụ
nào để có thể loại trừ ảnh hưởng nội sinh? Trong nghiên cứu của Angrist và Krueger (1991) thực hiện ở Mỹ về
vấn đề này, họ đã sử dụng biến quý sinh của người đó để làm biến công cụ cho biến số năm đi học. Nghe có
vẻ thú vị đúng ko? Hai điều kiện của biến công cụ được thỏa mãn như thế nào?
Điều kiện 1: Biến cơng cụ Z có mối quan hệ với X
Năm học ở Mỹ bắt đầu vào tháng 9 và trẻ em phải tròn 6 tuổi vào năm nhập học lớp 1, nên những đứa bé
sinh ra vào quý IV (từ tháng 10 đến tháng 12) sẽ nhập học lớp 1 khi chúng gần trịn 6 tuổi (vì phải tính tới sinh
nhật mới trịn tuổi). Trong khi đó, những đứa bé sinh vào quý I (tháng 1 đến tháng 3) thì phải chờ đến tháng 9
năm sau mới được nhập học vì tới tháng 9 cùng năm thì chúng vẫn chưa tròn 6 tuổi. Khi những đứa bé này
tròn 16 tuổi thì những đứa bé sinh vào q 4 đã hồn thành lớp 11, còn những đứa bé sinh vào quý 1 mới chỉ
hoàn thành lớp 10. Như vậy, quý sinh của mỗi người có mối quan hệ mật thiết với số năm đi học của người
đó. Điều kiện 1 coi như đã được chứng minh.
Điều kiện 2: Biến công cụ Z khơng được có mối quan hệ với u.
Tác giả đã giải thích rằng q sinh của mỗi người khơng có mối quan hệ với khả năng hay là động lực vì
những yếu tố này liên quan đến yếu tố di truyền hoặc là mức độ khắng khít trong các mối quan hệ giai đình
nhiều hơn. Lý do này có vẻ rất thuyết phục rồi phải không? Tuy nhiên, cũng có ý kiến phản biện rằng quý
sinh của mỗi người có thể có liên quan nền tảng gia đình (lưu ý đây là một trong nhưng yếu tố không quan
sát được và được thể hiện qua sai số) vì có gia đình sẽ ưa chuộng sinh con vào một mùa nhất định trong năm!!!
Như chúng ta thấy việc đưa ra các lý luận để giải thích biến cơng cụ thỏa mãn điều kiện thứ 2 là không hề
đơn giản. Những biến công cụ tốt thường là những biến được tạo ra từ các thực nghiệm hơn là những biến có
sẵn mà chúng ta quan sát được. Tuy nhiên, khi thực hiện những thực nghiệm thì sẽ tốn rất nhiều tiền của và
cơng sức. Dẫu vậy, điều này khơng có nghĩa là việc tìm kiếm biến cơng cụ là vơ vọng đâu nhé. Trên thực tế có
rất nhiều nghiên cứu đã xuất sắc tìm ra những biến cơng cụ tốt dựa trên những dữ liệu có sẵn.
Hy vọng bài viết này của ad đã giúp các bạn hiểu về một trong những hiện tượng khó hiểu nhất trong kinh tế
lượng
Và nhớ là khi xây dựng mơ hình hồi quy, hãy cố gắng đặt câu hỏi về hiện tượng nội sinh để xem là
mơ hình của mình có thể mắc phải 3 lỗi mà mình đã trình bày ở trên khơng nhé.

Tài liệu tham khảo
Damodar Gujarati (2012), Econometrics by example, chapter 19.
Angrist and Pischke (2015), Mastering metrics – The path from cause to effect, Chapter 3

/>
5/6


9/15/21, 2:29 PM



variables

Hiện tượng nội sinh (Endogeneity) – How to STATA

Posted in Kinh tế lượng căn bảnTagged biến công cụ, endogeneity, Hiện tượng nội sinh, instrument

5 thoughts on “Hiện tượng nội sinh (Endogeneity)”
1. Hương says:January 8, 2021 at 6:54 am
Chị ơi chị cho em hỏi với ạ! Với phương pháp two-step system GMM để xử lý vấn đề nội sinh thì khi em
chạy xtabond2 hay xtdpdgmm thì em phải thử độ lag của từng biến, tức là thử xem biến Y lấy lừ lag mấy
đến lag mấy, từng biến X cũng thế cho đến khi nào được kết quả ước lượng đẹp và pass 2 test của phương
pháp đó đúng khơng ạ? Nếu có thể, chị có thể viết bài về phương pháp đó được khơng ạ? Em cảm ơn chị
nhiều ạ!
Reply
Chung Mai says:January 12, 2021 at 9:59 am
Đây là một vấn đề ko dễ để mình có thể viết ra, nhưng mình sẽ cố gắng nhé.
Reply
2. hntien says:March 19, 2021 at 1:17 pm

Mình thấy có “misspelling” nên coppy lên đây để các bạn hồn thiện – Thơng cảm nhé!
“yếu tố di truyền hoặc là mức độ khắng khít trong các mối quan hệ giai đình nhiều hơn”
Reply
3. Hảo says:May 5, 2021 at 5:04 pm
Chị ơi, cho em hỏi là mình muốn xử lý/điều chỉnh yếu tố mùa vụ của chuỗi dữ liệu trong stata thì thực hiện
như thế nào ạ? (em thấy trên Eview có hướng dẫn bằng phương pháp X-11, X-12…). Em cảm ơn.
Reply
Chung Mai says:June 2, 2021 at 2:27 pm
Ý em muốn nói là trong mơ hình sẽ kiểm soát ảnh hưởng của các mùa vụ khác nhau phải ko? Nếu vậy
thì trong bộ dữ liệu em cần có 1 biến thể hiện cho mùa vụ. Biến này nên là biến dạng số và em đặt tên
là muavu chẳng hạn. Biến này sẽ có các giá trị như 1 là vụ xuân hè, 2 là vụ hè thu, 3 là vụ thu đơng.
Vậy thì khi chạy trong stata, em chỉ cần ghi thêm vào mơ hình như sau d.muavu thì stata sẽ tự động
tạo các biến giả tương ứng với các mùa vụ trong mơ hình cho em.
Reply

Website Powered by WordPress.com.

/>
6/6



×