Hồi quy dữ liệu bảng how to STATA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (216.09 KB, 5 trang )

9/15/21, 2:52 PM

Hồi quy dữ liệu bảng – Phần 1 – How to STATA

How to STATA
A set of guides and tutorials for beginners on using Stata
effectively

Hồi quy dữ liệu bảng – Phần 1
Posted on February 19, 2019 by Chung Mai
Tầm quan trọng của dữ liệu bảng
Việc sử dụng dữ liệu bảng trong nghiên cứu mang lại rất nhiều thuận lợi nhưng cũng nhiều vấn đề trong hồi
quy so với dữ liệu cross-sectional và dữ liệu chuỗi thời gian. Dưới đây là một số đặc điểm cần lưu ý khi xử lý
dữ liệu bảng (Baltagi, 1995, p.3-6)
Dữ liệu bảng bao gồm nhiều đối tượng và tại nhiều mốc thời gian khác nhau. Hay nói cách khác, dữ liệu
bảng là sự kết hợp giữa dữ liệu cross-sectional và dữ liệu theo thời gian. Vậy nên, nghiên cứu sử dụng dữ
liệu bảng có thể khai thác được nhiều thông tin hơn, nhiều dữ liệu hơn, ít hiện tượng tương quan mạnh
giữa các biến, hồi quy hiệu quả hơn.
Dữ liệu bảng là dữ liệu động cho nhiều đối tượng, vì vậy cho phép chúng ta nghiên cứu các hiện tượng
tốt hơn xét trong mối quan hệ giữa các đối tượng.
Tuy nhiên, một trong những vấn đề lớn và rất khó giải quyết của dữ liệu bảng là tính khơng đồng nhất
của dữ liệu “heterogeneity”. Ví dụ trong một mẫu dữ liệu bảng liên quan đến các số liệu tài chính của
doanh nghiệp, khi các số liệu của các doanh nghiệp siêu vi mô và các doanh nghiệp siêu lớn đều được thu
thập thì tính khơng đồng nhất của dữ liệu càng lớn. Đây là một trong những vấn đề quan trọng cần phải
xem xét khi xử lý dữ liệu bảng.
Các trạng thái dữ liệu bảng:
Nếu số các khoản thời gian quan sát (t) = số đối tượng (i) thì dữ liệu bảng này là cân bằng (balanced
panel). Tuy nhiên, thuật ngữ balanced panel thường được hiểu là mẫu dữ liệu có đầy đủ các dữ liệu cho
các đối tượng và các khoản thời gian.
Nếu t>i (nhiều năm quan sát nhưng ít đối tượng) thì dữ liệu bảng này được gọi là dữ liệu bảng dài (long
panel).

Nếu tpanel)
Thông thường các mẫu dữ liệu panel trong nghiên cứu thường hay rơi vào dạng short panel. Vậy nên, ad sẽ
liệt kê các lệnh STATA để hồi quy panel data theo trạng thái dữ liệu này nhé.

/>
1/5

9/15/21, 2:52 PM

Hồi quy dữ liệu bảng – Phần 1 – How to STATA

Một số lưu ý với hồi quy dữ liệu bảng:
Sự thiếu dữ liệu trong mẫu nên là thiếu ngẫu nhiên chứ không phải thiếu dữ liệu mang tính hệ thống.
Sai số của mơ hình có xu hướng tương quan với nhau hay còn gọi là hiện tượng tự tương quan –
autocorrelation (Mơ hình hồi quy chuẩn là mơ hình mà sai số mơ hình cần phải độc lập nhau)
Các phương pháp hồi quy phụ thuộc vào loại dữ liệu của biến độc lập. Một số phương pháp có thể khơng
hỗ trợ cho các biến time-invariant (biến khơng thay đổi giá trị theo thời gian – ví dụ như biến giới tính) và
biến individual-invariant (biến khơng thay đổi giá trị giữa các đối tượng khác nhau – ví dụ như biến
năm).
Một vài hoặc tất cả hệ số hồi quy của mơ hình có thể thay đổi theo từng đối tượng hoặc theo thời gian.
Các nghiên cứu về dữ liệu bảng thường tập trung vào các mơ hình ảnh hưởng cố định. Vì các mơ hình
cho phép các biến độc lập có thể nội sinh – endogenous (biến phụ thuộc vào một hoặc nhiều biến khác
trong mơ hình) dựa theo điều kiện là chúng chỉ có quan hệ tương quan với thành phần time-invariant
của các sai số. Một số nghiên cứu khác tập trung vào các mơ hình ảnh hưởng ngẫu nhiên với giả định các
biến độc lập phải hoàn toàn là biến ngoại sinh – exogenous (biến hoàn tồn độc lập với các biến khác
trong mơ hình).
Biến lagged của biến phụ thuộc (biến phụ thuộc của một hay nhiều kỳ trước) có thể được đưa vào mơ
hình để ước lượng các mơ hình biến động, thể hiện sự thay đổi của các biến độc lập theo thời gian.

Theo ad được biết, có rất nhiều các lệnh stata đã được phát triển để hỗ trợ cho việc chạy hồi quy tuyến tính
dữ liệu bảng. Vì bản chất phức tạp của mình nên các phương pháp hồi quy dữ liệu bảng cũng ngày càng trở
nên phức tạp để có thể đảm bảo các giả định của mơ hình hồi quy tuyến tính khơng bị vi phạm, giúp đưa ra
các kết quả hồi quy đáng tin cậy.
Một số phương pháp hồi quy tuyến tính (từ đơn giản đến phức tạp) ad có thể kể tên ở đây bao gồm:
– Pooled OLS
– Pooled GLS
– Fixed-effect model, random-effect model
– IV regression
– General methods of moments
– LSDVC
Trước mắt, trong bài đăng này, ad sẽ giới thiệu với các bạn về cách để xem thông tin dữ liệu, tóm tắt dữ liệu
và các ước lượng pooled OLS nhé.
1. Mô tả thông tin dữ liệu bảng
Để biến được loại biến, tên biến, format biến, ta có thể dùng lệnh describe
Nếu chỉ gõ lệnh describe và không đi kèm theo bất cứ thông tin nào khác, STATA sẽ hiển thị thơng tin của tất
cả các biến có trong mẫu dữ liệu.
Nếu muốn hiển thị thông tin của một hoặc một vài biến cụ thể thì ta cần liệt kê các biến đó ra sau lệnh
describe.
/>
2/5

9/15/21, 2:52 PM

Hồi quy dữ liệu bảng – Phần 1 – How to STATA

Ví dụ: describe var1 var2
Hai loại dữ liệu (storage type) phổ biến nhất trong STATA là float và string
Những biến thuộc loại float là những biến có giá trị là các chữ số.

Những biến thuộc loại str… là các biến dạng chuỗi (chữ), chỉ dùng để định danh, khơng thể dùng trong các
lệnh tóm tắt, thống kê mơ tả hay hồi quy panel data được. Vì vậy, nếu muốn sử dụng các biến này, chúng ta
cần phải chuyển thành biến định dạng float.
2. Thực hiện các thống kê mơ tả trên dữ liệu (giá trị trung bình, độ lệch chuẩn, giá trị lớn nhất, giá
trị nhỏ nhất)
Các kết quả thống kê mô tả trên dữ liệu bảng có thể dễ dàng có được khi dùng lệnh summarize
Nếu chỉ gõ lệnh summerize và không đi kèm theo bất cứ thông tin nào khác, STATA sẽ hiển thị các kết quả
thống kê mô tả cho tất cả các biến.
Nếu muốn tính các giá trị thống kê mơ tả của một số biến cụ thể, ta chỉ cần liệt kê các biến đó sau lệnh
summarize
Ví dụ: summarize var1 var2
Kết quả hiển thị của lệnh này bao gồm:
Obs: Số quan sát của biến đó
Mean: Giá trị trung bình
Std. Dev: Độ lệch chuẩn
Min: Giá trị nhỏ nhất
Max: Giá trị lớn nhất.
Lệnh summarize là một cách tốt để chúng ta có thể kiểm tra xem trong mẫu dữ liệu của mình có những giá
trị biến bất bình thường hay khơng – thường được gọi là outlier. Sự tồn tại của các outlier sẽ làm thiên lệch
đi kết quả hồi quy, ảnh hưởng nghiêm trọng đến khả năng giải thích của mơ hình. Các outlier này phần nào
có thể “bị phát hiện” dựa trên việc phân tích các kết quả thống kê mơ tả. Độ lệch chuẩn (Standard Deviation
– hay được viết tắt là Std. Dev) là giá trị có thể giúp chúng ta nhiều nhất trong trường hợp này. Nếu giá trị
của độ lệch chuẩn là quá lớn, có khả năng rất cao rằng trong mẫu dữ liệu có giá trị nào đó khác xa so với giá
trị còn lại đối với một biến nào đó. Vậy nên, khi cảm nhận được sự bất thường đó, bạn cần kiểm tra lại mẫu
dữ liệu để mình và có phương pháp xử lý phù hợp với các giá trị outliers.
3. Pooled OLS
Thông thường, trước khi chạy hồi quy trên dữ liệu bảng, ta thường hay định nghĩa dữ liệu đó, có nghĩa là
báo cho phần mềm biết mẫu dữ liệu của bạn là dữ liệu bảng. Để thực hiện điều này, ta dùng lệnh sau:
xtset id t
xtset là câu lệnh

/>
3/5

9/15/21, 2:52 PM

Hồi quy dữ liệu bảng – Phần 1 – How to STATA

id: biến thứ tự cho các đối tượng (ví dụ: số thứ tự/mã các doanh nghiệp)
t: biến thứ tự cho các khoản thời gian
STATA sẽ hiển thị kết quả về mức độ đầy đủ trong mẫu dữ liệu của bạn. Nếu kết quả là strongly balanced thì
điều này có nghĩa dữ liệu của bạn khá đầy đủ.
Lệnh OLS dành cho dữ liệu bảng được gọi là Pooled OLS. Lệnh này được thực hiện qua câu lệnh regress
(tương tự như câu lệnh cho dữ liệu cross-sectional và dữ liệu theo thời gian).
OLS hoạt động với mọi loại biến, bao gồm cả time-invariant và individual-invariant.
Để thực hiện hồi quy, ta chỉ cần gõ câu lệnh:
regress bienphuthuoc biendoclap1 biendoclap2 biendoclap3…
STATA sẽ cho ra các kết quả như R-squared, kiểm định F, các hệ số hồi quy (coef.), sai số chuẩn cho các hệ số
hồi quy (std.err), kiểm định t, P-value. Cách giải thích các kết quả này hồn tồn tương tự như cách giải
thích kết quả của hồi quy OLS bình thường nhé. Các em có thể xem lại ở bài viết này
( nhé.
Đối với dữ liệu bảng, phần dư của mơ hình có xu hướng tương quan theo thời gian đối với mỗi đối tượng, vì
vậy chúng ta nên sử dụng sai số chuẩn mạnh theo nhóm (cluster-robust standard errors) với việc nhóm là
mỗi đối tượng để có thể kiểm sốt tình trạng này. Để thực hiện hồi quy này, chúng ta chỉ cần thêm lựa chọn
vce(cluster id) vào cuối câu lệnh regress ban đầu thơi.
Ví dụ: regress bienphuthuoc biendoclap1 biendoclap2 biendoclap3, vce(cluster id)
Lúc này kết quả sai số mà bạn thu được sẽ là sai số chuẩn. Việc chạy hồi quy sai số chuẩn mạnh này là cần
thiết đối với hồi quy dữ liệu bảng. Nếu không, hồi quy pooled OLS thông thường sẽ tự hiểu rằng sai số trong
mơ hình hồi quy là độc lập và phân phối chuẩn – mà điều này khó có thể có được khi hồi quy dữ liệu bảng.
Dẫu vậy, kết quả chạy hồi quy pooled OLS với sai số chuẩn mạnh trên dữ liệu bảng cũng chưa hắn đáng tin

cậy. Các bạn cần phải làm các kiểm định khác để đảm bảo rằng các vấn đề khác trong hồi quy như phương
sai sai số thay đổi – heteroscedasticity, hiện tượng nội sinh – endogeneity, hiện tượng đa cộng tuyến –
collinearity… trước khi báo cáo kết quả mơ hình nhé. Nếu trong trường hợp các hiện tượng này tồn tại và
không thể giải quyết được, chúng ta cần phải dùng các phương pháp hồi quy khác để có thể có được kết
quả hồi quy tốt hơn. Ad sẽ tiếp tục giới thiệu đến các bạn các phương pháp xịn xò khác trong các bài sau
nhé.


Posted in Uncategorized

3 thoughts on “Hồi quy dữ liệu bảng – Phần 1”
1. Hương

says:December 2, 2020 at 7:37 am

/>
4/5

9/15/21, 2:52 PM

Hồi quy dữ liệu bảng – Phần 1 – How to STATA

Em chào chị ạ!
Em tên là Hương, em đang học tiến sĩ và bắt đầu tập tành vào dùng Stata và nghiên cứu mơ hình. Khi
tìm được trang của chị em như bắt được vàng vậy, nhưng gì chị chia sẻ rất dễ hiểu và em có thể thực
hành luôn trên bộ dữ liệu của em. Em hi vọng trong thời gian tới chị sẽ có nhiều bài viết về các mơ hình
hồi quy dữ liệu bảng hơn nữa ạ.
Trước hết, chị có thể giải thích cho e sự khác biêt giữa các lênh merge trong stata được không ạ? Mãi mà

em không phân biệt được khi nào dùng 1:1, 1:m, m:1 và đặc biệt là m:m.
Em cảm ơn chị nhiều ạ và chúc chị sức khỏe tốt, công tác tốt ạ!
Reply
Chung Mai says:December 3, 2020 at 3:42 pm
Chào bạn, cảm ơn bạn đã hỏi về lệnh này nhé. Ad cũng nhân dịp này viết luôn bài chia sẻ về cách sử
dụng lệnh merge và append đây. Bạn tham khảo theo link này nhé:
/>preview=true
Trong bài viết này mình chỉ giới thiệu về 1:1, 1:m và m:1 thơi. Đối với m:m thì chúng ta khơng nên sử
dụng. Cách sáp nhập này chỉ hiệu quả khi và chỉ khi số lượng quan sát theo các biến chung là hoàn
toàn giống nhau giữa hai bộ dữ liệu. Nếu số lượng quan sát không bằng nhau, tự động các quan sát
trong bộ dữ liệu ngắn hơn sẽ lặp đi lặp lại quan sát cuối cùng sao cho bằng với số lượng quan sát của
bộ dữ liệu dài hơn. Vơ hình chung, cách sáp nhập này làm sai lệch đi bản chất của dữ liệu.
Reply
2. Hương says:December 16, 2020 at 1:59 pm
Em cảm ơn chị rất nhiều về bài viết về lệnh Merge và Append ạ! Sau khi đọc xong bài viết đó em đã hiểu
vấn đề rồi ạ!
Reply

Website Powered by WordPress.com.

/>
5/5

Hồi quy dữ liệu bảng how to STATA

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về