Seminar Khoa học - Khoa Toán Kinh Tế
Ứng dụng phần mềm STATA
trong phân tích và xử lý
bộ số liệu VHLSS
Người trình bày: Vũ Thị Bích Ngọc
Hà Nội, tháng 11/2017
Giới thiệu phần mềm
STATA
Nội dung
Giới thiệu bộ số liệu VHLSS
Ứng dụng STATA cho phân
tích và xử lý dữ liệu
Giới thiệu phần mềm STATA
Giao diện phần mềm và các cửa sổ
Viết chương trình xử lý và phân tích số liệu (dofile)
Ghi và chiết xuất kết quả
Giao diện phần mềm và các cửa sổ
Thanh thực đơn trong STATA
Viết chương trình
Ghi và chiết xuất kết quả
Sử dụng lệnh “log using” để lưu biên bản làm việc
dưới dạng file text.
“Copy table” bảng trên màn hình kết quả và paste
sang Excel.
Dùng lệnh tabform để có kết quả dưới dạng file
Excel (chỉ áp dụng cho tính bảng)
Giới thiệu bộ số liệu VHLSS (1)
VHLSS là Khảo sát mức sống hộ gia đình Việt
Nam, là cuộc khảo sát lớn nhất về mức sống hộ gia
đình ở tất cả các tỉnh thành trên cả nước.
Đơn vị thực hiện khảo sát: Tổng cục thống kê
VHLSS đầu tiên được thực hiện năm 1992-1993;
lần thứ 2 là năm 1997-1998.
Từ năm 2002 đến nay được thực hiện đều đặn
định kỳ 2 năm một lần.
Giới thiệu bộ số liệu VHLSS (2)
Khảo sát gồm 3 bộ bảng hỏi:
Phiếu hỏi xã
Phiếu hỏi hộ gia đình (thu nhập)
Phiếu hỏi hộ gia đình (thu nhập - chi tiêu)
Nội dung phiếu hỏi hộ gia đình (thu nhập – chi tiêu)
gồm 8 mục chính: (1) Thông tin thành viên; (2) Giáo
dục; (3) Y tế; (4) Thu nhập; (5) Chi tiêu; (6) Đồ dung
lâu bền; (7) Nhà ở; (8) Tham gia các chương trình trợ
giúp.
Qua các năm, có sự thay đổi nhỏ trong bảng hỏi.
Giới thiệu bộ số liệu VHLSS (3)
Bộ số liệu được chia thành nhiều mục nhỏ tùy
thuộc vào nội dung bảng hỏi, ngoài ra có một số
tệp tổng hợp thông tin của hộ gia đình, rất tiện ích
cho người sử dụng.
Mẫu số liệu được chia sẻ rộng rãi là bộ số liệu thu
nhập chi tiêu với hơn 9000 hộ gia đình.
Trong mẫu này một phần hộ gia đình được khảo
sát lặp lại cho phép tạo số liệu bảng.
Khám phá dữ liệu
Xử lý dữ liệu
Tính bảng biểu
Ứng dụng
STATA cho
phân tích và
xử lý dữ liệu
Ước lượng và kiểm định giả thuyết
Phân tích tương quan
Phân tích hồi qui
Khám phá dữ liệu
Mở tệp số liệu
Dùng thành thực đơn
Lệnh use ….. , clear
Một số lệnh khám phá nội dung
des
codebook
tab1, tab2
summarize
inspect
edit
browse
Xử lý dữ liệu (1)
Một số lệnh tạo biến
gen và replace
egen
tab …., gen()
gen <biến mới> = recode(biến cũ,5,10,…)
Gộp dữ liệu
collapse
egen
Xử lý dữ liệu (2)
Đổi giá trị biến phân loại: lệnh “recode”
Đổi tên biến: lệnh “rename”
Giữ biến hoặc quan sát: lệnh “keep”
Bỏ biến hoặc quan sát: lệnh “drop”
Sắp xếp trình tự xuất hiện của các biến trong tệp
lệnh “order”
Sắp xếp quan sát
lệnh “sort” , “gsort”
Xử lý dữ liệu (3)
Tạo biến phân vị
lệnh: xtile biến mới = biểu thức [quyền số] [điều kiện]
[phạm vi] [, nquantiles(#)]
Kết nối số liệu
lệnh “merge” để thêm biến
lệnh “append” để thêm quan sát
Chuyển dạng số liệu: lệnh “reshape wide/long”
Lưu số liệu: lệnh “save ….., replace”
Xử lý dữ liệu (4)
Tạo nhãn
Tạo nhãn cho bộ số liệu: label data [“nhãn”]
Tạo nhãn cho biến: label variable <tên biến> [“nhãn”]
Định nghĩa nhãn cho giá trị của biến
label define <tên nhãn> [# “nhãn”] [# “nhãn”] [, add modify
replace nofix]
Gán giá trị của biến cho biến
Label values <danh sách biến> [tên nhãn] [, nofix]
Tính bảng biểu
Một số lệnh có thể tính bảng biểu
tab1
tab2
table
tabform
Ước lượng khoảng tin cậy
Ước lượng khoảng tin cậy của giá trị trung bình
ci [ds biến] [quyền số] [điều kiện] [phạm vi] [, level(#)]
Kiểm định giả thuyết (1)
Phân phối Không – Một
prtest <biến> = # [điều kiện] [phạm vi] [, level(#)]
prtest <biến 1> = <biến 2> [điều kiện] [phạm vi] [, level(#)]
prtest <biến> [điều kiện] [phạm vi] ,by (biến phân nhóm)
[level(#)]
Phân phối chuẩn
ttest <biến> = # [điều kiện] [phạm vi] [, level(#)]
ttest <biến 1> = <biến 2> [điều kiện] [phạm vi] [, unpair
unequal level(#)]
ttest <biến> [điều kiện] [phạm vi] ,by (biến phân nhóm)
[unequal level(#)]
Kiểm định giả thuyết (2)
Kiểm định giá trị độ lệch chuẩn của BNN phân
phối chuẩn
sdtest <biến> = # [điều kiện] [phạm vi] [, level(#)]
sdtest <biến 1> = <biến 2> [điều kiện] [phạm vi] [,
level(#)]
sdtest <biến> [điều kiện] [phạm vi] ,by (biến phân
nhóm) [level(#)]
Phân tích tương quan
Ma trận hệ số tương quan
correlate [ds biến] [quyền số] [điều kiện] [phạm vi] [,
means covariance]
Tính hệ số tương quan cặp cùng các mức ý nghĩa
pwcorr [ds biến] [quyền số] [điều kiện] [phạm vi] [,
obs sig print(#) star(#)]
Hệ số tương quan riêng
pcorr [ds biến] [quyền số] [điều kiện] [phạm vi]
Phân tích hồi quy
Hồi quy tuyến tính OLS
regress <biên phụ thuộc> [ds biến độc lập] [quyền số]
[điều kiện] [phạm vi] [, các tùy chọn]
Kiểm định giả thuyết về khuyết tật mô hình
estat ovtest
estat hettest
Dự báo
predict