Ứng dụng phần mềm STATA trong phân tích và xử lý bộ số liệu VHLSS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (704.82 KB, 23 trang )

Seminar Khoa học - Khoa Toán Kinh Tế

Ứng dụng phần mềm STATA
trong phân tích và xử lý
bộ số liệu VHLSS
Người trình bày: Vũ Thị Bích Ngọc

Hà Nội, tháng 11/2017

Giới thiệu phần mềm
STATA
Nội dung

Giới thiệu bộ số liệu VHLSS

Ứng dụng STATA cho phân
tích và xử lý dữ liệu

Giới thiệu phần mềm STATA
 Giao diện phần mềm và các cửa sổ

 Viết chương trình xử lý và phân tích số liệu (dofile)
 Ghi và chiết xuất kết quả

Giao diện phần mềm và các cửa sổ

Thanh thực đơn trong STATA

Viết chương trình

Ghi và chiết xuất kết quả
 Sử dụng lệnh “log using” để lưu biên bản làm việc
dưới dạng file text.
 “Copy table” bảng trên màn hình kết quả và paste
sang Excel.
 Dùng lệnh tabform để có kết quả dưới dạng file
Excel (chỉ áp dụng cho tính bảng)

Giới thiệu bộ số liệu VHLSS (1)
 VHLSS là Khảo sát mức sống hộ gia đình Việt
Nam, là cuộc khảo sát lớn nhất về mức sống hộ gia
đình ở tất cả các tỉnh thành trên cả nước.
 Đơn vị thực hiện khảo sát: Tổng cục thống kê
 VHLSS đầu tiên được thực hiện năm 1992-1993;
lần thứ 2 là năm 1997-1998.

 Từ năm 2002 đến nay được thực hiện đều đặn
định kỳ 2 năm một lần.

Giới thiệu bộ số liệu VHLSS (2)
 Khảo sát gồm 3 bộ bảng hỏi:
 Phiếu hỏi xã
 Phiếu hỏi hộ gia đình (thu nhập)

 Phiếu hỏi hộ gia đình (thu nhập - chi tiêu)

 Nội dung phiếu hỏi hộ gia đình (thu nhập – chi tiêu)
 gồm 8 mục chính: (1) Thông tin thành viên; (2) Giáo
dục; (3) Y tế; (4) Thu nhập; (5) Chi tiêu; (6) Đồ dung
lâu bền; (7) Nhà ở; (8) Tham gia các chương trình trợ
giúp.
 Qua các năm, có sự thay đổi nhỏ trong bảng hỏi.

Giới thiệu bộ số liệu VHLSS (3)
 Bộ số liệu được chia thành nhiều mục nhỏ tùy
thuộc vào nội dung bảng hỏi, ngoài ra có một số
tệp tổng hợp thông tin của hộ gia đình, rất tiện ích
cho người sử dụng.

 Mẫu số liệu được chia sẻ rộng rãi là bộ số liệu thu
nhập chi tiêu với hơn 9000 hộ gia đình.
 Trong mẫu này một phần hộ gia đình được khảo
sát lặp lại cho phép tạo số liệu bảng.

Khám phá dữ liệu
Xử lý dữ liệu
Tính bảng biểu
Ứng dụng
STATA cho
phân tích và
xử lý dữ liệu

Ước lượng và kiểm định giả thuyết
Phân tích tương quan
Phân tích hồi qui

Khám phá dữ liệu
 Mở tệp số liệu
 Dùng thành thực đơn
 Lệnh use ….. , clear

 Một số lệnh khám phá nội dung








des
codebook
tab1, tab2
summarize
inspect
edit
browse

Xử lý dữ liệu (1)
 Một số lệnh tạo biến

 gen và replace
 egen
 tab …., gen()
 gen <biến mới> = recode(biến cũ,5,10,…)

 Gộp dữ liệu
 collapse
 egen

Xử lý dữ liệu (2)
 Đổi giá trị biến phân loại: lệnh “recode”
 Đổi tên biến: lệnh “rename”
 Giữ biến hoặc quan sát: lệnh “keep”
 Bỏ biến hoặc quan sát: lệnh “drop”
 Sắp xếp trình tự xuất hiện của các biến trong tệp
 lệnh “order”

 Sắp xếp quan sát
 lệnh “sort” , “gsort”

Xử lý dữ liệu (3)
 Tạo biến phân vị
 lệnh: xtile biến mới = biểu thức [quyền số] [điều kiện]
[phạm vi] [, nquantiles(#)]

 Kết nối số liệu
 lệnh “merge” để thêm biến
 lệnh “append” để thêm quan sát

 Chuyển dạng số liệu: lệnh “reshape wide/long”
 Lưu số liệu: lệnh “save ….., replace”

Xử lý dữ liệu (4)
 Tạo nhãn
 Tạo nhãn cho bộ số liệu: label data [“nhãn”]
 Tạo nhãn cho biến: label variable <tên biến> [“nhãn”]
 Định nghĩa nhãn cho giá trị của biến
 label define <tên nhãn> [# “nhãn”] [# “nhãn”] [, add modify
replace nofix]

 Gán giá trị của biến cho biến
Label values <danh sách biến> [tên nhãn] [, nofix]

Tính bảng biểu
 Một số lệnh có thể tính bảng biểu
 tab1
 tab2
 table
 tabform

Ước lượng khoảng tin cậy
 Ước lượng khoảng tin cậy của giá trị trung bình
 ci [ds biến] [quyền số] [điều kiện] [phạm vi] [, level(#)]

Kiểm định giả thuyết (1)
 Phân phối Không – Một
 prtest <biến> = # [điều kiện] [phạm vi] [, level(#)]
 prtest <biến 1> = <biến 2> [điều kiện] [phạm vi] [, level(#)]
 prtest <biến> [điều kiện] [phạm vi] ,by (biến phân nhóm)
[level(#)]

 Phân phối chuẩn
 ttest <biến> = # [điều kiện] [phạm vi] [, level(#)]
 ttest <biến 1> = <biến 2> [điều kiện] [phạm vi] [, unpair
unequal level(#)]
 ttest <biến> [điều kiện] [phạm vi] ,by (biến phân nhóm)
[unequal level(#)]

Kiểm định giả thuyết (2)
 Kiểm định giá trị độ lệch chuẩn của BNN phân
phối chuẩn
 sdtest <biến> = # [điều kiện] [phạm vi] [, level(#)]
 sdtest <biến 1> = <biến 2> [điều kiện] [phạm vi] [,
level(#)]
 sdtest <biến> [điều kiện] [phạm vi] ,by (biến phân
nhóm) [level(#)]

Phân tích tương quan
 Ma trận hệ số tương quan
correlate [ds biến] [quyền số] [điều kiện] [phạm vi] [,
means covariance]

 Tính hệ số tương quan cặp cùng các mức ý nghĩa
 pwcorr [ds biến] [quyền số] [điều kiện] [phạm vi] [,
obs sig print(#) star(#)]

 Hệ số tương quan riêng
 pcorr [ds biến] [quyền số] [điều kiện] [phạm vi]

Phân tích hồi quy
 Hồi quy tuyến tính OLS
 regress <biên phụ thuộc> [ds biến độc lập] [quyền số]
[điều kiện] [phạm vi] [, các tùy chọn]
 Kiểm định giả thuyết về khuyết tật mô hình
 estat ovtest
 estat hettest

 Dự báo
predict

Ứng dụng phần mềm STATA trong phân tích và xử lý bộ số liệu VHLSS

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về