Sử dụng chơng trình Stata 11 (iu chnh t Stata 7)
nội dung
CHơNG I: GII THIệU CHUNG Về CHơNG TRìNH STATA 10......................................2
1.
2.
3.
4.
Tặ CHỉC LU TRữ Dữ LIệU TRONG STATA (DATASET IN STATA)
KHậI đẫNG V THOáT KHI STATA (OPEN AND EXIT)
GIAO DIệN STATA 11 (STATA INTERFACE)
NHậP V LU Dữ LIệU (USE, INPUT AND AND SAVE)
2
3
3
6
CHơNG II: KHAI THáC Dữ LIệU............................................................................................9
1. CấU TRểC LệNH TRONG STATA (STATA COMMAND SYNTAX)
2.TOáN Tệ V HM Sẩ (OPERATORS AND FUNCTIONS)
3. Mô Tả Dữ LIệU (DATA REPORTING)
4. BIêN TậP V SệA CHữA Dữ LIệU (DATA MANIPULATION)
5. QUYềN Sẩ TRONG VHLSS (WEIGHT)
9
13
14
27
41
CHơNG III: KIểM địNH GIả THIếT V PHâN TíCH HI QUY.............................45
1. ƯC LẻNG V KIểM địNH GIả THIếT (ESTIMATION AND HYPOTHESIS TESTING)
2. PHâN TíCH TơNG QUAN V HI QUY (CORRELATION AND REGRESSION)
45
52
CHơNG IV: Vẽ đ THị............................................................................................................59
1. Vẽ đ THị (GRAPH)
2. MẫT Sẩ LOạI đ THị THấNG DẽNG
3. LU TRữ V HIểN THị đ THị (SAVING
AND GRAPH USING)
59
67
74
CHơNG V: LậP TRìNH TRONG STATA..............................................................................76
1.
2.
3.
4.
5.
GII THIệU CHUNG Về CHơNG TRìNH DO-FILE
LOCAL V GLOBAL MACROS
TíCH Vô HNG V MA TRậN (SCALAR AND MATRIX)
LệNH đIềU KIệN V VSSNG LặP
GII THIệU Về FILE ADO
76
81
83
86
88
TI LIệU THAM KHảO.........................................................................................................90
PHễ LễC.....................................................................................................................................90
1
Chơng I: Giới thiệu chung về chơng trình Stata 10
1. Tổ chức lu trữ dữ liệu trong Stata (Dataset in Stata)
Stata là phần mềm thống kê sử dụng để quản lý, phân tích số liệu và vẽ đồ
thị. Stata cho phép lu trữ thông tin về các đặc điểm của các đối tợng nghiên
cứu. Số liệu lu trữ trong Stata có thể đợc hiển thị dới dạng bảng nh ví dụ sau:
maho
tenchuho
101
Nguyen Van A
102
Le Thi B
103
Tran Van C
Quan sát (observation)
quymo
ho
6
5
10
thunhapbq
2100
3210
1200
Mỗi một hàng ngang của bảng số liệu đợc gọi là một quan sát, hay một bản ghi
(record) lu trữ số liệu về một đối tợng nghiên cứu. ở ví dụ trên có 3 quan sát lu
trữ số liệu về Mã hộ (maho); Tên chủ hộ (tenchuho); Quy mô hộ (quymoho);
Thu nhập bình quân (thunhapbq) của 3 hộ gia đình.
Biến (variable)
Thông tin về đối tợng nghiên cứu đợc thu thập và lu trữ theo các đặc điểm của
chúng. Các đặc điểm này đợc gọi là biến. Biến đợc xem là các cột của bảng số
liệu. ở ví dụ trên có 4 biến, với tên là maho, tenchuho, quymoho, và thunhapbq.
Tên biến dài từ 1 đến 32 ký tự, đợc bắt đầu chữ hoặc dấu gạch dới (_). Tên
biến chỉ bao gồm chữ, sỗ và dấu gạch dới. Các ký tự đặc biệt khác không thể
dùng để đặt tên cho biến.
Biến xác định (identifying variables)
Thông thờng trong các biến sẽ có các biến dùng để nhận dạng quan sát, đợc gọi
là biến xác định. Nhờ có các biến xác định này mà các quan sát có thể phân
biệt đợc với nhau. Mỗi một quan sát có một giá trị của các biến này. ở ví dụ trên,
biến xác định là maho, đối với mỗi một quan sát biến maho nhận một giá trị.
Các đặc điểm của biến
Các biến có thể đợc gán nhãn (chú thích). Ví dụ biến maho có thể đợc gán nhãn
là Mã hộ.
Biến có thể đợc định dạng (format) là biến số và biến ký tự với các loại lu trữ
khác nhau. Biến số có thể lu trữ dới loại byte; int; long; float; double. Còn biến ký
tự thì có thể lu trữ dới dạng str1 đến str80 cho các độ dài khác nhau.
Kiểu lu trữ Dung lợng
Giá trị nhỏ
Giá trị lớn nhất
dạng số
(Byte)
nhất
byte
1
-127
126
int
2
-32,767
32,766
long
4
-2,147,483,647 2,147,483,646
float
4
-10^36
10^36
double
8
-10^308
10^308
Kiểu
Số nguyên
Số nguyên
Số nguyên
Số thực
Số thực
2
Các biến số có thể bao gồm các biến rời rạc và liên tục. Các biến nh là quy mô hộ
gia đình, giới tính chủ hộ, vùng địa lý, trình độ giáo dục là các biến rời rạc
(discrete) (hay còn gọi là biến phân loại (categorical)). Các biến này có thể đợc
lu trữ dới dạng byte, int, và long. Các biến liên tục (continuous) nh thu nhập, chi
tiêu của hộ thì lu trữ dới dạng float hoặc double.
Biến ký tự (string) dùng để lu trữ các loại ký tự. Ví dụ biến tenchuho là biến
kiểu ký tự dùng để lu trữ tên của chủ hộ.
Kiểu lu trữ
dạng chữ
str1
str2
...
str80
Byte
Độ dài lớn nhất
1
2
1
2
80
80
2. Khởi động và thoát khỏi Stata (Open and exit)
Stata đợc khởi động tơng tự nh các chơng trình tin học ứng dụng khác, bằng
cách kích vào biểu tợng của tệp wstata.exe trong Windows explorer, hoặc chọn
bằng cách chọn Start -> Program -> Stata. Chơng trình đợc thoát ra bằng lệnh
exit từ cửa sổ lệnh Stata Command, hoặc tuỳ chọn exit trong thực đơn (menu)
File.
3. Giao diện Stata 11 (Stata interface)1
Sau khi Stata đợc khởi động, giao diện của Stata sẽ đợc hiện lên, bao gồm thanh
thực đơn (menu bar) ở trên cùng, dới đó là thanh công cụ (tool bar) và các cửa
sổ (windows).
1
3
Các cửa sổ của Stata
Các cửa sổ của Stata đợc mở ra bằng việc lựa chọn các tuỳ chọn ở thanh thực
đơn Window (menu bar). Các cửa sổ này bao gồm:
Results
Hiển thị các lệnh và kết quả
Graph
Hiển thị đồ thị
Viewer
Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các
file văn bản (text)
Command
Dùng để gõ các câu lệnh
Review
Hiển thị các lệnh đã thực hiện
Variables
Hiển thị danh sách các biến của tệp số liệu
Data editor
Hiển thị và sửa chữa số liệu dới dạng bảng
Do-file editor
Hiển thị cửa sổ để soạn thảo chơng trình
Thanh thực đơn (Menu bar)
Bằng cách kích vào thanh thực đơn và các tuỳ chọn trong đó, Stata sẽ thực hiện
các lệnh khác nhau. Thanh thực đơn bao gồm các nhóm lệnh sau đây:
File
Open
Mở file số liệu
View
Xem các file của Stata trong cửa sổ Viewer
Save
Lu file số liệu
4
Save as
Lu file số liệu dới tên mới
File name
Chọn tên file để đa vào cửa sổ lệnh
Log
Đóng, mở, xem lại log file
Save graph
Lu giữ file đồ thị
Print graph
In đồ thị
Print results
In kết quả
Exit
Thoát khỏi Stata
Edit
Copy text
Sao chép văn bản (text)
Copy tables
Sao chép bảng biểu
Paste
Dán
Table copy options
Lựa chọn sao chép bảng số liệu
Copy as picture
Sao chép thnh 1 hỡnh
.
Prefs
Các tuỳ chọn về màu sắc, phông chữ, và kích cỡ
Windows
Results
Mở cửa sổ kết quả
Graph
Mở cửa sổ đồ thị
Log
Mở cửa sổ log file
Viewer
Mở cửa sổ trợ giúp (help) và xem nội dung file
Command
Mở cửa sổ câu lệnh
Review
Mở cửa sổ các lệnh đã thực hiện
Variables
Mở cửa sổ danh sách các biến của tệp số liệu
Help/Search
Mở cửa sổ trợ giúp (help)
Data editor
Mở cửa để xem số liệu lu trữ dới dạng bảng
Do-file editor
Mở cửa sổ viết chơng trình
Help
Các trợ giúp liên quan đến việc sử dụng Stata
Thanh công cụ (tool bar)
Các tuỳ chọn trên thanh công cụ đợc thiết kế để thực hiện các lệnh thông dụng
của Stata. Nếu chúng ta di chuyển con trỏ đến các nút này thì sẽ hiện lên các
câu huớng dẫn, bao gồm:
Open (use)
Mở file số liệu Stata
5
Save
Lu trữ file số liệu ra đĩa
Print results
In nội dung của cửa sổ kết quả
Begin log
Mở, đóng và xem nội dung của file log
Start viewer
Mở cửa sổ trợ trợ (help)
Bring Dialog Window to Đa cửa sổ hộp thoại ra phía trớc
font
Bring Result Window to Đa cửa sổ kết quả ra phía trớc
font
Bring Graph Window to Đa cửa sổ vẽ đồ thị ra phía trớc
font
Do-file editor
Mở cửa sổ soạn thảo chơng trình
Data editor
Mở cửa sổ sửa chữa số liệu
Data browser
Mở cửa sổ xem số liệu
Clear more- condition
Tắt lệnh more
Break
Dừng việc thực hiện lệnh hoặc chơng
trình
4. Nhập và lu dữ liệu (Use, input and and save)
Mở tệp số liệu đang có:
Tệp số liệu Stata có thể đợc mở bằng lựa chọn Open trên thực đơn File; hoặc
nút Open (use) trên thanh công cụ tool bar.
6
Nếu file số liệu có dung lợng lớn thì chúng ta phải thiết lập bộ nhớ cần dùng cho
Stata bằng lệnh:
set memory #[k|m]
Ví dụ:
set mem 32m
set mem 32000k
Nhập số liệu
Có một số cách để nhập số liệu từ bàn phím vào bộ nhớ của Stata.
-
Sử dụng cửa sổ Stata editor để nhập số liệu. Hoặc từ cửa sổ command,
gõ lệnh edit. Sau đó nhập số liệu theo kiểu biểu bảng trong cửa sổ này.
7
Stata cho phép nhập số liệu từ các file cơ sở dữ liệu khác. Trớc hết các file số
liệu này cần đợc lu trữ dới dạng text (có thể bằng chơng trình Excel), các quan
sát đợc các nhau 1 dòng và các giá trị cách nhau 1 dẫu phẩy (commas) hoặc dấu
cách (tab). Sau đó dùng lệnh copy và paste để nhập số liệu này vào Stata.
Lu trữ số liệu
Việc lu trữ số liệu có thể thực hiện bằng các tùy chọn Save và Save as ở trong
thanh thực đơn (menu bar); hoặc nút Save trên thanh công cụ (tool bar).
8
Chú ý: Xem thêm lệnh infile và outfile
Chơng II: Khai thác dữ liệu
1. Cấu trúc lệnh trong Stata (Stata command syntax)
Cấu trúc cơ bản của một lệnh trong Stata nh sau:
[by danh sách biến:] Cú pháp lệnh [danh sách biến] [biểu thức] [điều
kiện] [phạm vi] [quyền số] [, tuỳ chọn]
Trong phần Hớng dẫn s dụng (Help) của Stata, cú pháp lệnh trình bày bằng tiếng
Anh nh sau:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [,
options]
Trong đó dấu ngoặc vuông ký hiệu các tuỳ chọn.
Chú ý:
-
Các câu lệnh Stata đợc viết bằng chữ thờng.
-
Đối với tên biến, Stata phân biệt chữ viết thờng với chữ viết hoa. Ví dụ,
trong cùng một tệp số liệu, biến Ho_ten và biến ho_ten là 2 biến khác
nhau.
-
Các tuỳ chọn đợc ký hiệu trong dấu ngoặc vuông [ ]. Các tuỳ chọn này có
thể có hoặc không trong câu lệnh. Các tham số bắt buộc (tên biến) đợc
đặt trong dấu ngoặc < >. Các câu lệnh sẽ không thực hiện đợc nếu các
tham số bắt buộc này không đợc khai báo.
9
-
Một số lệnh Stata cho phép viết tắt. Ví dụ lệnh summarize có thể viết
tắt là sum. Trong cuốn tài liệu này phần gạch chân dới cú pháp của câu
lệnh là cú pháp viết tắt của câu lệnh đó.
-
Các ví dụ trong cuốn tài liệu này sử dụng số liệu Điều tra Mức sống dân c
năm 1998 do Tổng cục Thống kê tiến hành. Trong đó Tệp chi tiêu tổng
hợp Hhexp98n.dta thờng xuyên đợc sử dụng.
by danh sách biến (by varlist): Stata sẽ thực hiện câu lệnh với theo từng giá
trị đợc chỉ ra bởi danh sách biến. Biến đợc chỉ ra bởi danh sách biến đợc yêu
cầu sẵp xếp trớc khi thực hiện lệnh.
Ví dụ:
. sort sex
. by sex: sum
rlpcex1
-> sex = 1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------rlpcex1 |
4375
2980.906
2430.648
357.318
45801.71
-> sex = 2
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------rlpcex1 |
1624
3748.368
3231.241
376.9805
30624.77
Dùng thanh công cụ menu bar
10
Danh sách biến (varlist)
Chỉ ra danh sách các biến chịu tác động của câu lệnh. Nếu nh không có biến
nào đợc chỉ ra thì lệnh Stata sẽ có tác dụng lên tất cả các biến (all variables)
Ví dụ:
. sum hhsize sex reg7
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------hhsize |
5999
4.752292
1.954292
1
19
sex |
5999
1.270712
.4443645
1
2
reg7 |
5999
4.01917
2.145305
1
7
. sum
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------househol |
5999
19617.86
11201.92
101
38820
year |
5999
97.94666
.2247337
97
98
month |
5999
6.340723
3.011082
1
12
Lệnh sum này hiển thị thống kê cơ bản của tất cả các biến trong tệp số liệu.
Điều kiện (if exp)
Stata chỉ thực hiện câu lệnh đối với các quan sát mà giá trị của nó cho kết quả
của biểu thức là đúng.
11
Ví dụ:
. sum
poor if reg7==1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------poor |
859
.4982538
.5002882
0
1
Lệnh này chỉ có tác dụng đối với các quan sát mà biến reg7 có giá trị bằng 1.
Phạm vi (in range)
Chỉ ra phạm vi các quan sát chịu tác động của câu lệnh. Range (phạm vi) có
thể có các dạng sau:
sum poor in 10
Tính giá trị trung bình của biến poor cho quan sát 10
(chính bằng giá trị của biến poor tại quan sát thứ 10)
sum
poor
10/100
in Tính giá trị trung bình của biến poor cho quan sát từ
10 đến 100
sum
f/100
poor
in Tính giá trị trung bình của biến poor cho quan sát từ
đầu tiên đến 100
sum
100/l
poor
in Tính giá trị trung bình của biến poor cho quan sát từ
thứ 100 đến quan sát cuối cùng
Quyền số (weight)
Cho phép tính toán sủ dụng quyền số. Tuỳ chọn về quyền số sẽ đợc trình bày
kỹ ở mục 5 của chơng này.
Các tuỳ chọn (Options)
Nhiều câu lệnh Stata cho phép các tuỳ chọn riêng. Các tuỳ chọn này đợc chỉ ra
sau dấu phẩy.
Ví dụ:
Lệnh sum có tuỳ chọn là detail, cho phép tính toán thêm một số thống kê khác
ngoài giá trị trung bình và độ lệnh chuẩn.
. sum
rlpcex1, detail
comp.M&Reg price adj.pc tot exp
------------------------------------------------------------Percentiles
Smallest
1%
682.9575
357.318
5%
1012.433
366.2792
10%
1238.088
376.9805
Obs
5999
25%
1671.054
381.3502
Sum of Wgt.
5999
50%
75%
90%
2397.042
3711.917
5940.803
Largest
26944.64
30624.77
Mean
Std. Dev.
Variance
3188.667
2692.567
7249918
12
95%
99%
8045.32
14163.04
31066.5
45801.71
Skewness
Kurtosis
3.791027
29.21398
Chú ý:
-
Stata cho phép viết tắt các lệnh và tùy chọn. Trong tài liệu này, phần gạch
chân dới các lệnh có nghĩa là lệnh đó có thể viết tắt bằng ký tự trong
phần gạch chân này. Ví dụ nh lệnh use có nghĩa là có thể đợc viết tắt
bởi u.
-
Cú pháp của các câu lệnh trong tài liệu này đợc viết bằng tiếng Anh, cho
phép ngời đọc có thể đối chiếu với phần hớng dẫn sử dụng trong Stata.
2.Toán tử và hàm số (Operators and functions)
Các toán tử (operators)
Các toán tử trong Stata đợc ký hiệu nh sau:
Ký hiệu
ý nghĩa
Số học
+
Cộng
-
Trừ
*
Nhân
/
Chia
^
Luỹ thừa
Quan hệ
>
Lớn hơn
<
Nhỏ hơn
>=
Lớn hơn hoặc bằng
<=
Nhỏ hơn hoặc bằng
==
Bằng
~=
Không bằng (khác)
!=
Không bằng (khác)
Lôgíc
~
Không
|
Hoặc
&
Và
Chú ý:
Trong biểu thức dấu == đợc dùng cho việc kiểm định biểu thức, ví dụ nh đợc
dùng sau lệnh if. Còn dấu = đợc dùng cho lệnh tạo biến.
Ví dụ:
gen RRD=0
replace RRD=1 if reg8==1
Các hàm số (function)
13
Hàm số thờng đợc dùng trong biểu thức (exp) của câu lệnh Stata. Nếu coi Y là
một hàm số của f(X1, X2,, Xn) thì lệnh về hàm số trong Stata sẽ tính giá trị của
Y nếu cho các giá trị của Xi. Stata có 8 loại hàm số:
Mathematical functions
Các hàm toán học
Statistical functions
Hàm thống kê
Random numbers
Hàm cho số ngẫu nhiên
String functions
Hàm liên quan đến dẫy ký tự
Special functions
Hàm đặc biệt
Date functions
Hàm ngày tháng
Time-series functions
Hàm chuỗi thời gian
Matrix functions
Hàm ma trận
Ví dụ:
gen absx=abs(x)
gen log_exp=log(rlpcex1)
Các ký hiệu cụ thể về các hàm số này có thể xem ở mục help functions.
3. Mô tả dữ liệu (Data reporting)
3.1. Xoá bộ nhớ của Stata
Cú pháp:
clear
Lệnh này xoá các dữ liệu trong bộ nhớ của Stata, bắt đầu cho một file làm việc
mới.
3.2. Hớng dẫn sử dụng lệnh Stata
Cú pháp:
help <Câu lệnh Stata>
Lệnh này hiển thị hớng dẫn sử dụng các lệnh Stata, lệnh Stata cần phải đợc gõ
đầy đủ và chính xác.
Ví dụ:
. help sum
help for sum not found
try help contents or search sum
. help summarize
----------------------------------------------------------------------------------------help for summarize
(manual: [R] summarize)
14
----------------------------------------------------------------------------------------Summary statistics
.
Chú ý:
Chúng ta có thể tìm hớng dẫn sử dụng theo từ khoá bằng lệnh search. Lệnh
search có thể đợc thực hiện bằng tuỳ chọn Search ở thực đơn help.
Chúng ta cũng có thể dùng cửa sổ lệnh bằng menu bar
3.3. Mô tả dữ liệu
Cú pháp:
describe [danh sách biến]
Lệnh này hiển thị thông tin chung nh tên biến, định dạng, nhãn biến của các
biến đợc liệt kê bởi danh sách biến của file số liệu đang mở. Nếu nh không có
biến nào đợc chỉ ra thì lệnh describe sẽ hiện thị thông tin của tất cả các biến.
Ví dụ:
. des
househol year month vlssmphs
storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------househol
long
%12.0g
household code
year
float %9.0g
Year of interview
month
float %9.0g
Month of interview
15
vlssmphs
byte
%8.0g
1 if vlss, 2 if mphs source
3.4. Hiển thị giá trị của các biến
Cú pháp:
list [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
Lệnh này hiển thị giá trị của các biến đợc chỉ ra bởi danh sách biến. Tuỳ chọn
nolable cho phép hiển thị giá trị số chứ không phải là giá trị gán nhãn.
Ví dụ:
. list
househol farm in 1/5
househol
36307
28002
36017
32418
15215
1.
2.
3.
4.
5.
. list
househol farm in 1/5, nolabel
househol
36307
28002
36017
32418
15215
1.
2.
3.
4.
5.
farm
farm
farm
farm
non farm
non farm
farm
1
1
1
0
0
3.5. Sửa chữa, xem số liệu
Cú pháp:
edit
[danh sách biến] [điều kiện] [phạm vi] [, nolabel]
browse [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
Lệnh edit này mở cửa sổ Data editor để ngời sử dụng sửa chữa, nhập số liệu.
Tuỳ chọn nolable cho phép hiển thị giá trị số chứ không phải là giá trị gán
nhãn. Lệnh này có thể đợc chọn từ tuỳ chọn Data editor trong thanh thực đơn
Windows.
Lệnh browse giống lệnh edit nhng không cho phép sửa chữa số liệu.
3.6. Đếm quan sát
Cú pháp:
count [điều kiện] [phạm vi]
16
Lệnh này đếm số quan sát đợc chỉ ra bởi điều kiện (exp) và phạm vi (range).
Nếu điều kiện (exp) và phạm vi (range) không đợc chỉ ra thì sẽ hiện thị số
quan sát của tệp số liệu.
Ví dụ:
. count
5999
. count if reg7==1
859
. count if reg7==1 & urban98==1
187
. count if reg7==1 & urban98==0
672
3.7. Thống kê cơ bản
Cú pháp:
summarize [danh sách biến] [quyền số] [điều kiện] [phạm vi] [, detail]
Lệnh này tính toán và hiển thị những thống kê cơ bản của các biến đợc chỉ ra
bởi danh sách biến. Tuỳ chọn detail cho phép hiển thị thêm một số thống kê
nh độ nhọn, độ lệnh và các giá trị của thập vị phân.
Ví dụ:
. sum
rlpcex1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------rlpcex1 |
5999
3188.667
2692.567
357.318
45801.71
. sum
rlpcex1, detail
comp.M&Reg price adj.pc tot exp
------------------------------------------------------------Percentiles
Smallest
1%
682.9575
357.318
5%
1012.433
366.2792
10%
1238.088
376.9805
Obs
5999
25%
1671.054
381.3502
Sum of Wgt.
5999
50%
75%
90%
95%
99%
2397.042
3711.917
5940.803
8045.32
14163.04
Largest
26944.64
30624.77
31066.5
45801.71
Mean
Std. Dev.
3188.667
2692.567
Variance
Skewness
Kurtosis
7249918
3.791027
29.21398
17
3.8. Hiển thị thông tin chung về biến
Cú pháp:
inspect [danh sách biến] [điều kiện] [phạm vi]
Lệnh này mô tả về số liệu của các biến kiểu số. Nó đa ra thông tin về số âm,
dơng, số nguyên, giá trị thiếu (missing) của giá trị của biến.
Ví dụ:
. gen x=invnorm(uniform())
. inspect x
x:
---|
#
|
#
|
#
|
#
|
#
#
#
| .
#
#
#
.
+----------------------3.918931
3.641588
(More than 99 unique values)
Negative
Zero
Positive
Total
Missing
Number of Observations
NonTotal
Integers
Integers
2964
2964
3035
3035
------------5999
5999
----5999
Chú ý: có thể xem thêm lệnh codebook
3.9. Tạo bảng tần suất
Tạo bảng tần suất 1 chiều
Cú pháp:
tabulate <tên biến> [quyền số] [điều kiện] [phạm vi] [, missing
nolabel]
tab1 <danh sách biến> [quyền số] [điều kiện] [phạm vi] [, missing
nolabel]
Lệnh này tạo bảng tần suất 1 chiều của biến đợc chỉ ra. Lệnh tabulate chỉ cho
phép có 1 biến đợc chỉ ra, nếu có hơn 1 biến đợc chỉ ra thì Stata sẽ hiểu là
tạo bảng tần suất 2 chiều.
Các tuỳ chọn:
missing
1 loại.
nolabel
nhãn biến
Cho phép các quan sát không có giá trị (missing) đợc xếp vào
Cho phép hiển thị giá trị số của biến, chứ không phải
18
VÝ dô:
. tab sex
Gender of |
HH.head |
(1:M;2:F) |
Freq.
Percent
Cum.
------------+----------------------------------1 |
4375
72.93
72.93
2 |
1624
27.07
100.00
------------+----------------------------------Total |
5999
100.00
. tab1 urban98 reg7
-> tabulation of urban98
1:urban 98; |
0:rural 98 |
Freq.
Percent
Cum.
------------+----------------------------------Rural |
4269
71.16
71.16
Urban |
1730
28.84
100.00
------------+----------------------------------Total |
5999
100.00
-> tabulation of reg7
Code by 7 |
regions |
Freq.
Percent
Cum.
------------+----------------------------------region1 |
859
14.32
14.32
region2 |
1175
19.59
33.91
region3 |
708
11.80
45.71
region4 |
754
12.57
58.28
region5 |
368
6.13
64.41
region6 |
1023
17.05
81.46
region7 |
1112
18.54
100.00
------------+----------------------------------Total |
5999
100.00
Chóng ta còng cã thÓ dïng cöa sæ lÖnh b»ng menu bar
19
Tạo bảng tần suất 2 chiều
Cú pháp:
tabulate <tên biến 1> <tên biến 2> [quyền số] [điều kiện] [phạm vi] [,
chi2 missing nofreq cell column row]
tab2 <danh sách biến> [quyền số] [điều kiện] [phạm vi] [, chi2 missing
nofreq cell column row]
Lệnh tablulate này tính và hiển thị bảng tần suất 2 chiều của 2 biến đợc chỉ
ra. Lệnh tab2 tạo bảng tần suất 2 chiều của từng cặp biến đợc chỉ ra trong
danh sách biến.
Ví dụ:
. tab urban98 farm
1:urban | Type of HH (1:farm;
98; |
0:nonfarm)
0:rural 98 | non farm
farm |
Total
-----------+----------------------+---------Rural |
1021
3248 |
4269
Urban |
1540
190 |
1730
-----------+----------------------+---------Total |
2561
3438 |
5999
Các tuỳ chọn:
chi2
Thực hiện kiểm định giả thiết là hai biến độc lập
missing
Cho phép các quan sát không có giá trị đợc xếp vào 1
20
loại
nofreq
Không hiển thị tần suất
cell
Hiển thị tần suất tơng đối (tỷ lệ %) của các ô
column
Hiển thị tần suất tơng đối (tỷ lệ %) của các ô theo cột
row
Hiển thị tần suất tơng đối (tỷ lệ %) của các ô theo
hàng
Ví dụ:
. tab
reg7 urban98, cell nof
| 1:urban 98; 0:rural
Code by 7 |
98
regions |
Rural
Urban |
Total
-----------+----------------------+---------region1 |
11.20
3.12 |
14.32
region2 |
13.05
6.53 |
19.59
region3 |
10.00
1.80 |
11.80
region4 |
8.37
4.20 |
12.57
region5 |
6.13
0.00 |
6.13
region6 |
8.57
8.48 |
17.05
region7 |
13.84
4.70 |
18.54
-----------+----------------------+---------Total |
71.16
28.84 |
100.00
. tab farm urban98, column row
Type of HH | 1:urban 98; 0:rural
(1:farm; |
98
0:nonfarm) |
Rural
Urban |
Total
-----------+----------------------+---------non farm |
1021
1540 |
2561
|
39.87
60.13 |
100.00
|
23.92
89.02 |
42.69
-----------+----------------------+---------farm |
3248
190 |
3438
|
94.47
5.53 |
100.00
|
76.08
10.98 |
57.31
-----------+----------------------+---------Total |
4269
1730 |
5999
|
71.16
28.84 |
100.00
|
100.00
100.00 |
100.00
3.10. Tạo bảng thống kê tổng hợp bằng lệnh tabulatesummarize
Cú pháp:
tabulate <tên biến 1> <tên biến 2> [quyền số] [điều kiện] [phạm vi] ,
summarize(tên biến 3) [means standard freq missing ]
Lệnh này tạo bảng một hoặc hai chiều định nghĩa bởi biến 1 hoặc biến 2 và
mỗi ô cho giá trị thống kê trung bình, độ lệch chuẩn và tần suất của biến 3.
Ví dụ:
21
. tab
farm urban98, sum(poor)
Means, Standard Deviations and Frequencies of poor
Type of HH | 1:urban 98; 0:rural
(1:farm; |
98
0:nonfarm) |
Rural
Urban |
Total
-----------+----------------------+---------non farm | .2791381 .06168831 | .14837954
| .44879538 .24066673 | .35554523
|
1021
1540 |
2561
-----------+----------------------+---------farm | .42302956 .12105263 | .4063409
| .4941161 .32705022 | .49122109
|
3248
190 |
3438
-----------+----------------------+---------Total | .3886156 .06820809 | .29621604
| .48749275 .25217555 | .45662551
|
4269
1730 |
5999
Các tuỳ chọn:
means
Hiển thị mỗi giá trị trung bình
standard
Hiển thị mỗi giá trị độ lệch chuẩn
freq
Hiển thị mỗi giá trị tần suất
missing
Cho phép các quan sát không có giá trị đợc xếp vào 1
loại
Ví dụ:
. replace poor=poor*100
(1777 real changes made)
. format poor %4.2f
. tab reg7 urban98, sum(poor) means
Means of poor
| 1:urban 98; 0:rural
Code by 7 |
98
regions |
Rural
Urban |
Total
-----------+----------------------+---------region1 |
61.46
8.02 |
49.83
region2 |
32.57
5.87 |
23.66
region3 |
44.83
10.19 |
39.55
region4 |
37.25
11.51 |
28.65
region5 |
47.28
. |
47.28
region6 |
12.45
2.16 |
7.33
region7 |
35.78
10.28 |
29.32
-----------+----------------------+---------Total |
38.86
6.82 |
29.62
3.11. Tạo bảng thống kê tổng hợp bằng lệnh tabstat
Cú pháp:
22
tabstat <danh sách biến> [quyền số] [điều kiện] [phạm vi] [,
statistics(cú pháp tkê [...]) by(tên biến) missing format[(%fmt)]]
Lệnh này tính toán các thống kê của các biến đợc chỉ ra bởi danh sách biến
cho từng giá trị của biến phân loại (categorical) đợc chỉ ra bởi by(tên biến).
Chúng ta cũng có thể dùng cửa sổ lệnh bằng menu bar
Ví dụ:
. tabstat
rlfood rlhhex1, stats(mean median) by(reg7)
Summary statistics: mean, p50
by categories of: reg7 (Code by 7 regions)
reg7 |
rlfood
rlhhex1
--------+-------------------region1 | 5595.556 9560.349
| 5350.916 8536.373
----------------------------region2 | 6419.427 12951.14
| 5664.145 9997.146
----------------------------region3 | 5692.201 10885.38
| 5369.411 9022.334
----------------------------region4 | 6512.576 13525.41
| 5790.046 11077.51
----------------------------region5 | 5894.983 11217.05
| 5380.505 9421.447
-----------------------------
23
region6 | 9746.158 23515.01
| 8428.743 18514.39
----------------------------region7 | 6556.616 13068.11
| 6066.128 11043.99
----------------------------Total | 6787.898 14010.74
| 5951.567 10733.19
-----------------------------
Các tuỳ chọn:
statistics(statname
[...])
Chỉ ra thống kê cần tính cho danh sách biến
by(tên biến)
Chỉ ra biến phân loại (categorical)
Missing
Giá trị thiếu (mising) của biến loại đợc xem nh 1
loại
format[(%fmt)]
Chỉ ra định dạng của số liệu hiển thị
Stata cho phép các loại thống kê đợc chỉ ra bởi statistics(cú pháp thống kê [...])
nh sau:
Cú pháp thống kê
ý nghĩa
mean
Trung bình mean
count
Đếm số quan sát
n
Giống nh lệnh count (Đếm số quan sát)
sum
Tổng cộng
max
Giá trị lớn nhất
min
Giá trị nhỏ nhất
range
Biên độ = Giá trị lớn nhất - Giá trị nhỏ nhất
sd
Độ lệch chuẩn
sdmean
Độ lệch chuẩn của trung bình = Độ lệch chuẩn / {(Số
quan sát)^0.5}
skewness
Độ lệch của phân phối
kurtosis
Độ nhọn
median
Trung vị (Giống nh p50)
p1
1% phân vị
p5
5% phân vị
p10
10% phân vị
p25
25% phân vị
p50
50% phân vị (trung vị)
24
p75
75% phân vị
p90
90% phân vị
p95
95% phân vị
p99
99% phân vị
iqr
p75 - p25
q
tơng đơng với "p25 p50 p75"
Ví dụ:
. tabstat
rlpcex1, stats(mean sd q) by(reg7) format(%5.1f)
Summary for variables: rlpcex1
by categories of: reg7 (Code by 7 regions)
reg7 |
mean
sd
p25
p50
p75
--------+-------------------------------------------------region1 |
2174.8
1265.1
1328.0
1792.1
2710.8
region2 |
3294.0
2511.9
1816.7
2532.5
3822.0
region3 |
2503.3
1918.0
1489.7
2001.2
2808.1
region4 |
2933.7
2260.5
1697.9
2362.2
3471.4
region5 |
2087.3
1285.4
1217.3
1850.8
2700.5
region6 |
5257.5
4005.7
2676.7
4154.1
6431.8
region7 |
2931.1
2137.2
1680.1
2321.9
3414.7
----------------------------------------------------------Total |
3188.7
2692.6
1671.1
2397.0
3711.9
-----------------------------------------------------------
3.12. Tạo bảng thống kê tổng hợp bằng lệnh table
Cú pháp:
table <biến dòng> [biến cột [biến cột trên cùng]] [điều kiện] [phạm vi]
[quyền số] [, contents(nội dung) row col format(%fmt) missing]
Lệnh này cho phép tính các thống kê của các biến đợc chỉ ra trong contents
theo dạng bảng, trong đó các hàng đợc định nghĩa bởi biến dòng, còn các cột
đợc định nghĩa bởi biến cột (và biến cột trên cùng). Các biến hàng và cột này
là các biến phân loại (categorical).
Ví dụ:
. table reg7 urban98 farm, contents(mean poor)
---------------------------------------------------|
Type of HH (1:farm; 0:nonfarm) and
|
1:urban 98; 0:rural 98
Code by 7 | ---- non farm --------- farm -----regions
|
Rural
Urban
Rural
Urban
----------+----------------------------------------region1 | 19.35484 6.015038
65.7377 12.96296
25