9
Phân tích thng kê mô t
Trong chng này, chúng ta s s dng R cho mc đích phân tích thng kê mô t.
Nói đn thng kê mô t là nói đn vic mô t d liu bng các phép tính và ch s thng
kê thông thng mà chúng ta đã làm quen qua t thu trung hc nh s trung bình
(mean), s trung v (median), phng sai (variance) đ lch chun (standard deviation)
… cho các bin s liên tc, và t s (proportion) cho các bin s không liên tc. Nhng
trc khi hng dn phân tích thng kê mô t, tôi mun bn đc phi phân bit cho đc
hai khái nim tng th (population) và mu (sample).
9.0 Khái nim tng th (population) và mu (sample)
Sách giáo khoa thng kê thng gii thích hai khái nim này mt cách mù m và
có khi vô ngha. Chng hn nh cun “Modern Mathematical Statistics” (E. J. Dudewicz
và S. N. Mishra, Nhà xut bn Wiley, 1988) gii thích tng th rng “population is a set
of n distinct elements (points) a
1
, a
2
, a
3
, … a
n
.” (trang 24, tm dch: “tng th là tp hp
gm n phn t hay đim a
1
, a
2
, a
3
, … a
n
”), còn L. Fisher và G. van Belle trong
“Biostatistics – A Methodology for the Health Science” (Nhà xut bn Wiley, 1993), gii
thích rng “The sample space or population is the set of all possible values of a variable”
(trang 38, tm dch “Không gian mu hay tng th là tp hp tt c các giá tr kh d ca
mt bin”). i vi mt nhà nghiên cu thc nghim phi nói nhng đnh ngha loi này
rt tru tng và khó hiu, và dng nh chng có liên quan gì vi thc t! Trong phn
này tôi s gii thích hai khái nim này bng mô phng và hi vng là b đc s hiu rõ
hn.
Có th nói mc tiêu ca nghiên cu khoa hc thc nghim là nhm tìm hiu và
khám phá nhng cái cha đc bit (unknown), trong đó bao gm nhng qui lut hot
đng ca t nhiên. khám phá, chúng ta s dng đn các phng pháp phân loi, so
sánh, và phng đoán. Tt c các phng pháp khoa hc, k c thng kê hc, đc phát
trin nhm vào ba mc tiêu trên. phân loi, chúng ta phi đo lng mt yu t hay
tiêu chí có liên quan đn vn đ cn nghiên cu. so sánh và phng đoán, chúng ta cn
đn các phng pháp kim đnh gi thit và mô hình thng kê hc.
Cng nh bt c mô hình nào, mô hình thng kê phi có thông s. Và mun có
thông s, chúng ta trc ht phi tin hành đo lng, và sau đó là c tính thông s t đo
lng. Chng hn nh đ bit sinh viên n có ch s thông minh (IQ) bng sinh viên nam
hay không, chúng ta có th làm nghiên cu theo hai phng án:
(a) Mt là lp danh sánh tt c sinh viên nam và n trên toàn quc, ri đo lng ch
s IQ tng ngi, và sau đó so sánh gia hai nhóm;
(b) Hai là chn ngu nhiên mt mu gm n nam và m n sinh viên, ri đo lng ch
s IQ tng ngi, và sau đó so sánh gia hai nhóm.
Phng án (a) rt tn kém và có th nói là không thc t, vì chúng ta phi tp hp
tt c sinh viên ca c nc, mt vic làm rt khó thc hin đc. Nhng gi d nh
chúng ta có th làm đc, thì phng án này không cn đn thng kê hc. Giá tr IQ
trung bình ca n và nam sinh viên tính t phng án (a) là giá tr cui cùng, và nó tr li
câu hi ca chúng ta mt cách trc tip, chúng ta không cn phi suy lun, không cn đn
kim đnh thng kê gì c!
Phng án (b) đòi hi chúng ta phi chn n nam và m n sinh viên sao cho đi
din (representative) cho toàn qun th sinh viên ca c nc. Tính “đi din” đây có
ngha là các s n nam và m n sinh viên này phi có cùng đc tính nh đ tui, trình đ
hc vn, thành phn kinh t, xã hi, ni sinh sng. v.v… so vi tng th sinh viên ca c
nc. Bi vì chúng ta không bit các đc tính này trong toàn b tng th sinh viên,
chúng ta không th so sánh trc tip đc, cho nên mt phng pháp rt hu hiu là ly
mu mt cách ngu nhiên. Có nhiu phng pháp ly mu ngu nhiên đã đc phát trin
và tôi s không bàn qua chi tit ca các phng pháp này, ngoi tr mun nhn mnh
rng, nu cách ly mu không ngu nhiên thì các c s t mu s không có ý ngha khoa
hc cao, bi vì các phng pháp phân tích thng kê da vào gi đnh rng mu phi đc
chn mt cách ngu nhiên.
Tôi s ly mt ví d c th v tng th và mu qua ng dng R nh sau. Gi d
chúng ta có mt tng th gm 20 ngi và bit rng chiu cao ca h nh sau (tính bng
cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 159, 164, 150, 162, 168, 165, 156,
157, 154 và 157. Nh vy, chúng ta bit rng chiu cao trung bình ca tng th là 158.65
cm. Xin nhn mnh đó là tng th.
Vì thiu thn phng tin chúng ta không th nghiên cu trên toàn tng th mà
ch có th ly mu t tng th đ c tính chiu cao. Hàm sample() cho phép chúng
ta ly mu. Và c tính chiu cao trung bình t mu tt nhiên s khác vi chiu cao
trung bình ca tng th.
• Chn 5 ngi t tng th:
> sample5 <- sample(height, 5)
> sample5
[1] 153 157 164 156 149
c tính chiu cao trung bình t mu này:
> mean(sample5)
[1] 155.8
• Chn 5 ngi khác t tng th và tính chiu cao trung bình:
> sample5 <- sample(height, 5)
> sample5
[1] 157 162 167 161 150
> mean(sample5)
[1] 159.4
Chú ý c tính chiu cao ca mu th hai là 159.4 cm (thay vì 155.8 cm), bi vì
chn ngu nhiên, cho nên đi tng đc chn ln hai không nht thit phi là đi tng
ln th nht, cho nên c tính trung bình khác nhau.
• Bây gi chúng ta th ly mu 10 ngi t tng th và tính chiu cao trung bình:
> sample10 <- sample(height, 10)
> sample10
[1] 153 160 150 165 159 160 164 156 162 157
> mean(sample10)
[1] 158.6
Chúng ta có th ly nhiu mu, mi mu gm 10 ngi và c tính s trung bình t mu,
bng mt lnh đn gin hn nh sau:
> mean(sample(height, 10))
[1] 156.7
> mean(sample(height, 10))
[1] 157.1
> mean(sample(height, 10))
[1] 159.3
> mean(sample(height, 10))
[1] 159.3
> mean(sample(height, 10))
[1] 158.3
> mean(sample(height, 10))
Chú ý đ dao đng ca s trung bình t 156.7 đn 159.3 cm.
• Chúng ta th ly mu 15 ngi t tng th và tính chiu cao trung bình:
> mean(sample(height, 15))
[1] 158.6667
> mean(sample(height, 15))
[1] 159.4
> mean(sample(height, 15))
[1] 158.0667
> mean(sample(height, 15))
[1] 158.1333
> mean(sample(height, 15))
[1] 156.4667
Chú ý đ dao đng ca s trung bình bây gi t 158.0 đn 158.7 cm, tc thp hn mu
vi 10 đi tng.
• Tng c mu lên 18 ngi (tc gn s đi tng trong tng th)
> mean(sample(height, 18))
[1] 158.2222
> mean(sample(height, 18))
[1] 158.7222
> mean(sample(height, 18))
[1] 158.0556
> mean(sample(height, 18))
[1] 158.4444
> mean(sample(height, 18))
[1] 158.6667
> mean(sample(height, 18))
[1] 159.0556
> mean(sample(height, 18))
[1] 159
Bây gi thì c tính chiu cao khá n đnh, nhng không khác gì so vi c mu
vi 15 ngi, do đ dao đng t 158.2 đn 159 cm.
T các ví d trên đây, chúng ta có th rút ra mt nhn xét quan trng: c s t
các mu đc chn mt cách ngu nhiên s khác vi thông s ca tng th, nhng khi s
c mu tng lên thì đ khác bit s nh li dn. Do đó, mt trong nhng vn đ then cht
ca thit k nghiên cu là nhà nghiên cu phi c tính c mu sao cho c s mà chúng
ta tính t mu gn (hay chính xác) so vi thông s ca tng th. Tôi s quay li vn đ
này trong Chng 15.
Trong ví d trên s trung bình ca tng th là 158.65 cm. Trong thng kê hc,
chúng ta gi đó là thông s (parameter). Và các s trung bình c tính t các mu chn
t tng th đó đc gi là c s mu (sample estimate). Do đó, xin nhc li đ nhn
mnh: nhng ch s liên quan đn tng th là thông s, còn nhng s c tính t các mu
là c s. Nh thy trên, c s có đ dao đng chung quanh thông s, và vì trong thc
t chúng ta không bit thông s, cho nên chúng mc tiêu chính ca phân tích thng kê là
s dng c s đ suy lun v thông s.
Mc tiêu chính ca phân tích thng kê mô t là tìm nhng c s ca mu. Có
hai loi đo lng: liên tc (continuous measurement) và không liên tc hay ri rc
(discrete measurement). Các bin liên tc nh đ tui, chiu cao, trng lng c th,
v.v… là bin s liên tc, còn các bin mang tính phân loi nh có hay không có bnh,
thích hay không thích, trng hay đen, v.v… là nhng bin s không liên tc. Cách tính
hai loi bin s này cng khác nhau.
c s thông thng nht dùng đ mô t mt bin s liên tc là s trung bình
(mean). Chng hn nh chiu cao ca nhóm 1 gm 5 đi tng là 160, 160, 167, 156, và
161, do đó s trung bình là 160.8 cm. Nhng chiu cao ca nhóm 2 cng gm 5 đi
tng khác nh142, 150, 187, 180 và 145, thì s trung bình vn là 160.8. Do đó, s trung
bình không th phn ánh đy đ s phân phi ca mt bin liên tc, vì đây tuy hai
nhóm có cùng trung bình nhng đ khác bit ca nhóm 2 cao hn nhóm 1 rt nhiu. Và
chúng ta cn mt c s khác gi là phng sai (variance). Phng sai ca nhóm 1 là
15.7 cm
2
và nhóm 2 là 443.7 cm
2
.
Vi mt bin s không liên tc nh 0 và 1 (0 kí hiu còn sng, và 1 kí hiu t
vong) thì c s trung bình không còn ý ngha “trung bình” na, cho nên chúng ta có c
s t l (proportion). Chng hn nh trong s 10 ngi có 2 ngi t vong, thì t l t
vong là 0.2 (hay 20%). Trong s 200 ngi có 40 ngi qua đi thì t l t vong vn 0.2.
Do đó, cng nh trng hp trung bình, t l không th mô t mt bin không liên tc đy
đ đc. Chúng ta cn đn phng sai đ, cùng vi t l, mô t mt bin không liên tc.
Trong trng hp 2/10 phng sai là 0.016, còn trong trng hp 40/200, phng sai là
0.0008. Trong chng này, chúng ta s làm quen vi mt s lnh trong R đ tin hành
nhng tính toán đn gin trên.
9.1 Thng kê mô t (descriptive statistics, summary)
minh ha cho vic áp dng R vào thng kê mô t, tôi s s dng mt d liu
nghiên cu có tên là igfdata. Trong nghiên cu này, ngoài các ch s liên quan đn
gii tính, đ tui, trng lng và chiu cao, chúng tôi đo lng các hormone liên quan
đn tình trng tng trng nh igfi, igfbp3, als, và các markers liên quan đn
s chuyn hóa ca xng pinp, ictp và pinp. Có 100 đi tng nghiên cu. D
liu này đc cha trong directory c:\works\stats. Trc ht, chúng ta cn phi
nhp d liu vào R vi nhng lnh sau đây (các câu ch theo sau du # là nhng chú
thích đ bn đc theo dõi):
> options(width=100)
# chuyn directory
> setwd("c:/works/stats")
# đc d liu vào R
> igfdata <- read.table("igf.txt", header=TRUE, na.strings=".")
> attach(igfdata)
# xem xét các ct s trong d liu
> names(igfdata)
[1] "id" "sex" "age" "weight" "height" "ethnicity"
[7] "igfi" "igfbp3" "als" "pinp" "ictp" "p3np"
> igfdata
id sex age weight height ethnicity igfi igfbp3 als pinp ictp p3np
1 1 Female 15 42 162 Asian 189.000 4.00000 323.667 353.970 11.2867 8.3367
2 2 Male 16 44 160 Caucasian 160.000 3.75000 333.750 375.885 10.4300 6.7450
3 3 Female 15 43 157 Asian 146.833 3.43333 248.333 199.507 8.3633 12.5000
4 4 Female 15 42 155 Asian 185.500 3.40000 251.000 483.607 13.3300 14.2767
5 5 Female 16 47 167 Asian 192.333 4.23333 322.000 105.430 7.9233 4.5033
6 6 Female 25 45 160 Asian 110.000 3.50000 284.667 76.487 4.9833 4.9367
7 7 Female 19 45 161 Asian 157.000 3.20000 274.000 75.880 6.3500 5.3200
8 8 Female 18 43 153 Asian 146.000 3.40000 303.000 86.360 7.3700 4.6700
9 9 Female 15 41 149 Asian 197.667 3.56667 308.500 254.803 11.8700 6.8200
10 10 Female 24 45 157 African 148.000 3.40000 273.000 44.720 3.7400 6.1600
97 97 Female 17 54 168 Caucasian 204.667 4.96667 441.333 64.130 5.1600 4.4367
98 98 Male 18 55 169 Asian 178.667 3.86667 273.000 185.913 7.5267 8.8333
99 99 Female 18 48 151 Asian 237.000 3.46667 324.333 105.127 5.9867 5.6600
100 100 Male 15 54 168 Asian 130.000 2.70000 259.333 325.840 10.2767 6.5933
Trên đây ch là mt phn s liu trong s 100 đi tng.
Cho mt bin s
123
, , , ,
n
x
xx x chúng ta có th tính toán mt s ch s thng kê mô t
nh sau:
Lí thuyt
Hàm R
S trung bình:
x
n
x
i
i
n
=
=
∑
1
1
.
mean(x)
Phng sai:
()
∑
−
−
=
=
n
i
i
xx
n
s
1
2
2
1
1
var(x)
lch chun:
2
ss=
sd(x)
Sai s chun (standard error):
s
SE
n
=
Không có
Tr s thp nht
min(x)
Tr s cao nht
max(x)
Toàn c (range)
range(x)
Ví d 1: tìm giá tr trung bình ca đ tui, chúng ta ch đn gin lnh:
> mean(age)
[1] 19.17
Hay phng sai và đc lch chun ca tui:
> var(age)
[1] 15.33444
> sd(age)
[1] 3.915922
Tuy nhiên, R có lnh summary có th cho chúng ta tt c thông tin thng kê v mt bin
s:
> summary(age)
Min. 1st Qu. Median Mean 3rd Qu. Max.
13.00 16.00 19.00 19.17 21.25 34.00
Nói chung, kt qu này đn gin và các vit tt cng có th d hiu. Chú ý, trong
kt qu trên, có hai ch s “1st Qu” và “3rd Qu” có ngha là first quartile (tng
đng vi v trí 25%) và third quartile (tng đng vi v trí 75%) ca mt bin s.
First quartile = 16 có ngha là 25% đi tng nghiên cu có đ tui bng hoc nh hn
16 tui. Tng t, Third quartile = 34 có ngha là 75% đi tng có đ tui bng hoc
thp hn 34 tui. Tt nhiên s trung v (median) 19 cng có ngha là 50% đi tng có
đ tui 19 tr xung (hay 19 tui tr lên).
R không có hàm tính sai s chun, và trong hàm summary, R cng không cung
cp đ lch chun. có các s này, chúng ta có th t vit mt hàm đn gin (hãy gi
là desc) nh sau:
desc <- function(x)
{
av <- mean(x)
sd <- sd(x)
se <- sd/sqrt(length(x))
c(MEAN=av, SD=sd, SE=se)
}
Và có th gi hàm này đ tính bt c bin nào chúng ta mun, nh tính bin als sau
đây:
> desc(als)
MEAN SD SE
301.841120 58.987189 5.898719
có mt “quang cnh” chung v d liu igfdata chúng ta ch đn gin lnh
summary nh sau:
> summary(igfdata)
id sex age weight height ethnicity
Min. : 1.00 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 African : 8
1st Qu.: 25.75 Male :31 1st Qu.:16.00 1st Qu.:47.00 1st Qu.:157.0 Asian :60
Median : 50.50 Median :19.00 Median :50.00 Median :162.0 Caucasian:30
Mean : 50.50 Mean :19.17 Mean :49.91 Mean :163.1 Others : 2
3rd Qu.: 75.25 3rd Qu.:21.25 3rd Qu.:53.00 3rd Qu.:168.0
Max. :100.00 Max. :34.00 Max. :60.00 Max. :196.0
igfi igfbp3 als pinp ictp
Min. : 85.71 Min. :2.000 Min. :192.7 Min. : 26.74 Min. : 2.697
1st Qu.:137.17 1st Qu.:3.292 1st Qu.:256.8 1st Qu.: 68.10 1st Qu.: 4.878
Median :161.50 Median :3.550 Median :292.5 Median :103.26 Median : 6.338
Mean :165.59 Mean :3.617 Mean :301.8 Mean :167.17 Mean : 7.420
3rd Qu.:186.46 3rd Qu.:3.875 3rd Qu.:331.2 3rd Qu.:196.45 3rd Qu.: 8.423
Max. :427.00 Max. :5.233 Max. :471.7 Max. :742.68 Max. :21.237
p3np
Min. : 2.343
1st Qu.: 4.433
Median : 5.445
Mean : 6.341
3rd Qu.: 7.150
Max. :16.303
R tính toán tt c các bin s nào có th tính toán đc! Thành ra, ngay c ct id
(tc mã s ca đi tng nghiên cu) R cng tính luôn! (và chúng ta bit kt qu ca ct
id chng có ý ngha thng kê gì). i vi các bin s mang tính phân loi nh sex và
ethnicity (sc tc) thì R ch báo cáo tn s cho mi nhóm.
Kt qu trên cho tt c đi tng nghiên cu. Nu chúng ta mun kt qu cho
tng nhóm nam và n riêng bit, hàm by trong R rt hu dng. Trong lnh sau đây,
chúng ta yêu cu R tóm lc d liu igfdata theo sex.
> by(igfdata, sex, summary)
sex: Female
id sex age weight height
Min. : 1.0 Female:69 Min. :13.00 Min. :41.00 Min. :149.0
1st Qu.:21.0 Male : 0 1st Qu.:17.00 1st Qu.:47.00 1st Qu.:156.0
Median :47.0 Median :19.00 Median :50.00 Median :162.0
Mean :48.2 Mean :19.59 Mean :49.35 Mean :161.9
3rd Qu.:75.0 3rd Qu.:22.00 3rd Qu.:52.00 3rd Qu.:166.0
Max. :99.0 Max. :34.00 Max. :60.00 Max. :196.0
ethnicity igfi igfbp3 als
African : 4 Min. : 85.71 Min. :2.767 Min. :204.3
Asian :43 1st Qu.:136.67 1st Qu.:3.333 1st Qu.:263.8
Caucasian:22 Median :163.33 Median :3.567 Median :302.7
Others : 0 Mean :167.97 Mean :3.695 Mean :311.5
3rd Qu.:186.17 3rd Qu.:3.933 3rd Qu.:361.7
Max. :427.00 Max. :5.233 Max. :471.7
pinp ictp p3np
Min. : 26.74 Min. : 2.697 Min. : 2.343
1st Qu.: 62.75 1st Qu.: 4.717 1st Qu.: 4.337
Median : 78.50 Median : 5.537 Median : 5.143
Mean :108.74 Mean : 6.183 Mean : 5.643
3rd Qu.:115.26 3rd Qu.: 7.320 3rd Qu.: 6.143
Max. :502.05 Max. :13.633 Max. :14.420
sex: Male
id sex age weight height
Min. : 2.00 Female: 0 Min. :14.00 Min. :44.00 Min. :155.0
1st Qu.: 34.50 Male :31 1st Qu.:15.00 1st Qu.:48.50 1st Qu.:161.5
Median : 56.00 Median :17.00 Median :51.00 Median :164.0
Mean : 55.61 Mean :18.23 Mean :51.16 Mean :165.6
3rd Qu.: 75.00 3rd Qu.:20.00 3rd Qu.:53.50 3rd Qu.:169.0
Max. :100.00 Max. :27.00 Max. :59.00 Max. :191.0
ethnicity igfi igfbp3 als
African : 4 Min. : 94.67 Min. :2.000 Min. :192.7
Asian :17 1st Qu.:138.67 1st Qu.:3.183 1st Qu.:249.8
Caucasian: 8 Median :160.00 Median :3.500 Median :276.0
Others : 2 Mean :160.29 Mean :3.443 Mean :280.2
3rd Qu.:183.00 3rd Qu.:3.775 3rd Qu.:311.3
Max. :274.00 Max. :4.500 Max. :388.7
pinp ictp p3np
Min. : 56.28 Min. : 3.650 Min. : 3.390
1st Qu.:135.07 1st Qu.: 6.900 1st Qu.: 5.375
Median :245.92 Median : 9.513 Median : 7.140
Mean :297.21 Mean :10.173 Mean : 7.895
3rd Qu.:450.38 3rd Qu.:13.517 3rd Qu.:10.010
Max. :742.68 Max. :21.237 Max. :16.303
xem qua phân phi ca các hormones và ch s sinh hóa cùng mt lúc, chúng
ta có th v đ th cho tt c 6 bin s. Trc ht, chia màn nh thành 6 ca s (vi 2
dòng và 3 ct); sau đó ln lt v:
> op <- par(mfrow=c(2,3))
> hist(igfi)
> hist(igfbp3)
> hist(als)
> hist(pinp)
> hist(ictp)
> hist(p3np)
Histogram of igfi
igfi
Frequency
100 200 300 400
0 10203040
Histogram of igfbp3
igf bp3
Frequency
2.0 3.0 4.0 5.0
0 10203040
Histogram of als
als
Frequency
150 250 350 450
0 102030
Histogram of pinp
pinp
Frequency
0 200 400 600 800
01020304050
Histogram of ictp
ic tp
Frequency
5101520
0102030
Histogram of p3np
p3np
Frequency
51015
0 10203040
9.2 Kim đnh xem mt bin có phi phân phi chun
Trong phân tích thng kê, phn ln các phép tính da vào gi đnh bin s phi là
mt bin s phân phi chun (normal distribution). Do đó, mt trong nhng vic quan
trng khi xem xét d kin là phi kim đnh gi thit phân phi chun ca mt bin s.
Trong đ th trên, chúng ta thy các bin s nh
igfi, pinp, ictp và p3np có v
tp trung vào các giá tr thp và không cân đi, tc du hiu ca mt s phân phi không
chun.
kim đnh nghiêm chnh, chúng ta cn phi s dng kim đnh thng kê có tên
là “Shapiro test” và trong R gi là hàm shapiro.test. Chng hn nh kim đnh gi
thit phân phi chun ca bin s pinp,
> shapiro.test(pinp)
Shapiro-Wilk normality test
data: pinp
W = 0.748, p-value = 8.314e-12
Vì tr s p (p-value) thp hn 0.05, chúng ta có th kt lun rng bin s pinp không đáp
ng lut phân phi chun.
Nhng vi bin s weight (trng lng c th) thì kim đnh này cho bit đây là mt
bin s tuân theo lut phân phi chun vì tr s p > 0.05.
> shapiro.test(weight)
Shapiro-Wilk normality test
data: weight
W = 0.9887, p-value = 0.5587
Tht ra, kt qu trên cng phù hp vi đ th ca weight:
> hist(weight)
Histogram of weight
weight
Frequency
40 45 50 55 60
051015
9.3 Thng kê mô t theo tng nhóm
Nu chúng ta mun tính trung bình ca mt bin s nh igfi cho mi nhóm nam
và n gii, hàm tapply trong R có th dùng cho vic này:
> tapply(igfi, list(sex), mean)
Female Male
167.9741 160.2903
Trong lnh trên, igfi là bin s chúng ta cn tính, bin s phân nhóm là sex, và ch s
thng kê chúng ta mun là trung bình (mean). Qua kt qu trên, chúng ta thy s trung
bình ca igfi cho n gii (167.97) cao hn nam gii (160.29).
Nhng nu chúng ta mun tính cho tng gii tính và sc tc, chúng ta ch cn thêm mt
bin s trong hàm list:
> tapply(igfi, list(ethnicity, sex), mean)
Female Male
African 145.1252 120.9168
Asian 165.6589 160.4999
Caucasian 176.6536 169.4790
Others NA 200.5000
Trong kt qu trên, NA có ngha là “not available”, tc không có s liu cho ph n trong
các sc tc “others”.
9.4 Kim đnh t (t.test)
Kim đnh t da vào gi thit phân phi chun. Có hai loi kim đnh t: kim
đnh t cho mt mu (one-sample t-test), và kim đnh t cho hai mu (two-sample t-test).
Kim đnh t mt mu nm tr li câu hi d liu t mt mu có phi tht s bng mt
thông s nào đó hay không. Còn kim đnh t hai mu thì nhm tr li câu hi hai mu có
cùng mt lut phân phi, hay c th hn là hai mu có tht s có cùng tr s trung bình
hay không. Tôi s ln lt minh ha hai kim đnh này qua s liu
igfdata trên.
9.1.1 Kim đnh t mt mu
Ví d 2. Qua phân tích trên, chúng ta thy tui trung bình ca 100 đi tng
trong nghiên cu này là 19.17 tui. Chng hn nh trong qun th này, trc đây chúng
ta bit rng tui trung bình là 30 tui. Vn đ đt ra là có phi mu mà chúng ta có đc
có đi din cho qun th hay không. Nói cách khác, chúng ta mun bit giá tr trung bình
19.17 có tht s khác vi giá tr trung bình 30 hay không.
tr li câu hi này, chúng ta s dng kim đnh t. Theo lí thuyt thng kê,
kim đnh t đc đnh ngha bng công thc sau đây:
/
x
t
sn
µ
−
=
Trong đó,
x
là giá tr trung bình ca mu,
µ
là trung bình theo gi thit (trong trng
hp này, 30), s là đ lch chun, và n là s lng mu (100). Nu giá tr t cao hn giá tr
lí thuyt theo phân phi t mt tiêu chun có ý ngha nh 5% chng hn thì chúng ta có
lí do đ phát biu khác bit có ý ngha thng kê. Giá tr này cho mu 100 có th tính toán
bng hàm
qt ca R nh sau:
> qt(0.95, 100)
[1] 1.660234
Nhng có mt cách tính toán nhanh gn hn đ tr li câu hi trên, bng cách dùng hàm
t.test nh sau:
> t.test(age, mu=30)
One Sample t-test
data: age
t = -27.6563, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
18.39300 19.94700
sample estimates:
mean of x
19.17
Trong lnh trên age là bin s chúng ta cn kim đnh, và mu=30 là giá tr gi thit. R
trình bày tr s t = -27.66, vi 99 bc t do, và tr s p < 2.2e-16 (tc rt thp). R
cng cho bit đ tin cy 95% ca age là t 18.4 tui đn 19.9 tui (30 tui nm quá ngoài
khong tin cy này). Nói cách khác, chúng ta có lí do đ phát biu rng đ tui trung
bình trong mu này tht s thp hn đ tui trung bình ca qun th.
9.4.2 Kim đnh t hai mu
Ví d 3. Qua phân tích mô t trên (phm summary) chúng ta thy ph n có đ
hormone igfi cao hn nam gii (167.97 và 160.29). Câu hi đt ra là có phi tht s đó
là mt khác bit có h thng hay do các yu t ngu nhiên gây nên. Tr li câu hi này,
chúng ta cn xem xét mc đ khác bit trung bình gia hai nhóm và đ lch chun ca đ
khác bit.
21
x
x
t
SED
−
=
Trong đó
1
x
và
2
x
là s trung bình ca hai nhóm nam và n, và SED là đ lch chun
ca (
1
x
-
2
x
) . Thc ra, SED có th c tính bng công thc:
22
12
SED SE SE=+
Trong đó
1
SE và
2
SE là sai s chun (standard error) ca hai nhóm nam và n. Theo lí
thuyt xác sut, t tuân theo lut phân phi t vi bc t do
12
2nn
+
− , trong đó n
1
và n
2
là
s mu ca hai nhóm. Chúng ta có th dùng
R đ tr li câu hi trên bng hàm t.test
nh sau:
> t.test(igfi~ sex)
Welch Two Sample t-test
data: igfi by sex
t = 0.8412, df = 88.329, p-value = 0.4025
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-10.46855 25.83627
sample estimates:
mean in group Female mean in group Male
167.9741 160.2903
R trình bày các giá tr quan trng trc ht:
t = 0.8412, df = 88.329, p-value = 0.4025
df là bc t do. Tr s p = 0.4025 cho thy mc đ khác bit gia hai nhóm nam và n
không có ý ngha thng kê (vì cao hn 0.05 hay 5%).
95 percent confidence interval:
-10.46855 25.83627
là khong tin cy 95% v đ khác bit gia hai nhóm. Kt qu tính toán trên cho bit đ
igf n gii có th thp hn nam gii 10.5 ng/L hoc cao hn nam gii khong 25.8
ng/L. Vì đ khác bit quá ln và đó là thêm bng chng cho thy không có khác bit có
ý ngha thng kê gia hai nhóm.
Kim đnh trên da vào gi thit hai nhóm nam và n có khác phng sai. Nu
chúng ta có lí do đ cho rng hai nhóm có cùng phng sai, chúng ta ch thay đi mt
thông s trong hàm t vi
var.equal=TRUE nh sau:
> t.test(igfi~ sex, var.equal=TRUE)
Two Sample t-test
data: igfi by sex
t = 0.7071, df = 98, p-value = 0.4812
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-13.88137 29.24909
sample estimates:
mean in group Female mean in group Male
167.9741 160.2903
V mc s, kt qu phân tích trên có khác chút ít so vi kt qu phân tích da vào gi
đnh hai phng sai khác nhau, nhng tr s p cng đi đn mt kt lun rng đ khác bit
gia hai nhóm không có ý ngha thng kê.
9.5 So sánh phng sai (var.test)
Bây gi chúng ta th kim đnh xem phng sai gia hai nhóm có khác nhau không.
tin hành phân tích, chúng ta ch cn lnh:
> var.test(igfi ~ sex)
F test to compare two variances
data: igfi by sex
F = 2.6274, num df = 68, denom df = 30, p-value = 0.004529
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
1.366187 4.691336
sample estimates:
ratio of variances
2.627396
Kt qu trên cho thy đ khác bit v phng sai gia hai nhóm cao 2.62 ln. Tr s p =
0.0045 cho thy phng sai gia hai nhóm khác nhau có ý ngha thng kê. Nh vy,
chúng ta chp nhn kt qu phân tích ca hàm t.test(igfi~ sex).
9.6 Kim đnh Wilcoxon cho hai mu (wilcox.test)
Kim đnh t da vào gi thit là phân phi ca mt bin phi tuân theo lut phân
phi chun. Nu gi đnh này không đúng, kt qu ca kim đnh t có th không hp lí
(valid). kim đnh phân phi ca igfi, chúng ta có th dùng hàm shapiro.test
nh sau:
> shapiro.test(igfi)
Shapiro-Wilk normality test
data: igfi
W = 0.8528, p-value = 1.504e-08
Tr s p nh hn 0.05 rt nhiu, cho nên chúng ta có th nói rng phân phi ca igfi
không tuân theo lut phân phi chun. Trong trng hp này, vic so sánh gia hai
nhóm có th da vào phng pháp phi tham s (non-parametric) có tên là kim đnh
Wilcoxon, vì kim đnh này (không nh kim đnh t) không tùy thuc vào gi đnh phân
phi chun.
> wilcox.test(igfi ~ sex)
Wilcoxon rank sum test with continuity correction
data: igfi by sex
W = 1125, p-value = 0.6819
alternative hypothesis: true mu is not equal to 0
Tr s p = 0.682 cho thy qu tht đ khác bit v igfi gia hai nhóm nam và n không
có ý ngha thng kê. Kt lun này cng không khác vi kt qu phân tích bng kim đnh
t.
9.7 Kim đnh t cho các bin s theo cp (paired t-test,
t.test)
Kim đnh t va trình bày trên là cho các nghiên cu gm hai nhóm đc lp nhau
(nh gia hai nhóm nam và n), nhng không th ng dng cho các nghiên cu mà mt
nhóm đi tng đc theo dõi theo thi gian. Tôi tm gi các nghiên cu này là nghiên
cu theo cp. Trong các nghiên cu này, chúng ta cn s dng mt kim đnh t có tên là
paired t-test.
Ví d 4. Mt nhóm bnh nhân gm 10 ngi đc điu tr bng mt thuc nhm
gim huyt áp. Huyt áp ca bnh nhân đc đo lúc khi đu nghiên cu (lúc cha điu
tr), và sau khi điu kh. S liu huyt áp ca 10 bnh nhân nh sau:
Trc khi điu tr (
x
0
)
180, 140, 160, 160, 220, 185, 145, 160, 160, 170
Sau khi điu tr (x
1
)
170, 145, 145, 125, 205, 185, 150, 150, 145, 155
Câu hi đt ra là đ bin chuyn huyt áp trên có đ đ kt lun rng thuc điu tr có
hiu qu gim áp huyt. tr li câu hi này, chúng ta dùng kim đnh t cho tng cp
nh sau:
> # nhp d kin
> before <- c(180, 140, 160, 160, 220, 185, 145, 160, 160, 170)
> after <- c(170, 145, 145, 125, 205, 185, 150, 150, 145, 155)
> bp <- data.frame(before, after)
> # kim đnh t
> t.test(before, after, paired=TRUE)
Paired t-test
data: before and after
t = 2.7924, df = 9, p-value = 0.02097
alternative hypothesis: true difference in means is not equal to
0
95 percent confidence interval:
1.993901 19.006099
sample estimates:
mean of the differences
10.5
Kt qu trên cho thy sau khi điu tr áp sut máu gim 10.5 mmHg, và khong tin cy
95% là t 2.0 mmHg đn 19 mmHg, vi tr s p = 0.0209. Nh vy, chúng ta có bng
chng đ phát biu rng mc đ gim huyt áp có ý ngha thng kê.
Chú ý nu chúng ta phân tích sai bng kim đnh thng kê cho hai nhóm đc lp di đây
thì tr s p = 0.32 cho bit mc đ gim áp sut không có ý ngha thng kê!
> t.test(before, after)
Welch Two Sample t-test
data: before and after
t = 1.0208, df = 17.998, p-value = 0.3209
alternative hypothesis: true difference in means is not equal to
0
95 percent confidence interval:
-11.11065 32.11065
sample estimates:
mean of x mean of y
168.0 157.5
9.8 Kim đnh Wilcoxon cho các bin s theo cp
(wilcox.test)
Thay vì dùng kim đnh t cho tng cp, chúng ta cng có th s dng hàm
wilcox.test cho cùng mc đích:
> wilcox.test(before, after, paired=TRUE)
Wilcoxon signed rank test with continuity correction
data: before and after
V = 42, p-value = 0.02291
alternative hypothesis: true mu is not equal to 0
Kt qu trên mt ln na khng đnh rng đ gim áp sut máu có ý ngha thng kê vi
tr s (p=0.023) chng khác my so vi kim đnh t cho tng cp.
9.9 Tn s (frequency)
Hàm table trong R có chc nng cho chúng ta bit v tn s ca mt bin s
mang tính phân loi nh sex và ethnicity.
> table(sex)
sex
Female Male
69 31
> table(ethnicity)
ethnicity
African Asian Caucasian Others
8 60 30 2
Mt bng thng kê 2 chiu:
> table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2
Chú ý trong các bng thng kê trên, hàm table không cung cp cho chúng ta s phn
trm. tính s phn trm, chúng ta cn đn hàm prop.table và cách s dng có th
minh ho nh sau:
# to ra mt object tên là freq đ cha kt qu tn s
> freq <- table(sex, ethnicity)
# kim tra kt qu
> freq
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2
# dùng hàm margin.table đ xem kt qu
> margin.table(freq, 1)
sex
Female Male
69 31
> margin.table(freq, 2)
ethnicity
African Asian Caucasian Others
8 60 30 2
# tính phn trm bng hàm prop.table
> prop.table(freq, 1)
ethnicity
sex African Asian Caucasian Others
Female 0.05797101 0.62318841 0.31884058 0.00000000
Male 0.12903226 0.54838710 0.25806452 0.06451613
Trong bng thng kê trên, prop.table tính t l sc tc cho tng gii tính. Chng hn
nh n gii (female), 5.8% là ngi Phi châu, 62.3% là ngi Á châu, 31.8% là ngi
Tây phng da trng . Tng cng là 100%. Tng t, nam gii t l ngi Phi châu là
12.9%, Á châu là 54.8%, v.v…
# tính phn trm bng hàm prop.table
> prop.table(freq, 2)
ethnicity
sex African Asian Caucasian Others
Female 0.5000000 0.7166667 0.7333333 0.0000000
Male 0.5000000 0.2833333 0.2666667 1.0000000
Trong bng thng kê trên, prop.table tính t l gii tính cho tng sc tc. Chng hn
nh trong nhóm ngi Á châu, 71.7% là n và 28.3% là nam.
# tính phn trm cho toàn b bng
> freq/sum(freq)
ethnicity
sex African Asian Caucasian Others
Female 0.04 0.43 0.22 0.00
Male 0.04 0.17 0.08 0.02
9.10 Kim đnh t l (proportion test, prop.test,
binom.test)
Kim đnh mt t l thng da vào gi đnh phân phi nh phân (binomial distribution).
Vi mt s mu
n và t l p, và nu n ln (tc hn 50 chng hn), thì phân phi nh phân
có th tng đng vi phân phi chun vi s trung bình np và phng sai np(1 – p).
Gi x là s bin c mà chúng ta quan tâm, kim đnh gi thit p = π có th s dng thng
kê sau đây:
()
1
xn
z
n
π
π
π
−
=
−
đây, z tuân theo lut phân phi chun vi trung bình 0 và phng sai 1. Cng có th
nói z
2
tuân theo lut phân phi Chi bình phng vi bc t do bng 1.
Ví d 5. Trong nghiên cu trên, chúng ta thy có 69 n và 31 nam. Nh vy t l
n là 0.69 (hay 69%). kim đnh xem t l này có tht s khác vi t l 0.5 hay
không, chúng ta có th s dng hàm prop.test(x, n, π) nh sau:
> prop.test(69, 100, 0.50)
1-sample proportions test with continuity correction
data: 69 out of 100, null probability 0.5
X-squared = 13.69, df = 1, p-value = 0.0002156
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5885509 0.7766330
sample estimates:
p
0.69
Trong kt qu trên, prop.test c tính t l n gii là 0.69, và khong tin cy 95% là
0.588 đn 0.776. Giá tr Chi bình phng là 13.69, vi tr s p = 0.00216. Nh vy,
nghiên cu này có t l n cao hn 50%.
Mt cách tính chính xác hn kim đnh t l là kim đnh nh phân
bionom.test(x,
n, π) nh sau:
> binom.test(69, 100, 0.50)
Exact binomial test
data: 69 and 100
number of successes = 69, number of trials = 100, p-value = 0.0001831
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.5896854 0.7787112
sample estimates:
probability of success
0.69
Nói chung, kt qu ca kim đnh nh phân không khác gì so vi kim đnh Chi bình
phng, vi tr s p = 0.00018, chúng ta càng có bng chng đ kt lun rng t l n gii
trong nghiên cu này tht s cao hn 50%.
9.11 So sánh hai t l (prop.test, binom.test)
Phng pháp so sánh hai t l có th khai trin trc tip t lí thuyt kim đnh mt t l
va trình bày trên. Cho hai mu vi s đi tng
n
1
và n
2
, và s bin c là x
1
và x
2
. Do
đó, chúng ta có th c tính hai t l p
1
và p
2
. Lí thuyt xác sut cho phép chúng ta phát
biu rng đ khác bit gia hai mu d = p
1
– p
2
tuân theo lut phân phi chun vi s
trung bình 0 và phng sai bng:
()
12
11
1
d
Vpp
nn
=
+−
Trong đó:
12
12
x
x
p
nn
+
=
+
Thành ra,
z = d/V
d
tuân theo lut phân phi chun vi trung bình 0 và phng sai 1. Nói
cách khác, z
2
tuân theo lut phân phi Chi bình phng vi bc t do bng 1. Do đó,
chúng ta cng có th s dng prop.test đ kim đnh hai t l.
Ví d 6. Mt nghiên cu đc tin hành so sánh hiu qu ca thuc chng gãy
xng. Bnh nhân đc chia thành hai nhóm: nhóm A đc điu tr gm có 100 bnh
nhân, và nhóm B không đc điu tr gm 110 bnh nhân. Sau thi gian 12 tháng theo
dõi, nhóm A có 7 ngi b gãy xng, và nhóm B có 20 ngi gãy xng. Vn đ đt ra
là t l gãy xng trong hai nhóm này bng nhau (tc thuc không có hiu qu)?
kim đnh xem hai t l này có tht s khác nhau, chúng ta có th s dng hàm
prop.test(x, n, π) nh sau:
> fracture <- c(7, 20)
> total <- c(100, 110)
> prop.test(fracture, total)
2-sample test for equality of proportions with continuity
correction
data: fracture out of total
X-squared = 4.8901, df = 1, p-value = 0.02701
alternative hypothesis: two.sided
95 percent confidence interval:
-0.20908963 -0.01454673
sample estimates:
prop 1 prop 2
0.0700000 0.1818182
Kt qu phân tích trên cho thy t l gãy xng trong nhóm 1 là 0.07 và nhóm 2 là 0.18.
Phân tích trên còn cho thy xác sut 95% rng đ khác bit gia hai nhóm có th 0.01
đn 0.20 (tc 1 đn 20%). Vi tr s p = 0.027, chúng ta có th nói rng t l gãy xng
trong nhóm A qu tht thp hn nhóm B.
9.12 So sánh nhiu t l (prop.test, chisq.test)
Kim đnh prop.test còn có th s dng đ kim đnh nhiu t l cùng mt lúc.
Trong nghiên cu trên, chúng ta có 4 nhóm sc tc và tn s cho tng gii tính nh sau:
> table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2
Chúng ta mun bit t l n gii gia 4 nhóm sc tc có khác nhau hay không, và đ tr
li câu hi này, chúng ta li dùng prop.test nh sau:
> female <- c( 4, 43, 22, 0)
> total <- c(8, 60, 30, 2)
> prop.test(female, total)
4-sample test for equality of proportions without continuity
correction
data: female out of total
X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.5000000 0.7166667 0.7333333 0.0000000
Warning message:
Chi-squared approximation may be incorrect in: prop.test(female, total)
Tuy t l n gii gia các nhóm có v khác nhau ln (73% trong nhóm 3 (ngi da trng)
so vi 50% trong nhóm 1 (Phi châu) và 71.7% trong nhóm Á châu, nhng kim đnh Chi
bình phng cho bit trên phng din thng kê, các t l này không khác nhau, vì tr s
p = 0.099.
9.12.1 Kim đnh Chi bình phng (Chi squared test, chisq.test)
Tht ra, kim đnh Chi bình phng còn có th tính toán bng hàm chisq.test nh
sau:
> chisq.test(sex, ethnicity)
Pearson's Chi-squared test
data: sex and ethnicity
X-squared = 6.2646, df = 3, p-value = 0.09942
Warning message:
Chi-squared approximation may be incorrect in: chisq.test(sex,
ethnicity)
Kt qu này hoàn toàn ging vi kt qu t hàm prop.test.
9.12.2 Kim đnh Fisher (Fisher’s exact test, fisher.test)
Trong kim đnh Chi bình phng trên, chúng ta chú ý cnh báo:
“Warning message:
Chi-squared approximation may be incorrect in: prop.test(female, total)”
Vì trong nhóm 4, không có n gii cho nên t l là 0%. Hn na, trong nhóm này ch có
2 đi tng. Vì s lng đi tng quá nh, cho nên các c tính thng kê có th không
đáng tin cy. Mt phng pháp khác có th áp dng cho các nghiên cu vi tn s thp
nh trên là kim đnh
fisher (còn gi là Fisher’s exact test). Bn đc có th tham kho
lí thuyt đng sau kim đnh fisher đ hiu rõ hn v logic ca phng pháp này, nhng
đây, chúng ta ch quan tâm đn cách dùng R đ tính toán kim đnh này. Chúng ta ch
đn gin lnh:
> fisher.test(sex, ethnicity)
Fisher's Exact Test for Count Data
data: sex and ethnicity
p-value = 0.1048
alternative hypothesis: two.sided
Chú ý tr s p t kim đnh Fisher là 0.1048, tc rt gn vi tr s p ca kim đnh Chi
bình phng. Cho nên, chúng ta có thêm bng chng đ khng đnh rng t l n gii
gia các sc tc không khác nhau mt cách đáng k.