Chuong 09 THỐNG KÊ MÔ TẢ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (351.1 KB, 22 trang )

9
Phân tích thng kê mô t

Trong chng này, chúng ta s s dng R cho mc đích phân tích thng kê mô t.
Nói đn thng kê mô t là nói đn vic mô t d liu bng các phép tính và ch s thng
kê thông thng mà chúng ta đã làm quen qua t thu trung hc nh s trung bình
(mean), s trung v (median), phng sai (variance) đ lch chun (standard deviation)
… cho các bin s liên tc, và t s (proportion) cho các bin s không liên tc. Nhng
trc khi hng dn phân tích thng kê mô t, tôi mun bn đc phi phân bit cho đc
hai khái nim tng th (population) và mu (sample).

9.0 Khái nim tng th (population) và mu (sample)

Sách giáo khoa thng kê thng gii thích hai khái nim này mt cách mù m và
có khi vô ngha. Chng hn nh cun “Modern Mathematical Statistics” (E. J. Dudewicz
và S. N. Mishra, Nhà xut bn Wiley, 1988) gii thích tng th rng “population is a set
of n distinct elements (points) a
1
, a
2
, a
3
, … a
n
.” (trang 24, tm dch: “tng th là tp hp
gm n phn t hay đim a
1
, a
2
, a

3
, … a
n
”), còn L. Fisher và G. van Belle trong
“Biostatistics – A Methodology for the Health Science” (Nhà xut bn Wiley, 1993), gii
thích rng “The sample space or population is the set of all possible values of a variable”
(trang 38, tm dch “Không gian mu hay tng th là tp hp tt c các giá tr kh d ca
mt bin”). i vi mt nhà nghiên cu thc nghim phi nói nhng đnh ngha loi này
rt tru tng và khó hiu, và dng nh chng có liên quan gì vi thc t! Trong phn
này tôi s gii thích hai khái nim này bng mô phng và hi vng là b đc s hiu rõ
hn.

Có th nói mc tiêu ca nghiên cu khoa hc thc nghim là nhm tìm hiu và
khám phá nhng cái cha đc bit (unknown), trong đó bao gm nhng qui lut hot
đng ca t nhiên.  khám phá, chúng ta s dng đn các phng pháp phân loi, so
sánh, và phng đoán. Tt c các phng pháp khoa hc, k c thng kê hc, đc phát
trin nhm vào ba mc tiêu trên.  phân loi, chúng ta phi đo lng mt yu t hay
tiêu chí có liên quan đn vn đ cn nghiên cu.  so sánh và phng đoán, chúng ta cn
đn các phng pháp kim đnh gi thit và mô hình thng kê hc.

Cng nh bt c mô hình nào, mô hình thng kê phi có thông s. Và mun có
thông s, chúng ta trc ht phi tin hành đo lng, và sau đó là c tính thông s t đo
lng. Chng hn nh đ bit sinh viên n có ch s thông minh (IQ) bng sinh viên nam
hay không, chúng ta có th làm nghiên cu theo hai phng án:

(a) Mt là lp danh sánh tt c sinh viên nam và n trên toàn quc, ri đo lng ch
s IQ  tng ngi, và sau đó so sánh gia hai nhóm;

(b) Hai là chn ngu nhiên mt mu gm n nam và m n sinh viên, ri đo lng ch
s IQ  tng ngi, và sau đó so sánh gia hai nhóm.

Phng án (a) rt tn kém và có th nói là không thc t, vì chúng ta phi tp hp
tt c sinh viên ca c nc, mt vic làm rt khó thc hin đc. Nhng gi d nh
chúng ta có th làm đc, thì phng án này không cn đn thng kê hc. Giá tr IQ
trung bình ca n và nam sinh viên tính t phng án (a) là giá tr cui cùng, và nó tr li
câu hi ca chúng ta mt cách trc tip, chúng ta không cn phi suy lun, không cn đn
kim đnh thng kê gì c!

Phng án (b) đòi hi chúng ta phi chn n nam và m n sinh viên sao cho đi
din (representative) cho toàn qun th sinh viên ca c nc. Tính “đi din”  đây có
ngha là các s n nam và m n sinh viên này phi có cùng đc tính nh đ tui, trình đ
hc vn, thành phn kinh t, xã hi, ni sinh sng. v.v… so vi tng th sinh viên ca c
nc. Bi vì chúng ta không bit các đc tính này trong toàn b tng th sinh viên,
chúng ta không th so sánh trc tip đc, cho nên mt phng pháp rt hu hiu là ly
mu mt cách ngu nhiên. Có nhiu phng pháp ly mu ngu nhiên đã đc phát trin
và tôi s không bàn qua chi tit ca các phng pháp này, ngoi tr mun nhn mnh
rng, nu cách ly mu không ngu nhiên thì các c s t mu s không có ý ngha khoa
hc cao, bi vì các phng pháp phân tích thng kê da vào gi đnh rng mu phi đc
chn mt cách ngu nhiên.

Tôi s ly mt ví d c th v tng th và mu qua ng dng R nh sau. Gi d
chúng ta có mt tng th gm 20 ngi và bit rng chiu cao ca h nh sau (tính bng
cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 159, 164, 150, 162, 168, 165, 156,
157, 154 và 157. Nh vy, chúng ta bit rng chiu cao trung bình ca tng th là 158.65
cm. Xin nhn mnh đó là tng th.

Vì thiu thn phng tin chúng ta không th nghiên cu trên toàn tng th mà
ch có th ly mu t tng th đ c tính chiu cao. Hàm sample() cho phép chúng
ta ly mu. Và c tính chiu cao trung bình t mu tt nhiên s khác vi chiu cao
trung bình ca tng th.

• Chn 5 ngi t tng th:
> sample5 <- sample(height, 5)
> sample5
[1] 153 157 164 156 149

c tính chiu cao trung bình t mu này:
> mean(sample5)
[1] 155.8

• Chn 5 ngi khác t tng th và tính chiu cao trung bình:
> sample5 <- sample(height, 5)
> sample5
[1] 157 162 167 161 150
> mean(sample5)
[1] 159.4

Chú ý c tính chiu cao ca mu th hai là 159.4 cm (thay vì 155.8 cm), bi vì
chn ngu nhiên, cho nên đi tng đc chn ln hai không nht thit phi là đi tng
ln th nht, cho nên c tính trung bình khác nhau.

• Bây gi chúng ta th ly mu 10 ngi t tng th và tính chiu cao trung bình:
> sample10 <- sample(height, 10)
> sample10
[1] 153 160 150 165 159 160 164 156 162 157
> mean(sample10)
[1] 158.6

Chúng ta có th ly nhiu mu, mi mu gm 10 ngi và c tính s trung bình t mu,
bng mt lnh đn gin hn nh sau:

> mean(sample(height, 10))
[1] 156.7
> mean(sample(height, 10))
[1] 157.1
> mean(sample(height, 10))
[1] 159.3
> mean(sample(height, 10))
[1] 159.3
> mean(sample(height, 10))
[1] 158.3
> mean(sample(height, 10))

Chú ý đ dao đng ca s trung bình t 156.7 đn 159.3 cm.

• Chúng ta th ly mu 15 ngi t tng th và tính chiu cao trung bình:

> mean(sample(height, 15))
[1] 158.6667
> mean(sample(height, 15))
[1] 159.4
> mean(sample(height, 15))
[1] 158.0667
> mean(sample(height, 15))
[1] 158.1333
> mean(sample(height, 15))
[1] 156.4667

Chú ý đ dao đng ca s trung bình bây gi t 158.0 đn 158.7 cm, tc thp hn mu
vi 10 đi tng.

• Tng c mu lên 18 ngi (tc gn s đi tng trong tng th)
> mean(sample(height, 18))
[1] 158.2222
> mean(sample(height, 18))
[1] 158.7222
> mean(sample(height, 18))
[1] 158.0556
> mean(sample(height, 18))
[1] 158.4444
> mean(sample(height, 18))
[1] 158.6667
> mean(sample(height, 18))
[1] 159.0556
> mean(sample(height, 18))
[1] 159

Bây gi thì c tính chiu cao khá n đnh, nhng không khác gì so vi c mu
vi 15 ngi, do đ dao đng t 158.2 đn 159 cm.

T các ví d trên đây, chúng ta có th rút ra mt nhn xét quan trng: c s t
các mu đc chn mt cách ngu nhiên s khác vi thông s ca tng th, nhng khi s
c mu tng lên thì đ khác bit s nh li dn. Do đó, mt trong nhng vn đ then cht
ca thit k nghiên cu là nhà nghiên cu phi c tính c mu sao cho c s mà chúng
ta tính t mu gn (hay chính xác) so vi thông s ca tng th. Tôi s quay li vn đ
này trong Chng 15.

Trong ví d trên s trung bình ca tng th là 158.65 cm. Trong thng kê hc,
chúng ta gi đó là thông s (parameter). Và các s trung bình c tính t các mu chn
t tng th đó đc gi là c s mu (sample estimate). Do đó, xin nhc li đ nhn

mnh: nhng ch s liên quan đn tng th là thông s, còn nhng s c tính t các mu
là c s. Nh thy trên, c s có đ dao đng chung quanh thông s, và vì trong thc
t chúng ta không bit thông s, cho nên chúng mc tiêu chính ca phân tích thng kê là
s dng c s đ suy lun v thông s.

Mc tiêu chính ca phân tích thng kê mô t là tìm nhng c s ca mu. Có
hai loi đo lng: liên tc (continuous measurement) và không liên tc hay ri rc
(discrete measurement). Các bin liên tc nh đ tui, chiu cao, trng lng c th,
v.v… là bin s liên tc, còn các bin mang tính phân loi nh có hay không có bnh,
thích hay không thích, trng hay đen, v.v… là nhng bin s không liên tc. Cách tính
hai loi bin s này cng khác nhau.

c s thông thng nht dùng đ mô t mt bin s liên tc là s trung bình
(mean). Chng hn nh chiu cao ca nhóm 1 gm 5 đi tng là 160, 160, 167, 156, và
161, do đó s trung bình là 160.8 cm. Nhng chiu cao ca nhóm 2 cng gm 5 đi
tng khác nh142, 150, 187, 180 và 145, thì s trung bình vn là 160.8. Do đó, s trung
bình không th phn ánh đy đ s phân phi ca mt bin liên tc, vì  đây tuy hai
nhóm có cùng trung bình nhng đ khác bit ca nhóm 2 cao hn nhóm 1 rt nhiu. Và
chúng ta cn mt c s khác gi là phng sai (variance). Phng sai ca nhóm 1 là
15.7 cm
2
và nhóm 2 là 443.7 cm
2
.

Vi mt bin s không liên tc nh 0 và 1 (0 kí hiu còn sng, và 1 kí hiu t
vong) thì c s trung bình không còn ý ngha “trung bình” na, cho nên chúng ta có c
s t l (proportion). Chng hn nh trong s 10 ngi có 2 ngi t vong, thì t l t
vong là 0.2 (hay 20%). Trong s 200 ngi có 40 ngi qua đi thì t l t vong vn 0.2.
Do đó, cng nh trng hp trung bình, t l không th mô t mt bin không liên tc đy

đ đc. Chúng ta cn đn phng sai đ, cùng vi t l, mô t mt bin không liên tc.
Trong trng hp 2/10 phng sai là 0.016, còn trong trng hp 40/200, phng sai là
0.0008. Trong chng này, chúng ta s làm quen vi mt s lnh trong R đ tin hành
nhng tính toán đn gin trên.

9.1 Thng kê mô t (descriptive statistics, summary)

 minh ha cho vic áp dng R vào thng kê mô t, tôi s s dng mt d liu
nghiên cu có tên là igfdata. Trong nghiên cu này, ngoài các ch s liên quan đn
gii tính, đ tui, trng lng và chiu cao, chúng tôi đo lng các hormone liên quan
đn tình trng tng trng nh igfi, igfbp3, als, và các markers liên quan đn
s chuyn hóa ca xng pinp, ictp và pinp. Có 100 đi tng nghiên cu. D
liu này đc cha trong directory c:\works\stats. Trc ht, chúng ta cn phi
nhp d liu vào R vi nhng lnh sau đây (các câu ch theo sau du # là nhng chú
thích đ bn đc theo dõi):

> options(width=100)
# chuyn directory
> setwd("c:/works/stats")

# đc d liu vào R
> igfdata <- read.table("igf.txt", header=TRUE, na.strings=".")
> attach(igfdata)

# xem xét các ct s trong d liu
> names(igfdata)
[1] "id" "sex" "age" "weight" "height" "ethnicity"
[7] "igfi" "igfbp3" "als" "pinp" "ictp" "p3np"

> igfdata
id sex age weight height ethnicity igfi igfbp3 als pinp ictp p3np
1 1 Female 15 42 162 Asian 189.000 4.00000 323.667 353.970 11.2867 8.3367
2 2 Male 16 44 160 Caucasian 160.000 3.75000 333.750 375.885 10.4300 6.7450
3 3 Female 15 43 157 Asian 146.833 3.43333 248.333 199.507 8.3633 12.5000
4 4 Female 15 42 155 Asian 185.500 3.40000 251.000 483.607 13.3300 14.2767
5 5 Female 16 47 167 Asian 192.333 4.23333 322.000 105.430 7.9233 4.5033
6 6 Female 25 45 160 Asian 110.000 3.50000 284.667 76.487 4.9833 4.9367
7 7 Female 19 45 161 Asian 157.000 3.20000 274.000 75.880 6.3500 5.3200
8 8 Female 18 43 153 Asian 146.000 3.40000 303.000 86.360 7.3700 4.6700
9 9 Female 15 41 149 Asian 197.667 3.56667 308.500 254.803 11.8700 6.8200
10 10 Female 24 45 157 African 148.000 3.40000 273.000 44.720 3.7400 6.1600

97 97 Female 17 54 168 Caucasian 204.667 4.96667 441.333 64.130 5.1600 4.4367
98 98 Male 18 55 169 Asian 178.667 3.86667 273.000 185.913 7.5267 8.8333
99 99 Female 18 48 151 Asian 237.000 3.46667 324.333 105.127 5.9867 5.6600
100 100 Male 15 54 168 Asian 130.000 2.70000 259.333 325.840 10.2767 6.5933

Trên đây ch là mt phn s liu trong s 100 đi tng.

Cho mt bin s
123
, , , ,
n
x
xx x chúng ta có th tính toán mt s ch s thng kê mô t
nh sau:

Lí thuyt
Hàm R
S trung bình:
x
n
x
i
i
n
=
=
∑
1
1
.

mean(x)
Phng sai:
()
∑
−
−
=
=
n
i
i
xx
n
s

1
2
2
1
1

var(x)
 lch chun:
2
ss=
sd(x)
Sai s chun (standard error):
s
SE
n
=
Không có
Tr s thp nht
min(x)
Tr s cao nht
max(x)
Toàn c (range)
range(x)

Ví d 1:  tìm giá tr trung bình ca đ tui, chúng ta ch đn gin lnh:

> mean(age)
[1] 19.17

Hay phng sai và đc lch chun ca tui:

> var(age)
[1] 15.33444

> sd(age)
[1] 3.915922

Tuy nhiên, R có lnh summary có th cho chúng ta tt c thông tin thng kê v mt bin
s:

> summary(age)
Min. 1st Qu. Median Mean 3rd Qu. Max.
13.00 16.00 19.00 19.17 21.25 34.00

Nói chung, kt qu này đn gin và các vit tt cng có th d hiu. Chú ý, trong
kt qu trên, có hai ch s “1st Qu” và “3rd Qu” có ngha là first quartile (tng
đng vi v trí 25%) và third quartile (tng đng vi v trí 75%) ca mt bin s.
First quartile = 16 có ngha là 25% đi tng nghiên cu có đ tui bng hoc nh hn
16 tui. Tng t, Third quartile = 34 có ngha là 75% đi tng có đ tui bng hoc
thp hn 34 tui. Tt nhiên s trung v (median) 19 cng có ngha là 50% đi tng có
đ tui 19 tr xung (hay 19 tui tr lên).

R không có hàm tính sai s chun, và trong hàm summary, R cng không cung
cp đ lch chun.  có các s này, chúng ta có th t vit mt hàm đn gin (hãy gi
là desc) nh sau:

desc <- function(x)
{
av <- mean(x)

sd <- sd(x)
se <- sd/sqrt(length(x))
c(MEAN=av, SD=sd, SE=se)
}

Và có th gi hàm này đ tính bt c bin nào chúng ta mun, nh tính bin als sau
đây:

> desc(als)
MEAN SD SE
301.841120 58.987189 5.898719

 có mt “quang cnh” chung v d liu igfdata chúng ta ch đn gin lnh
summary nh sau:

> summary(igfdata)
id sex age weight height ethnicity
Min. : 1.00 Female:69 Min. :13.00 Min. :41.00 Min. :149.0 African : 8
1st Qu.: 25.75 Male :31 1st Qu.:16.00 1st Qu.:47.00 1st Qu.:157.0 Asian :60
Median : 50.50 Median :19.00 Median :50.00 Median :162.0 Caucasian:30
Mean : 50.50 Mean :19.17 Mean :49.91 Mean :163.1 Others : 2
3rd Qu.: 75.25 3rd Qu.:21.25 3rd Qu.:53.00 3rd Qu.:168.0
Max. :100.00 Max. :34.00 Max. :60.00 Max. :196.0

igfi igfbp3 als pinp ictp
Min. : 85.71 Min. :2.000 Min. :192.7 Min. : 26.74 Min. : 2.697
1st Qu.:137.17 1st Qu.:3.292 1st Qu.:256.8 1st Qu.: 68.10 1st Qu.: 4.878
Median :161.50 Median :3.550 Median :292.5 Median :103.26 Median : 6.338
Mean :165.59 Mean :3.617 Mean :301.8 Mean :167.17 Mean : 7.420

3rd Qu.:186.46 3rd Qu.:3.875 3rd Qu.:331.2 3rd Qu.:196.45 3rd Qu.: 8.423
Max. :427.00 Max. :5.233 Max. :471.7 Max. :742.68 Max. :21.237

p3np
Min. : 2.343
1st Qu.: 4.433
Median : 5.445
Mean : 6.341
3rd Qu.: 7.150
Max. :16.303

R tính toán tt c các bin s nào có th tính toán đc! Thành ra, ngay c ct id
(tc mã s ca đi tng nghiên cu) R cng tính luôn! (và chúng ta bit kt qu ca ct
id chng có ý ngha thng kê gì). i vi các bin s mang tính phân loi nh sex và
ethnicity (sc tc) thì R ch báo cáo tn s cho mi nhóm.

Kt qu trên cho tt c đi tng nghiên cu. Nu chúng ta mun kt qu cho
tng nhóm nam và n riêng bit, hàm by trong R rt hu dng. Trong lnh sau đây,
chúng ta yêu cu R tóm lc d liu igfdata theo sex.

> by(igfdata, sex, summary)

sex: Female
id sex age weight height
Min. : 1.0 Female:69 Min. :13.00 Min. :41.00 Min. :149.0
1st Qu.:21.0 Male : 0 1st Qu.:17.00 1st Qu.:47.00 1st Qu.:156.0
Median :47.0 Median :19.00 Median :50.00 Median :162.0
Mean :48.2 Mean :19.59 Mean :49.35 Mean :161.9
3rd Qu.:75.0 3rd Qu.:22.00 3rd Qu.:52.00 3rd Qu.:166.0

Max. :99.0 Max. :34.00 Max. :60.00 Max. :196.0
ethnicity igfi igfbp3 als
African : 4 Min. : 85.71 Min. :2.767 Min. :204.3
Asian :43 1st Qu.:136.67 1st Qu.:3.333 1st Qu.:263.8
Caucasian:22 Median :163.33 Median :3.567 Median :302.7
Others : 0 Mean :167.97 Mean :3.695 Mean :311.5
3rd Qu.:186.17 3rd Qu.:3.933 3rd Qu.:361.7
Max. :427.00 Max. :5.233 Max. :471.7
pinp ictp p3np
Min. : 26.74 Min. : 2.697 Min. : 2.343
1st Qu.: 62.75 1st Qu.: 4.717 1st Qu.: 4.337
Median : 78.50 Median : 5.537 Median : 5.143
Mean :108.74 Mean : 6.183 Mean : 5.643
3rd Qu.:115.26 3rd Qu.: 7.320 3rd Qu.: 6.143
Max. :502.05 Max. :13.633 Max. :14.420

sex: Male
id sex age weight height
Min. : 2.00 Female: 0 Min. :14.00 Min. :44.00 Min. :155.0
1st Qu.: 34.50 Male :31 1st Qu.:15.00 1st Qu.:48.50 1st Qu.:161.5
Median : 56.00 Median :17.00 Median :51.00 Median :164.0
Mean : 55.61 Mean :18.23 Mean :51.16 Mean :165.6
3rd Qu.: 75.00 3rd Qu.:20.00 3rd Qu.:53.50 3rd Qu.:169.0
Max. :100.00 Max. :27.00 Max. :59.00 Max. :191.0
ethnicity igfi igfbp3 als
African : 4 Min. : 94.67 Min. :2.000 Min. :192.7
Asian :17 1st Qu.:138.67 1st Qu.:3.183 1st Qu.:249.8
Caucasian: 8 Median :160.00 Median :3.500 Median :276.0
Others : 2 Mean :160.29 Mean :3.443 Mean :280.2
3rd Qu.:183.00 3rd Qu.:3.775 3rd Qu.:311.3

Max. :274.00 Max. :4.500 Max. :388.7
pinp ictp p3np
Min. : 56.28 Min. : 3.650 Min. : 3.390
1st Qu.:135.07 1st Qu.: 6.900 1st Qu.: 5.375
Median :245.92 Median : 9.513 Median : 7.140
Mean :297.21 Mean :10.173 Mean : 7.895
3rd Qu.:450.38 3rd Qu.:13.517 3rd Qu.:10.010
Max. :742.68 Max. :21.237 Max. :16.303

 xem qua phân phi ca các hormones và ch s sinh hóa cùng mt lúc, chúng
ta có th v đ th cho tt c 6 bin s. Trc ht, chia màn nh thành 6 ca s (vi 2
dòng và 3 ct); sau đó ln lt v:

> op <- par(mfrow=c(2,3))
> hist(igfi)
> hist(igfbp3)
> hist(als)
> hist(pinp)
> hist(ictp)
> hist(p3np)

Histogram of igfi
igfi
Frequency
100 200 300 400
0 10203040
Histogram of igfbp3
igf bp3
Frequency

2.0 3.0 4.0 5.0
0 10203040
Histogram of als
als
Frequency
150 250 350 450
0 102030
Histogram of pinp
pinp
Frequency
0 200 400 600 800
01020304050
Histogram of ictp
ic tp
Frequency
5101520
0102030
Histogram of p3np
p3np
Frequency
51015
0 10203040

9.2 Kim đnh xem mt bin có phi phân phi chun

Trong phân tích thng kê, phn ln các phép tính da vào gi đnh bin s phi là
mt bin s phân phi chun (normal distribution). Do đó, mt trong nhng vic quan
trng khi xem xét d kin là phi kim đnh gi thit phân phi chun ca mt bin s.

Trong đ th trên, chúng ta thy các bin s nh
igfi, pinp, ictp và p3np có v
tp trung vào các giá tr thp và không cân đi, tc du hiu ca mt s phân phi không
chun.

 kim đnh nghiêm chnh, chúng ta cn phi s dng kim đnh thng kê có tên
là “Shapiro test” và trong R gi là hàm shapiro.test. Chng hn nh kim đnh gi
thit phân phi chun ca bin s pinp,

> shapiro.test(pinp)

Shapiro-Wilk normality test

data: pinp
W = 0.748, p-value = 8.314e-12

Vì tr s p (p-value) thp hn 0.05, chúng ta có th kt lun rng bin s pinp không đáp
ng lut phân phi chun.

Nhng vi bin s weight (trng lng c th) thì kim đnh này cho bit đây là mt
bin s tuân theo lut phân phi chun vì tr s p > 0.05.

> shapiro.test(weight)

Shapiro-Wilk normality test

data: weight
W = 0.9887, p-value = 0.5587

Tht ra, kt qu trên cng phù hp vi đ th ca weight:

> hist(weight)

Histogram of weight
weight
Frequency
40 45 50 55 60
051015

9.3 Thng kê mô t theo tng nhóm

Nu chúng ta mun tính trung bình ca mt bin s nh igfi cho mi nhóm nam
và n gii, hàm tapply trong R có th dùng cho vic này:

> tapply(igfi, list(sex), mean)
Female Male
167.9741 160.2903

Trong lnh trên, igfi là bin s chúng ta cn tính, bin s phân nhóm là sex, và ch s
thng kê chúng ta mun là trung bình (mean). Qua kt qu trên, chúng ta thy s trung
bình ca igfi cho n gii (167.97) cao hn nam gii (160.29).

Nhng nu chúng ta mun tính cho tng gii tính và sc tc, chúng ta ch cn thêm mt
bin s trong hàm list:

> tapply(igfi, list(ethnicity, sex), mean)
Female Male
African 145.1252 120.9168
Asian 165.6589 160.4999

Caucasian 176.6536 169.4790
Others NA 200.5000

Trong kt qu trên, NA có ngha là “not available”, tc không có s liu cho ph n trong
các sc tc “others”.

9.4 Kim đnh t (t.test)

Kim đnh t da vào gi thit phân phi chun. Có hai loi kim đnh t: kim
đnh t cho mt mu (one-sample t-test), và kim đnh t cho hai mu (two-sample t-test).
Kim đnh t mt mu nm tr li câu hi d liu t mt mu có phi tht s bng mt
thông s nào đó hay không. Còn kim đnh t hai mu thì nhm tr li câu hi hai mu có
cùng mt lut phân phi, hay c th hn là hai mu có tht s có cùng tr s trung bình
hay không. Tôi s ln lt minh ha hai kim đnh này qua s liu
igfdata trên.

9.1.1 Kim đnh t mt mu

Ví d 2. Qua phân tích trên, chúng ta thy tui trung bình ca 100 đi tng
trong nghiên cu này là 19.17 tui. Chng hn nh trong qun th này, trc đây chúng
ta bit rng tui trung bình là 30 tui. Vn đ đt ra là có phi mu mà chúng ta có đc
có đi din cho qun th hay không. Nói cách khác, chúng ta mun bit giá tr trung bình
19.17 có tht s khác vi giá tr trung bình 30 hay không.

 tr li câu hi này, chúng ta s dng kim đnh t. Theo lí thuyt thng kê,
kim đnh t đc đnh ngha bng công thc sau đây:

/
x

t
sn
µ
−
=

Trong đó,
x
là giá tr trung bình ca mu,
µ
là trung bình theo gi thit (trong trng
hp này, 30), s là đ lch chun, và n là s lng mu (100). Nu giá tr t cao hn giá tr
lí thuyt theo phân phi t  mt tiêu chun có ý ngha nh 5% chng hn thì chúng ta có
lí do đ phát biu khác bit có ý ngha thng kê. Giá tr này cho mu 100 có th tính toán
bng hàm
qt ca R nh sau:

> qt(0.95, 100)
[1] 1.660234

Nhng có mt cách tính toán nhanh gn hn đ tr li câu hi trên, bng cách dùng hàm
t.test nh sau:

> t.test(age, mu=30)

One Sample t-test

data: age
t = -27.6563, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 30

95 percent confidence interval:
18.39300 19.94700
sample estimates:
mean of x
19.17

Trong lnh trên age là bin s chúng ta cn kim đnh, và mu=30 là giá tr gi thit. R
trình bày tr s t = -27.66, vi 99 bc t do, và tr s p < 2.2e-16 (tc rt thp). R
cng cho bit đ tin cy 95% ca age là t 18.4 tui đn 19.9 tui (30 tui nm quá ngoài
khong tin cy này). Nói cách khác, chúng ta có lí do đ phát biu rng đ tui trung
bình trong mu này tht s thp hn đ tui trung bình ca qun th.

9.4.2 Kim đnh t hai mu

Ví d 3. Qua phân tích mô t trên (phm summary) chúng ta thy ph n có đ
hormone igfi cao hn nam gii (167.97 và 160.29). Câu hi đt ra là có phi tht s đó
là mt khác bit có h thng hay do các yu t ngu nhiên gây nên. Tr li câu hi này,
chúng ta cn xem xét mc đ khác bit trung bình gia hai nhóm và đ lch chun ca đ
khác bit.

21
x
x
t
SED
−
=
Trong đó
1
x

và
2
x
là s trung bình ca hai nhóm nam và n, và SED là đ lch chun
ca (
1
x
-
2
x
) . Thc ra, SED có th c tính bng công thc:

22
12
SED SE SE=+

Trong đó
1
SE và
2
SE là sai s chun (standard error) ca hai nhóm nam và n. Theo lí
thuyt xác sut, t tuân theo lut phân phi t vi bc t do
12
2nn
+
− , trong đó n
1
và n
2
là

s mu ca hai nhóm. Chúng ta có th dùng
R đ tr li câu hi trên bng hàm t.test
nh sau:

> t.test(igfi~ sex)

Welch Two Sample t-test

data: igfi by sex
t = 0.8412, df = 88.329, p-value = 0.4025
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-10.46855 25.83627
sample estimates:
mean in group Female mean in group Male
167.9741 160.2903

R trình bày các giá tr quan trng trc ht:

t = 0.8412, df = 88.329, p-value = 0.4025

df là bc t do. Tr s p = 0.4025 cho thy mc đ khác bit gia hai nhóm nam và n
không có ý ngha thng kê (vì cao hn 0.05 hay 5%).

95 percent confidence interval:
-10.46855 25.83627

là khong tin cy 95% v đ khác bit gia hai nhóm. Kt qu tính toán trên cho bit đ
igf  n gii có th thp hn nam gii 10.5 ng/L hoc cao hn nam gii khong 25.8

ng/L. Vì đ khác bit quá ln và đó là thêm bng chng cho thy không có khác bit có
ý ngha thng kê gia hai nhóm.

Kim đnh trên da vào gi thit hai nhóm nam và n có khác phng sai. Nu
chúng ta có lí do đ cho rng hai nhóm có cùng phng sai, chúng ta ch thay đi mt
thông s trong hàm t vi
var.equal=TRUE nh sau:

> t.test(igfi~ sex, var.equal=TRUE)

Two Sample t-test

data: igfi by sex
t = 0.7071, df = 98, p-value = 0.4812
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-13.88137 29.24909
sample estimates:
mean in group Female mean in group Male
167.9741 160.2903

V mc s, kt qu phân tích trên có khác chút ít so vi kt qu phân tích da vào gi
đnh hai phng sai khác nhau, nhng tr s p cng đi đn mt kt lun rng đ khác bit
gia hai nhóm không có ý ngha thng kê.

9.5 So sánh phng sai (var.test)

Bây gi chúng ta th kim đnh xem phng sai gia hai nhóm có khác nhau không. 

tin hành phân tích, chúng ta ch cn lnh:

> var.test(igfi ~ sex)

F test to compare two variances

data: igfi by sex
F = 2.6274, num df = 68, denom df = 30, p-value = 0.004529
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
1.366187 4.691336
sample estimates:
ratio of variances
2.627396

Kt qu trên cho thy đ khác bit v phng sai gia hai nhóm cao 2.62 ln. Tr s p =
0.0045 cho thy phng sai gia hai nhóm khác nhau có ý ngha thng kê. Nh vy,
chúng ta chp nhn kt qu phân tích ca hàm t.test(igfi~ sex).

9.6 Kim đnh Wilcoxon cho hai mu (wilcox.test)

Kim đnh t da vào gi thit là phân phi ca mt bin phi tuân theo lut phân
phi chun. Nu gi đnh này không đúng, kt qu ca kim đnh t có th không hp lí
(valid).  kim đnh phân phi ca igfi, chúng ta có th dùng hàm shapiro.test
nh sau:

> shapiro.test(igfi)

Shapiro-Wilk normality test

data: igfi
W = 0.8528, p-value = 1.504e-08

Tr s p nh hn 0.05 rt nhiu, cho nên chúng ta có th nói rng phân phi ca igfi
không tuân theo lut phân phi chun. Trong trng hp này, vic so sánh gia hai
nhóm có th da vào phng pháp phi tham s (non-parametric) có tên là kim đnh
Wilcoxon, vì kim đnh này (không nh kim đnh t) không tùy thuc vào gi đnh phân
phi chun.

> wilcox.test(igfi ~ sex)

Wilcoxon rank sum test with continuity correction

data: igfi by sex
W = 1125, p-value = 0.6819
alternative hypothesis: true mu is not equal to 0

Tr s p = 0.682 cho thy qu tht đ khác bit v igfi gia hai nhóm nam và n không
có ý ngha thng kê. Kt lun này cng không khác vi kt qu phân tích bng kim đnh
t.

9.7 Kim đnh t cho các bin s theo cp (paired t-test,
t.test)

Kim đnh t va trình bày trên là cho các nghiên cu gm hai nhóm đc lp nhau
(nh gia hai nhóm nam và n), nhng không th ng dng cho các nghiên cu mà mt
nhóm đi tng đc theo dõi theo thi gian. Tôi tm gi các nghiên cu này là nghiên
cu theo cp. Trong các nghiên cu này, chúng ta cn s dng mt kim đnh t có tên là

paired t-test.

Ví d 4. Mt nhóm bnh nhân gm 10 ngi đc điu tr bng mt thuc nhm
gim huyt áp. Huyt áp ca bnh nhân đc đo lúc khi đu nghiên cu (lúc cha điu
tr), và sau khi điu kh. S liu huyt áp ca 10 bnh nhân nh sau:

Trc khi điu tr (
x
0
)
180, 140, 160, 160, 220, 185, 145, 160, 160, 170
Sau khi điu tr (x
1
)
170, 145, 145, 125, 205, 185, 150, 150, 145, 155

Câu hi đt ra là đ bin chuyn huyt áp trên có đ đ kt lun rng thuc điu tr có
hiu qu gim áp huyt.  tr li câu hi này, chúng ta dùng kim đnh t cho tng cp
nh sau:

> # nhp d kin
> before <- c(180, 140, 160, 160, 220, 185, 145, 160, 160, 170)
> after <- c(170, 145, 145, 125, 205, 185, 150, 150, 145, 155)
> bp <- data.frame(before, after)

> # kim đnh t
> t.test(before, after, paired=TRUE)

Paired t-test

data: before and after
t = 2.7924, df = 9, p-value = 0.02097
alternative hypothesis: true difference in means is not equal to
0
95 percent confidence interval:
1.993901 19.006099
sample estimates:
mean of the differences
10.5

Kt qu trên cho thy sau khi điu tr áp sut máu gim 10.5 mmHg, và khong tin cy
95% là t 2.0 mmHg đn 19 mmHg, vi tr s p = 0.0209. Nh vy, chúng ta có bng
chng đ phát biu rng mc đ gim huyt áp có ý ngha thng kê.

Chú ý nu chúng ta phân tích sai bng kim đnh thng kê cho hai nhóm đc lp di đây
thì tr s p = 0.32 cho bit mc đ gim áp sut không có ý ngha thng kê!

> t.test(before, after)

Welch Two Sample t-test

data: before and after
t = 1.0208, df = 17.998, p-value = 0.3209
alternative hypothesis: true difference in means is not equal to
0
95 percent confidence interval:
-11.11065 32.11065
sample estimates:
mean of x mean of y
168.0 157.5

9.8 Kim đnh Wilcoxon cho các bin s theo cp
(wilcox.test)

Thay vì dùng kim đnh t cho tng cp, chúng ta cng có th s dng hàm
wilcox.test cho cùng mc đích:

> wilcox.test(before, after, paired=TRUE)

Wilcoxon signed rank test with continuity correction

data: before and after
V = 42, p-value = 0.02291
alternative hypothesis: true mu is not equal to 0

Kt qu trên mt ln na khng đnh rng đ gim áp sut máu có ý ngha thng kê vi
tr s (p=0.023) chng khác my so vi kim đnh t cho tng cp.

9.9 Tn s (frequency)

Hàm table trong R có chc nng cho chúng ta bit v tn s ca mt bin s
mang tính phân loi nh sex và ethnicity.

> table(sex)
sex
Female Male
69 31

> table(ethnicity)
ethnicity
African Asian Caucasian Others
8 60 30 2

Mt bng thng kê 2 chiu:

> table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2

Chú ý trong các bng thng kê trên, hàm table không cung cp cho chúng ta s phn
trm.  tính s phn trm, chúng ta cn đn hàm prop.table và cách s dng có th
minh ho nh sau:

# to ra mt object tên là freq đ cha kt qu tn s
> freq <- table(sex, ethnicity)

# kim tra kt qu
> freq
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2

# dùng hàm margin.table đ xem kt qu
> margin.table(freq, 1)
sex
Female Male
69 31

> margin.table(freq, 2)
ethnicity
African Asian Caucasian Others
8 60 30 2

# tính phn trm bng hàm prop.table
> prop.table(freq, 1)
ethnicity
sex African Asian Caucasian Others
Female 0.05797101 0.62318841 0.31884058 0.00000000
Male 0.12903226 0.54838710 0.25806452 0.06451613

Trong bng thng kê trên, prop.table tính t l sc tc cho tng gii tính. Chng hn
nh  n gii (female), 5.8% là ngi Phi châu, 62.3% là ngi Á châu, 31.8% là ngi
Tây phng da trng . Tng cng là 100%. Tng t,  nam gii t l ngi Phi châu là
12.9%, Á châu là 54.8%, v.v…

# tính phn trm bng hàm prop.table
> prop.table(freq, 2)
ethnicity
sex African Asian Caucasian Others
Female 0.5000000 0.7166667 0.7333333 0.0000000
Male 0.5000000 0.2833333 0.2666667 1.0000000

Trong bng thng kê trên, prop.table tính t l gii tính cho tng sc tc. Chng hn
nh trong nhóm ngi Á châu, 71.7% là n và 28.3% là nam.

# tính phn trm cho toàn b bng
> freq/sum(freq)
ethnicity
sex African Asian Caucasian Others
Female 0.04 0.43 0.22 0.00
Male 0.04 0.17 0.08 0.02

9.10 Kim đnh t l (proportion test, prop.test,
binom.test)

Kim đnh mt t l thng da vào gi đnh phân phi nh phân (binomial distribution).
Vi mt s mu
n và t l p, và nu n ln (tc hn 50 chng hn), thì phân phi nh phân
có th tng đng vi phân phi chun vi s trung bình np và phng sai np(1 – p).
Gi x là s bin c mà chúng ta quan tâm, kim đnh gi thit p = π có th s dng thng
kê sau đây:

()
1
xn
z
n
π
π
π
−

=
−

 đây, z tuân theo lut phân phi chun vi trung bình 0 và phng sai 1. Cng có th
nói z
2
tuân theo lut phân phi Chi bình phng vi bc t do bng 1.

Ví d 5. Trong nghiên cu trên, chúng ta thy có 69 n và 31 nam. Nh vy t l
n là 0.69 (hay 69%).  kim đnh xem t l này có tht s khác vi t l 0.5 hay
không, chúng ta có th s dng hàm prop.test(x, n, π) nh sau:

> prop.test(69, 100, 0.50)

1-sample proportions test with continuity correction

data: 69 out of 100, null probability 0.5
X-squared = 13.69, df = 1, p-value = 0.0002156
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5885509 0.7766330
sample estimates:
p
0.69

Trong kt qu trên, prop.test c tính t l n gii là 0.69, và khong tin cy 95% là
0.588 đn 0.776. Giá tr Chi bình phng là 13.69, vi tr s p = 0.00216. Nh vy,
nghiên cu này có t l n cao hn 50%.

Mt cách tính chính xác hn kim đnh t l là kim đnh nh phân
bionom.test(x,
n, π) nh sau:

> binom.test(69, 100, 0.50)

Exact binomial test

data: 69 and 100
number of successes = 69, number of trials = 100, p-value = 0.0001831
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.5896854 0.7787112
sample estimates:
probability of success
0.69

Nói chung, kt qu ca kim đnh nh phân không khác gì so vi kim đnh Chi bình
phng, vi tr s p = 0.00018, chúng ta càng có bng chng đ kt lun rng t l n gii
trong nghiên cu này tht s cao hn 50%.

9.11 So sánh hai t l (prop.test, binom.test)

Phng pháp so sánh hai t l có th khai trin trc tip t lí thuyt kim đnh mt t l
va trình bày trên. Cho hai mu vi s đi tng
n
1
và n
2

, và s bin c là x
1
và x
2
. Do
đó, chúng ta có th c tính hai t l p
1
và p
2
. Lí thuyt xác sut cho phép chúng ta phát
biu rng đ khác bit gia hai mu d = p
1
– p
2
tuân theo lut phân phi chun vi s
trung bình 0 và phng sai bng:

()
12
11
1
d
Vpp
nn

=
+−



Trong đó:
12
12
x
x
p
nn
+
=
+

Thành ra,
z = d/V
d
tuân theo lut phân phi chun vi trung bình 0 và phng sai 1. Nói
cách khác, z
2
tuân theo lut phân phi Chi bình phng vi bc t do bng 1. Do đó,
chúng ta cng có th s dng prop.test đ kim đnh hai t l.

Ví d 6. Mt nghiên cu đc tin hành so sánh hiu qu ca thuc chng gãy
xng. Bnh nhân đc chia thành hai nhóm: nhóm A đc điu tr gm có 100 bnh
nhân, và nhóm B không đc điu tr gm 110 bnh nhân. Sau thi gian 12 tháng theo
dõi, nhóm A có 7 ngi b gãy xng, và nhóm B có 20 ngi gãy xng. Vn đ đt ra
là t l gãy xng trong hai nhóm này bng nhau (tc thuc không có hiu qu)? 
kim đnh xem hai t l này có tht s khác nhau, chúng ta có th s dng hàm
prop.test(x, n, π) nh sau:

> fracture <- c(7, 20)
> total <- c(100, 110)
> prop.test(fracture, total)

2-sample test for equality of proportions with continuity
correction

data: fracture out of total
X-squared = 4.8901, df = 1, p-value = 0.02701
alternative hypothesis: two.sided
95 percent confidence interval:
-0.20908963 -0.01454673
sample estimates:
prop 1 prop 2
0.0700000 0.1818182

Kt qu phân tích trên cho thy t l gãy xng trong nhóm 1 là 0.07 và nhóm 2 là 0.18.
Phân tích trên còn cho thy xác sut 95% rng đ khác bit gia hai nhóm có th 0.01
đn 0.20 (tc 1 đn 20%). Vi tr s p = 0.027, chúng ta có th nói rng t l gãy xng
trong nhóm A qu tht thp hn nhóm B.

9.12 So sánh nhiu t l (prop.test, chisq.test)

Kim đnh prop.test còn có th s dng đ kim đnh nhiu t l cùng mt lúc.
Trong nghiên cu trên, chúng ta có 4 nhóm sc tc và tn s cho tng gii tính nh sau:

> table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others

Female 4 43 22 0
Male 4 17 8 2

Chúng ta mun bit t l n gii gia 4 nhóm sc tc có khác nhau hay không, và đ tr
li câu hi này, chúng ta li dùng prop.test nh sau:

> female <- c( 4, 43, 22, 0)
> total <- c(8, 60, 30, 2)
> prop.test(female, total)

4-sample test for equality of proportions without continuity
correction

data: female out of total
X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.5000000 0.7166667 0.7333333 0.0000000

Warning message:
Chi-squared approximation may be incorrect in: prop.test(female, total)

Tuy t l n gii gia các nhóm có v khác nhau ln (73% trong nhóm 3 (ngi da trng)
so vi 50% trong nhóm 1 (Phi châu) và 71.7% trong nhóm Á châu, nhng kim đnh Chi
bình phng cho bit trên phng din thng kê, các t l này không khác nhau, vì tr s
p = 0.099.

9.12.1 Kim đnh Chi bình phng (Chi squared test, chisq.test)

Tht ra, kim đnh Chi bình phng còn có th tính toán bng hàm chisq.test nh
sau:

> chisq.test(sex, ethnicity)

Pearson's Chi-squared test

data: sex and ethnicity
X-squared = 6.2646, df = 3, p-value = 0.09942

Warning message:
Chi-squared approximation may be incorrect in: chisq.test(sex,
ethnicity)

Kt qu này hoàn toàn ging vi kt qu t hàm prop.test.

9.12.2 Kim đnh Fisher (Fisher’s exact test, fisher.test)

Trong kim đnh Chi bình phng trên, chúng ta chú ý cnh báo:

“Warning message:
Chi-squared approximation may be incorrect in: prop.test(female, total)”

Vì trong nhóm 4, không có n gii cho nên t l là 0%. Hn na, trong nhóm này ch có
2 đi tng. Vì s lng đi tng quá nh, cho nên các c tính thng kê có th không
đáng tin cy. Mt phng pháp khác có th áp dng cho các nghiên cu vi tn s thp
nh trên là kim đnh
fisher (còn gi là Fisher’s exact test). Bn đc có th tham kho

lí thuyt đng sau kim đnh fisher đ hiu rõ hn v logic ca phng pháp này, nhng
 đây, chúng ta ch quan tâm đn cách dùng R đ tính toán kim đnh này. Chúng ta ch
đn gin lnh:

> fisher.test(sex, ethnicity)

Fisher's Exact Test for Count Data

data: sex and ethnicity
p-value = 0.1048
alternative hypothesis: two.sided

Chú ý tr s p t kim đnh Fisher là 0.1048, tc rt gn vi tr s p ca kim đnh Chi
bình phng. Cho nên, chúng ta có thêm bng chng đ khng đnh rng t l n gii
gia các sc tc không khác nhau mt cách đáng k.

Chuong 09 THỐNG KÊ MÔ TẢ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về