Chuong 11 phan tich phuong sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (474.98 KB, 44 trang )

11
Phân tích phng sai
(Analysis of variance)

Phân tích phng sai, nh tên gi, là mt s phng pháp phân tích thng kê mà
trng đim là phng sai (thay vì s trung bình). Phng pháp phân tích phng sai nm
trong “đi gia đình” các phng pháp có tên là mô hình tuyn tính (hay general linear
models), bao gm c hi qui tuyn tính mà chúng ta đã gp trong chng trc. Trong
chng này, chúng ta s làm quen vi cách s dng R trong phân tích phng sai.
Chúng ta s bt đu bng mt phân tích đn gin, sau đó s xem đn phân tích phng
sai hai chiu, và các phng pháp phi tham s thông dng.

11.1 Phân tích phng sai đn gin (one-way analysis of
variance - ANOVA)

Ví d 1. Bng thng kê 11.1 di đây so sánh đ galactose trong 3 nhóm bnh
nhân: nhóm 1 gm 9 bnh nhân vi bnh Crohn; nhóm 2 gm 11 bnh nhân vi bnh
viêm rut kt (colitis); và nhóm 3 gm 20 đi tng không có bnh (gi là nhóm đi
chng). Câu hi đt ra là đ galactose gia 3 nhóm bnh nhân có khác nhau hay không?
Gi giá tr trung bình ca ba nhóm là µ
1
, µ
2
, và µ
3
, và nói theo ngôn ng ca kim đnh
gi thit thì gi thit đo là:

H

o
: µ
1
= µ
2
= µ
3

Và gi thit chính là:
H
A
: có mt khác bit gia 3 µ
j
(j=1,2,3)

Bng 11.2.  galactose cho 3 nhóm bnh nhân Crohn, viêm rut kt
và đi chng

Nhóm 1: bnh
Crohn
Nhóm 2: bnh viêm
rut kt
Nhóm 3: đi
chng (control)
1343
1393
1420
1641
1897

2160
2169
2279
2890

1264
1314
1399
1605
2385
2511
2514
2767
2827
2895
1809 2850
1926 2964
2283 2973
2384 3171
2447 3257
2479 3271
2495 3288
2525 3358
2541 3643
2769 3657
3011
n=9
Trung bình: 1910
SD: 516
n=11

Trung bình: 2226
SD: 727
n=20
Trung bình: 2804
SD: 527
Chú thích: SD là đ lch chun (standard deviation).

Thot đu có l bn đc, sau khi đã hc qua phng pháp so sánh hai nhóm bng
kim đnh t, s ngh rng chúng ta cn làm 3 so sánh bng kim đnh t: gia nhóm 1 và 2,
nhóm 2 và 3, và nhóm 1 và 3. Nhng phng pháp này không hp lí, vì có ba phng
sai khác nhau. Phng pháp thích hp cho so sánh là phân tích phng sai. Phân tích
phng sai có th ng dng đ so sánh nhiu nhóm cùng mt lúc (simultaneous
comparisons).

11.1.1 Mô hình phân tích phng sai

 minh ha cho phng pháp phân tích phng sai, chúng ta phi dùng kí hiu.
Gi đ galactose ca bnh nhân i thuc nhóm j (j = 1, 2, 3) là x
ij
. Mô hình phân tích
phng sai phát biu rng:

ij i ij
x
µ
αε
=+ + [1]
Hay c th hn:
x

i1
= µ + α
1
+ ε
i1

x
i2
= µ + α
2
+ ε
i2

x
i3
= µ + α
3
+ ε
i3

Tc là, giá tr galactose c bt c bnh nhân nào bng giá tr trung bình ca toàn
qun th (µ) cng/tr cho nh hng ca nhóm j đc đo bng h s nh hng
i
α
, và sai
s
ij
ε
. Mt gi đnh khác là

ij
ε
phi tuân theo lut phân phi chun vi trung bình 0 và
phng sai σ
2
. Hai thông s cn c tính là µ và
i
α
. Cng nh phân tích hi qui tuyn
tính, hai thông s này đc c tính bng phng pháp bình phng nh nht; tc là tìm
c s
ˆ
µ
và
ˆ
j
α
sao cho
()
2
ˆ
ˆ
ij j
x
µα
−−
∑
nh nht.

Quay li vi s liu nghiên cu trên, chúng ta có nhng tóm tt thng kê nh sau:

Nhóm S đi
tng (n
j
)
Trung bình

Phng sai
1 – Crohn n
1
= 9
1
x
= 1910
2
1
s = 265944
2 – Viêm rut kt n
2
= 11
2
x
= 2226
2
2
s = 473387
3 – i chng n
3
= 20
3

x
= 2804
2
3
s = 277500
Toàn bô mu n = 40
x
= 2444

Chú ý rng:
(
)
(
)
ij j ij j
x
xxx xx=+ − + − [2]

Trong đó,
x
là s trung bình ca toàn mu, và
j
x
là s trung bình ca nhóm j. Nói cách
khác, phn
(
)
j
x

x− phn ánh đ khác bit (hay cng có th gi là hiu s) gia trung
bình trng nhóm và trung bình toàn mu, và phn
(
)
ij j
x
x− phn ánh hiu s gia mt
galactose ca mt đi tng và s trung bình ca tng nhóm. Theo đó,

• tng bình phng cho toàn b mu là:
()
2
ij
ij
SST x x=−
∑∑

= (1343–2444)
2
+ (1393–2444)
2
+ (1343 – 2444)
2
+ … + (3657– 2444)
2

= 12133923

• tng bình phng vì khác nhau gia các nhóm:

()
2
i
ij
SSB x x=−
∑∑
=
()
2
jj
j
nx x−
∑

= 9(1910 – 2444)
2
+ 11(2226 – 2444)
2
+ 20(2804 – 2444)
2

= 5681168

• tng bình phng vì dao đng trong mi nhóm:
()
2
ij j
ij
SSW x x=−
∑∑

=
()
2
1
jj
j
ns−
∑

= (9-1)(265944) + (11-1)(473387) + (20-1)(277500)
= 12133922

Có th chng minh d dàng rng:
SST = SSB + SSW.

SSW đc tính t mi bnh nhân cho 3 nhóm, cho nên trung bình bình phng cho tng
nhóm (mean square – MSW) là:

MSW = SSW / (N – k) = 12133922 / (40-3) = 327944

và trung bình bình phng gia các nhóm là:

MSB = SSB / (k– 1) = 5681168 / (3-1) = 2841810

Trong đó
N là tng s bnh nhân (N = 40) ca ba nhóm, và k = 3 là s nhóm bnh nhân.
Nu có s khác bit gia các nhóm, thì chúng ta kì vng rng MSB s ln hn MSW.
Thành ra, đ kim tra gi thit, chúng ta có th da vào kim đnh F:

F = MSB / MSW = 8.67 [3]

Vi bc t do k-1 và N-k. Các s liu tính toán trên đây có th trình bày trong mt bng
phân tích phng sai (ANOVA table) nh sau:

Ngun bin thiên (source
of variation)
Bc t do
(degrees of
freedom)
Tng bình
phng
(sum of
squares)
Trung bình
bình phng
(mean
square)
Kim đnh
F
Khác bit gia các nhóm
(between-group)
2 5681168 2841810 8.6655
Khác bit trong tng
nhóm (with-group)
37 12133923 327944
Tng s 39 12133923

11.1.2 Phân tích phng sai đn gin vi R

Tt c các tính toán trên tng đi rm rà, và tn khá nhiu thi gian. Tuy nhiên vi R,
các tính toán đó có th làm trong vòng 1 giây, sau khi d liu đã đc chun b đúng
cách.

(a) Nhp d liu. Trc ht, chúng ta cn phi nhp d liu vào R. Bc th nht là
báo cho R bit rng chúng ta có ba nhóm bnh nhân (1, 2 v ), nhóm 1 gm 9 ngi,
nhóm 2 có 11 ngi, và nhóm 3 có 20 ngi:

> group <- c(1,1,1,1,1,1,1,1,1, 2,2,2,2,2,2,2,2,2,2,2,
3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3)

 phân tích phng sai, chúng ta phi đnh ngha bin group là mt yu t - factor.

> group <- as.factor(group)

Bc k tip, chúng ta np s liu galactose cho tng nhóm nh đnh ngha trên (gi
object là galactose):

> galactose <- c(
1343,1393,1420,1641,1897,2160,2169,2279,2890,
1264,1314,1399,1605,2385,2511,2514,2767,2827,2895,3011,
1809,2850,1926,2964,2283,2973,2384,3171,2447,3257,2479,3271,2495,3288,
2525,3358,2541,3643,2769,3657)

a hai bin group và galactose vào mt dataframe và gi là data:

> data <- data.frame(group, galactose)

> attach(data)

Sau khi đã có d liu sn sàng, chúng ta dùng hàm lm() đ phân tích phng sai nh
sau:

> analysis <- lm(galactose ~ group)

Trong hàm trên chúng ta cho R bit bin galactose là mt hàm s ca group. Gi
kt qu phân tích là analysis.

(b) Kt qu phân tích phng sai. Bây gi chúng ta dùng lnh anova đ bit kt qu
phân tích:

> anova(analysis)
Analysis of Variance Table

Response: galactose
Df Sum Sq Mean Sq F value Pr(>F)
group 2 5683620 2841810 8.6655 0.0008191 ***
Residuals 37 12133923 327944

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Trong kt qu trên, có ba ct: Df (degrees of freedom) là bc t do; Sum Sq là tng bình
phng (sum of squares), Mean Sq là trung bình bình phng (mean square); F
value là giá tr F nh đnh ngha [3] va đ cp phn trên; và Pr(>F) là tr s P liên
quan đn kim đnh F.

Dòng group trong kt qu trên có ngha là bình phng gia các nhóm (between-
groups) và residual là bình phng trong mi nhóm (within-group).  đây, chúng

ta có:
SSB = 5683620 và MSB = 2841810
và:
MSB = 2841810 và MSB = 327944

Thành ra,
F = 2841810 / 327944 = 8.6655.

Tr s p = 0.00082 có ngha là tín hiu cho thy có s khác bit v đ galactose gia ba
nhóm.

(c) c s.  bit thêm chi tit kt qu phân tích, chúng ta dùng lnh summary nh
sau:

> summary(analysis)

Call:
lm(formula = galactose ~ group)

Residuals:
Min 1Q Median 3Q Max
-995.5 -437.9 102.0 456.0 979.8

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1910.2 190.9 10.007 4.5e-12 ***
group2 316.3 257.4 1.229 0.226850
group3 894.3 229.9 3.891 0.000402 ***

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 572.7 on 37 degrees of freedom
Multiple R-Squared: 0.319, Adjusted R-squared: 0.2822
F-statistic: 8.666 on 2 and 37 DF, p-value: 0.0008191

Theo kt qu trên đây, intercept chính là
ˆ
µ
trong mô hình [1]. Nói cách khác,
ˆ
µ
=
1910 và sai s chun là 190.9.

 c tính thông s
ˆ
j
α
, R đt
1
ˆ
α
=0, và
221
ˆˆˆ
α
αα
=
− = 316.3, vi sai s chun là 257,
và kim đnh t = 316.3 / 257 = 1.229 vi tr s p = 0.2268. Nói cách khác, so vi nhóm 1

(bnh nhân Crohn), bnh nhân viêm rut kt có đ galactose trung bình cao hn 257,
nhng đ khác bit này không có ý ngha thng kê.

Tng t,
331
ˆˆˆ
α
αα
=− = 894.3, vi sai s chun là 229.9, kim đnh t =
894.3/229.9=3.89, và tr s p = 0.00040. So vi bnh nhân Crohn, nhóm đi chng có đ
galactose cao hn 894, và mc đ khác bit này có ý ngha thng kê.

11.2 So sánh nhiu nhóm (multiple comparisons) và điu
chnh tr s p

Cho k nhóm, chúng ta có ít nht là k(k-1)/2 so sánh. Ví d trên có 3 nhóm, cho
nên tng s so sánh kh d là 3 (gia nhóm 1 và 2, nhóm 1 và 3, và nhóm 2 và 3). Khi
k=10, s ln so sánh có th lên rt cao. Nh đã đ cp trong chng 7, khi có nhiu so
sánh, tr s p tính toán t các kim đnh thng kê không còn ý ngha ban đu na, bi vì
các kim đnh này có th cho ra kt qu dng tính gi (tc kt qu vi p<0.05 nhng
trong thc t không có khác nhau hay nh hng). Do đó, trong trng hp có nhiu so
sánh, chúng ta cn phi điu chnh tr s p sao cho hp lí.

Có khá nhiu phng pháp điu chnh tr s p, và 4 phng pháp thông dng nht
là: Bonferroni, Scheffé, Holm và Tukey (tên ca 4 nhà thng kê hc danh ting).
Phng pháp nào thích hp nht? Không có câu tr li dt khoát cho câu hi này, nhng
hai đim sau đây có th giúp bn đc quyt đnh tt hn:

(a)

Nu k < 10, chúng ta có th áp dng bt c phng pháp nào đ điu
chnh tr s p. Riêng cá nhân tôi thì thy phng pháp Tukey thng
rt hu ích trong so sánh.

(b) Nu k>10, phng pháp Bonferroni có th tr nên rt “bo th”. Bo
th  đây có ngha là phng pháp này rt ít khi nào tuyên b mt so
sánh có ý ngha thng kê, dù trong thc t là có tht! Trong trng
hp này, hai phng pháp Tukey, Holm và Scheffé có th áp dng.

 đây, tôi s không gii thích lí thuyt đng sau các phng pháp này (vì bn đc
có th tham kho trong các sách giáo khoa v thng kê), nhng s ch cách s dng R đ
tin hành các so sánh theo phng pháp ca Tukey.

Quay li ví d trên, các tr s p trên đây là nhng tr s cha đc điu chnh cho
so sánh nhiu ln. Trong chng v tr s p, tôi đã nói các tr s này phóng đi ý ngha
thng kê, không phn ánh tr s p lúc ban đu (tc 0.05).  điu chnh cho nhiu so
sánh, chúng ta phi s dng đn phng pháp điu chnh Bonferroni.

Chúng ta có th dùng lnh pairwise.t.test đ có đc tt c các tr s p so
sánh gia ba nhóm nh sau:

> pairwise.t.test(galactose, group, p.adj="bonferroni")

Pairwise comparisons using t tests with pooled SD

data: galactose and group

1 2
2 0.6805 -
3 0.0012 0.0321

P value adjustment method: bonferroni

Kt qu trên cho thy tr s p gia nhóm 1 (Crohn) và viêm rut kt là 0.6805 (tc không
có ý ngha thng kê); gia nhóm Crohn và đi chng là 0.0012 (có ý ngha thng kê), và
gia nhóm viêm rut kt và đi chng là 0.0321 (tc cng có ý ngha thng kê).

Mt phng pháp điu chnh tr s p khác có tên là phng pháp Holm:

> pairwise.t.test(galactose, group)

Pairwise comparisons using t tests with pooled SD

data: galactose and group

1 2
2 0.2268 -
3 0.0012 0.0214

P value adjustment method: holm

Kt qu này cng không khác so vi phng pháp Bonferroni.

Tt c các phng pháp so sánh trên s dng mt sai s chun chung cho c ba nhóm.
Nu chúng ta mun s dng cho tng nhóm thì lnh sau đây (pool.sd=F) s đáp ng
yêu cu đó:

> pairwise.t.test(galactose, group, pool.sd=FALSE)

Pairwise comparisons using t tests with non-pooled SD

data: galactose and group

1 2
2 0.2557 -
3 0.0017 0.0544

P value adjustment method: holm

Mt ln na, kt qu này cng không làm thay đi kt lun.

11.2.1 So sánh nhiu nhóm bng phng pháp Tukey

Trong các phng pháp trên, chúng ta ch bit tr s p so sánh gia các nhóm,
nhng không bit mc đ khác bit cng nh khong tin cy 95% gia các nhóm.  có
nhng c s này, chúng ta cn đn mt hàm khác có tên là aov (vit tt t analysis of
variance) và hàm TukeyHSD (HSD là vit tt t Honest Significant Difference, tm dch
nôm na là “Khác bit có ý ngha thành tht”) nh sau:

> res <- aov(galactose ~ group)
> TukeyHSD (res)
Tukey multiple comparisons of means
95% family-wise confidence level

Fit: aov(formula = galactose ~ group)

$group
diff lwr upr p adj
2-1 316.3232 -312.09857 944.745 0.4439821

3-1 894.2778 333.07916 1455.476 0.0011445
3-2 577.9545 53.11886 1102.790 0.0281768

Kt qu trên cho chúng ta thy nhóm 3 và 1 khác nhau khong 894 đn v, và khong tin
cy 95% t 333 đn 1455 đn v. Tng t, galactose trong nhóm bnh nhân viêm rut
kt thp hn nhóm đi chng (nhóm 3) khong 578 đn v, và khong tin cy 95% t 53
đn 1103.

0 500 1000 1500
3-2 3-1 2-1
95% family-wise confidence level
Differences in mean levels of group

Biu đ 11.1. Trung bình hiu và khong tin cy
95% gia nhóm 1 và 2, 1 và 3, và 3 và 2. Trc
hoành là đ galactose, trc tung là ba so sánh.

11.2.2 Phân tích bng biu đ

Mt phân tích thng kê không th nào hoàn tt nu không có mt đ th minh ha
cho kt qu. Các lnh sau đây v đ th th hin đ galactose trung bình và sai s chun
cho tng nhóm bnh nhân. Biu đ này cho thy, nhóm bnh nhân Crohn có đ
galactose thp nht (nhng không thp hn nhóm viêm rut kt), và c hai nhóm thp
hn nhóm đi chng và s khác bit này có ý ngha thng kê.

> xbar <- tapply(galactose, group, mean)
> s <- tapply(galactose, group, sd)
> n <- tapply(galactose, group, length)
> sem <- s/sqrt(n)

> stripchart(galactose ~ group, “jitter”, jit=0.05, pch=16, vert=TRUE)
> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:3, xbar, pch=4, type=”b”, cex=2)

123
1500 2000 2500 3000 3500
Biu đ 11.2.  galactose ca nhóm 1 (bnh nhân Crohn),
nhóm 2 (bnh nhân viêm rut kt), và nhóm 3 (đi chng).

11.3 Phân tích bng phng pháp phi tham s

Phng pháp so sánh nhiu nhóm phi tham s (non-parametric statistics) tng
đng vi phng pháp phân tích phng sai là Kruskal-Wallis. Cng nh phng pháp
Wilcoxon so sánh hai nhóm theo phng pháp phi tham s, phng pháp Kruskal-Wallis
cng bin đi s liu thành th bc (ranks) và phân tích đ khác bit th bc này gia các
nhóm. Hàm kruskal.test trong R có th giúp chúng ta trong kim đnh này:

> kruskal.test(galactose ~ group)

Kruskal-Wallis rank sum test

data: galactose by group
Kruskal-Wallis chi-squared = 12.1381, df = 2, p-value = 0.002313

Tr s p t kim đnh này khá thp (p = 0.002313) cho thy có s khác bit gia
ba nhóm nh phân tích phng sai qua hàm lm trên đây. Tuy nhiên, mt bt tin ca
kim đnh phi tham s Kruskal-Wallis là phng pháp này không cho chúng ta bit hai
nhóm nào khác nhau, mà ch cho mt tr s p chung. Trong nhiu trng hp, phân tích

phi tham s nh kim đnh Kruskal-Wallis thng không có hiu qu nh các phng
pháp thng kê tham s (parametric statistics).

11.4 Phân tích phng sai hai chiu (two-way analysis of
variance - ANOVA)

Phân tích phng sai đn gin hay mt chiu ch có mt yu t (factor). Nhng
phân tích phng sai hai chiu (two-way ANOVA), nh tên gi, có hai yu t. Phng
pháp phân tích phng sai hai chiu ch đn gin khai trin t phng pháp phân tích
phng sai đn gin. Thay vì c tính phng sai ca mt yu t, phng pháp phân sai
hai chiu c tính phng sai ca hai yu t.

Ví d 2. Trong ví d sau đây, đ đánh giá hiu qu ca mt k thut sn mi, các
nhà nghiên cu áp dng sn trên 3 loi vt liu (1, 2 v 3) trong hai điu kin (1, 2).
Mi điu kin và loi vt liu, nghiên cu đc lp li 3 ln.  bn đc đo là ch s
bn b (tm gi là score). Tng cng, có 18 s liu nh sau:

Bng 11.2.  bn b ca sn cho 2 điu kin và 3 vt liu

Vt liu (j)
iu kin
(i)
1 2 3
1 4.1, 3.9, 4.3 3.1, 2.8, 3.3 3.5, 3.2, 3.6
2 2.7, 3.1, 2.6 1.9, 2.2, 2.3 2.7, 2.3, 2.5

S liu này có th tóm lc bng s trung bình cho tng điu kin và vt liu trong bng
thng kê sau đây:

Bng 11.3. Tóm lc s liu t thí nghim đ bn b ca nc sn

Vt liu (j)
iu kin (i)
1 2 3
Trung bình
cho 3 vt
liu

Trung bình
1 4.10 3.07 3.43
3.533
2 2.80 2.13 2.50
2.478
Trung bình 2
nhóm
3.450 2.600 2.967 3.00

Phng sai
1 0.040 0.063 0.043

2 0.070 0.043 0.040

Nhng tính toán s khi trên đây cho thy có th có s khác nhau (hay nh hng) ca
điu kin và vt liu thí nghim.

Gi x

ij
là score ca điu kin i (i = 1, 2) cho vt liu j (j = 1, 2, 3). ( đn gin hóa
vn đ, chúng ta tm thi b qua k đi tng). Mô hình phân tích phng sai hai chiu
phát biu rng:

ij i j ij
x
µ
αβε
=+ + +
[4]
Hay c th hn:
x
11
= µ + α
1
+ β
1
+ ε
11

x
12
= µ + α
1
+ β
2
+ ε
12

x
13
= µ + α
1
+ β
3
+ ε
11

x
21
= µ + α
2
+ β
1
+ ε
21

x
22
= µ + α
2
+ β
2
+ ε
22

x
23
= µ + α
2
+ β
3
+ ε
21

µ là s trung bình cho toàn qun th, các h s α
i
(nh hng ca điu kin i)và β
j
(nh
hng ca vt liu j) cn phi c tính t s liu thc t. ε
ij
đc gi đnh tuân theo lut
phân phi chun vi trung bình 0 và phng sai σ
2
.

Trong phân tích phng sai hai chiu, chúng ta cn chia tng bình phng ra thành 3
ngun:

• ngun th nht là tng bình phng do bin đi gia 2 điu kin:

()

2
ii
i
SSc n x x=−
∑

= 9(3.533 – 3.00)
2
+ 9(2.478 – 3.00)
2

= 5.01

• ngun th hai là tng bình phng do bin đi gia 3 vt liu:
()
2
jj
j
SSm n x x=−
∑

= 6(3.45 – 3.00)
2
+ 6(2.60 – 3.00)
2
+ 6(2.967 – 3.00)
2

= 2.18

• ngun th ba là tng bình phng phn d (residual sum of squares):
()()
2
2
1
ij i j ij ij
ij
SSe x x x x n s=−−+=−
∑∑ ∑

= 2(0.040) + 2(0.063)

+ 2(0.043) + 2(0.070) + 2(0.043) + 2(0.040)

= 0.73

Trong các phng trình trên, n = 3 (lp li 3 ln cho mi điu kin và vt liu), m = 3
vt liu,
x
là s trung bình cho toàn mu,
i
x
là s trung bình cho tng điu kin,
j
x
là s
trung bình cho tng vt liu. Vì SSc có m-1 bc t do, SSm có (n -1) bc t do, và SSe có
N–nm+2 bc t do, trong đó N là tng s mu (tc 18). Do đó, các trung bình bình

phng

• gia hai điu kin: MSc = SSc / (m-1) = 5.01 / 1 = 5.01
• gia ba vt liu: MSm = SSc / (n-1) = 2.18 /2 = 1.09
• phn d: MSe = SSe / (N-nm+2) = 0.73 / 14 = 0.052

Do đó, so sánh đ khác bit gia hai điu kin da vào kim đnh F = MSc/Mse vi bc
t do 1 và 14. Tng t, so sánh đ khác bit gia ba vt liu có th da vào kim đnh
F = MSm/Mse vi bc t do 2 và 14. Các phân tích trên có th trình bày trong mt bng
phân tích phng sai nh sau:

Ngun bin thiên (source
of variation)
Bc t do
(degrees of
freedom)
Tng bình
phng
(sum of
squares)
Trung bình
bình phng
(mean
square)
Kim đnh
F
Khác bit gia 2 điu kin 1 5.01 5.01 95.6
Khác bit gia 3 vt liu 2 2.18 1.09 20.8
Phn d (residual) 14 0.73 0.052
Tng s 17 7.92

11.4.1 Phân tích phng sai hai chiu vi R

(a) Bc đu tiên là nhp s liu t bng 11.2 vào R. Chúng ta cn phi t chc d
liu sao cho có 4 bin nh sau:

Condition Material i tng Score
(điu kin) (vt liu)
1 1 1 4.1
1 1 2 3.9
1 1 3 4.3
1 2 4 3.1
1 2 5 2.8
1 2 6 3.3
1 3 7 3.5
1 3 8 3.2
1 3 9 3.6
2 1 10 2.7
2 1 11 3.1
2 1 12 2.6
2 2 13 1.9
2 2 14 2.2
2 2 15 2.3
2 3 16 2.7
2 3 17 2.3
2 3 18 2.5

Chúng ta có th to ra mt dãy s bng cách s dng hàm gl (generating levels). Cách
s dng hàm này có th minh ha nh sau:

> gl(9, 1, 18)
[1] 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Levels: 1 2 3 4 5 6 7 8 9

Trong lnh trên, chúng ta to ra mt dãy s 1,2,3, … 9 hai ln (vi tng s 18 s). Mi
mt ln là mt nhóm. Trong khi lnh:

> gl(4, 9, 36)
[1] 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4
Levels: 1 2 3 4

Trong lnh trên, chúng ta to ra mt dãy s vi 4 bc (1,2,3, 4) 9 ln (vi tng s 36 s).

Do đó, đ to ra các bc cho điu kin và vt liu, chúng ta lnh nh sau:

> condition <- gl(2, 9, 18)
> material <- gl(3, 3, 18)

Và to nên 18 mã s (t 1 đn 18):

> id <- 1:18

Sau cùng là s liu cho score:

> score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6,
2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)

Tt c cho vào mt dataframe tên là data:

> data <- data.frame(condition, material, id, score)
> attach(data)

(b) Phân tích và kt qu s khi. Bây gi s liu đã sn sàng cho phân tích. 
phân tích phng sai hai chiu, chúng ta vn s dng lnh lm vi các thông s nh
sau:

> twoway <- lm(score ~ condition + material)
> anova(twoway)
Analysis of Variance Table

Response: score
Df Sum Sq Mean Sq F value Pr(>F)
condition 1 5.0139 5.0139 95.575 1.235e-07 ***
material 2 2.1811 1.0906 20.788 6.437e-05 ***
Residuals 14 0.7344 0.0525

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ba ngun dao đng (variation) ca score đc phân tích trong bng trên. Qua
trung bình bình phng (mean square), chúng ta thy nh hng ca điu kin có v quan
trng hn là nh hng ca vt liu thí nghim. Tuy nhiên, c hai nh hng đu có ý
ngha thng kê, vì tr s p rt thp cho hai yu t.

(c) c s. Chúng ta yêu cu R tóm lc các c s phân tích bng lnh summary:

> summary(twoway)

Call:
lm(formula = score ~ condition + material)

Residuals:
Min 1Q Median 3Q Max
-0.32778 -0.16389 0.03333 0.16111 0.32222

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.9778 0.1080 36.841 2.43e-15 ***
condition2 -1.0556 0.1080 -9.776 1.24e-07 ***
material2 -0.8500 0.1322 -6.428 1.58e-05 ***
material3 -0.4833 0.1322 -3.655 0.0026 **

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.229 on 14 degrees of freedom
Multiple R-Squared: 0.9074, Adjusted R-squared: 0.8875
F-statistic: 45.72 on 3 and 14 DF, p-value: 1.761e-07

Kt qu trên cho thy so vi điu kin 1, điu kin 2 có score thp hn khong
1.056 và sai s chun là 0.108, vi tr s p = 1.24e-07, tc có ý ngha thng kê. Ngoài ra,
so vi vt liu 1, score cho vt liu 2 và 3 cng thp hn đáng k vi đ thp nht ghi
nhn  vt liu 2, và nh hng ca vt liu thí nghim cng có ý ngha thng kê.

Giá tr có tên là “
Residual standard error” đc c tính t trung bình bình
phng phn d trong phn (a), tc là

0.0525 = 0.229, tc là c s ca
ˆ
σ
.

H s xác đnh bi (R
2
) cho bit hai yu t điu kin và vt liu gii thích khong
91% đ dao đng ca toàn b mu. H s này đc tính t tng bình phng trong kt
qu phn (a) nh sau:

2
5.0139 2.1811
0.9074
5.0139 2.1811 0.7344
R
+
==
++

Và sau cùng, h s R
2
điu chnh phn ánh đ “ci tin” ca mô hình.  hiu h
s này tt hn, chúng ta thy phng sai ca toàn b mu là s
2
= (5.0139 + 2.1811 +
0.7344) / 17 = 0.4644. Sau khi điu chnh cho nh hng ca điu kin và vt liu,
phng sai này còn 0.0525 (tc là residual mean square). Nh vy hai yu t này làm
gim phng sai khong 0.4644 – 0.0525 = 0.4119. Và h s R

2
điu chnh là:

Adj R
2
= 0.4119 / 0.4644 = 0.88

Tc là sau khi điu chnh cho hai yu t điu kin và vt liu phng sai ca score gim
khong 88%.

(d) Hiu ng tng tác (interaction effects)

 cho phân tích hoàn tt, chúng ta còn phi xem xét đn kh nng nh hng
ca hai yu t này có th tng tác nhau (interactive effects). Tc là mô hình
score tr
thành:

(
)
ij i j i j ij
ij
x
µ
αβ αβ ε
=+ + + +

Chú ý phng trình trên có phn
(
)
ij

ij
α
β
phn ánh s tng tác gia hai yu t. Và
chúng ta ch đn gin lnh R nh sau:

> anova(twoway <- lm(score ~ condition+ material+condition*material))
Analysis of Variance Table

Response: score
Df Sum Sq Mean Sq F value Pr(>F)
condition 1 5.0139 5.0139 100.2778 3.528e-07 ***
material 2 2.1811 1.0906 21.8111 0.0001008 ***
condition:material 2 0.1344 0.0672 1.3444 0.2972719
Residuals 12 0.6000 0.0500

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Kt qu phân tích trên (p = 0.297 cho nh hng tng tác). Chúng ta có bng chng đ
kt lun rng nh hng tng tác gia vt liu và điu kin không có ý ngha thng kê,
và chúng ta chp nhn mô hình [4], tc không có tng tác.

(e) So sánh gia các nhóm. Chúng ta s c tính đ khác bit gia hai điu kin và ba
vt liu bng hàm TukeyHSD vi aov:

> res <- aov(score ~ condition+ material+condition)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level

Fit: aov(formula = score ~ condition + material + condition)

$condition
diff lwr upr p adj
2-1 -1.055556 -1.287131 -0.8239797 1e-07

$material
diff lwr upr p adj
2-1 -0.8500000 -1.19610279 -0.5038972 0.0000442
3-1 -0.4833333 -0.82943612 -0.1372305 0.0068648
3-2 0.3666667 0.02056388 0.7127695 0.0374069

Biu đ sau đây s minh ho cho các kt qu trên:

> plot(TukeyHSD(res), ordered=TRUE)
There were 16 warnings (use warnings() to see them)

-1.0 -0.5 0.0 0.5
3-2 3-1 2-1
95% family-wise confidence level
Differences in mean levels of material
Biu đ 11.3. So sánh gia 3 loi vt liu
bng phng pháp Tukey.

(f) Biu đ.  xem qua đ nh hng ca hai yu t điu kin và vt liu, chúng ta cn
phi có mt đ th, mà trong phân tích phng sai gi là đ th tng tác. Hàm
interaction.plot cung cp phng tin đ v biu đ này:

> interaction.plot(score, condition, material)

2.5 3.0 3.5 4.0
material
mean of score
123
condition
1
2

Biu đ 11.4. Trung bình score cho tng điu kin 1 (đng
đt đon) và điu kin 2 cho 3 loi vt liu.

11.5 Phân tích hip bin (analysis of covariance - ANCOVA)

Phân tích hip bin (s vit tt là ANCOVA) là phng pháp phân tích s dng c
hai mô hình hi qui tuyn tính và phân tích phng sai. Trong phân tích hi qui tuyn
tính, c hai bin ph thuc (dependent variable, cng có th gi là “bin ng” – response
variable) và bin đc lp (independent variable hay predictor variable) phn ln là  dng
liên tc (continuous variable), nh đ cholesterol và đ tui chng hn. Trong phân tích
phng sai, bin ph thuc là bin liên tc, còn bin đc lp thì  dng th bc và th
loi (categorical variable), nh đ galactose và nhóm bnh nhân trong ví d 1 chng hn.
Trong phân tích hip bin, bin ph thuc là liên tc, nhng bin đc lp có th là liên
tc và th loi.

Ví d 3. Trong nghiên cu mà kt qa đc trình bày di đây, các nhà nghiên
cu đo chiu cao và đ tui ca 18 hc sinh thuc vùng thành th (urban) và 14 hc trò
thuc vùng nông thôn (rural).

Bng 11.4. Chiu cao ca hc trò vùng thành th và nông

thôn
Area ID Age (months) Height
(cm)
urban 1 109 137.6
urban 2 113 147.8
urban 3 115 136.8
urban 4 116 140.7

Câu hi đt ra là có s
khác bit nào v chiu cao gia
tr em  thành th và nông thôn
hay không. Nói cách khác, môi
trng c trú có nh hng đn
chiu cao hay không, và nu có
thì mc đ nh hng là bao
nhiêu?

Mt yu t có nh hng
ln đn chiu cao là đ tui.
Trong đ tui trng thành,
chiu cao tng theo đ tui. Do
đó, so sánh chiu cao gia hai
nhóm ch có th khách quan nu
đ tui gia hai nhóm phi tng
đng nhau.  đm bo tính
khách quan ca so sánh, chúng ta
cn phi phân tích s liu bng
mô hình hip bin.

Vic đu tiên là chúng ta

phi nhp s liu vào
R vi
nhng lnh sau đây:

> # to ra dãy s id
> id <- c(1:18, 1:14)
> # group 1=urban 2=rural và cn phi xác đnh group là mt “factor”
> group <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
2,2,2,2,2,2,2,2,2,2,2,2,2,2)
> group <- as.factor(group)

> # nhp d liu
> age <- c(109,113,115,116,119,120,121,124,126,129,130,133,134,135,
137,139,141,142,
121,121,128,129,131,132,133,134,138,138,138,140,140,140)

> height <- c(137.6,147.8,136.8,140.7,132.7,145.4,135.0,133.0,148.5,
148.3,147.5,148.8,133.2,148.7,152.0,150.6,165.3,149.9,
139.0,140.9,134.9,149.5,148.7,131.0,142.3,139.9,142.9,
147.7,147.7,134.6,135.8,148.5)

> # to mt data frame
> data <- data.frame(id, group, age, height)
> attach(data)

Chúng ta th xem qua vài ch s thng kê mô t bng cách c tính đ tui và
chiu cao trung bình cho tng nhóm hc sinh:

urban 5 119 132.7
urban 6 120 145.4

urban 7 121 135.0
urban 8 124 133.0
urban 9 126 148.5
urban 10 129 148.3
urban 11 130 147.5
urban 12 133 148.8
urban 13 134 133.2
urban 14 135 148.7
urban 15 137 152.0
urban 16 139 150.6
urban 17 141 165.3
urban 18 142 149.9
rural 1 121 139.0
urban 2 121 140.9
urban 3 128 134.9
urban 4 129 149.5
urban 5 131 148.7
urban 6 132 131.0
urban 7 133 142.3
urban 8 134 139.9
urban 9 138 142.9
urban 10 138 147.7
urban 11 138 147.7
urban 12 140 134.6
urban 13 140 135.8
urban 14 140 148.5
> tapply(age, group, mean)
1 2
126.8333 133.0714

> tapply(height, group, mean)
1 2
144.5444 141.6714

Kt qu trên cho thy nhóm hc sinh thành th có đ tui thp hn hc sinh nông
thôn khong 6.3 tháng (126.8 – 133.1). Tuy nhiên, chiu cao ca hc sinh thành th cao
hn hc sinh nông thôn khong 2.8 cm (144.5 – 141.7). Bn đc có th dùng kim đnh t
đ thy rng s khác bit v đ tui gia hai nhóm có ý ngha thng kê (p = 0.045).

Ngoài ra, biu đ sau đây còn cho thy có mt mi liên h tng quan gia tui và chiu
cao:

110 115 120 125 130 135 140
130 135 140 145 150 155 160 165
age
height

Biu đ 11.5. Chiu cao (cm) và đ tui (tháng
tui) ca hai nhóm hc sinh thành th và nông
thôn.

Vì hai nhóm khác nhau v đ tui, và tui có liên h vi chiu cao, cho nên chúng
ta không th phát biu hay so sánh chiu cao gia 2 nhóm hc sinh mà không điu chnh
cho đ tui.  điu chnh đ tui, chúng ta s dng phng pháp phân tích hip bin.

11.5.1 Mô hình phân tích hip bin

Gi y là chiu cao, x là đ tui, và g là nhóm. Mô hình cn bn ca ANCOVA
gi đnh rng mi liên h gia y và x là mt đng thng, và đ dc (gradient hay slope)
ca hai nhóm trong mi liên h này không khác nhau. Nói cách khác, vit theo kí hiu

ca hi qui tuyn tính, chúng ta có:

11 1
yxe
α
β
=+ + in group 1
22 2
yxe
α
β
=+ + in group 2. [5]

Trong đó:

α
1
: là giá tr trung bình ca y khi x= 0 ca nhóm 1;

α
2
: là giá tr trung bình ca y khi x= 0 ca nhóm 2;

β
: đ dc ca mi liên h gia y và x;
e
1
và e
2
: bin s ngu nhiên vi trung bình 0 và phng sai σ

2
.

Gi
x
là s trung bình ca đ tui cho c 2 nhóm,
1
x
và
2
x
là tui trung bình ca
nhóm 1 và nhóm 2. Nh nói trên, nu
12
x
x
≠
, thì so sánh chiu cao trung bình ca nhóm
1 và 2 (
1
y và
2
y ) s thiu khách quan, vì

11 11
yxe
α
β
=
++

22 22
yxe
α
β
=
++

và mc đ khác bit gia hai nhóm bây gi tùy thuc vào h s β:

(
)
12 12 12
yy xx
αα β
−=−+ −
Chú ý rng trong mô hình [5], chúng ta có th din dch
α
α
12
−
là đ khác bit
chiu cao trung bình gia hai nhóm nu c hai nhóm có cùng tui trung bình. Mc khác
bit này này th hin nh hng ca hai nhóm nu không có mt yu t nào liên h đn y.
Thành ra, đ c tính
α
α
12
− , chúng ta không th đn gin tr hai s trung bình
1
y -

2
y ,
nhng phi điu chnh cho x. Gi x* là mt giá tr chung cho c hai nhóm, chúng ta có
th c tính giá tr điu chnh y cho nhóm 1 (kí hiu
1a
y ) nh sau:
(
)
*
11 1a
yy xx
β
=− −
1a
y có th xem là mt c s cho chiu cao trung bình ca nhóm 1 (thành th) cho giá tr
x là x* . Tng t,
(
)
*
22 2a
yy xx
β
=− −

là s cho chiu cao trung bình ca nhóm 1 (nông thôn) vi cùng giá tr x*. T đây,
chúng ta có th c tính nh hng ca thành th và nông thôn bng công thc sau đây:
(
)
12 21 12aa
yy yy xx

β
−=−− −
Do đó, vn đ là chúng ta phi c tính β. Có th chng minh rng c s β t phng
pháp bình phng nh nht cng là c tính khách quan cho
α
α
12
−
. Khi vit bng mô
hình tuyn tính, mô hình hip bin có th mô t nh sau:
(
)
yxgxge
αβ γ δ
=+ + + +
[6]
Nói cách khác, mô hình trên phát biu rng chiu cao ca mt hc sinh b nh
hng bi 3 yu t: đ tui (β), thành th hay nông thôn (γ), và tng tác gia hai yu t
đó (δ). Nu δ = 0 (tc nh hng tng tác không có ý ngha thng kê), mô hình trên
gim xung thành:
yxge
α
βγ
=+ + + [7]
Nu
γ = 0 (tc nh hng ca thành th không có ý ngha thng kê), mô hình trên gim
xung thành:
yxe
α
β

=+ + [8]

11.5.2 Phân tích bng R
Các tho lun va trình bày trên xem ra khá phc tp, nhng trong thc t, vi R,
cách c tính rt đn gin bng hàm lm. Chúng ta s phân tích ba mô hình [6], [7] và
[8]:

> # model 6
> model6 <- lm(height ~ group + age + group:age)

> # model 7
> model7 <- lm(height ~ group + age)

> # model 8
> model8 <- lm(height ~ age)
Chúng ta cng có th so sánh c ba mô hình cùng mt lúc bng lnh anova nh sau:

> anova(model6, model7, model8)
Analysis of Variance Table

Model 1: height ~ group + age + group:age
Model 2: height ~ group + age
Model 3: height ~ age
Res.Df RSS Df Sum of Sq F Pr(>F)
1 28 1270.44
2 29 1338.02 -1 -67.57 1.4893 0.23251
3 30 1545.95 -1 -207.93 4.5827 0.04114 *

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Chú ý “model 1” chính là mô hình [6], “model 2” là mô hình [7], và “model 3” là
mô hình [8]. RSS là residual sum of squares, tc tng bình phng phn d
cho mi mô hình. Kt qu phân tích trên cho thy:
• Toàn b mu có 18+14=32 hc sinh, mô hình [6] có 4 thông s (α, β, γ và δ), cho
nên mô hình này có 32-4 = 28 bc t do. Tng bình phng ca mô hình là
1270.44.
• mô hình [7] có 3 thông s (tc còn 29 bc t do), cho nên tng bình phng phn
d cao hn mô hình [7]. Tuy nhiên, đng trên phng din xác sut thì trung
bình bình phng phn d ca mô hình này 1338.02 / 29 = 46.13, không khác
my so vi mô hình [6] (trung bình bình phng là: 1270.44 / 28 = 45.36), vì tr
s p = 0.2325, tc không có ý ngha thng kê. Nói cách khác, b h s tng tác
δ không làm thay đi kh nng tiên đoán ca mô hình mt cách đáng k.
• Mô hình [8] ch có 2 thông s (và do đó có 30 bc t do), vi tng bình phng là
1545.95. Trung bình bình phng phn d ca mô hình này là 51.53 (1545.95 /
30), tc cao hn hai mô hình [6] mt cách đáng k, vì tr s p = 0.0411.

Qua phân tích trên, chúng ta thy mô hình [7] là ti u hn c, vì ch cn 3 thông s mà
có th “gii thích” đc d liu mt cách đy đ. Bây gi chúng ta s chú tâm vào phân
tích kt qu ca mô hình này.

> summary(model7)

Call:
lm(formula = height ~ group + age)

Residuals:
Min 1Q Median 3Q Max
-14.324 -3.285 0.879 3.956 14.866

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 91.8171 17.9294 5.121 1.81e-05 ***
group2 -5.4663 2.5749 -2.123 0.04242 *
age 0.4157 0.1408 2.953 0.00619 **

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.793 on 29 degrees of freedom
Multiple R-Squared: 0.2588, Adjusted R-squared: 0.2077
F-statistic: 5.063 on 2 and 29 DF, p-value: 0.01300

Qua phn c tính thông s trình bày trên đây, chúng ta thy tính trung bình chiu
cao hc sinh tng khong 0.41 cm cho mi tháng tui. Chú ý trong kt qu trên, phn
“group2” có ngha là h s hi qui (regression coefficient) cho nhóm 2 (tc là nông
thôn), vì R phi đt h s cho nhóm 1 bng 0 đ tin vic tính toán. Vì th, chúng ta có
hai phng trình (hay hai đng biu din) cho hai nhóm hc sinh nh sau:

i vi hc sinh thành th:

Height = 91.817 + 0.4157(age)

Và đi vi hc sinh nông thôn:

Height = 91.817 – 5.4663(rural) + 0.4157(age)

Nói cách khác, sau khi điu chnh cho đ tui, nhóm hc sinh nông thôn (rural) có
chiu cao thp hn nhóm thành th khong 5.5 cm và mc đ khác bit này có ý ngha
thng kê vì tr s p = 0.0424. (Chú ý là trc khi điu chnh cho đ tui, mc đ khác
bit là 2.8 cm).

Các biu đ sau đây s minh ha cho các mô hình trên:

> par(mfrow=c(2,2))

>
plot(age, height, pch=as.character(group),
main=”Mo hinh 1”)
> abline(144.54, 0) #mean value for urban
> abline(141.67, 0) #mean value for rural

> plot(age, height, pch=as.character(group),
main=”Mo hinh 2”)
> abline(102.63, 0.3138) #single line for dependence on age

> plot(age, height, pch=as.character(group),
main=”Mo hinh 3”)
> abline(91.8, 0.416) #line for males
> abline(91.8-5.46,0.416) #line for females parallel

> plot(age, height, pch=as.character(group),
main=”Mo hinh 4”)
> abline(79.7, 0.511) #line for males
> abline(79.7+47.08, 0.511-0.399) #line for females parallel
> par(mfrow=c(1,1))

1
1
1
1

1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 1

age
height
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
22

2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 2
age
height
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2

2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 3
age
height
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

1
1
2
2
2
2
2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 4
age
height

Biu đ 11.6. Mô hình 1: chiu cao là hàm s ca ni trú ng, nhng không
có liên h vi đ tui; Mô hình 2 gi thit rng chiu cao ph thuc vào đ
tui, nhng không có khác nhau gia hai nhóm thành th và nông thôn; Mô
hình 3 gi thit rng mi liên h gia chiu cao và tui ca nhóm thành th
tng đng vi vi nhóm nông thôn (hai đng song song), nhng hc sinh
thành th có chiu cao cao hn nông thôn; và mô hình 4 gi thit rng mc đ
khác bit v chiu cao gia hai nhóm tùy thuc vào đ tui (tc có tng tác
gia đ tui và ni trú ng):  tui <120 tháng, chiu cao hai nhóm không
khác nhau my, nhng khi tui >120 tháng tui thì nhóm hc sinh thành th có

chiu cao cao hn nhóm nông thôn. Phân tích trên cho thy mô hình 3 là tt
nht.

11.6 Phân tích phng sai cho thí nghim giai tha
(factorial experiment)

Ví d 4.  kho sát nh hng ca 4 loi thuc tr sâu (1, 2, 3 và 4) và ba loi
ging (B1, B2 và B3) đn sn lng ca cam, các nhà nghiên cu tin hành mt thí
nghim loi giai tha. Trong thí nghim này, mi ging cam có 4 cây cam đc chn
mt cách ngu nhiên, và 4 loi thuc tr sâu áp dng (cng ngu nhiên) cho mi cây cam.
Kt qu nghiên cu (sn lng cam) cho tng ging và thuc tr sâu nh sau:

Chuong 11 phan tich phuong sai

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về