11
Phân tích phng sai
(Analysis of variance)
Phân tích phng sai, nh tên gi, là mt s phng pháp phân tích thng kê mà
trng đim là phng sai (thay vì s trung bình). Phng pháp phân tích phng sai nm
trong “đi gia đình” các phng pháp có tên là mô hình tuyn tính (hay general linear
models), bao gm c hi qui tuyn tính mà chúng ta đã gp trong chng trc. Trong
chng này, chúng ta s làm quen vi cách s dng R trong phân tích phng sai.
Chúng ta s bt đu bng mt phân tích đn gin, sau đó s xem đn phân tích phng
sai hai chiu, và các phng pháp phi tham s thông dng.
11.1 Phân tích phng sai đn gin (one-way analysis of
variance - ANOVA)
Ví d 1. Bng thng kê 11.1 di đây so sánh đ galactose trong 3 nhóm bnh
nhân: nhóm 1 gm 9 bnh nhân vi bnh Crohn; nhóm 2 gm 11 bnh nhân vi bnh
viêm rut kt (colitis); và nhóm 3 gm 20 đi tng không có bnh (gi là nhóm đi
chng). Câu hi đt ra là đ galactose gia 3 nhóm bnh nhân có khác nhau hay không?
Gi giá tr trung bình ca ba nhóm là µ
1
, µ
2
, và µ
3
, và nói theo ngôn ng ca kim đnh
gi thit thì gi thit đo là:
H
o
: µ
1
= µ
2
= µ
3
Và gi thit chính là:
H
A
: có mt khác bit gia 3 µ
j
(j=1,2,3)
Bng 11.2. galactose cho 3 nhóm bnh nhân Crohn, viêm rut kt
và đi chng
Nhóm 1: bnh
Crohn
Nhóm 2: bnh viêm
rut kt
Nhóm 3: đi
chng (control)
1343
1393
1420
1641
1897
2160
2169
2279
2890
1264
1314
1399
1605
2385
2511
2514
2767
2827
2895
1809 2850
1926 2964
2283 2973
2384 3171
2447 3257
2479 3271
2495 3288
2525 3358
2541 3643
2769 3657
3011
n=9
Trung bình: 1910
SD: 516
n=11
Trung bình: 2226
SD: 727
n=20
Trung bình: 2804
SD: 527
Chú thích: SD là đ lch chun (standard deviation).
Thot đu có l bn đc, sau khi đã hc qua phng pháp so sánh hai nhóm bng
kim đnh t, s ngh rng chúng ta cn làm 3 so sánh bng kim đnh t: gia nhóm 1 và 2,
nhóm 2 và 3, và nhóm 1 và 3. Nhng phng pháp này không hp lí, vì có ba phng
sai khác nhau. Phng pháp thích hp cho so sánh là phân tích phng sai. Phân tích
phng sai có th ng dng đ so sánh nhiu nhóm cùng mt lúc (simultaneous
comparisons).
11.1.1 Mô hình phân tích phng sai
minh ha cho phng pháp phân tích phng sai, chúng ta phi dùng kí hiu.
Gi đ galactose ca bnh nhân i thuc nhóm j (j = 1, 2, 3) là x
ij
. Mô hình phân tích
phng sai phát biu rng:
ij i ij
x
µ
αε
=+ + [1]
Hay c th hn:
x
i1
= µ + α
1
+ ε
i1
x
i2
= µ + α
2
+ ε
i2
x
i3
= µ + α
3
+ ε
i3
Tc là, giá tr galactose c bt c bnh nhân nào bng giá tr trung bình ca toàn
qun th (µ) cng/tr cho nh hng ca nhóm j đc đo bng h s nh hng
i
α
, và sai
s
ij
ε
. Mt gi đnh khác là
ij
ε
phi tuân theo lut phân phi chun vi trung bình 0 và
phng sai σ
2
. Hai thông s cn c tính là µ và
i
α
. Cng nh phân tích hi qui tuyn
tính, hai thông s này đc c tính bng phng pháp bình phng nh nht; tc là tìm
c s
ˆ
µ
và
ˆ
j
α
sao cho
()
2
ˆ
ˆ
ij j
x
µα
−−
∑
nh nht.
Quay li vi s liu nghiên cu trên, chúng ta có nhng tóm tt thng kê nh sau:
Nhóm S đi
tng (n
j
)
Trung bình
Phng sai
1 – Crohn n
1
= 9
1
x
= 1910
2
1
s = 265944
2 – Viêm rut kt n
2
= 11
2
x
= 2226
2
2
s = 473387
3 – i chng n
3
= 20
3
x
= 2804
2
3
s = 277500
Toàn bô mu n = 40
x
= 2444
Chú ý rng:
(
)
(
)
ij j ij j
x
xxx xx=+ − + − [2]
Trong đó,
x
là s trung bình ca toàn mu, và
j
x
là s trung bình ca nhóm j. Nói cách
khác, phn
(
)
j
x
x− phn ánh đ khác bit (hay cng có th gi là hiu s) gia trung
bình trng nhóm và trung bình toàn mu, và phn
(
)
ij j
x
x− phn ánh hiu s gia mt
galactose ca mt đi tng và s trung bình ca tng nhóm. Theo đó,
• tng bình phng cho toàn b mu là:
()
2
ij
ij
SST x x=−
∑∑
= (1343–2444)
2
+ (1393–2444)
2
+ (1343 – 2444)
2
+ … + (3657– 2444)
2
= 12133923
• tng bình phng vì khác nhau gia các nhóm:
()
2
i
ij
SSB x x=−
∑∑
=
()
2
jj
j
nx x−
∑
= 9(1910 – 2444)
2
+ 11(2226 – 2444)
2
+ 20(2804 – 2444)
2
= 5681168
• tng bình phng vì dao đng trong mi nhóm:
()
2
ij j
ij
SSW x x=−
∑∑
=
()
2
1
jj
j
ns−
∑
= (9-1)(265944) + (11-1)(473387) + (20-1)(277500)
= 12133922
Có th chng minh d dàng rng:
SST = SSB + SSW.
SSW đc tính t mi bnh nhân cho 3 nhóm, cho nên trung bình bình phng cho tng
nhóm (mean square – MSW) là:
MSW = SSW / (N – k) = 12133922 / (40-3) = 327944
và trung bình bình phng gia các nhóm là:
MSB = SSB / (k– 1) = 5681168 / (3-1) = 2841810
Trong đó
N là tng s bnh nhân (N = 40) ca ba nhóm, và k = 3 là s nhóm bnh nhân.
Nu có s khác bit gia các nhóm, thì chúng ta kì vng rng MSB s ln hn MSW.
Thành ra, đ kim tra gi thit, chúng ta có th da vào kim đnh F:
F = MSB / MSW = 8.67 [3]
Vi bc t do k-1 và N-k. Các s liu tính toán trên đây có th trình bày trong mt bng
phân tích phng sai (ANOVA table) nh sau:
Ngun bin thiên (source
of variation)
Bc t do
(degrees of
freedom)
Tng bình
phng
(sum of
squares)
Trung bình
bình phng
(mean
square)
Kim đnh
F
Khác bit gia các nhóm
(between-group)
2 5681168 2841810 8.6655
Khác bit trong tng
nhóm (with-group)
37 12133923 327944
Tng s 39 12133923
11.1.2 Phân tích phng sai đn gin vi R
Tt c các tính toán trên tng đi rm rà, và tn khá nhiu thi gian. Tuy nhiên vi R,
các tính toán đó có th làm trong vòng 1 giây, sau khi d liu đã đc chun b đúng
cách.
(a) Nhp d liu. Trc ht, chúng ta cn phi nhp d liu vào R. Bc th nht là
báo cho R bit rng chúng ta có ba nhóm bnh nhân (1, 2 v ), nhóm 1 gm 9 ngi,
nhóm 2 có 11 ngi, và nhóm 3 có 20 ngi:
> group <- c(1,1,1,1,1,1,1,1,1, 2,2,2,2,2,2,2,2,2,2,2,
3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3)
phân tích phng sai, chúng ta phi đnh ngha bin group là mt yu t - factor.
> group <- as.factor(group)
Bc k tip, chúng ta np s liu galactose cho tng nhóm nh đnh ngha trên (gi
object là galactose):
> galactose <- c(
1343,1393,1420,1641,1897,2160,2169,2279,2890,
1264,1314,1399,1605,2385,2511,2514,2767,2827,2895,3011,
1809,2850,1926,2964,2283,2973,2384,3171,2447,3257,2479,3271,2495,3288,
2525,3358,2541,3643,2769,3657)
a hai bin group và galactose vào mt dataframe và gi là data:
> data <- data.frame(group, galactose)
> attach(data)
Sau khi đã có d liu sn sàng, chúng ta dùng hàm lm() đ phân tích phng sai nh
sau:
> analysis <- lm(galactose ~ group)
Trong hàm trên chúng ta cho R bit bin galactose là mt hàm s ca group. Gi
kt qu phân tích là analysis.
(b) Kt qu phân tích phng sai. Bây gi chúng ta dùng lnh anova đ bit kt qu
phân tích:
> anova(analysis)
Analysis of Variance Table
Response: galactose
Df Sum Sq Mean Sq F value Pr(>F)
group 2 5683620 2841810 8.6655 0.0008191 ***
Residuals 37 12133923 327944
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Trong kt qu trên, có ba ct: Df (degrees of freedom) là bc t do; Sum Sq là tng bình
phng (sum of squares), Mean Sq là trung bình bình phng (mean square); F
value là giá tr F nh đnh ngha [3] va đ cp phn trên; và Pr(>F) là tr s P liên
quan đn kim đnh F.
Dòng group trong kt qu trên có ngha là bình phng gia các nhóm (between-
groups) và residual là bình phng trong mi nhóm (within-group). đây, chúng
ta có:
SSB = 5683620 và MSB = 2841810
và:
MSB = 2841810 và MSB = 327944
Thành ra,
F = 2841810 / 327944 = 8.6655.
Tr s p = 0.00082 có ngha là tín hiu cho thy có s khác bit v đ galactose gia ba
nhóm.
(c) c s. bit thêm chi tit kt qu phân tích, chúng ta dùng lnh summary nh
sau:
> summary(analysis)
Call:
lm(formula = galactose ~ group)
Residuals:
Min 1Q Median 3Q Max
-995.5 -437.9 102.0 456.0 979.8
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1910.2 190.9 10.007 4.5e-12 ***
group2 316.3 257.4 1.229 0.226850
group3 894.3 229.9 3.891 0.000402 ***
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 572.7 on 37 degrees of freedom
Multiple R-Squared: 0.319, Adjusted R-squared: 0.2822
F-statistic: 8.666 on 2 and 37 DF, p-value: 0.0008191
Theo kt qu trên đây, intercept chính là
ˆ
µ
trong mô hình [1]. Nói cách khác,
ˆ
µ
=
1910 và sai s chun là 190.9.
c tính thông s
ˆ
j
α
, R đt
1
ˆ
α
=0, và
221
ˆˆˆ
α
αα
=
− = 316.3, vi sai s chun là 257,
và kim đnh t = 316.3 / 257 = 1.229 vi tr s p = 0.2268. Nói cách khác, so vi nhóm 1
(bnh nhân Crohn), bnh nhân viêm rut kt có đ galactose trung bình cao hn 257,
nhng đ khác bit này không có ý ngha thng kê.
Tng t,
331
ˆˆˆ
α
αα
=− = 894.3, vi sai s chun là 229.9, kim đnh t =
894.3/229.9=3.89, và tr s p = 0.00040. So vi bnh nhân Crohn, nhóm đi chng có đ
galactose cao hn 894, và mc đ khác bit này có ý ngha thng kê.
11.2 So sánh nhiu nhóm (multiple comparisons) và điu
chnh tr s p
Cho k nhóm, chúng ta có ít nht là k(k-1)/2 so sánh. Ví d trên có 3 nhóm, cho
nên tng s so sánh kh d là 3 (gia nhóm 1 và 2, nhóm 1 và 3, và nhóm 2 và 3). Khi
k=10, s ln so sánh có th lên rt cao. Nh đã đ cp trong chng 7, khi có nhiu so
sánh, tr s p tính toán t các kim đnh thng kê không còn ý ngha ban đu na, bi vì
các kim đnh này có th cho ra kt qu dng tính gi (tc kt qu vi p<0.05 nhng
trong thc t không có khác nhau hay nh hng). Do đó, trong trng hp có nhiu so
sánh, chúng ta cn phi điu chnh tr s p sao cho hp lí.
Có khá nhiu phng pháp điu chnh tr s p, và 4 phng pháp thông dng nht
là: Bonferroni, Scheffé, Holm và Tukey (tên ca 4 nhà thng kê hc danh ting).
Phng pháp nào thích hp nht? Không có câu tr li dt khoát cho câu hi này, nhng
hai đim sau đây có th giúp bn đc quyt đnh tt hn:
(a)
Nu k < 10, chúng ta có th áp dng bt c phng pháp nào đ điu
chnh tr s p. Riêng cá nhân tôi thì thy phng pháp Tukey thng
rt hu ích trong so sánh.
(b) Nu k>10, phng pháp Bonferroni có th tr nên rt “bo th”. Bo
th đây có ngha là phng pháp này rt ít khi nào tuyên b mt so
sánh có ý ngha thng kê, dù trong thc t là có tht! Trong trng
hp này, hai phng pháp Tukey, Holm và Scheffé có th áp dng.
đây, tôi s không gii thích lí thuyt đng sau các phng pháp này (vì bn đc
có th tham kho trong các sách giáo khoa v thng kê), nhng s ch cách s dng R đ
tin hành các so sánh theo phng pháp ca Tukey.
Quay li ví d trên, các tr s p trên đây là nhng tr s cha đc điu chnh cho
so sánh nhiu ln. Trong chng v tr s p, tôi đã nói các tr s này phóng đi ý ngha
thng kê, không phn ánh tr s p lúc ban đu (tc 0.05). điu chnh cho nhiu so
sánh, chúng ta phi s dng đn phng pháp điu chnh Bonferroni.
Chúng ta có th dùng lnh pairwise.t.test đ có đc tt c các tr s p so
sánh gia ba nhóm nh sau:
> pairwise.t.test(galactose, group, p.adj="bonferroni")
Pairwise comparisons using t tests with pooled SD
data: galactose and group
1 2
2 0.6805 -
3 0.0012 0.0321
P value adjustment method: bonferroni
Kt qu trên cho thy tr s p gia nhóm 1 (Crohn) và viêm rut kt là 0.6805 (tc không
có ý ngha thng kê); gia nhóm Crohn và đi chng là 0.0012 (có ý ngha thng kê), và
gia nhóm viêm rut kt và đi chng là 0.0321 (tc cng có ý ngha thng kê).
Mt phng pháp điu chnh tr s p khác có tên là phng pháp Holm:
> pairwise.t.test(galactose, group)
Pairwise comparisons using t tests with pooled SD
data: galactose and group
1 2
2 0.2268 -
3 0.0012 0.0214
P value adjustment method: holm
Kt qu này cng không khác so vi phng pháp Bonferroni.
Tt c các phng pháp so sánh trên s dng mt sai s chun chung cho c ba nhóm.
Nu chúng ta mun s dng cho tng nhóm thì lnh sau đây (pool.sd=F) s đáp ng
yêu cu đó:
> pairwise.t.test(galactose, group, pool.sd=FALSE)
Pairwise comparisons using t tests with non-pooled SD
data: galactose and group
1 2
2 0.2557 -
3 0.0017 0.0544
P value adjustment method: holm
Mt ln na, kt qu này cng không làm thay đi kt lun.
11.2.1 So sánh nhiu nhóm bng phng pháp Tukey
Trong các phng pháp trên, chúng ta ch bit tr s p so sánh gia các nhóm,
nhng không bit mc đ khác bit cng nh khong tin cy 95% gia các nhóm. có
nhng c s này, chúng ta cn đn mt hàm khác có tên là aov (vit tt t analysis of
variance) và hàm TukeyHSD (HSD là vit tt t Honest Significant Difference, tm dch
nôm na là “Khác bit có ý ngha thành tht”) nh sau:
> res <- aov(galactose ~ group)
> TukeyHSD (res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = galactose ~ group)
$group
diff lwr upr p adj
2-1 316.3232 -312.09857 944.745 0.4439821
3-1 894.2778 333.07916 1455.476 0.0011445
3-2 577.9545 53.11886 1102.790 0.0281768
Kt qu trên cho chúng ta thy nhóm 3 và 1 khác nhau khong 894 đn v, và khong tin
cy 95% t 333 đn 1455 đn v. Tng t, galactose trong nhóm bnh nhân viêm rut
kt thp hn nhóm đi chng (nhóm 3) khong 578 đn v, và khong tin cy 95% t 53
đn 1103.
0 500 1000 1500
3-2 3-1 2-1
95% family-wise confidence level
Differences in mean levels of group
Biu đ 11.1. Trung bình hiu và khong tin cy
95% gia nhóm 1 và 2, 1 và 3, và 3 và 2. Trc
hoành là đ galactose, trc tung là ba so sánh.
11.2.2 Phân tích bng biu đ
Mt phân tích thng kê không th nào hoàn tt nu không có mt đ th minh ha
cho kt qu. Các lnh sau đây v đ th th hin đ galactose trung bình và sai s chun
cho tng nhóm bnh nhân. Biu đ này cho thy, nhóm bnh nhân Crohn có đ
galactose thp nht (nhng không thp hn nhóm viêm rut kt), và c hai nhóm thp
hn nhóm đi chng và s khác bit này có ý ngha thng kê.
> xbar <- tapply(galactose, group, mean)
> s <- tapply(galactose, group, sd)
> n <- tapply(galactose, group, length)
> sem <- s/sqrt(n)
> stripchart(galactose ~ group, “jitter”, jit=0.05, pch=16, vert=TRUE)
> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:3, xbar, pch=4, type=”b”, cex=2)
123
1500 2000 2500 3000 3500
Biu đ 11.2. galactose ca nhóm 1 (bnh nhân Crohn),
nhóm 2 (bnh nhân viêm rut kt), và nhóm 3 (đi chng).
11.3 Phân tích bng phng pháp phi tham s
Phng pháp so sánh nhiu nhóm phi tham s (non-parametric statistics) tng
đng vi phng pháp phân tích phng sai là Kruskal-Wallis. Cng nh phng pháp
Wilcoxon so sánh hai nhóm theo phng pháp phi tham s, phng pháp Kruskal-Wallis
cng bin đi s liu thành th bc (ranks) và phân tích đ khác bit th bc này gia các
nhóm. Hàm kruskal.test trong R có th giúp chúng ta trong kim đnh này:
> kruskal.test(galactose ~ group)
Kruskal-Wallis rank sum test
data: galactose by group
Kruskal-Wallis chi-squared = 12.1381, df = 2, p-value = 0.002313
Tr s p t kim đnh này khá thp (p = 0.002313) cho thy có s khác bit gia
ba nhóm nh phân tích phng sai qua hàm lm trên đây. Tuy nhiên, mt bt tin ca
kim đnh phi tham s Kruskal-Wallis là phng pháp này không cho chúng ta bit hai
nhóm nào khác nhau, mà ch cho mt tr s p chung. Trong nhiu trng hp, phân tích
phi tham s nh kim đnh Kruskal-Wallis thng không có hiu qu nh các phng
pháp thng kê tham s (parametric statistics).
11.4 Phân tích phng sai hai chiu (two-way analysis of
variance - ANOVA)
Phân tích phng sai đn gin hay mt chiu ch có mt yu t (factor). Nhng
phân tích phng sai hai chiu (two-way ANOVA), nh tên gi, có hai yu t. Phng
pháp phân tích phng sai hai chiu ch đn gin khai trin t phng pháp phân tích
phng sai đn gin. Thay vì c tính phng sai ca mt yu t, phng pháp phân sai
hai chiu c tính phng sai ca hai yu t.
Ví d 2. Trong ví d sau đây, đ đánh giá hiu qu ca mt k thut sn mi, các
nhà nghiên cu áp dng sn trên 3 loi vt liu (1, 2 v 3) trong hai điu kin (1, 2).
Mi điu kin và loi vt liu, nghiên cu đc lp li 3 ln. bn đc đo là ch s
bn b (tm gi là score). Tng cng, có 18 s liu nh sau:
Bng 11.2. bn b ca sn cho 2 điu kin và 3 vt liu
Vt liu (j)
iu kin
(i)
1 2 3
1 4.1, 3.9, 4.3 3.1, 2.8, 3.3 3.5, 3.2, 3.6
2 2.7, 3.1, 2.6 1.9, 2.2, 2.3 2.7, 2.3, 2.5
S liu này có th tóm lc bng s trung bình cho tng điu kin và vt liu trong bng
thng kê sau đây:
Bng 11.3. Tóm lc s liu t thí nghim đ bn b ca nc sn
Vt liu (j)
iu kin (i)
1 2 3
Trung bình
cho 3 vt
liu
Trung bình
1 4.10 3.07 3.43
3.533
2 2.80 2.13 2.50
2.478
Trung bình 2
nhóm
3.450 2.600 2.967 3.00
Phng sai
1 0.040 0.063 0.043
2 0.070 0.043 0.040
Nhng tính toán s khi trên đây cho thy có th có s khác nhau (hay nh hng) ca
điu kin và vt liu thí nghim.
Gi x
ij
là score ca điu kin i (i = 1, 2) cho vt liu j (j = 1, 2, 3). ( đn gin hóa
vn đ, chúng ta tm thi b qua k đi tng). Mô hình phân tích phng sai hai chiu
phát biu rng:
ij i j ij
x
µ
αβε
=+ + +
[4]
Hay c th hn:
x
11
= µ + α
1
+ β
1
+ ε
11
x
12
= µ + α
1
+ β
2
+ ε
12
x
13
= µ + α
1
+ β
3
+ ε
11
x
21
= µ + α
2
+ β
1
+ ε
21
x
22
= µ + α
2
+ β
2
+ ε
22
x
23
= µ + α
2
+ β
3
+ ε
21
µ là s trung bình cho toàn qun th, các h s α
i
(nh hng ca điu kin i)và β
j
(nh
hng ca vt liu j) cn phi c tính t s liu thc t. ε
ij
đc gi đnh tuân theo lut
phân phi chun vi trung bình 0 và phng sai σ
2
.
Trong phân tích phng sai hai chiu, chúng ta cn chia tng bình phng ra thành 3
ngun:
• ngun th nht là tng bình phng do bin đi gia 2 điu kin:
()
2
ii
i
SSc n x x=−
∑
= 9(3.533 – 3.00)
2
+ 9(2.478 – 3.00)
2
= 5.01
• ngun th hai là tng bình phng do bin đi gia 3 vt liu:
()
2
jj
j
SSm n x x=−
∑
= 6(3.45 – 3.00)
2
+ 6(2.60 – 3.00)
2
+ 6(2.967 – 3.00)
2
= 2.18
• ngun th ba là tng bình phng phn d (residual sum of squares):
()()
2
2
1
ij i j ij ij
ij
SSe x x x x n s=−−+=−
∑∑ ∑
= 2(0.040) + 2(0.063)
+ 2(0.043) + 2(0.070) + 2(0.043) + 2(0.040)
= 0.73
Trong các phng trình trên, n = 3 (lp li 3 ln cho mi điu kin và vt liu), m = 3
vt liu,
x
là s trung bình cho toàn mu,
i
x
là s trung bình cho tng điu kin,
j
x
là s
trung bình cho tng vt liu. Vì SSc có m-1 bc t do, SSm có (n -1) bc t do, và SSe có
N–nm+2 bc t do, trong đó N là tng s mu (tc 18). Do đó, các trung bình bình
phng
• gia hai điu kin: MSc = SSc / (m-1) = 5.01 / 1 = 5.01
• gia ba vt liu: MSm = SSc / (n-1) = 2.18 /2 = 1.09
• phn d: MSe = SSe / (N-nm+2) = 0.73 / 14 = 0.052
Do đó, so sánh đ khác bit gia hai điu kin da vào kim đnh F = MSc/Mse vi bc
t do 1 và 14. Tng t, so sánh đ khác bit gia ba vt liu có th da vào kim đnh
F = MSm/Mse vi bc t do 2 và 14. Các phân tích trên có th trình bày trong mt bng
phân tích phng sai nh sau:
Ngun bin thiên (source
of variation)
Bc t do
(degrees of
freedom)
Tng bình
phng
(sum of
squares)
Trung bình
bình phng
(mean
square)
Kim đnh
F
Khác bit gia 2 điu kin 1 5.01 5.01 95.6
Khác bit gia 3 vt liu 2 2.18 1.09 20.8
Phn d (residual) 14 0.73 0.052
Tng s 17 7.92
11.4.1 Phân tích phng sai hai chiu vi R
(a) Bc đu tiên là nhp s liu t bng 11.2 vào R. Chúng ta cn phi t chc d
liu sao cho có 4 bin nh sau:
Condition Material i tng Score
(điu kin) (vt liu)
1 1 1 4.1
1 1 2 3.9
1 1 3 4.3
1 2 4 3.1
1 2 5 2.8
1 2 6 3.3
1 3 7 3.5
1 3 8 3.2
1 3 9 3.6
2 1 10 2.7
2 1 11 3.1
2 1 12 2.6
2 2 13 1.9
2 2 14 2.2
2 2 15 2.3
2 3 16 2.7
2 3 17 2.3
2 3 18 2.5
Chúng ta có th to ra mt dãy s bng cách s dng hàm gl (generating levels). Cách
s dng hàm này có th minh ha nh sau:
> gl(9, 1, 18)
[1] 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Levels: 1 2 3 4 5 6 7 8 9
Trong lnh trên, chúng ta to ra mt dãy s 1,2,3, … 9 hai ln (vi tng s 18 s). Mi
mt ln là mt nhóm. Trong khi lnh:
> gl(4, 9, 36)
[1] 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4
Levels: 1 2 3 4
Trong lnh trên, chúng ta to ra mt dãy s vi 4 bc (1,2,3, 4) 9 ln (vi tng s 36 s).
Do đó, đ to ra các bc cho điu kin và vt liu, chúng ta lnh nh sau:
> condition <- gl(2, 9, 18)
> material <- gl(3, 3, 18)
Và to nên 18 mã s (t 1 đn 18):
> id <- 1:18
Sau cùng là s liu cho score:
> score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6,
2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)
Tt c cho vào mt dataframe tên là data:
> data <- data.frame(condition, material, id, score)
> attach(data)
(b) Phân tích và kt qu s khi. Bây gi s liu đã sn sàng cho phân tích.
phân tích phng sai hai chiu, chúng ta vn s dng lnh lm vi các thông s nh
sau:
> twoway <- lm(score ~ condition + material)
> anova(twoway)
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
condition 1 5.0139 5.0139 95.575 1.235e-07 ***
material 2 2.1811 1.0906 20.788 6.437e-05 ***
Residuals 14 0.7344 0.0525
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ba ngun dao đng (variation) ca score đc phân tích trong bng trên. Qua
trung bình bình phng (mean square), chúng ta thy nh hng ca điu kin có v quan
trng hn là nh hng ca vt liu thí nghim. Tuy nhiên, c hai nh hng đu có ý
ngha thng kê, vì tr s p rt thp cho hai yu t.
(c) c s. Chúng ta yêu cu R tóm lc các c s phân tích bng lnh summary:
> summary(twoway)
Call:
lm(formula = score ~ condition + material)
Residuals:
Min 1Q Median 3Q Max
-0.32778 -0.16389 0.03333 0.16111 0.32222
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.9778 0.1080 36.841 2.43e-15 ***
condition2 -1.0556 0.1080 -9.776 1.24e-07 ***
material2 -0.8500 0.1322 -6.428 1.58e-05 ***
material3 -0.4833 0.1322 -3.655 0.0026 **
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.229 on 14 degrees of freedom
Multiple R-Squared: 0.9074, Adjusted R-squared: 0.8875
F-statistic: 45.72 on 3 and 14 DF, p-value: 1.761e-07
Kt qu trên cho thy so vi điu kin 1, điu kin 2 có score thp hn khong
1.056 và sai s chun là 0.108, vi tr s p = 1.24e-07, tc có ý ngha thng kê. Ngoài ra,
so vi vt liu 1, score cho vt liu 2 và 3 cng thp hn đáng k vi đ thp nht ghi
nhn vt liu 2, và nh hng ca vt liu thí nghim cng có ý ngha thng kê.
Giá tr có tên là “
Residual standard error” đc c tính t trung bình bình
phng phn d trong phn (a), tc là
0.0525 = 0.229, tc là c s ca
ˆ
σ
.
H s xác đnh bi (R
2
) cho bit hai yu t điu kin và vt liu gii thích khong
91% đ dao đng ca toàn b mu. H s này đc tính t tng bình phng trong kt
qu phn (a) nh sau:
2
5.0139 2.1811
0.9074
5.0139 2.1811 0.7344
R
+
==
++
Và sau cùng, h s R
2
điu chnh phn ánh đ “ci tin” ca mô hình. hiu h
s này tt hn, chúng ta thy phng sai ca toàn b mu là s
2
= (5.0139 + 2.1811 +
0.7344) / 17 = 0.4644. Sau khi điu chnh cho nh hng ca điu kin và vt liu,
phng sai này còn 0.0525 (tc là residual mean square). Nh vy hai yu t này làm
gim phng sai khong 0.4644 – 0.0525 = 0.4119. Và h s R
2
điu chnh là:
Adj R
2
= 0.4119 / 0.4644 = 0.88
Tc là sau khi điu chnh cho hai yu t điu kin và vt liu phng sai ca score gim
khong 88%.
(d) Hiu ng tng tác (interaction effects)
cho phân tích hoàn tt, chúng ta còn phi xem xét đn kh nng nh hng
ca hai yu t này có th tng tác nhau (interactive effects). Tc là mô hình
score tr
thành:
(
)
ij i j i j ij
ij
x
µ
αβ αβ ε
=+ + + +
Chú ý phng trình trên có phn
(
)
ij
ij
α
β
phn ánh s tng tác gia hai yu t. Và
chúng ta ch đn gin lnh R nh sau:
> anova(twoway <- lm(score ~ condition+ material+condition*material))
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
condition 1 5.0139 5.0139 100.2778 3.528e-07 ***
material 2 2.1811 1.0906 21.8111 0.0001008 ***
condition:material 2 0.1344 0.0672 1.3444 0.2972719
Residuals 12 0.6000 0.0500
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kt qu phân tích trên (p = 0.297 cho nh hng tng tác). Chúng ta có bng chng đ
kt lun rng nh hng tng tác gia vt liu và điu kin không có ý ngha thng kê,
và chúng ta chp nhn mô hình [4], tc không có tng tác.
(e) So sánh gia các nhóm. Chúng ta s c tính đ khác bit gia hai điu kin và ba
vt liu bng hàm TukeyHSD vi aov:
> res <- aov(score ~ condition+ material+condition)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = score ~ condition + material + condition)
$condition
diff lwr upr p adj
2-1 -1.055556 -1.287131 -0.8239797 1e-07
$material
diff lwr upr p adj
2-1 -0.8500000 -1.19610279 -0.5038972 0.0000442
3-1 -0.4833333 -0.82943612 -0.1372305 0.0068648
3-2 0.3666667 0.02056388 0.7127695 0.0374069
Biu đ sau đây s minh ho cho các kt qu trên:
> plot(TukeyHSD(res), ordered=TRUE)
There were 16 warnings (use warnings() to see them)
-1.0 -0.5 0.0 0.5
3-2 3-1 2-1
95% family-wise confidence level
Differences in mean levels of material
Biu đ 11.3. So sánh gia 3 loi vt liu
bng phng pháp Tukey.
(f) Biu đ. xem qua đ nh hng ca hai yu t điu kin và vt liu, chúng ta cn
phi có mt đ th, mà trong phân tích phng sai gi là đ th tng tác. Hàm
interaction.plot cung cp phng tin đ v biu đ này:
> interaction.plot(score, condition, material)
2.5 3.0 3.5 4.0
material
mean of score
123
condition
1
2
Biu đ 11.4. Trung bình score cho tng điu kin 1 (đng
đt đon) và điu kin 2 cho 3 loi vt liu.
11.5 Phân tích hip bin (analysis of covariance - ANCOVA)
Phân tích hip bin (s vit tt là ANCOVA) là phng pháp phân tích s dng c
hai mô hình hi qui tuyn tính và phân tích phng sai. Trong phân tích hi qui tuyn
tính, c hai bin ph thuc (dependent variable, cng có th gi là “bin ng” – response
variable) và bin đc lp (independent variable hay predictor variable) phn ln là dng
liên tc (continuous variable), nh đ cholesterol và đ tui chng hn. Trong phân tích
phng sai, bin ph thuc là bin liên tc, còn bin đc lp thì dng th bc và th
loi (categorical variable), nh đ galactose và nhóm bnh nhân trong ví d 1 chng hn.
Trong phân tích hip bin, bin ph thuc là liên tc, nhng bin đc lp có th là liên
tc và th loi.
Ví d 3. Trong nghiên cu mà kt qa đc trình bày di đây, các nhà nghiên
cu đo chiu cao và đ tui ca 18 hc sinh thuc vùng thành th (urban) và 14 hc trò
thuc vùng nông thôn (rural).
Bng 11.4. Chiu cao ca hc trò vùng thành th và nông
thôn
Area ID Age (months) Height
(cm)
urban 1 109 137.6
urban 2 113 147.8
urban 3 115 136.8
urban 4 116 140.7
Câu hi đt ra là có s
khác bit nào v chiu cao gia
tr em thành th và nông thôn
hay không. Nói cách khác, môi
trng c trú có nh hng đn
chiu cao hay không, và nu có
thì mc đ nh hng là bao
nhiêu?
Mt yu t có nh hng
ln đn chiu cao là đ tui.
Trong đ tui trng thành,
chiu cao tng theo đ tui. Do
đó, so sánh chiu cao gia hai
nhóm ch có th khách quan nu
đ tui gia hai nhóm phi tng
đng nhau. đm bo tính
khách quan ca so sánh, chúng ta
cn phi phân tích s liu bng
mô hình hip bin.
Vic đu tiên là chúng ta
phi nhp s liu vào
R vi
nhng lnh sau đây:
> # to ra dãy s id
> id <- c(1:18, 1:14)
> # group 1=urban 2=rural và cn phi xác đnh group là mt “factor”
> group <- c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
2,2,2,2,2,2,2,2,2,2,2,2,2,2)
> group <- as.factor(group)
> # nhp d liu
> age <- c(109,113,115,116,119,120,121,124,126,129,130,133,134,135,
137,139,141,142,
121,121,128,129,131,132,133,134,138,138,138,140,140,140)
> height <- c(137.6,147.8,136.8,140.7,132.7,145.4,135.0,133.0,148.5,
148.3,147.5,148.8,133.2,148.7,152.0,150.6,165.3,149.9,
139.0,140.9,134.9,149.5,148.7,131.0,142.3,139.9,142.9,
147.7,147.7,134.6,135.8,148.5)
> # to mt data frame
> data <- data.frame(id, group, age, height)
> attach(data)
Chúng ta th xem qua vài ch s thng kê mô t bng cách c tính đ tui và
chiu cao trung bình cho tng nhóm hc sinh:
urban 5 119 132.7
urban 6 120 145.4
urban 7 121 135.0
urban 8 124 133.0
urban 9 126 148.5
urban 10 129 148.3
urban 11 130 147.5
urban 12 133 148.8
urban 13 134 133.2
urban 14 135 148.7
urban 15 137 152.0
urban 16 139 150.6
urban 17 141 165.3
urban 18 142 149.9
rural 1 121 139.0
urban 2 121 140.9
urban 3 128 134.9
urban 4 129 149.5
urban 5 131 148.7
urban 6 132 131.0
urban 7 133 142.3
urban 8 134 139.9
urban 9 138 142.9
urban 10 138 147.7
urban 11 138 147.7
urban 12 140 134.6
urban 13 140 135.8
urban 14 140 148.5
> tapply(age, group, mean)
1 2
126.8333 133.0714
> tapply(height, group, mean)
1 2
144.5444 141.6714
Kt qu trên cho thy nhóm hc sinh thành th có đ tui thp hn hc sinh nông
thôn khong 6.3 tháng (126.8 – 133.1). Tuy nhiên, chiu cao ca hc sinh thành th cao
hn hc sinh nông thôn khong 2.8 cm (144.5 – 141.7). Bn đc có th dùng kim đnh t
đ thy rng s khác bit v đ tui gia hai nhóm có ý ngha thng kê (p = 0.045).
Ngoài ra, biu đ sau đây còn cho thy có mt mi liên h tng quan gia tui và chiu
cao:
110 115 120 125 130 135 140
130 135 140 145 150 155 160 165
age
height
Biu đ 11.5. Chiu cao (cm) và đ tui (tháng
tui) ca hai nhóm hc sinh thành th và nông
thôn.
Vì hai nhóm khác nhau v đ tui, và tui có liên h vi chiu cao, cho nên chúng
ta không th phát biu hay so sánh chiu cao gia 2 nhóm hc sinh mà không điu chnh
cho đ tui. điu chnh đ tui, chúng ta s dng phng pháp phân tích hip bin.
11.5.1 Mô hình phân tích hip bin
Gi y là chiu cao, x là đ tui, và g là nhóm. Mô hình cn bn ca ANCOVA
gi đnh rng mi liên h gia y và x là mt đng thng, và đ dc (gradient hay slope)
ca hai nhóm trong mi liên h này không khác nhau. Nói cách khác, vit theo kí hiu
ca hi qui tuyn tính, chúng ta có:
11 1
yxe
α
β
=+ + in group 1
22 2
yxe
α
β
=+ + in group 2. [5]
Trong đó:
α
1
: là giá tr trung bình ca y khi x= 0 ca nhóm 1;
α
2
: là giá tr trung bình ca y khi x= 0 ca nhóm 2;
β
: đ dc ca mi liên h gia y và x;
e
1
và e
2
: bin s ngu nhiên vi trung bình 0 và phng sai σ
2
.
Gi
x
là s trung bình ca đ tui cho c 2 nhóm,
1
x
và
2
x
là tui trung bình ca
nhóm 1 và nhóm 2. Nh nói trên, nu
12
x
x
≠
, thì so sánh chiu cao trung bình ca nhóm
1 và 2 (
1
y và
2
y ) s thiu khách quan, vì
11 11
yxe
α
β
=
++
22 22
yxe
α
β
=
++
và mc đ khác bit gia hai nhóm bây gi tùy thuc vào h s β:
(
)
12 12 12
yy xx
αα β
−=−+ −
Chú ý rng trong mô hình [5], chúng ta có th din dch
α
α
12
−
là đ khác bit
chiu cao trung bình gia hai nhóm nu c hai nhóm có cùng tui trung bình. Mc khác
bit này này th hin nh hng ca hai nhóm nu không có mt yu t nào liên h đn y.
Thành ra, đ c tính
α
α
12
− , chúng ta không th đn gin tr hai s trung bình
1
y -
2
y ,
nhng phi điu chnh cho x. Gi x* là mt giá tr chung cho c hai nhóm, chúng ta có
th c tính giá tr điu chnh y cho nhóm 1 (kí hiu
1a
y ) nh sau:
(
)
*
11 1a
yy xx
β
=− −
1a
y có th xem là mt c s cho chiu cao trung bình ca nhóm 1 (thành th) cho giá tr
x là x* . Tng t,
(
)
*
22 2a
yy xx
β
=− −
là s cho chiu cao trung bình ca nhóm 1 (nông thôn) vi cùng giá tr x*. T đây,
chúng ta có th c tính nh hng ca thành th và nông thôn bng công thc sau đây:
(
)
12 21 12aa
yy yy xx
β
−=−− −
Do đó, vn đ là chúng ta phi c tính β. Có th chng minh rng c s β t phng
pháp bình phng nh nht cng là c tính khách quan cho
α
α
12
−
. Khi vit bng mô
hình tuyn tính, mô hình hip bin có th mô t nh sau:
(
)
yxgxge
αβ γ δ
=+ + + +
[6]
Nói cách khác, mô hình trên phát biu rng chiu cao ca mt hc sinh b nh
hng bi 3 yu t: đ tui (β), thành th hay nông thôn (γ), và tng tác gia hai yu t
đó (δ). Nu δ = 0 (tc nh hng tng tác không có ý ngha thng kê), mô hình trên
gim xung thành:
yxge
α
βγ
=+ + + [7]
Nu
γ = 0 (tc nh hng ca thành th không có ý ngha thng kê), mô hình trên gim
xung thành:
yxe
α
β
=+ + [8]
11.5.2 Phân tích bng R
Các tho lun va trình bày trên xem ra khá phc tp, nhng trong thc t, vi R,
cách c tính rt đn gin bng hàm lm. Chúng ta s phân tích ba mô hình [6], [7] và
[8]:
> # model 6
> model6 <- lm(height ~ group + age + group:age)
> # model 7
> model7 <- lm(height ~ group + age)
> # model 8
> model8 <- lm(height ~ age)
Chúng ta cng có th so sánh c ba mô hình cùng mt lúc bng lnh anova nh sau:
> anova(model6, model7, model8)
Analysis of Variance Table
Model 1: height ~ group + age + group:age
Model 2: height ~ group + age
Model 3: height ~ age
Res.Df RSS Df Sum of Sq F Pr(>F)
1 28 1270.44
2 29 1338.02 -1 -67.57 1.4893 0.23251
3 30 1545.95 -1 -207.93 4.5827 0.04114 *
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Chú ý “model 1” chính là mô hình [6], “model 2” là mô hình [7], và “model 3” là
mô hình [8]. RSS là residual sum of squares, tc tng bình phng phn d
cho mi mô hình. Kt qu phân tích trên cho thy:
• Toàn b mu có 18+14=32 hc sinh, mô hình [6] có 4 thông s (α, β, γ và δ), cho
nên mô hình này có 32-4 = 28 bc t do. Tng bình phng ca mô hình là
1270.44.
• mô hình [7] có 3 thông s (tc còn 29 bc t do), cho nên tng bình phng phn
d cao hn mô hình [7]. Tuy nhiên, đng trên phng din xác sut thì trung
bình bình phng phn d ca mô hình này 1338.02 / 29 = 46.13, không khác
my so vi mô hình [6] (trung bình bình phng là: 1270.44 / 28 = 45.36), vì tr
s p = 0.2325, tc không có ý ngha thng kê. Nói cách khác, b h s tng tác
δ không làm thay đi kh nng tiên đoán ca mô hình mt cách đáng k.
• Mô hình [8] ch có 2 thông s (và do đó có 30 bc t do), vi tng bình phng là
1545.95. Trung bình bình phng phn d ca mô hình này là 51.53 (1545.95 /
30), tc cao hn hai mô hình [6] mt cách đáng k, vì tr s p = 0.0411.
Qua phân tích trên, chúng ta thy mô hình [7] là ti u hn c, vì ch cn 3 thông s mà
có th “gii thích” đc d liu mt cách đy đ. Bây gi chúng ta s chú tâm vào phân
tích kt qu ca mô hình này.
> summary(model7)
Call:
lm(formula = height ~ group + age)
Residuals:
Min 1Q Median 3Q Max
-14.324 -3.285 0.879 3.956 14.866
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 91.8171 17.9294 5.121 1.81e-05 ***
group2 -5.4663 2.5749 -2.123 0.04242 *
age 0.4157 0.1408 2.953 0.00619 **
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.793 on 29 degrees of freedom
Multiple R-Squared: 0.2588, Adjusted R-squared: 0.2077
F-statistic: 5.063 on 2 and 29 DF, p-value: 0.01300
Qua phn c tính thông s trình bày trên đây, chúng ta thy tính trung bình chiu
cao hc sinh tng khong 0.41 cm cho mi tháng tui. Chú ý trong kt qu trên, phn
“group2” có ngha là h s hi qui (regression coefficient) cho nhóm 2 (tc là nông
thôn), vì R phi đt h s cho nhóm 1 bng 0 đ tin vic tính toán. Vì th, chúng ta có
hai phng trình (hay hai đng biu din) cho hai nhóm hc sinh nh sau:
i vi hc sinh thành th:
Height = 91.817 + 0.4157(age)
Và đi vi hc sinh nông thôn:
Height = 91.817 – 5.4663(rural) + 0.4157(age)
Nói cách khác, sau khi điu chnh cho đ tui, nhóm hc sinh nông thôn (rural) có
chiu cao thp hn nhóm thành th khong 5.5 cm và mc đ khác bit này có ý ngha
thng kê vì tr s p = 0.0424. (Chú ý là trc khi điu chnh cho đ tui, mc đ khác
bit là 2.8 cm).
Các biu đ sau đây s minh ha cho các mô hình trên:
> par(mfrow=c(2,2))
>
plot(age, height, pch=as.character(group),
main=”Mo hinh 1”)
> abline(144.54, 0) #mean value for urban
> abline(141.67, 0) #mean value for rural
> plot(age, height, pch=as.character(group),
main=”Mo hinh 2”)
> abline(102.63, 0.3138) #single line for dependence on age
> plot(age, height, pch=as.character(group),
main=”Mo hinh 3”)
> abline(91.8, 0.416) #line for males
> abline(91.8-5.46,0.416) #line for females parallel
> plot(age, height, pch=as.character(group),
main=”Mo hinh 4”)
> abline(79.7, 0.511) #line for males
> abline(79.7+47.08, 0.511-0.399) #line for females parallel
> par(mfrow=c(1,1))
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 1
age
height
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 2
age
height
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 3
age
height
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
22
2
2
2
110 115 120 125 130 135 140
130 140 150 160
Mo hinh 4
age
height
Biu đ 11.6. Mô hình 1: chiu cao là hàm s ca ni trú ng, nhng không
có liên h vi đ tui; Mô hình 2 gi thit rng chiu cao ph thuc vào đ
tui, nhng không có khác nhau gia hai nhóm thành th và nông thôn; Mô
hình 3 gi thit rng mi liên h gia chiu cao và tui ca nhóm thành th
tng đng vi vi nhóm nông thôn (hai đng song song), nhng hc sinh
thành th có chiu cao cao hn nông thôn; và mô hình 4 gi thit rng mc đ
khác bit v chiu cao gia hai nhóm tùy thuc vào đ tui (tc có tng tác
gia đ tui và ni trú ng): tui <120 tháng, chiu cao hai nhóm không
khác nhau my, nhng khi tui >120 tháng tui thì nhóm hc sinh thành th có
chiu cao cao hn nhóm nông thôn. Phân tích trên cho thy mô hình 3 là tt
nht.
11.6 Phân tích phng sai cho thí nghim giai tha
(factorial experiment)
Ví d 4. kho sát nh hng ca 4 loi thuc tr sâu (1, 2, 3 và 4) và ba loi
ging (B1, B2 và B3) đn sn lng ca cam, các nhà nghiên cu tin hành mt thí
nghim loi giai tha. Trong thí nghim này, mi ging cam có 4 cây cam đc chn
mt cách ngu nhiên, và 4 loi thuc tr sâu áp dng (cng ngu nhiên) cho mi cây cam.
Kt qu nghiên cu (sn lng cam) cho tng ging và thuc tr sâu nh sau: