Tải bản đầy đủ (.pdf) (30 trang)

Giáo trình xử lý thống kê nông nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (405.29 KB, 30 trang )


TRƯỜNG ðẠI HỌC NÔNG NGHIỆP HÀ NỘI






PGS. TS. Nguyễn Hải Thanh −
−−
− ThS. ðỗ ðức Lực








XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel và SAS
(Bài giảng cho dự án CNTT)






















HÀ NỘI, THÁNG 10 NĂM 2008

2

Phần 1


Xử lý dữ liệu thống kê nông nghiệp trong Excel

Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông
nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data
Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak ñể cài ñặt
thêm). Sau ñây là một số công cụ xử lý số liệu thống kê mà Excel cung cấp.

1. Giới thiệu về phương pháp mẫu và thống kê mô tả
1.1. Giới thiệu về phương pháp khảo sát mẫu
ðể nghiên cứu về một chỉ số nào ñó trên các cá thể của một tổng thể với rất nhiều
cá thể, có thể tiến hành theo hai cách. Cách 1: ðiều tra chỉ số ñó trên tất cả các cá thể của

tổng thể; cách này ñòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2:
ðiều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu ñiều tra
ñược và các ñịnh lý của lý thuyết xác suất cần xử lý số liệu mẫu ñể ñưa ra một suy ñoán
thống kê về chỉ số ñó cho toàn bộ tổng thể. Cách 2 có thể ñược gọi là phương pháp thống
kê toán học, hay còn gọi là phương pháp khảo sát mẫu.
Tổng quát hơn, phương pháp khảo sát mẫu ñược áp dụng khi cần nghiên cứu một
số chỉ số nào ñó cũng như các mối liên quan của chúng trên các cá thể của tổng thể.
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một
tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X
1
, X
2
, , X
n
) trong ñó X
i
, i = 1,
2, …, n, là các biến ngẫu nhiên ñộc lập thu ñược từ X. ðể ñơn giản chúng ta gọi mẫu này
là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x
1
, x
2
, , x
n
)
trong ñó x
i
là giá trị ño ñược của X
i
thu ñược từ kết quả của thực nghiệm.

ðại lượng thống kê
n
1
X = (X
1
+X
2
+ + X
n
) ñược gọi là trung bình mẫu lý thuyết
và ñược lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) ñược coi là số ñặc trưng cho
trung bình chung của chỉ số X. ðây là một ước lượng rất tốt với các tính chất: không
chệch, vững và hiệu quả. Lúc ñó,
n
1
x = (x
1
+ x
2
+ + x
n
) ñược gọi là trung bình mẫu thực
nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm. Nhờ có tính chất
vững của ước lượng, khi dung lượng mẫu khá lớn, ñộ lệch giữa trung bình chung và trung
bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm.
Tương tự, ñại lượng thống kê:
2
S
ˆ
=

n
1
2
n
1i
i
)XX(

=

ñượ
c
gọ
i

ph
ươ
ng sai m

u lý
thuy
ế
t ch
ư
a hi

u ch

nh, còn
ñạ

i l
ượ
ng th

ng kê S
2
=
1n
1

2
n
1i
i
)XX(

=
− gọ
i

ph
ươ
ng sai
m

u
ñã
hi

u

chỉ
nh. Chúng
ñề
u
ñượ
c l

y làm
ướ
c l
ượ
ng cho ph
ươ
ng sai V(X) c

a X v

i
V(X)
ñượ
c coi là s


ñặ
c tr
ư
ng cho
ñộ
bi
ế

n
ñộ
ng c

a ch

s

X xung quanh E(X). Trong khi

3

ph
ươ
ng sai m

u lý thuy
ế
t ch
ư
a hi

u ch

nh ch

có tính ch

t
vững

, thì ph
ươ
ng sai m

u lý
thuy
ế
t
ñ
ã hi

u ch

nh l

i có c

ba tính ch

t
không chệch, vững và hiệu quả.
Lúc
ñ
ó,
2
s
ˆ
=
n
1

2
n
1i
i
)xx(

=
− cũ
ng
ñượ
c
gọ
i

ph
ươ
ng sai m

u th

c nghi

m ch
ư
a
hi

u
chỉ
nh, còn s

2
=
1n
1

2
n
1i
i
)xx(

=
− cũ
ng
ñượ
c
gọ
i

ph
ươ
ng sai m

u th

c nghi

m
ñã
hi


u
chỉ
nh t
ươ
ng

ng v

i m

u th

c nghiêm
ñã
có. S
ˆ
và s
ˆ

ñượ
c
gọ
i

các
ñộ
l

ch chu


n
m

u lý thuy
ế
t và th

c nghi

m ch
ư
a hi

u
chỉ
nh, còn S và s
gọ
i
là ñộ
l

ch chu

n m

u lý
thuy
ế
t và th


c nghi

m
ñã
hi

u
chỉ
nh.
1.2. Thống kê mô tả
Sau khi có s

li

u m

u th

c nghi

m, có th

s

d

ng ch

c n

ă
ng th

ng kê mô t


trong phân tích s

li

u c

a Excel
ñể
tính các s


ñặ
c tr
ư
ng m

u c

a m

u th

c nghi


m nh
ư

trung bình,
ñộ
l

ch chu

n, sai s

chu

n, trung v

, mode S

li

u tính toán
ñượ
c b

trí theo
c

t ho

c theo hàng.
a. Các bước thực hiện trong Excel

Ch

n Tools>Data Analysis>Descriptive Statistics, và khai báo các m

c sau
trong h

p tho

i:
- Input range: mi

n d

li

u k

c

nhãn.
- Grouped by: Column (s

li

u theo c

t).
- Labels in first row :
ð

ánh d

u

vào ô này n
ế
u có nhãn

hàng
ñầ
u.
- Confidence level for mean: 95% (
ñộ
tin c

y 95%).
- K-th largest: 1 (1 S

l

n nh

t, 2 s

l

n nhì ).
- K-th smallest: 1 (1 S

nh


nh

t, 2 s

nh

nhì ).
- Output range: mi

n ra.
- Summary Statistics:
ð
ánh d

u

n
ế
u mu

n hi

n các th

ng kê c
ơ
b

n.

Ví dụ 1:
Kh

o sát v

các
ñặ
c tính c

a lúa ta thu
ñượ
c b

n c

t s

li

u: dài bông (cm), P1000
(tr

ng l
ượ
ng 1000 h

t), s

bông/m


t cây, n
ă
ng su

t. S

li

u
ñượ
c b

trí nh
ư
trong hình I.1.
Ch

n Tools>Data Analysis>Descriptive Statistics, sau
ñ
ó khai báo h

p tho

i.

Hình I.1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại.

4

K

ế
t qu

thu
ñượ
c cho trong hình I.2

Hình I.2. Kết quả thống kê mô tả về các ñặc tính của lúa
b. Phân tích các kết quả thu ñược
M

t s

nh

n xét s
ơ
b

trên các th

ng kê thu
ñượ
c nh
ư
sau:
- Mean cho ta giá tr

trung bình c


a dãy s

.
- Standard error cho ta bi
ế
t t

s


ñộ
l

ch chu

n m

u /c
ă
n b

c hai c

a n.
- Median cho giá tr


ñ
i


m gi

a c

a dãy s

.
N
ế
u 2 giá tr

Mean và Median x

p x

nhau ta thì s

li

u là cân
ñố
i. Trong ví d

1
các c

t s

li


u là cân
ñố
i tr

c

t “s

bông” h
ơ
i b

l

ch.
- Mode cho bi
ế
t giá tr

x

y ra nhi

u nh

t trên m

u
- Ph
ươ

ng sai m

u hay
ñộ
l

ch chu

n m

u (
ñ
ã hi

u ch

nh) cho ta bi
ế
t
ñộ
phân tán
c

a s

li

u quanh giá tr

trung bình, n

ế
u các giá tr

này càng nh

ch

ng t

s

li

u càng t

p
trung.
- Kurtosis
ñ
ánh giá
ñườ
ng m

t
ñộ
phân ph

i c

a dãy s


li

u có nh

n h
ơ
n hay tù
h
ơ
n
ñườ
ng m

t
ñộ
chu

n t

c. N
ế
u trong kho

ng t

-2
ñế
n 2 thì có th


coi s

li

u x

p x


chu

n.
- Skewness
ñ
ánh giá
ñườ
ng phân ph

i l

ch trái hay l

ch ph

i. N
ế
u trong kho

ng
t


-2
ñế
n 2 thì có th

coi s

li

u cân
ñố
i g

n nh
ư
s

li

u trong phân ph

i chu

n t

c.
- Confidence Level
ñượ
c hi


u là n

a
ñộ
dài kho

ng tin c

y. Gi

s

Confidence
Level là m thì kho

ng tin c

y c

a trung bình t

ng th

là: (Mean- m , Mean+m). Trong ví
d

1, hình I.2., ta có kho

ng tin c


y 95% c

a “dài bông” là: ( 26.4- 0.55 , 26.4 +0.55), t

c
là (25.85 , 26.95).
Trong tr
ườ
ng h

p m

u có dung l
ượ
ng n không l

n l

m và ph
ươ
ng sai lý
thuy
ế
t
σ
2
= V(X) ch
ư
a bi
ế

t, ta có công th

c tìm kho

ng tin c

y v

i
ñộ
tin c

y p = 1
−α

nh
ư
sau: [
x
-
1,
2
−n
t
α
n
s
;
x
+

1,
2
−n
t
α
n
s
], trong
ñ
ó
1,
2
−n
t
α
là phân v

m

c 1


α
/2 c

a phân
ph

i Student v


i b

c t

do n

1.

5

2. Tổ chức ñồ
T

n s

xu

t hi

n c

a s

li

u trong các kho

ng cách
ñề
u nhau cho phép phác ho



bi

u
ñồ
t

n s

, còn g

i là t

ch

c
ñồ
.
ðể
v

t

ch

c
ñồ
c


n ph

i ti
ế
n hành phân t

/ nhóm
s

li

u.
2.1. Tạo miền phân tổ
ðể
ti
ế
n hành phân t

s

li

u (t

o Bin), c

n th

c hi


n các b
ướ
c sau:
- Dùng các hàm Min, Max
ñể
xác
ñị
nh giá tr

nh

nh

t và giá tr

l

n nh

t.
-
ðị
nh ra giá tr

c

n d
ướ
i và giá tr


c

n trên c

a mi

n phân t

.
- Ghi giá tr

c

n d
ướ
i vào ô
ñầ
u c

a mi

n phân t

và bôi
ñ
en toàn mi

n này.
- Ch


n Edit > Fill > Series
ñể
khai báo các m

c:
+ Trong m

c Series in ch

n Columns ( d

li

u theo c

t)
+ Trong m

c Type ch

n Linear ( d

li

u t
ă
ng theo c

p s


c

ng)
+ Trong Step value: nh

p giá tr

b
ướ
c t
ă
ng
+ Trong Stop value: nh

p giá tr

c

n trên
+ OK.
Ví dụ 2
: D

a trên 30 s

li

u v

chi


u dài cá ta t

o mi

n phân t

(Bin) nh
ư
trên hình I.3 v

i
mi

n phân t

t

ô D2 t

i ô D12 (k

c

nhãn), giá tr

c

n d
ướ

i là 10, c

n trên là 55, giá tr


b
ướ
c t
ă
ng 5.

Hình I.3. Tạo miền Bin cho các số liệu về chiều dài cá

2.2. Vẽ tổ chức ñồ
a. Các bước thực hiện
Ch

n Tools> Data Analysis> Histogram
ñể
khai báo các m

c:
- Input range: mi

n d

li

u.
- Input Bin: mi


n phân t

.
- Labels : nhãn

hàng
ñầ
u n
ế
u có.
- Output range: Mi

n k
ế
t qu

.

6

- Pareto: t

n s

s

p x
ế
p gi


m d

n.
- Cumulative Percentage: T

n su

t c

ng d

n %.
- Chart output: Bi

u
ñồ
.
- OK.
Trong ví d

2 ch

n Tools> Data Analysis> Histogram và khai báo nh
ư
trong hình I.4.

Hình I.4. Các khai báo ñể vẽ tổ chức ñồ
b. Kết quả vẽ tổ chức ñồ


Hình I.5. Tổ chức ñồ
c.
Phân tích kết quả

- T

n s

s

li

u r
ơ
i vào t

ng kho

ng
ñượ
c ghi

c

n trên c

a kho

ng. (Ch


ng
h

n, có 2 s

li

u thu

c vào kho

ng (10,15], vì v

y s

2
ñượ
c ghi t
ươ
ng

ng v

i s

15 là
c

n trên).
- Nhìn vào hình I.5. ta có th


th

y trong kho

ng nào s

li

u xu

t hi

n nhi

u nh

t.
Ngoài ra, hình d

ng c

a t

ch

c
ñồ
còn cho bi
ế

t: dãy s

li

u kh

o sát
ñượ
c v

chi

u dài c

a
cá có th

coi là tuân theo lu

t chu

n.

7

3. Tính hệ số tương quan và tìm phương trình hồi qui
3.1. Tính hệ số tương quan
Excel cho phép tính h

s


t
ươ
ng quan
ñơ
n gi

a các bi
ế
n s

p x
ế
p thành m

t b

ng
g

m n hàng, n c

t (m

i c

t là 1 bi
ế
n).
a.


Các bước thực hiện
Ch

n Tools>Data Analysis>Correlation và khai báo các m

c:
- Input range: mi

n d

li

u k

c

nhãn.
- Grouped by: Column (s

li

u theo c

t).
- Labels in first row :
ð
ánh d

u


vào ô này n
ế
u có nhãn

hàng
ñầ
u.
- Output range: mi

n ra.
- OK.
Ví dụ 3:

ðể
nghiên c

u m

i t
ươ
ng quan gi

a các
ñặ
c tính dài bông, s

h

t, s


bông v

i
n
ă
ng su

t lúa, c

n th

c hi

n các b
ướ
c sau:
- Ch

n Tools>Data analysis>Correlation.
- Khai báo các m

c (xem hình I.6).

Hình I.6. Các bước khai báo khi tính hệ số tương quan
- K
ế
t qu

thu

ñượ
c trên b

ng I.1.
Bảng I.1. Kết quả tính hệ số tương quan

Dài bông

P1000
S

bông
N
ă
ng su

t
Dài bông 1
P1000 0.233314 1
S

bông -0.22056 0.340772 1
N
ă
ng su

t 0.200805 0.66632 0.661379 1

8


b. Phân tích kết quả
- H

s

t
ươ
ng quan c

a hàng và c

t ghi

ô giao gi

a hàng và c

t.
- H

s

t
ươ
ng quan âm ( < 0) th

hi

n m


i t
ươ
ng quan ngh

ch bi
ế
n (ch

ng h

n
t
ươ
ng quan gi

a “dài bông” và “s

bông” là ngh

ch bi
ế
n).
- Các h

s

t
ươ
ng quan có giá tr


tuy

t
ñố
i x

p x

0.75 tr

lên th

hi

n m

i t
ươ
ng
quan tuy
ế
n tính m

nh gi

a hai bi
ế
n (t
ươ
ng quan gi


a “n
ă
ng su

t” và “P1000” có th

t

m
coi là t
ươ
ng quan tuy
ế
n tính m

nh).

3.2. Tìm phương trình hồi quy
Excel cho phép tìm ph
ươ
ng trình h

i quy tuy
ế
n tính
ñơ
n y = a+ bx và h

i quy tuy

ế
n
tính b

i y = a
0
+ a
1
x
1
+ a
2
x
2
+ . . . + a
n
x
n
. Các bi
ế
n
ñộ
c l

p ch

a trong n c

t, bi
ế

n ph


thu

c y
ñể
trong m

t c

t, các giá tr

t
ươ
ng

ng gi

a bi
ế
n
ñộ
c l

p và bi
ế
n ph

thu


c
ñượ
c
x
ế
p trên cùng m

t hàng.
a. Các bước thực hiện
Ch

n Tools>Data Analysis>Regression và khai báo các m

c:
- Input y range: mi

n d

li

u bi
ế
n y.
- Input x range: mi

n d

li


u các bi
ế
n x.
- Label:
ð
ánh d

u

vào ô này n
ế
u có nhãn

hàng
ñầ
u.
- Confidence level : 95% (
ñộ
tin c

y 95%).
- Constant in zero:
ð
ánh d

u

n
ế
u h


s

t

do a
0
= 0 .
- Output range: mi

n xu

t k
ế
t qu

.
- Residuals :
ð
ánh d

u

vào ô này
ñể
hi

n ph

n d

ư
hay sai l

ch gi

a y th

c
nghi

m và y theo h

i quy.
- Standardized residuals:
ð
ánh d

u


ñể
hi

n ph

n d
ư

ñ
ã chu


n hoá.
- Residuals plot:
ð
ánh d

u


ñể
hi

n
ñồ
th

ph

n d
ư
.
- Line fit plots:
ð
ánh d

u


ñể
hi


n
ñồ
th

các
ñườ
ng d

báo.
- Normal probability plot:
ð
ánh d

u


ñể
hi

n
ñồ
th

ph

n d
ư

ñ

ã chu

n hoá.
- OK.
Ví dụ 4
: Tìm ph
ươ
ng trình h

i qui y= a
0
+ a
1
x
1
+ a
2
yx
2
+ a
3
x
3
c

a n
ă
ng su

t lúa y ph



thu

c tuy
ế
n tính vào
ñộ
dài bông (x
1
), tr

ng l
ượ
ng 1000 h

t (x
2
) và s

bông / m

t cây (x
3
)
v

i các s

li


u cho trong hình I.7.
Ch

n Tools>Data Analysis>Regression và khai báo các m

c nh
ư
trên hình I.7.
ñể

thu
ñượ
c k
ế
t qu

nh
ư
trên hình I.8.
b. Phân tích kết quả
- N
ế
u h

s

t
ươ
ng quan b


i x

p x

0.75 ho

c l

n h
ơ
n thì mô hình h

i quy tuy
ế
n
tính là thích h

p (ng
ượ
c l

i nên tìm mô hình khác). Trong ví d

4 h

s

t
ươ

ng quan b

i là
0.8375 nên mô hình tuy
ế
n tính
ñượ
c coi là thích h

p.
- H

s

t
ươ
ng quan R square trong ví d

4 là 0.7014 cho bi
ế
t 70.14% s

bi
ế
n
ñộ
ng
c

a y là do các y

ế
u t

x
1
, x
2
, x
3
gây nên. H

s

Adjusted R square là 62.00% không sát g

n
v

i R square ch

ng t

không ph

i t

t c

các bi
ế

n
ñư
a vào là th

c s

c

n thi
ế
t.

9

- F th

c nghi

m là 8.6142

ng v

i xác su

t 0.00316 nh

h
ơ
n m


c xác su

t ý
ngh
ĩ
a 0.05 nên ph
ươ
ng trình h

i quy tuy
ế
n tính
ñượ
c ch

p nh

n.
- Nhìn vào các h

s

c

a các bi
ế
n ta vi
ế
t
ñượ

c
ñườ
ng h

i quy d

báo. Trong ví d


4 ph
ươ
ng trình h

i quy là: y =

3.61899 + 0.085345x
1
+ 0.081163x
2
+ 0.02083x
3
. Tuy
nhiên c
ă
n c

vào các xác su

t cho


c

t P-value thì h

s

c

a x
1
là không
ñ
áng tin c

y, vì
xác su

t t
ươ
ng

ng > 0.05 (m

c ý ngh
ĩ
a
ñ
ã ch

n). Trong tr

ườ
ng h

p này, c

n ti
ế
n hành l

c
b

t bi
ế
n x
1

ñể

ñượ
c
ñườ
ng h

i quy v

i các h

s



ñề
u có ý ngh
ĩ
a.
Hình I.7. Khai báo ñể tìm phương trình hồi quy

Hình I.8. Kết quả tìm phương trình hồi quy


10

4. Phân tích phương sai

Phân tích ph
ươ
ng sai là công c

ch

y
ế
u
ñể
phân tích các s

li

u khi theo dõi


nh h
ưở
ng
c

a các nhân t

(factor) trong thí nghi

m và

nh h
ưở
ng t
ươ
ng tác c

a chúng lên m

t (hay
nhi

u) ch

s


ñầ
u ra.
ðể

thu th

p s

li

u, thí nghi

m c

n
ñượ
c thi
ế
t k
ế
phù h

p v

i m

c
ñ
ích nghiên c

u và
ñ
i


u ki

n c

th

n
ơ
i ti
ế
n hành thí nghi

m.
ðể
phân tích m

t nhân t

,
thí nghi

m th
ườ
ng
ñượ
c thi
ế
t k
ế
theo ki


u hoàn toàn ng

u nhiên, ki

u kh

i hoàn toàn ng

u
nhiên, hay ô vuông La tinh.
ðể
phân tích hai nhân t

, thí nghi

m
ñượ
c b

trí theo ki

u tr

c
giao, ki

u chia ô l

n, ô v


a, ô nh

, ho

c k
ế
t h

p v

a chia b
ă
ng v

a chia ô. T

ba nhân t


tr

lên thì c

n b

trí thí nghi

m sao cho m


i nhân t

có hai m

c hay m

i nhân t

có ba
m

c.


4.1. Phân tích phương sai một nhân tố
Phân tích ph
ươ
ng sai m

t nhân t


ñượ
c s

d

ng
ñể
phân tích s


li

u khi theo dõi

nh h
ưở
ng c

a các m

c c

a nhân t

t

i k
ế
t qu

, nh
ư


nh h
ưở
ng c

a các công th


c cho
ă
n
ñế
n n
ă
ng su

t th

t l

n,

nh h
ưở
ng c

a các công th

c phun thu

c sâu
ñế
n t

l

sâu b


nh
ðể
phân tích ph
ươ
ng sai m

t nhân t

c

n thi
ế
t k
ế
thí nghi

m ki

u hoàn toàn ng

u
nhiên, m

i m

c l

p l


i m

t s

l

n, s

l

n l

p c

a các m

c c

a nhân t

không c

n ph

i b

ng
nhau.
Thi
ế

t k
ế
thí nghi

m m

t nhân t

hoàn toàn ng

u nhiên (CRD). G

i k m

c c

a
nhân t

hay k công th

c c

n ti
ế
n hành là T
1
, T
2
. . . , T

k
. Ch

ng h

n trong thí nghi

m xem
xét

nh h
ưở
ng c

a 11 lo

i thu

c phòng sâu b

nh t

i n
ă
ng su

t c

a m


t gi

ng lúa, nhân t




ñ
ây ch

g

m m

t y
ế
u t

có 11 m

c là 11 lo

i thu

c nên k = 11. M

i lo

i thu


c
ñượ
c th


nghi

m trên m

t s

ô thí nghi

m (hay
ñơ
n v

thí nghi

m), m

i ô
ñượ
c coi là m

t l

n l

p.

N
ế
u thí nghi

m 5 gi

ng lúa và 11 lo

i thu

c trên và ch

xét tác
ñộ
ng chung c

a t

h

p
gi

ng và thu

c (G
i

×
P

j
) t

i n
ă
ng su

t lúa thì có thí nghi

m m

t nhân t

v

i k = 5
×
11 = 55
công th

c thí nghi

m. S

ô thí nghi

m (hay s

l


n l

p) cho m

i công th

c có th

ch

n tu


ý, không nh

t thi
ế
t ph

i b

ng nhau.
Phân tích ph
ươ
ng sai m

t nhân t


ñượ

c ti
ế
n hành v

i các d

li

u
ñượ
c s

p thành
nhi

u nhóm, m

i nhóm là các l

n l

p c

a m

t m

c c

a nhân t


, nh

m tách bi

t các ph
ươ
ng
sai theo hai ngu

n bi
ế
n
ñộ
ng nhân t

và sai s

. V

i i = 1, 2, …, k, m

i công th

c T
i
ñượ
c
th


c hi

n trên n
i
ô thí nghi

m, các k
ế
t qu

th

c nghi

m x
ij
ñượ
c coi nh
ư
m

t m

u th

c
nghi

m
ñố

i v

i bi
ế
n ng

u nhiên X
i
. D

a vào k
ế
t qu

th

c nghi

m c

n
ñư
a ra suy
ñ
oán v


vi

c các trung bình m

i
c

a các bi
ế
n X
i
là nh
ư
nhau (t

c là các công th

c không

nh h
ưở
ng

ñ
áng k

t

i ch

s

c


n kh

o sát) hay là khác nhau. Có nhi

u ki

u thi
ế
t k
ế
thí nghi

m
ñể

gi

i quy
ế
t bài toán này. Gi

s

nhân t

có a m

c, m

c i

ñượ
c l

p l

i n
i
l

n, nh
ư
v

y t

ng
s

có n =

n
i
quan sát, hay còn nói là có n ô thí nghi

m. N
ế
u b

trí n ô thí nghi


m hoàn
toàn ng

u nhiên ta có thi
ế
t k
ế
thí nghi

m hoàn toàn ng

u nhiên (completely randomized
design). Khi ti
ế
n hành thí nghi

m ki

u này ph

i dùng n phi
ế
u ghi t

1
ñế
n n, rút th
ă
m ng


u
nhiên n
1
phi
ế
u
ñể
có các ô thí nghi

m
ñố
i v

i công th

c 1, rút ti
ế
p n
2
phi
ế
u
ñể
có các ô thí
nghi

m
ñố
i v


i công th

c 2, , n
k
ô cu

i cùng là c

a công th

c k. Vi

c rút th
ă
m ng

u
nhiên
ñượ
c th

c hi

n trên toàn b

các ô thí nghi

m.
Vi


c tính toán và k
ế
t lu

n d

a trên mô hình: x
ij
=
µ
+
α
i
+ e
ij
(i = 1, …, k và j = 1,
, n
i
), v

i x
ij
là k
ế
t qu

c

a l


n l

p th

j c

a m

c i,
µ
là trung bình chung,
α
i


nh h
ưở
ng
c

a m

c i c

a nhân t

, còn e
ij

là sai s


ng

u nhiên. x
ij
có trung bình m
i
=
µ
+
α
i
. Các sai s



11

e
ij

ñượ
c gi

thi
ế
t là
ñộ
c l


p và tuân theo phân ph

i chu

n v

i k

v

ng 0 và ph
ươ
ng sai
σ
2
.
Các
α
i

ñượ
c coi là tho

mãn
ñ
i

u ki

n

k
i
i 1=
α

= 0.
a. Các bước thực hiện
S

li

u
ñượ
c
ñ
i

n theo c

t ho

c theo hàng (n
ế
u vào theo hàng thì m

i hàng

ng
v


i m

t m

c c

a nhân t

), ô
ñầ
u tiên ghi tên m

c, các ô ti
ế
p theo ghi s

li

u. Ch

n Tools>
Data Analysis > Anova: Single Factor và khai báo:
- Input range: Khai báo mi

n d

li

u vào (m


t ch

nh

t bao trùm toàn b

các ô
ch

a tên m

c và toàn b

các s

li

u).
- Grouped by: Column (s

li

u theo c

t) ho

c row (s

li


u theo hàng).
- Label in First column : nhãn hàng
ñầ
u.
- Alpha: 0.05 (m

c ý ngh
ĩ
a
α
).
- Output range: mi

n ra.

b. Phân tích kết quả

- K
ế
t qu

in ra g

m các th

ng kê c
ơ
b

n cho t


ng m

c (trung bình,
ñộ
l

ch
chu

n ) và b

ng phân tích ph
ươ
ng sai.
- N
ế
u giá tr

xác su

t P-value < alpha (ho

c F th

c nghi

m > F lý thuy
ế
t) thì các

công th

c có tác
ñộ
ng khác nhau t

i k
ế
t qu

, ng
ượ
c l

i các công th

c không có khác bi

t
ñ
áng k

.
- N
ế
u k
ế
t lu

n các công th


c có tác
ñộ
ng khác nhau t

i k
ế
t qu

thì ph

i ti
ế
n hành b
ướ
c
ti
ế
p theo là so sánh các công th

c
ñể
rút ra công th

c nào t

t nh

t.


Ví dụ 5:
Thí nghi

m

nh h
ưở
ng c

a các lo

i thu

c
ñế
n n
ă
ng su

t lúa (11 lo

i thu

c là T1
ñế
n T11, 4 c

t s

li


u là n
ă
ng su

t thu
ñượ
c), s

li

u thu
ñượ
c cho trong b

ng I.2., các
l

nh th

c hi

n trong Excel
ñượ
c minh ho

trong hình I.9., còn k
ế
t qu


cho trong b

ng I.3.
Bảng I.2. Ảnh hưởng của các loại thuốc ñến năng suất (ns) lúa
Lo

i thu

c NS ô 1 NS ô 2 NS ô 3 NS ô 4
T1 3.187 4.61 3.562 3.217
T2 3.39 2.875 2.775
T3 2.797 3.001 2.505 3.49
T4 2.832 3.103 3.448 2.255
T5 2.233 2.743 2.727
T6 2.952 2.272 2.47
T7 2.858 2.895 2.458 1.723
T8 2.308 2.335 1.957
T9 2.013 1.788 2.248 2.115
T10 3.202 3.06 2.24 2.69
T11 1.192 1.652 1.075 1.03
OK

12

Hình I.9. Thực hiện phân tích phương sai một nhân tố trong Excel.

Bảng I.3. Kết quả phân tích phương sai

Groups Count Sum Average Variance
T 1 4 14.576 3.644 0.443686

T 2 3 9.04 3.013333 0.108908
T 3 4 11.793 2.94825 0.171874
T 4 4 11.638 2.9095 0.253934
T 5 3 7.703 2.567667 0.084065
T 6 3 7.694 2.564667 0.122321
T 7 4 9.934 2.4835 0.296198
T 8 3 6.6 2.2 0.044469
T 9 4 8.164 2.041 0.037706
T 10 4 11.192 2.798 0.184963
T 11 4 4.949 1.23725 0.081114

ANOVA
Source of
Variation
SS df MS F P-value F crit
Between
Groups
15.1039 10 1.51039 8.54171 2.66E-06 2.1768
Within
Groups
5.1279 29 0.17682
Total 20.2319 39


13

T

b


ng I.3 ta k
ế
t lu

n các công th

c có tác
ñộ
ng khác nhau t

i n
ă
ng su

t lúa.
Gi

i thích: Nh
ư

ñ
ã nói

trên, phân tích ph
ươ
ng sai m

t nhân t

tách bi


t các
ph
ươ
ng sai theo hai ngu

n bi
ế
n
ñộ
ng nhân t

và sai s

. Theo b

ng I.3, ta có:
- T

ng sai l

ch gi

a các nhóm do các m

c c

a nhân t

t


o nên là SST (sum of
squares treatment) =
( )
k
2
i i
i 1
n x x
=


=
i i
2 2
n n
k k
ij i ij
i 1 j 1 i=1 j=1
x /n x /n
= =
   

   
   
∑ ∑ ∑∑
= 15.1039. Do ñó
tổng sai lệch trung bình giữa các nhóm là MSST = SST/ (k−1) = 15.1039/ 10 = 1.5139.
- Tổng sai lệch trong từng nhóm do các sai số e
ij

gây nên là SSE (sum of squares
error) =
( )
i
n
k
2
ij
i 1 j 1
x x
= =

∑∑
=
i i
2
n n
k k
2
ij ij i
i=1 j=1 i 1 j 1
x x /n
= =
   

   
   
∑∑ ∑ ∑
= 5.1279. Do ñó tổng sai lệch trung
bình trong từng nhóm là MSSE = SSE/ (n−k) = 5.11279/ 29 = 0.12682.

Với các giả thiết ñã nêu, có thể chứng minh ñược ñại lượng thống kê F =
MSSB/MSSE (ñối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
n−k). Do ñó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả
thuyết “các công thức sử dụng thuốc không ảnh hưởng tới năng suất (trung bình) của lúa”
bị bác bỏ ở mức ý nghĩa α = 0.05. ðiều này có nghĩa là các công thức sử dụng thuốc có tác
ñộng khác nhau tới năng suất lúa.
Ngoài ra, từ bảng I.3 có thể nhận xét rằng công thức T1 cho năng suất cao nhất.Tuy
nhiên, ñể kết luận chính xác hơn về ñiều này cần so sánh trung bình giữa các nhóm.
Bảng I.4. So sánh trung bình giữa các nhóm
Groups Count Sum Average
T1-Ti
T1 4 14.576

3.6440
T2 3 9.040 3.0133 0.6307
T3 4 11.793

2.9483 0.6958
T4 4 11.638

2.9095 0.7345
T10 4 11.192

2.7980 0.8460
T5 3 7.703 2.5677 1.0763
T6 3 7.694 2.5647 1.0793
T7 4 9.934 2.4835 1.1605
T8 3 6.600 2.2000 1.4440
T9 4 8.164 2.0410 1.6030
T11 4 4.949 1.2373 2.4068


Phần mềm Excel không cho phép so sánh các trung bình của các nhóm ứng với
các mức của nhân tố (các công thức). Tuy nhiên, nếu cần so sánh trung bình m
i
(với n
i
lần
lặp) với trung bình m
j
(n
j
lần lặp) người dùng có thể tự tính thêm LSD (Least Significance
Difference) theo công thức LSD = t
α,df
× SQRT(s
2
(1/n
i
+ 1/n
j
)), trong ñó s
2
là phương sai
chung
ñược ước lượng bởi trung bình sai số bình phương trong nội bộ nhóm (MS within

14

groups), α = 1-p, và t
α , df

là giá trị t của bảng Student ứng với mức ý nghĩa α và df bậc tự
do. t
α , df
có thể tìm ñược bằng cách tra bảng số hay bằng hàm TINV trong Excel.
Trong ví dụ 5, ñể so sánh ảnh hưởng của thuốc T1, T2 ñến năng suất lúa, trước hết
cần tính trị tuyệt ñối | m
1
- m
2
| của hiệu các năng suất trung bình m
1
, m
2
khi sử dụng 2 loại
thuốc trên (chính bằng 0.6307, xem bảng I.4). Ứng với t = t(0.05 , 29) = 2.045 (tra từ bảng
Student)có s
2
= 0.17682. LSD ñược tính cho các trường hợp r
i
, r
j
bằng 3 hoặc 4 như sau:
LSD= 2.045 × SQRT( 0.17682×(1/3+1/4) = 0.656739049;
LSD= 2.045 × SQRT( 0.17682×(1/4+1/4) = 0.608022212;
LSD= 2.045 × SQRT( 0.17682×(1/3+1/3) = 0.702083575.
Trong trường hợp tính ảnh hưởng của thuốc T1, T2 tới năng suất trung bình của lúa
ta có: | m
1
- m
2

| = 0.6307 <LSD = 0.656739049 nên công thức T1, T2 không khác nhau rõ
rệt. Các kết quả tính toán tương tự ñược ghi trong bảng I.3. cho thấy công thức T1 và T2 là
không khác nhau rõ rệt, công thức T1 khác các công thức từ T3 ñến T11. Tương tự có thể
so sánh công thức T2 với các công thức từ T3 ñến T11. Công thức T1 cho năng suất cao
nhất là tốt nhất, công thức T11 cho năng suất nhỏ nhất là kém nhất.

4.2. Phân tích phương sai hai nhân tố không tương tác

Khi phân tích phương sai hai nhân tố A và B có thể xảy ra các hai trường hợp:
trường hợp A và B không tương tác (biến ñộng gây nên bởi tác ñộng ñồng thời của A và B
gần sát 0) và trường hợp A và B tương tác (nếu trái lại). Phân tích phương sai một nhân tố
bố trí kiểu khối hoàn toàn ngẫu nhiên ñược coi là trường hợp riêng của phân tích phương
sai hai nhân tố không tương tác (nhân tố khối là nhân tố thứ hai không tương tác với nhân
tố thứ nhất).

Thi
ế
t k
ế
thí nghi

m theo kh

i ng

u nhiên
ñầ
y
ñủ
RCBD.

Giả sử có k công thức,
mỗi công thức lặp lại r lần. Tất cả có n = k×r ô thí nghiệm. ðể tránh các tác ñộng của một
số yếu tố ngoại cảnh lên kết quả ñầu ra của một số công thức nào ñó, chúng ta cần bố trí
các ô thí nghiệm một cách hợp lý. Trong ñiều kiện không có ñủ n ô thí nghiệm ñồng ñều,
cần thiết kế thí nghiệm bằng cách chia thí nghiệm thành r khối với k ô trong mỗi khối
tương ñối ñồng ñều về mọi mặt sao cho các tác ñộng phụ không ảnh hưởng tới thí nghiệm.
Sau ñó, xét khối thứ nhất và làm k phiếu ñể bắt thăm xem k công thức xếp vào k ô nào.
Tiếp tục bắt thăm cho khối thứ hai, thứ ba, . . . cho tới khối thứ r.
Việc chia khối thí nghiệm nói chung phụ thuộc vào ñịa ñiểm thí nghiệm. Chẳng
hạn, cần chia khối thẳng góc với một hướng biến ñộng có ảnh hưởng ñến kết quả thí
nghiệm như hướng gió, hướng chảy của nước ngầm, hướng nắng, hướng dốc, hướng thay
ñổi của ñộ phì của ñất sao cho mỗi công thức có mặt một lần ở một mức của biến ñộng.
Việc chia khối thí nghiệm cũng có thể phụ thuộc vào thời gian tiến hành thí nghiệm với các
tác ñộng của thời tiết. Nếu mỗi ngày chỉ làm ñược k thí nghiệm và ta chỉ có r ngày ñể làm
tất cả các thí nghiệm, thì cần phải phân chia việc thực hiện các thí nghiệm ra r ngày, như
vậy ở ñây ngày là khối.
Một cái lợi nữa là trong thiết kế thí nghiệm RCBD có thể chọn khối khác nhau về
không gian hoặc khác nhau về thời gian (nhưng không ñược khác nhau quá xa ñến mức có
sự thay ñổi ñiều kiện thí nghiệm). Do ñó, kết luận rút ra có tính khái quát cao hơn khi so
v
ới kết luận ñạt ñược trong thiết kế thí nghiệm hoàn toàn ngẫu nhiên (tập trung toàn bộ các
thí nghiệm vào một nơi hay cùng một thời gian).

15

Việc tính toán và kết luận dựa trên mô hình: x
ij
= µ + α
i
+ β

j
+ e
ij
(i = 1, …, k và j =
1, , r), với x
ij
là kết quả của mức i ở khối j, µ là trung bình chung, α
i
là ảnh hưởng của
mức i của nhân tố, β
j
là ảnh hưởng của khối j, còn e
ij
là sai số ngẫu nhiên. Các sai số e
ij

ñược giả thiết là ñộc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ
2
. Các
tham số α
i
và β
j
ñược coi là thoả mãn ñiều kiện
k
i
i 1=
α

=

r
j
j 1=
β

= 0.
a. Các bước thực hiện
Khi phân tích phương sai hai nhân tố không tương tác, số liệu cần ñược sắp xếp
theo cách sau: hàng là các mức của nhân tố thứ nhất, cột là các mức của nhân tố thứ hai
(trong trường hợp cần phân tích phương sai một nhân tố bố trí kiểu khối ngẫu nhiên thì
hàng là các mức của nhân tố, cột là các khối ngẫu nhiên).
Chọn
Tools >Data Analysis >Anova: Two Factor Without Replication
sau ñó khai báo tiếp
các thông tin trong hình I.10 và kích OK.

Hình I.10. Hộp thoại khai báo ñể phân tích phương sai không tương tác
Ví dụ 6: Bố trí thí nghiệm phân tích nhân tố 1 (có bốn mức) theo khối hoàn toàn ngẫu
nhiên (nhân tố 2 có bốn khối), ta thu ñược các số liệu như trong bảng I.5.
Bảng I.5. Số liệu phân tích một nhân tố theo khối ngẫu nhiên
Khối 1 Khối 2 Khối 3 Khối 4
Mức 1 47 52 62 51
Mức 2 50 54 67 57
Mức 3 57 53 69 57
Mức 4 54 65 74 59
Kết quả thu ñược khi phân tích phương sai cho ở bảng I.6.

16



b. Phân tích kết quả
- Các mức của nhân tố 1 có ảnh hưởng khác nhau ñến kết quả (F thực nghiệm > F
lý thuyết).
- Các mức của nhân tố 2 có ảnh hưởng khác nhau ñến kết quả (F thực nghiệm > F
lý thuyết).

Chú ý:
F lý thuyết có thể tìm bằng hàm FINV(0.05, 3, 9) =3.86254, và giá trị t
cũng có thể tìm ñược bằng hàmTINV(0.05, 9) =2.262.
Bảng I.6. Kết quả phân tích phương sai hai nhân tố không tương tác
Anova: Two-Factor Without Replication
Phân tích nhân tố 1(hàng)
SUMMARY

Count Sum Average Variance


Mức 1 4 212 53 40.6667
Mức 2 4 228 57 52.6667
Mức 3 4 236 59 48
Mức 4 4 252 63 74
Phân tích nhân tố 2 (cột)
Khối 1 4 208 52 19.3333
Khối 2 4 224 56 36.6667
Khối 3 4 272 68 24.6667
Khối 4 4 224 56 12
ANOVA
Source of
Variation
SS df MS F P-value F crit

Rows 208 3 69.3333 8.91429 0.00465 3.86254
Columns 576 3 192 24.6857 0.00011 3.86254
Error 70 9 7.77778
Total 854 15

Giải thích: Phân tích phương sai hai nhân tố không tương tác tách biệt các phương
sai theo ba nguồn biến ñộng nhân tố A (khối), nhân tố B và sai số. Theo bảng I.6, ta có:
- Tổng sai lệch toàn phần là SSTO (total sum of squares) =
( )
k r
2
ij
i 1 j 1
x x
= =

∑∑
=
r k
2 2
ij
j=1 i=1
x nx

∑∑
= 854.
- T

ng sai l


ch do nhân t

A (kh

i) là SSB (sum of squares due to block)
( )
r
2
.j
j 1
r x x
=


=
2
r k
2
ij
j=1 i=1
1
x nx
k
 

 
 
∑ ∑
= 576. Do ñó tổng sai lệch trung bình giữa các nhóm
c

ủa nhân tố A là MSSB = SSB/ (r−1) = 576/ 3 = 132.

17

- Tổng sai lệch do nhân tố B là SST (sum of squares due to treatment)
( )
k
2
i.
i 1
k x x
=


=
2
k r
2
ij
i=1 j=1
1
x nx
r
 

 
 
∑ ∑
= 208. Do ñó tổng sai lệch trung bình giữa các nhóm
của nhân tố B là MSST = SST/ (k−1) = 208 / 3 = 69.3333.

- Tổng sai lệch do sai số ngẫu nhiên là SSE (sum of squares due to errors) = SSTO
− SSB − SST = 854 − 576 − 208 = 70. Do ñó tổng sai lệch trung bình của sai số ngẫu nhiên
là MSSE = SSE/ (n−k−r+1) = 70 / 9 = 7.7778.
Với giả thiết ñã nêu, có thể chứng minh ñược rằng ñại lượng thống kê F
R
=
MSST/MSSE (ñối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,
n−k−l+1). Do ñó, nếu F
R
thực nghiệm = 8.91429 > F
R
lý thuyết = f (0.05; 3, 9) = 3.86254
thì giả thuyết “các công thức không ảnh hưởng tới số trung bình chung” không ñược chấp
nhận theo quy tắc kiểm ñịnh có mức ý nghĩa α = 0.05. ðiều này có nghĩa là các công thức
khác nhau có tác ñộng khác nhau tới số trung bình chung. Ngoài ra, cần chú ý rằng do F
B

thực nghiệm = 24.6857 > F
B
lý thuyết = f (0.05; 3, 9) = 3.86254 nên giả thuyết “các công
thức không ảnh hưởng tới số trung bình chung” cũng bị bác bỏ theo quy tắc kiểm ñịnh có
mức ý nghĩa α = 0.05. ðiều này có nghĩa là các khối khác nhau có tác ñộng khác nhau tới
số trung bình chung.
Chú ý:
Việc thiết kế thí nghiệm khối ngẫu nhiên ñầy ñủ là rất hợp lý khi chỉ gặp
một yếu tố hạn chế, tức là chỉ có một nguồn biến ñộng duy nhất ảnh hưởng tới khu vực thí
nghiệm. Trong trường hợp có hai yếu tố hạn chế (hai nguồn biến ñộng) ảnh hưởng tới thí
nghiệm, thí nghiệm có thể ñược thiết kế theo kiểu ô vuông La tinh (Latin squares).
Các số liệu thu thập ñược thu thập theo hàng (mỗi hàng là một mức của nhân tố A,
chẳng hạn như hướng gió trong thí nghiệm khảo sát năng suất các loại lúa chịu hạn) và

theo cột (mỗi cột là một mức của nhân tố B, chẳng hạn như ñộ cao của ñịa ñiểm canh tác).
Trong thiết kế thí nghiệm theo ô vuông La tinh, số mức của nhân tố A bắt buộc bằng số
mức của nhân tố B và bằng k. Ngoài ra, số công thức cần tiến hành thí nghiệm (số mức của
nhân tố C) cũng bằng k. Thí nghiệm ñược thiết kế ngẫu nhiên sao cho tại mỗi tổ hợp (một
mức của nhân tố A, một mức của nhân tố B) có duy nhất một công thức thí nghiệm (một
mức của nhân tố C) ñược tiến hành. Như vậy thay vì số ô thí nghiệm là k
3
, trong thiết kế
thí nghiệm kiểu ô vuông La tinh chúng ta chỉ cần có k
2
ô thí nghiệm.
Các công thức tính SSTO (tổng sai lệch toàn phần), SSA , SSB, SSC và SSE (các
tổng sai lệch do các nhân tố A, B, C và sai số ngẫu nhiên) cũng ñược tính tương tự như các
công thức ñã biết trên ñây. Các tổng sai lệch này có các bậc tự do tương ứng là k
2
−1, k −1,
k − 1, k −1 và k
2
− 3k +2 (với k ≥ 4). Từ ñó tính ñược MSSA, MSSB, MSSC và MSSE.
Tiếp theo cần thiết lập các giá trị F thực nghiệm là: F
A
= MSSA/MSSE, F
B
=
MSSB/MSSE, F
C
= MSSC/MSSE ñể rút ra các suy ñoán thống kê tương ứng.
Sử dụng chức năng phân tích số liệu của Excel cũng có thể giúp xử lý ñược các số
liệu thu ñược khi thiết kế thí nghiệm theo kiểu ô vuông La tinh một cách nhanh chóng hơn.
Trước hết cần nhập số liệu của các ô vuông La tinh vào bảng tính Excel (giả sử các số liệu

thu ñược cúng giống như trong ví dụ 6), sau ñó thực hiện lệnh
Tools >Data Analysis
>Anova: Two Factor Without Replication
ñể thu ñược kết quả tương tự như trên bảng I.6.
Lúc ñó sẽcó SSA = 208, SSB = 576. Sau ñó cần tính trực tiếp ñể thu ñược SSC theo công
thức:
2
k
2
ijs
s=1 i,j
1
x nx
k
 

 
 
∑ ∑
=
2
2
k
ijs
2
s=1 i,j
1 x
x
k k
 


 
 
∑ ∑
, trong ñó x
ijs
là các số liệu thu ñược khi
th
ực hiện công thức s, với s = 1, 2, …, k. Giả sử các số liệu ñược tổng hợp như tại bảng I.7.

18

Bảng I.7. Số liệu phân tích một nhân tố theo ô vuông La tinh
Các mức B1 B2 B3 B4
A1 47 (C3) 52 (C4) 62 (C1) 51 (C2)
A2 50 (C2) 54 (C3) 67 (C4) 57 (C1)
A3 57 (C1) 53 (C2) 69 (C3) 57 (C4)
A4 54 (C4) 65 (C1) 74 (C2) 59 (C3)
Lúc ñó, SSC = (241
2
+ 228
2
+ 229
2
+ 230
2
)/4 −(241 + 228 + 229 + 230)
2
/16 = 27.5.
Do ñó, SSE = SSTO − SSA − SSB − SSC = 854 − 208 − 576 − 27.5 = 42.5. Từ ñó tính

ñược MSSC = 27.5/ 3 = 9.1667 và MSSE = 42.5/ 6 = 7.0834. Vậy F
C
thực nghiệm =
MSSC / MSSE = 7.0834 / 9.1667 = 0.77273. Trong khi ñó F
C
lý thuyết = f(0.05; 3, 6) =
4.757. Suy ñoán thống kê có thể ñược ñưa ra là: các công thức không ảnh hưởng ñáng kể
tới số trung bình chung của chỉ số khảo sát.

4.3. Phân tích phương sai hai nhân tố

Trong trường hợp này khi phân tích phương sai, ngoài tác ñộng của từng nhân tố
A và nhân tố B lên kết quả của thí nghiệm, ta phải tính ñến sự tác ñộng ñồng thời còn gọi
là tác ñộng tương tác của cả hai nhân tố này.

Thi
ế
t k
ế
thí nghi

m hai nhân t

.
Một số kiểu thiết kế thí nghiệm ñược áp dụng ñể
phân tích phương sai hai nhân tố tương tác là: thiết kế thí nghiệm trực giao (hai nhân tố
chéo nhau , OED), thiết kế thí nghiệm phân cấp (hai nhân tố lồng nhau, HED), thiết kế thí
nghiệm chia ô (SPED) và thiết kế thí nghiệm chia băng. Hình I.11 minh hoạ các cách thiết
kế thí nghiệm. Tuỳ theo mục ñích và ñiều kiện thí nghiệm trong các lĩnh vực chuyên môn,
thí nghiệm ñược thiết kế theo cách thức thích hợp và số liệu thực nghiệm thu ñược cũng

ñược xử lý một cách phù hợp nhằm rút ra các suy ñoán thống kê có ý nghĩa.

4.3.1 Thiết kế thí nghiệm trực giao
Trường hợp ñơn giản nhất của mô hình chéo nhau là yếu tố A có 2 mức A
1
và A
2
, yếu tố B
có 2 mức B
1
và B
2
. Các tổ hợp có thể của các mức yếu tố là:
Yếu tố B
Yếu tố A
B
1
B
2

A
1
A
1
B
1
A
1
B
2


A
2
A
2
B
1
A
2
B
2


4.3.2 Thiết kế thí nghiệm phân cấp
Kiểu thí nghiệm hai nhân tố phân cấp (Hierachical) hay chia ổ (Nested) thường ñược
dùng trong các nghiên cứu về di truyền. Trong ñó một nhân tố là cấp trên, một nhân tố là
cấp dưới, thí nghiệm lặp lại r lần.
ðể cụ thể xét thí dụ A là bò ñực giống, tất cả có 4 con A
1
, A
2
, A
3
, A
4
. Mỗi con ñực cho
phối với 3 con cái gọi tắt là B
1
, B
2

, B
3
. Mỗi con bò cái sinh 4 con. Ta có sơ ñồ sau:

19


4.3.2 Thiết kế thí nghiệm phân cấp theo khối
Thường bố trí thí nghiệm theo khối, mỗi khối chia thành a ô lớn ñể bắt thăm cho a
mức của nhân tố A. Việc bắt thăm ñược thực hiện riêng rẽ cho từng khối. Mỗi ô lớn chia
thành b ô nhỏ ñể bắt thăm cho b mức của nhân tố B. Việc bắt thăm thực hiện riêng rẽ cho
từng ô lớn.
Thí dụ yếu tố A có 4 mức (A
1
, A
2
, A
3
và A
4
), yếu tố B có 2 mức (B
1
và B
2
). Ba mức
của yếu tố A ñược bố trí trên ô lớn trong 3 khối. Mỗi ô lớn chia nhỏ thành 2 ô nhỏ ñể bố trí
ngẫu nhiên các mức của yếu tố B. Sơ bố trí thí nghiệm có thể ñược trình bày như sau:
Khối 1 Khối 2 Khối 3
A
4

A
1
A
2
A
3
A
2
A
1
A
4
A
3
A
1
A
2
A
4
A
3

B
2
B
2
B
1
B

2
B
1
B
2
B
1
B
1
B
2
B
1
B
2
B
1

B
1
B
1
B
2
B
1
B
2
B
1

B
2
B
2
B
1
B
2
B
1
B
2


Thi
ế
t k
ế
thí nghi

m tr

c giao.
Chúng ta ñi sâu vào thiết kế thí nghiệm trực giao.
Giả sử nhân tố A có k mức là A
1
, A
2
, …, A
k

và nhân tố B có r mức là B
1
, B
2
, … B
r
. Số
công thức là k×r, mỗi công thức ñược lặp lại s lần. Như vậy chúng ta có tất cả k×r×s ô thí
nghiệm. Có thể thiết kế thí nghiệm trực giao theo kiểu ngẫu nhiên hoàn toàn (CRD) hoặc
theo kiểu khối ngẫu nhiên ñầy ñủ (RCBD). Trong trường hợp thứ nhất ta cần bắt thăm các
ô thí nghiệm ñể phân vào mỗi ô một công thức: trước hết bắt thăm ngẫu nhiên s ô ñể phân
công cho công thức thứ nhất, tiếp theo bắt thăm s ô ñể phân cho công thức thức 2, …, làm
như vậy cho tới công thức thứ k×r. Trong trường hợp thứ hai, ta cần bố trí ñủ s khối, mỗi
khối phải có ñủ k×r công thức ñược phân vào các ô một cách ngẫu nhiên.
Việc tính toán và kết luận dựa trên mô hình: x
ijq
= µ + α
i
+ β
j
+ (αβ)
ij
+ e
ijq
(i = 1,
…, k, j = 1, , r và q = 1, 2, …, s), với x
ijq
là kết quả của các mức i của nhân tố A, mức j
của nhân tố B và ô thí nghiệm thứ q, µ là trung bình chung, α
i

là ảnh hưởng của mức i của
nhân tố A, β
j
là ảnh hưởng mức j của nhân tố B, (αβ)
ij
là ảnh hưởng của sự tương tác của
mức i của A và mức j của B, còn e
ijq
là sai số ngẫu nhiên. Các sai số e
ijq
ñược giả thiết là
ñộc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ
2
. Các tham số α
i
và β
j

ñược coi là thoả mãn ñiều kiện
k
i
i 1=
α

=
r
j
j 1=
β


=
( )
k
ij
i=1
αβ

=
( )
r
ij
j=1
αβ

=0.
A 1 2 3 4

B 1 2 3 1 2 3 1 2 3 1 2 3

x
111
x
121
x
131
x
211
x
221
x

131
x
311
x
321
x
331
x
411
x
421
x
431

x
112
x
122
x
132
x
212
x
222
x
232
x
312
x
322

x
332
x
412
x
422
x
432

x
113
x
123
x
133
x
213
x
223
x
233
x
313
x
323
x
333
x
413
x

423
x
433

x
114
x
124
x
134
x
214
x
224
x
234
x
314
x
324
x
334
x
414
x
424
x
434

20


Sau khi tiến hành thí nghệm, số liệu thu ñược ñược sắp xếp như sau:
- Nhân tố A ñánh theo hàng với các mức khác nhau, nhân tố B ñánh theo cột với
các mức khác nhau.
- Mỗi mức của nhân tố A ñược dành s hàng (cho s lần lặp) còn mỗi mức của nhân
tố B ñược dành ñúng 1 cột.
- Tên mỗi mức của nhân tố A chỉ viết một lần trong s ô ở cột ñầu, còn tên các mức
của nhân tố B thì ghi ñầu ở mỗi cột trên hàng ñầu, kể từ cột thứ 2. Các ô từ hàng 2 cột 2 trở
ñi ghi kết quả của các lần lặp của các tổ tổ hợp mức.
- Bảng phân tích phương sai có 5 hàng: Hàng cho nhân tố A, hàng dành cho nhân tố
B, hàng cho tương tác A× B, hàng cho sai số và hàng Total. Giá trị F lý thuyết ñược tính ở
cột cuối, ta có thể kiểm tra qua hàm FINV (trong Excel). Cột P – value là xác suất tương
ứng với giá trị F thực nghiệm, nếu giá trị này nhỏ hơn alpha thì ta kết luận nhân tố (hoặc
tương tác) tương ứng có ảnh hưởng ñến kết quả thí nghiệm.
Muốn so sánh các trung bình ta làm như phân tích một nhân tố sau khi tìm giá trị t
bằng hàm TINV với số bậc tự do của sai số và căn cứ vào số lần lặp của các trung bình mà
ta muốn so sánh.
a. Các bước thực hiện
Chọn
Tools >Data Analysis >Anova: Two Factor With Replication
, sau ñó khai báo
các thông tin như trong hình I.12 và kích OK.
Ví dụ 7: Nghiên cứu ảnh hưởng của việc bón phân khoáng (nhân tố A) theo bốn công thức
và mật ñộ trồng (nhân tố B) gồm ba mức tới sản lượng bông ta có bảng số liệu (bảng I.8).
Bảng I.8. Năng suất bông (tạ/ha)
Mức 1 Mức 2 Mức 3
C.thức 1 14 15 19
15 17 19
16 19 18
21 18 17

C.thức 2 20 18 21
19 19 20
23 18 21
19 20 23
C.thức 3 21 21 21
19 22 22
22 21 18
20 23 21
C.thức 4 20 21 24
23 22 23
21 19 21
19 20 25

21

Thực hiện các lệnh phân tích phương sai hai nhân tố tương tác như minh hoạ trên
hình I.12.
Hình I.12. Hộp thoại khai báo khi phân tích phương sai 2 nhân tố tương tác
Kết quả phân tích phương sai cho ở bảng I.9.

b. Phân tích kết quả: Theo kết quả xử lý trên bảng 1.9, ta rút ra kết luận:
- F
A
=14.9898 > F
0.5A
= 2.86627, do ñó các công thức phân bón ảnh hưởng rõ rệt ñến
năng suất bông.
- F
B
= 3.22194 < F

0.5B
= 3.25944, nên tăng mật ñộ cây không hy vọng làm tăng
năng suất bông.
- F
AB
= 1.46684 < F
0.5AB
= 2.36375, nên ảnh hưởng ñồng thời của cả hai nhân tố
không tác ñộng ñáng kể tới năng suất bông.

Bảng I.9. Kết quả phân tích phương sai hai nhân tố tương tác
SUMMARY Mức 1 Mức 2 Mức 3 Total
Công thức 1





Count 4

4

4

12

Sum 66

69


73

208

Average 16.5

17.25

18.25

17.33333

Variance 9.666667

2.916667

0.916667

4.242424

Công thức 2





Count 4

4


4

12


22

Sum 81

75

85

241

Average 20.25

18.75

21.25

20.08333

Variance 3.583333

0.916667

1.583333

2.810606


Công thức 3





Count 4

4

4

12

Sum 82

87

82

251

Average 20.5

21.75

20.5

20.91667


Variance 1.666667

0.916667

3

1.901515

Công thức 4





Count 4

4

4

12

Sum 83

82

93

258


Average 20.75

20.5

23.25

21.5

Variance 2.916667

1.666667

2.916667

3.727273

Total





Count 16

16

16



Sum 312

313

333


Average 19.5

19.5625

20.8125


Variance 6.8

4.395833

5.095833



ANOVA






Source of

Variation
SS df MS F P-value F crit
Sample 122.4167

3

40.80556

14.9898

1.71E-06

2.866265

Columns 17.54167

2

8.770833

3.221939

0.051615

3.259444

Interaction 23.95833

6


3.993056

1.466837

0.21725

2.363748

Within 98

36

2.722222











Total 261.9167

47







- Bảng SUMMARY cho kết quả tính toán từng cấp của nhân tố A (viết theo hàng)
và chung cho toàn bộ mẫu, bao gồm: số quan sát (Count), tổng giá trị quan sát (Sum), trị số
trung bình (Average) và phương sai (Variance).
- Bảng phân tích phương sai ANOVA: Cột ñầu tiên là các nguồn gây ra biến ñộng
(Source of Variation) gồm có: mẫu (sample) là các biến ñộng do -nhân tố viết theo hàng gây
ra, bi
ến ñộng của nhân tố B - viết theo cột (Columns), biến ñộng do tác ñộng tương tác của
các nhân tố A và B (Interaction), biến ñộng ngẫu nhiên (within) và của tất cả các yếu tố trên

23

(Total). Các cột khác gồm: tổng sai số bình phương (SS), số bậc tự do (df), tổng sai số bình
phương trung bình (MS =ss/df), giá trị F thực nghiệm (F), giá trị xác suất P và giá trị F lý
thuyết tương ứng với các yếu tố trong cột thứ nhất.
Giải thích: Phân tích phương sai hai nhân tố tương tác nhằm tách biệt các phương
sai theo bốn nguồn biến ñộng gây nên bởi nhân tố A, nhân tố B, tác ñộng tương tác của
nhân tố A và B, cũng như sai số. Theo bảng I.9, ta có:
- Tổng sai lệch toàn phần là SSTO (total sum of squares) =
k r s
2 2
ijq
i=1 j=1 q 1
x nx
=

∑∑∑
=

261.9167 (với n = k×r×s = 4×3×4 = 48).
- Tổng sai lệch do nhân tố A là SSA (sum of squares due to factor A) =
2
k r s
2
ijq
i 1 j 1 q=1
1
x nx
rs
= =
 

 
 
∑ ∑∑
= 122.4167. Do ñó tổng sai lệch trung bình giữa các nhóm của
nhân tố A là MSSA = SSA/ (k−1) =122.4167/ 3 = 40.80556.
- Tổng sai lệch do nhân tố B là SSB (sum of squares due to factor B) =
2
r k s
2
ijq
j 1 i 1 q=1
1
x nx
ks
= =
 


 
 
∑ ∑∑
= 17.54167. Do ñó tổng sai lệch trung bình giữa các nhóm của
nhân tố B là MSSB = SSB/ (r−1) = 17.54167 /2 = 8.770833.
- Tổng sai lệch do tác ñộng tương tác của nhân tố A và B là SSAB (sum of squares
due to interaction of A and B) không tính tới các tác ñộng riêng của A và B =
2
k r s
2
ijq
i 1 j 1 q 1
1
x nx
s
= = =
 

 
 
∑∑ ∑
− SSA − SSB = 23.95833. Do ñó tổng sai lệch trung bình do tương
tác của A và B là MSSAB = SSAB/[(k−1)(r−1)] = 23.95833/6 = 3.993056.
- Tổng sai lệch do sai số ngẫu nhiên là SSE (sum of squares due to errors) = SSTO
− SSA − SSB − SSAB = 98. Do ñó tổng sai lệch trung bình của sai số ngẫu nhiên là MSSE
= SSE/[kr(s−1)] = 98/36 = 2.722222.
Với giả thiết ñã nêu, có thể chứng minh ñược rằng ñại lượng thống kê F
A
=
MSSA/MSSE (ñối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k−1,

krs−kr). Do ñó, F
A
thực nghiệm =14.9898 > F
A
lý thuyết = f (0.05; 3, 6) = 2.866265 thì giả
thuyết “các mức của nhân tố A (các mức bón phân) không ảnh hưởng tới số trung bình
chung (sản lượng bông)” không ñược chấp nhận theo quy tắc kiểm ñịnh có mức ý nghĩa α
= 0.05. ðiều này có nghĩa là các mức bón phân khác nhau có tác ñộng khác nhau tới sản
lượng bông nói chung. Tương tự chúng ta có thế giải thích ñược rằng các mức mật ñộ cây
(nhân tố B) cũng như tác ñộng ñồng thời của A và B không ảnh hưởng ñáng kể tới năng
suất bông.


24

5. So sánh hai mẫu
Bài

toán ở ñây là cần so sánh hai mẫu thông qua việc kiểm ñịnh giả thuyết H
0
: m
1
=
m
2
(kỳ vọng của biến X bằng kỳ vọng của biến Y) với ñối thuyết H
1
: m
1
≠ m

2
ở mức ý
nghĩa α trong trường hợp kiểm ñịnh hai phía. Nếu kiểm ñịnh một phía thì ñối thuyết H
1

m
1
> m
2
(khi
x
>
y
) hoặc m
1
< m
2
(khi
x
<
y
).
5.1. So sánh hai mẫu ñộc lập khi biết phương sai
σ
σσ
σ
1
2

σ

σσ
σ
2
2

Rút mẫu ñộc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào ñó
chúng ta có thể ước lượng ñược phương sai (thường xảy ra khi ñiều tra lại một tổng thể sau
một thời gian chưa lâu, nên phương sai chưa thay ñổi, do ñó lấy phương sai của lần ñiều tra
trước làm
σ
1
2


σ
2
2
, chẳng hạn khi xem xét các kết quả phân tích của hai phòng thí
nghiệm mà ñộ chính xác ñã ổn ñịnh, từ ñó có các ước lượng về phương sai).
a. Các bước thực hiện
Chọn
Tools >Data Analysis > z-Test: Two Sample for Means,
sau ñó lần lượt trả lời:

- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng ñầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng ñầu
của mẫu quan sát.
- Labels: Nếu cần thêm hàng ñầu về tên biến thì chọn mục này.
- Hypothesized means difference: Giả thuyết về hiệu hai trung bình của hai tổng

thể. ếu lấy giả thuyết H
0
: m
1
=m
2
thì ghi 0. Nếu lấy giả thuyết H
1
: m
1
=m
2
+d (d là 1 số nào
ñó) thì ghi d.
- Variable 1 variance: Phương sai của biến 1(nhập
σ
1
2
).
- Variable 2 variance: Phương sai của biến 2 (nhập
σ
2
2
).
- Output Range: Chọn miền trống ñể ñưa ra kết quả.
Ví dụ 8: Thực hiện thí nghiệm với mẫu 1 có 10 quan sát, mẫu 2 có 12 quan sát ta có bảng
số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6.
x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9
y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6
Kết quả so sánh hai mẫu cho ở bảng I.10.

Bảng I.10. Kết quả so sánh hai mẫu ñộc lập
z-Test: Two Sample for Means
M

u 1 M

u 2
Mean 3.6 3.5
Known Variance

2.7 2.6
Observations 10 12
Hypothesized
Mean Difference

0
Z 0.14335
P(Z<=z) one-tail 0.44301
z Critical one-tail

1.64485
P(Z<=z) two-tail

0.88602
z Critical two-tail

1.95996

25


b. Phân tích kết quả
Bảng kết quả I.10 có hai cột, một cột cho mẫu quan sát 1, cột kia cho mẫu 2 (tính
tới hàng thứ ba). Bảng này gồm có:
- Trung bình của mẫu a
1
và a
2
.
- Phương sai ñã cho (
σ

2
1
,
σ

2
2
).
- Số quan sát n
1
và n
2
.
- Giá trị z thực nghiệm: z=(a
1
-a
2
)/Sqrt(
σ

1
2
/n
1
+
σ
2
2
/n
2
)
- Giá trị P một phía và giá trị P hai phía.
- Giá trị z lý thuyết (tới hạn) một phía và hai phía.
Chú ý rằng,

có thể dùng một số hàm trong Excel ñể tính một số kết quả:
- Giá trị P một phía tính bằng hàm 1-Normsdist(z).
- Giá trị P hai phía tính bằng hàm (1-Normsdist(z))×2.
- Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm
Normsinv(0.95).
- Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975).
Trong ví dụ 8 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn)
một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía ñều
lớn hơn mức ý nghĩa α = 0.05). Kết luận: kỳ vọng của hai biến không khác nhau.

5.2. So sánh hai mẫu kiểu cặp ñôi
Ta xét thí dụ: lấy một ổ chim và cân trọng lượng chim cái, trọng lượng chim ñực ta
ñược hai mẫu quan sát của hai tổng thể chim cái và chim ñực. Nếu lấy một số chim ñực
ngẫu nhiên trong nhiều chim ñực và lấy một số chim cái ngẫu nhiên trong nhiều chim cái
thì có hai mẫu quan sát ñộc lập.

Trường hợp khác, nếu ta ñem 10 mẫu ñất, mỗi mẫu chia ñôi, một nửa giao cho
phòng phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu ñược số liệu cặp
ñôi ñể so sánh kết quả của hai phòng phân tích, hoặc nếu ta ñem hai giống lúa cấy trên một
số ruộng, mỗi ruộng chia ñôi, một nửa cấy giống A, một nửa cấy giống B thì có hai mẫu
cặp ñôi ñể so sánh, hay nếu ño một chỉ số sinh lý hoặc sinh hoá của một bệnh nhân khi
mới nhập viện và ño lại chỉ số ñó sau một thời gian ñiều trị thì có hai mẫu quan sát cặp ñôi
ñể ñánh giá hiệu quả ñiều trị.
Chú ý rằng, khi rút hai mẫu cặp ñôi ta có hai mẫu cùng số quan sát n, các số liệu
sắp xếp thành cặp ñứng ở hai cột cạnh nhau.
a. Các bước thực hiện
Chọn
Tools >Data Analysis > t-Test: Paired Two Sample for Means,
sau ñó lần
lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1,
kể cả tên hàng ñầu của mẫu quan sát.
- Input Variable 2 Range: Miền vào của mẫu quan sát thứ hai kể cả tên hàng ñầu
c
ủa mẫu quan sát.

×