Tải bản đầy đủ (.pdf) (35 trang)

XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP VỚI PHẦN MỀM EXCEL ppsx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (716.9 KB, 35 trang )


PGS. TS. Nguyễn Hải Thanh








XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel
(Bài giảng cho dự án CNTT 2008)











HÀ NỘI, THÁNG 10 NĂM 2008
Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel

Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông
nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data
Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt
thêm). Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số


liệu thống kê mà Excel cung cấp. Phần quan trọng nhất của bài giảng được dành cho việc
phân tích các ảnh hưởng của các nhân tố khác nhau lên kết quả đầu ra của thí nghiệm,
thường được gọi là phân tích nhân tố.
I. Giới thiệu về phương pháp khảo sát mẫu và thống kê mô tả
1.1. Giới thiệu về phương pháp khảo sát mẫu
Để nghiên cứu về một chỉ số nào đó trên các cá thể của một tổng thể với rất nhiều
cá thể, có thể tiến hành theo hai cách. Cách 1: Điều tra chỉ số đó trên tất cả các cá thể của
tổng thể; cách này đòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi. Cách 2:
Điều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra
được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đoán
thống kê về chỉ số đó cho toàn bộ tổng thể. Cách 2 có thể được gọi là phương pháp thống
kê toán học, hay đơn giản hơn là phương pháp khảo sát mẫu.
Một cách tổng quát, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu
một số chỉ số nào đó cũng như các mối liên quan của chúng trên các cá thể của tổng thể.
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một
tổng thể. Xét một mẫu ngẫu nhiên dung lượng n của X là (X
1
, X
2
, , X
n
) trong đó X
i
, i =
1, 2, …, n, là các biến ngẫu nhiên độc lập thu được từ X. Để đơn giản chúng ta gọi mẫu
này là mẫu lý thuyết. Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x
1
, x
2
, , x

n
)
trong đó x
i
là giá trị đo được của X
i
thu được từ kết quả của thực nghiệm.
n
1
X =
(X
1
+X
2
+ hống kê
Đại lượng t
+ X
n
) được gọi là trung bình mẫu lý
thuyết và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng
cho trung bình chung của chỉ số X. Đây là một ước lượng rất tốt với các tính chất: không
chệch, vững và hiệu quả.
Lúc đó, (x
1
+ x
2
+ + x
n
) được gọi là trung bình mẫu thực
nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm. Nhờ có tính chất

vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung
bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm.
1
x
n
=
Đại lượng thống kê:
2
S
ˆ
= được gọi là phương sai mẫu lý thuyết
chưa hiệu chỉnh, còn đại lượng thống kê S
2
=
n
1
2
n
1i
i
)XX(

=

1n
1

2
n
1i

i
)XX(

=

gọi là phương sai mẫu đã

2
n
1
n
2
i
i1
(x x)
=


2
s
ˆ
Lúc này, = được gọi là phương sai mẫu thực nghiệm chưa hiệu
chỉnh, còn s
2
=
1n
1

2
n

1i
i
)xx(

=

là phương sai mẫu thực nghiệm đã hiệu chỉnh tương ứng
với mẫu thực nghiêm đã có. và được S
ˆ
s
ˆ
gọi là các độ lệch chuẩn mẫu lý thuyết và thực
nghiệm chưa hiệu chỉnh, còn S và s gọi là độ lệch chuẩn mẫu lý thuyết và thực nghiệm đã
hiệu chỉnh.
1.2. Thống kê mô tả
Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả
trong phân tích số liệu của Excel để tính các số đặc trưng mẫu của mẫu thực nghiệm như
trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode Số liệu tính toán được bố trí theo
cột hoặc theo hàng.
a. Các bước thực hiện trong Excel
Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau
trong hộp thoại:
- Input range: miền dữ liệu kể cả nhãn.
- Grouped by: Columns (số liệu theo cột).
- Labels in first row: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu.
- Confidence level for mean: 95% ( độ tin cậy 95%).
- K-th largest: 1 (1 số lớn nhất, 2 số lớn nhì ).
- K-th smallest: 1 (1 số nhỏ nhất, 2 số nhỏ nhì ).
- Output range: miền ra.
- Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản.

Ví dụ 1: Khảo sát về các đặc tính của lúa ta thu được bốn cột số liệu: dài bông
(cm), P1000 (trọng lượng 1000 hạt), số bông/một cây, năng suất. Số liệu được bố trí như
trong hình 1.
Chọn Tools>Data Analysis>Descriptive Statistics, sau đó khai báo hộp thoại.

3

Hình 1. Bảng số liệu khảo sát về lúa và khai báo hộp thoại.
Kết quả thu được cho trong hình 2.

Hình 2. Kết quả thống kê mô tả về các đặc tính của lúa
b. Phân tích các kết quả thu được
Một số nhận xét sơ bộ trên các thống kê thu được như sau:
- Mean cho ta giá trị trung bình của dãy số.

4
- Standard error cho ta biết tỷ số độ lệch chuẩn mẫu /căn bậc hai của n.
- Median cho giá trị điểm giữa của dãy số.
Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối. Trong ví dụ 1
các cột số liệu là cân đối trừ cột “số bông” hơi bị lệch.
- Mode cho biết giá trị xảy ra nhiều nhất trên mẫu.
- Phương sai mẫu hay độ lệch chuẩn mẫu (đã hiệu chỉnh) cho ta biết độ phân tán
của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng
tập trung.
- Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay
tù hơn đường mật độ chuẩn tắc. Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu xấp
xỉ chuẩn.
- Skewness đánh giá đường phân phối lệch trái hay lệch phải. Nếu trong khoảng
từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc.
- Confidence Level được hiểu là nửa độ dài khoảng tin cậy. Giả sử Confidence

Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m). Trong ví
dụ 1, hình 2, ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức
là (25.85 , 26.95).
Trong trường hợp mẫu có dung lượng n không lớn lắm và phương sai lý
thuyết σ
2
= V(X) chưa biết, ta có công thức tìm khoảng tin cậy với độ tin cậy p = 1−α
như sau: [x - ;
1,
2
−n
t
α
n
s
x
1,
2
−n
t
α
n
s
+ ], trong đó
1,
2
−n
t
α
là phân vị mức 1 − α/2 của

phân phối Student với bậc tự do n
−1.
II. Tổ chức đồ
Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ
biểu đồ tần số, còn gọi là tổ chức đồ. Để vẽ tổ chức đồ cần phải tiến hành phân tổ / nhóm
số liệu.
2.1. Tạo miền phân tổ
Để tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau:
- Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất.
- Định ra giá trị cận dưới và giá trị cận trên của miền phân tổ.
- Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này.
- Chọn
Edit > Fill > Series để khai báo các mục:

5
+ Trong mục Series in chọn Columns (dữ liệu theo cột),
+ Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng),
+ Trong Step value: nhập giá trị bước tăng,
+ Trong Stop value: nhập giá trị cận trên,
+ OK.
Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên
hình 3 với miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là
55, giá trị bước tăng 5.

Hình 3. Tạo miền Bin cho các số liệu về chiều dài cá
2.2. Vẽ tổ chức đồ
a. Các bước thực hiện
Chọn Tools> Data Analysis> Histogram để khai báo các mục:
- Input range: miền dữ liệu.
- Input Bin: miền phân tổ.

- Labels : nhãn ở hàng đầu nếu có.
- Output range: miền kết quả.
- Pareto: tần số sắp xếp giảm dần.
- Cumulative Percentage: tần suất cộng dồn %.
- Chart output: biểu đồ.

6
- OK.
Trong ví dụ 2 chọn
Tools> Data Analysis> Histogram và khai báo như trong hình 4.

Hình 4. Các khai báo để vẽ tổ chức đồ
b. Kết quả vẽ tổ chức đồ

Hình 5. Tổ chức đồ
c. Phân tích kết quả
- Tần số số liệu rơi vào từng khoảng được ghi ở cận trên của khoảng. Chẳng
hạn, có 2 số liệu thuộc vào khoảng (10, 15], vì vậy số 2 được ghi tương ứng với số 15
là cận trên.

7
- Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất.
Ngoài ra, hình dạng của tổ chức đồ còn cho biết: dãy số liệu khảo sát được về chiều dài của
cá có thể coi là tuân theo luật chuẩn.
III. Tính hệ số tương quan và tìm phương trình hồi qui
3.1. Tính hệ số tương quan
Excel cho phép tính hệ số tương quan đơn giữa các biến với các số liệu mẫu thu thập
được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu mẫu của một biến).
a. Các bước thực hiện
Chọn Tools>Data Analysis>Correlation và khai báo các mục:

- Input range: miền dữ liệu kể cả nhãn.
- Grouped by: Column (số liệu theo cột).
- Labels in first row : đánh dấu
√ vào ô này nếu có nhãn ở hàng đầu.
- Output range: miền xuất kết quả ra.
- OK.
Ví dụ 3: Để nghiên cứu mối tương quan giữa các đặc tính dài bông, số hạt, số
bông với năng suất lúa, cần thực hiện các bước sau:
- Chọn
Tools>Data analysis>Correlation.
- Khai báo các mục (xem hình 6).

Hình 6. Các bước khai báo khi tính hệ số tương quan

8
- Kết quả thu được trên bảng 1.
Bảng 1. Kết quả tính hệ số tương quan

D
ài bôn
g

P
1000 Số bông
N
ăng suất
Dài bông 1
P1000 0.233314 1
Số bông −0.22056 0.340772 1
N

ăng s
u
ất 0.200805 0.66632 0.661379 1
b. Phân tích kết quả
- Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột.
- Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn
tương quan giữa “dài bông” và “số bông” là nghịch biến).
- Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương
quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất” và “P1000” có thể tạm
coi là tương quan tuyến tính mạnh).
3.2. Tìm phương trình hồi quy
Excel cho phép tìm phương trình hồi quy tuyến tính đơn y = a + bx và hồi quy
tuyến tính bội y = a
0
+ a
1
x
1
+ a
2
x
2
+ . . . + a
n
x
n
. Các biến độc lập chứa trong n cột, biến
phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc
được xếp trên cùng một hàng.
a. Các bước thực hiện

Chọn Tools>Data Analysis>Regression và khai báo các mục:
- Input y range: miền dữ liệu biến y.
- Input x range: miền dữ liệu các biến x.
- Label: đánh dấu
√ vào ô này nếu có nhãn ở hàng đầu.
- Confidence level : 95% ( độ tin cậy 95%).
- Constant in zero: đánh dấu
√ nếu hệ số tự do a
0
= 0 .
- Output range: miền xuất kết quả.
- Residuals: đánh dấu
√ vào ô này để hiện phần dư hay sai lệch giữa y thực nghiệm
và y theo hồi quy.
- Standardized residuals: đánh dấu
√ để hiện phần dư đã chuẩn hoá.
- Residuals plot: đánh dấu
√ để hiện đồ thị phần dư.
- Line fit plots: đánh dấu √ để hiện đồ thị các đường dự báo.

9
- Normal probability plot: đánh dấu
√ để hiện đồ thị phần dư đã chuẩn hoá.
- OK.
Ví dụ 4: Tìm phương trình hồi qui y = a
0
+ a
1
x
1

+ a
2
x
2
+ a
3
x
3
của năng suất lúa y
phụ thuộc tuyến tính vào độ dài bông (x
1
), trọng lượng 1000 hạt (x
2
) và số bông / một cây
(x
3
) với các số liệu cho trong hình 7.
Chọn
Tools>Data Analysis>Regression và khai báo các mục như trên hình 7 để
thu được kết quả như trên hình 8.
b. Phân tích kết quả
- Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến
tính là thích hợp (ngược lại nên tìm mô hình khác). Trong ví dụ 4 hệ số tương quan bội là
0.8375 nên mô hình tuyến tính được coi là thích hợp.
- Hệ số tương quan R square trong ví dụ 4 là 0.7014 cho biết 70.14% sự biến động
của y là do các yếu tố x
1
, x
2
, x

3
gây nên. Hệ số Adjusted R square là 62.00% không sát gần
với R square chứng tỏ không phải tất cả các biến đưa vào là thực sự cần thiết.
- F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý
nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận.
- Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo. Trong ví dụ
4 phương trình hồi quy là: y =
− 3.61899 + 0.085345x
1
+ 0.081163x
2
+ 0.02083x
3
. Tuy
nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x
1
là không đáng tin cậy, vì
xác suất tương ứng > 0.05 (mức ý nghĩa đã chọn). Trong trường hợp này, cần tiến hành lọc
bớt biến x
1
để được đường hồi quy với các hệ số đều có ý nghĩa.

Hình 7. Khai báo để tìm phương trình hồi quy

10

Hình 8. Kết quả tìm phương trình hồi quy
IV. So sánh hai mẫu
Bài


toán ở đây là cần so sánh hai mẫu thông qua việc kiểm định giả thuyết H
0
: m
1
=
m
2
(kỳ vọng của biến X bằng kỳ vọng của biến Y) với đối thuyết H
1
: m
1
≠ m
2
ở mức ý
nghĩa
α trong trường hợp kiểm định hai phía. Nếu kiểm định một phía thì đối thuyết H
1

m
1
> m
2
(khi x >
y
) hoặc m
1
< m
2
(khi x <
y

).
4.1. So sánh hai mẫu độc lập khi biết phương sai σ
1
2
và σ
2
2

Rút mẫu độc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào đó
chúng ta có thể ước lượng được các phương sai
σ
1
2

và σ
2
2
. Chẳng hạn, nếu điều tra lại hai
tổng thể sau một thời gian chưa lâu thì các phương sai được coi là chưa thay đổi, do đó lấy
phương sai của lần điều tra trước làm ước lượng cho
σ
1
2

và σ
2
2

(như khi xem xét các kết
quả phân tích của hai phòng thí nghiệm mà độ chính xác đã ổn định, từ đó có ước lượng về

các phương sai).
a. Các bước thực hiện
Chọn Tools >Data Analysis > z-Test: Two Sample for Means, sau đó lần lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này.

11
- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể.
Nếu lấy giả thuyết H
0
: m
1
= m
2
thì ghi 0. Nếu lấy giả thuyết H
1
: m
1
= m
2
+d (d là 1 số nào
đó) thì ghi d.
- Variable 1 variance: phương sai của biến 1(nhập
σ
1
2
).

- Variable 2 variance: phương sai của biến 2 (nhập
σ
2
2
).
- Output Range: chọn miền trống để đưa ra kết quả.
Ví dụ 5: Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được, mẫu 2 có 12
quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6.
x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9
y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6
Kết quả so sánh hai mẫu cho ở bảng 2.
Bảng 2. Kết quả so sánh hai mẫu độc lập
z-Test: Two Sample for Means

Mẫu 1 Mẫu 2
Mean 3.6 3.5
Known Variance 2.7 2.6
Observations 10 12
Hypothesized
Mean Difference
0
Z 0.14335
P(Z<=z) one-tail 0.44301
z Critical one-tail 1.64485
P(Z<=z) two-tail 0.88602
z Critical two-tail 1.95996
b. Phân tích kết quả
Bảng kết quả 2 có hai cột, một cột cho mẫu quan sát 1, cột kia cho mẫu 2 (tính tới
hàng thứ ba). Bảng này gồm có:
- Trung bình của mẫu a

1
và a
2
.
- Phương sai đã cho (
σ
1
2
, σ
2
2
).
- Số quan sát n
1
và n
2
.
- Giá trị z thực nghiệm: z = (a
1
− a
2
) / Sqrt(σ
1
2
/n
1
+ σ
2
2
/n

2
)
- Giá trị P một phía và giá trị P hai phía.

12
- Giá trị z lý thuyết (tới hạn) một phía và hai phía.
Chú ý rằng, có thể dùng một số hàm trong Excel để tính một số kết quả:
- Giá trị P một phía tính bằng hàm (1
−Normsdist(z)).
- Giá trị P hai phía tính bằng hàm (1
− Normsdist(z))×2.
- Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm
Normsinv(0.95).
- Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975).
Trong ví dụ 5 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn)
một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều
lớn hơn mức ý nghĩa
α = 0.05). Kết luận: kỳ vọng của hai biến không khác nhau.
4.2. So sánh hai mẫu kiểu cặp đôi
Xét thí dụ: với mỗi một ổ chim cân trọng lượng chim cái, trọng lượng chim đực, lúc
đó với n ổ chim ta được hai mẫu quan sát kiểu cặp đôi của hai tổng thể chim cái và chim
đực. Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực từ nhiều ổ và lấy một số
chim cái ngẫu nhiên trong nhiều chim cái từ nhiều ổ thì có hai mẫu quan sát độc lập.
Trường hợp khác, nếu ta đem 10 mẫu đất, mỗi mẫu chia đôi, một nửa giao cho
phòng phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu được số liệu cặp
đôi để so sánh kết quả của hai phòng phân tích. Nếu ta đem hai giống lúa cấy trên một số
ruộng, mỗi ruộng chia đôi, một nửa cấy giống A, một nửa cấy giống B thì cũng có hai mẫu
cặp đôi để so sánh. Tương tự, nếu đo một chỉ số sinh lý hoặc sinh hoá của một bệnh nhân
khi mới nhập viện và đo lại chỉ số đó sau một thời gian điều trị thì có hai mẫu quan sát cặp
đôi để đánh giá hiệu quả điều trị.

Chú ý rằng, khi rút hai mẫu cặp đôi ta có hai mẫu cùng số quan sát n, các số liệu
sắp xếp thành cặp đứng ở hai cột cạnh nhau.
a. Các bước thực hiện
Chọn Tools >Data Analysis > t-Test: Paired Two Sample for Means, sau đó lần
lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1,
kể cả tên hàng đầu của mẫu quan sát.
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: nếu cần thêm hàng đầu về tên biến thì chọn mục này.

13
- Hypothesized means difference: giả thiết về hiệu hai trung bình của hai tổng thể.
Nếu lấy giả thuyết H
0
: m
1
= m
2
thì ghi 0. Nếu lấy giả thuyết H
0
: m
1
= m
2
+ d (d là một số
nào đó) thì ghi d.
- Output Range: Chọn miền trống để đặt ra kết quả.

Ví dụ 6: Có 8 cặp số liệu của hai mẫu cặp đôi x và y cho trong bảng sau:

x 39.6 32.4 33.1 27 36 32 25.9 32.4
y 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2
Thực hiện phân tích trong Excel ta được kết quả như trên bảng 3.
Bảng 3. Kết quả so sánh hai mẫu cặp đôi

x y Giải thích
Mean 32.3 30.725 Trung bình mẫu
Variance 19.54 23.451 Phương sai mẫu
Observations 8 8 Số quan sát
Pearson Correlation 0.96187 Hệ số tương quan R
Hypothesized Mean
Difference
0 Giả thuyết về hiệu số
trung bình
df 7 Bậc tự do
t Stat 3.31055 Giá trị t thực nghiệm
P(T<=t) one-tail 0.00647 Giá trị P một phía
t Critical one-tail 1.89458 Giá trị t lý thuyết khi
kiểm định một phía
P(T<=t) two-tail 0.01293 Giá trị P hai phía
t Critical two-tail 2.36462 Giá trị t lý thuyết khi
kiểm định hai phía
b. Phân tích kết quả
Bảng kết quả có hai cột cho hai mẫu quan sát. Bảng này có các hàng:
- Trung bình mẫu a
1
, a
2
.
- Phương sai mẫu s

1
2
, s
2
2
.
- Số quan sát n
1
và n
2
(bằng nhau và bằng số cặp số liệu n).
- Hệ số tương quan r của 2 mẫu (coi như 2 biến).
- Bậc tự do df để kiểm định giả thuyết H
0
, df bằng số cặp (n − 1).
- Giá trị t thực nghiệm: 3.31055.
- Giá trị P một phía: 0.00647.

14
- Giá trị t một phía: 1.894577508.
- Giá trị P hai phía: 0.01293.
- Giá trị t hai phía: 2.36462256.
Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai phía (giá trị P một
phía và hai phía đều nhỏ hơn mức ý nghĩa
α = 0.05), nên trong ví dụ trên ta chấp nhận giả
thuyết H
1
.
4.3. So sánh hai mẫu độc lập với giả thiết hai phương sai bằng nhau
Trường hợp mẫu lớn: Khi việc rút hai mẫu quan sát từ hai tổng thể được tiến hành

một cách độc lập thì chúng ta có hai mẫu độc lập. Nếu dung lượng của cả hai mẫu đều lớn
(thường quy ước là n
1
≥ 30, n
2
≥ 30) ta có thể tiến hành z-test nhưng thay hai phương sai
của tổng thể
σ
1
2

và σ
2
2

bằng phương sai mẫu s
1
2
và s
2
2
. Trường hợp mẫu bé (n
1
,n
2
nhỏ hơn
30) thì ta gặp bài toán khó, gọi tên là bài toán Berens – Fisher. Trong trường hợp này, nếu
coi hai phương sai của hai tổng thể bằng nhau (cần kiểm định giả thuyết phụ về sự bằng
nhau của hai phương sai) thì có thể tiếp tục tính toán như sau:
a. Các bước thực hiện:

Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances,
sau đó lần lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này.
- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng
thể. Nếu lấy giả thuyết H
0
: m
1
=m
2
thì ghi 0. Nếu lấy giả thuyết H
0
: m
1
= m
2
+ d (d là 1 số
nào đó) thì ghi d.
- Output Range: chọn miền trống để đưa kết quả ra.
Ví dụ 7: Tiến hành thí nghiệm hai mẫu có tên x và y, mẫu x có 5 số liệu, mẫu y có
8 số liệu như sau:
x 27.5 27 27.3 27.6 27.8
y 27.9 27.2 26.5 26.3 27 27.4 27.3 26.8
Để kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai, có thể chọn
Tools > Data Analysis > F-Test Two-Sample for Varariances. và thực hiện các bước: nhập
(trong mục Input) miền biến x và y, chọn mục Labels nếu có nhãn ở hàng dầu, chọn mức ý

nghĩa
α (ngầm định 0.05). Kết quả cho giá trị xác suất P một phía là là 0.164 (P hai phía là
0.328) lớn hơn 0.05. Vậy giả thuyết hai phương sai tổng thể bằng nhau được chấp nhận.

15
Bảng 4. Kết quả so sánh hai mẫu độc lập với phương sai bằng nhau
t-Test: Two-Sample Assuming Equal Variances

x y
Mean 27.44 27.05
Variance 0.093 0.26571
Observations 5 8
Pooled Variance 0.20291
Hypothesized Mean
Difference
0
df 11
t Stat 1.5187
P(T<=t) one-tail 0.07852
t Critical one-tail 1.79588
P(T<=t) two-tail 0.15704
t Critical two-tail 2.20099
Hình 9 minh hoạ các bước thực hiện so sánh hai mẫu trong Excel khi hai phương
sai bằng nhau. Kết quả so sánh hai mẫu cho ở bảng 4.

Hình 9. Các bước thực hiện trong Excel so sánh hai mẫu cùng phương sai

16
b. Phân tích kết quả
Bảng kết quả thu được có hai cột cho hai mẫu quan sát, và lần lựơt có các hàng sau:

- Trung bình (Mean) của mẫu a
1
, a
2
.
- Phương sai (Variance) của mẫu s
1
2
, s
2
2
.
- Số quan sát (Observations) n
1
và n
2
.
- Phương sai chung (Pooled Variance) tính theo công thức
s
2
= ((n
1


1)s
1
2
+ ( n
2



1)s
2
2
)/(n
1
+ n
2
−2).
- Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means
difference).
- Bậc tự do df để kiểm định giả thuyết H
0
, df bằng (n
1
+ n
2


2).
- Giá trị t thực nghiệm tính theo công thức:
t = (a
1
− a
2
)/Sqrt(s
2
×(1/n
1
+ 1/n

2
)).
- Giá trị P một phía và hai phía.
- Các giá trị t lý thuyết một phía và hai phía.
Chý ý rằng có thể tìm được:
- Giá trị P một phía và hai phía qua hàm Tdist(z, df,1) và Tdist(z, df, 2).
- Giá trị t lý thuyết một phía qua hàm TINV(0.10, df).
- Giá trị t lý thuyết hai phía qua hàm TINV(0.05, df).
Trong ví dụ 7, ta có: phương sai của mẫu 1: 0.093; phương sai của mẫu 2:
0.26571; giá trị t thực nghiệm: 1.5187; giá trị t lý thuyết một phía: 1.79588; giá trị t lý
thuyết hai phía: 2.20099; giá trị P một phía: 0.07852 và giá trị hai phía: 0.15704. Kết luận:
chấp nhận giả thuyết H
0
ở mức ý nghĩa 0.05.
Cần lưu ý rằng, trước khi dùng mô hình phương sai bằng nhau phải kiểm định giả
thuyết phụ H
0
: σ
1
2
= σ
2
2
với đối thuyết H
1
: σ
1
2
> σ
2

2
. Người sử dụng có thể tự thực hiện
tính toán bằng kiểm định Fisher như sau:
- Bước 1: Tính F thực nghiệm bằng tỷ số giữa hai phương sai mẫu (lấy phương sai
lớn chia cho phương sai bé).
- Bước 2: So F thực nghiệm với F lý thuyết ở mức alpha, với số bậc tự do df
1
của
phương sai tử số và bậc tự do df
2
của phương sai mẫu số, bằng hàm FINV(alpha, df
1
, df
2
)).

17
Nếu F thực nghiệm bé hơn F lý thuyết thì dùng mô hình này (
σ
1
2
= σ
2
2
). Nếu trái lại, cần
chuyển sang mô hình phương sai khác nhau (
σ
1
2
≠ σ

2
2
) (mục 4.4).
Trong ví dụ trên, ta có: F thực nghiệm = 0.26571/ 0.093=2.8571 và F lý thuyết =
FINV(0.05, 7, 4) = 6.09421, nên chấp nhận giả thuyết H
0
.
4.4. So sánh hai mẫu độc lập với giả thiết hai phương sai khác nhau
Trong trường hợp mẫu bé và phương sai khác nhau thì có thể tính xấp xỉ theo các
bước sau:
a. Các bước thực hiện:
Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Unequal Variances,
sau đó lần lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên
hàng đầu của mẫu quan sát.
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu
của mẫu quan sát.
- Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này.
- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng
thể. Nếu lấy giả thuyết H
0
: m
1
= m
2
thì ghi 0; nếu lấy giả thuyết H
0
: m
1
= m

2
+d (d là 1 số
nào đó) thì ghi d.
- Output Range: Chọn miền trống để đưa kết quả ra.
Ví dụ 8: Chúng ta dùng lại ví dụ 7, giả sử rằng hai phương sai tổng thể không
bằng nhau. Kết quả so sánh hai mẫu cho trong bảng 5.
b. Phân tích kết quả
Bảng kết quả thu được gồm hai cột cho hai mẫu quan sát và lần lượt có các hàng:
- Trung bình (Mean) mẫu a
1
, a
2
.
- Phương sai (Variance) mẫu s
1
2
, s
2
2
.
- Số quan sát (Observations) n
1
và n
2
.
- Giả thuyết về hiệu hai trung bình của hai tổng thể (Hypothesized means
difference).

18
Bảng 5. Kết quả so sánh hai mẫu phương sai không bằng nhau.

t-Test: Two-Sample Assuming Unequal Variances

x y
Mean 27.44 27.05
Variance 0.093 0.26571
Observations 5 8
Hypothesized Mean
Difference
0
df 11
t Stat 1.71333
P(T<=t) one-tail 0.05733
t Critical one-tail 1.79588
P(T<=t) two-tail 0.11466
t Critical two-tail 2.20099
- Giá trị t thực nghiệm tính theo công thức: t = (a
1
− a
2
)/(s
1
2
/n
1
+ s
2
2
/n
2
).

- Giá trị P một phía và hai phía.
- Các giá trị t lý thuyết một phía và hai phía.
Trong ví dụ trên ta có:
- Giá trị t một phía: 1.79588.
- Giá trị t hai phía: 2.20099.
- Giá trị P một phía: 0.05733.
- Giá trị P hai phía: 0.11466.
- t thực nghiệm
= 1.713325.
Chú ý rằng kết quả bảng 4 và 5 khác nhau ở giá trị t thực nghiệm (vì dùng công
thức khác khi tính phương sai chung), điều này kéo theo giá trị P một phía và hai phía cũng
khác. Theo kết quả trên giả thuyết H
0
vẫn được chấp nhận ở mức ý nghĩ 0.05 do t thực
nghiệm nhỏ hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều
lớn hơn mức ý nghĩa
α = 0.05).
V. Phân tích phương sai
Phân tích phương sai là công cụ chủ yếu để phân tích các số liệu khi theo dõi
ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng
lên một (hay nhiều) chỉ số đầu ra. Để thu thập số liệu, thí nghiệm cần được thiết kế phù
hợp với mục đích nghiên cứu và điều kiện cụ thể nơi tiến hành thí nghiệm. Để phân tích

19
một nhân tố, thí nghiệm thường được thiết kế theo kiểu hoàn toàn ngẫu nhiên, kiểu khối
ngẫu nhiên đầy đủ, hay ô vuông La tinh. Để phân tích hai nhân tố, thí nghiệm được bố trí
theo kiểu trực giao, kiểu chia ô lớn, ô vừa, ô nhỏ, hoặc kết hợp vừa chia băng vừa chia ô.
Từ ba nhân tố trở lên thì cần bố trí thí nghiệm sao cho mỗi nhân tố có hai mức hay mỗi
nhân tố có ba mức.


5.1. Phân tích phương sai một nhân tố
Phân tích phương sai một nhân tố được sử dụng để phân tích số liệu khi theo dõi
ảnh hưởng của các mức của nhân tố tới kết quả, như ảnh hưởng của các công thức cho ăn
đến năng suất thịt lợn, ảnh hưởng của các công thức phun thuốc sâu đến tỷ lệ sâu bệnh
Để phân tích phương sai một nhân tố cần thiết kế thí nghiệm kiểu hoàn toàn ngẫu
nhiên, mỗi mức lặp lại một số lần, số lần lặp của các mức của nhân tố không cần phải bằng nhau.
Thiết kế thí nghiệm một nhân tố hoàn toàn ngẫu nhiên CRD. Gọi k mức của
nhân tố hay k công thức cần tiến hành là T
1
, T
2
, …, T
k
. Chẳng hạn trong thí nghiệm xem
xét ảnh hưởng của 11 loại thuốc phòng sâu bệnh tới năng suất của một giống lúa, nhân tố ở
đây chỉ gồm một yếu tố có 11 mức là 11 loại thuốc nên k = 11. Mỗi loại thuốc được thử
nghiệm trên một số ô thí nghiệm (hay đơn vị thí nghiệm), mỗi ô được coi là một lần lặp.
Nếu thí nghiệm 5 giống lúa và 11 loại thuốc trên và chỉ xét tác động chung của tổ hợp
giống và thuốc (G
i
× P
j
) tới năng suất lúa thì có thí nghiệm một nhân tố với k = 5× 11 = 55
công thức thí nghiệm. Số ô thí nghiệm (hay số lần lặp) cho mỗi công thức có thể chọn tuỳ
ý, không nhất thiết phải bằng nhau.
Phân tích phương sai một nhân tố được tiến hành với các dữ liệu được sắp thành
nhiều nhóm, mỗi nhóm là các lần lặp của một mức của nhân tố, nhằm tách biệt các phương
sai theo hai nguồn biến động nhân tố và sai số. Với i = 1, 2, …, k, mỗi công thức T
i
được

thực hiện trên n
i
ô thí nghiệm, các kết quả thực nghiệm x
ij
được coi như một mẫu thực
nghiệm đối với biến ngẫu nhiên X
i
. Dựa vào kết quả thực nghiệm cần đưa ra suy đoán về
việc các trung bình m
i
của các biến X
i
là như nhau (tức là các công thức không ảnh hưởng
gì đáng kể tới chỉ số cần khảo sát) hay là khác nhau. Có nhiều kiểu thiết kế thí nghiệm để
giải quyết bài toán này. Giả sử nhân tố có k mức, mức i được lặp lại n
i
lần, như vậy tổng
số có n =
∑ n
i
quan sát, hay còn nói là có n ô thí nghiệm. Nếu bố trí n ô thí nghiệm hoàn
toàn ngẫu nhiên ta có
thiết kế thí nghiệm hoàn toàn ngẫu nhiên (completely randomized
design). Khi tiến hành thí nghiệm kiểu này phải dùng n phiếu ghi từ 1 đến n, rút thăm ngẫu
nhiên n
1
phiếu để có các ô thí nghiệm đối với công thức 1, rút tiếp n
2
phiếu để có các ô thí
nghiệm đối với công thức 2, , n

k
ô cuối cùng là của công thức k. Việc rút thăm ngẫu
nhiên được thực hiện trên toàn bộ các ô thí nghiệm.
Việc tính toán và kết luận dựa trên mô hình: x
ij
= μ + α
i
+ e
ij
(i = 1, …, k và j = 1,
, n
i
), với x
ij
là kết quả của lần lặp thứ j của mức i, μ là trung bình chung, α
i
là ảnh hưởng
của mức i của nhân tố, còn e
ij
là sai số ngẫu nhiên. x
ij
có trung bình m
i
= μ +α
i
. Các sai số
e
ij
được giả thiết là độc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai σ
2

.
Các
α
i
được coi là thoả mãn điều kiện
k
i
i1=
α

= 0.

20
a. Các bước thực hiện
Số liệu được điền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng
với một mức của nhân tố), ô đầu tiên ghi tên mức, các ô tiếp theo ghi số liệu. Chọn
Tools>
Data Analysis > Anova: Single Factor và khai báo:
- Input range: khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn bộ các ô
chứa tên mức và toàn bộ các số liệu).
- Grouped by: Columns (số liệu theo cột) hoặc Rows (số liệu theo hàng).
- Label in First column: nhãn hàng đầu.
- Alpha: 0.05 (mức ý nghĩa
α).
- Output range: miền xuất kết quả ra.
b. Phân tích kết quả
- Kết quả in ra gồm các thống kê cơ bản cho từng mức (trung bình, độ lệch
chuẩn ) và bảng phân tích phương sai.
- Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F lý thuyết) thì các
công thức có tác động khác nhau tới kết quả, ngược lại các công thức không có khác biệt

đáng kể.
- Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước
tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất.
Ví dụ 9: Thí nghiệm ảnh hưởng của các loại thuốc đến năng suất lúa (11 loại thuốc
là T1 đến T11, 4 cột số liệu là năng suất thu được), số liệu thu được cho trong bảng 6, các
lệnh thực hiện trong Excel được minh hoạ trong hình 10, còn kết quả cho trong bảng 7.
Bảng 6. Ảnh hưởng của các loại thuốc đến năng suất (ns) lúa
Loại thuốc NS ô 1 NS ô 2 NS ô 3 NS ô 4
T1 3.187 4.61 3.562 3.217
T2 3.39 2.875 2.775
T3 2.797 3.001 2.505 3.49
T4 2.832 3.103 3.448 2.255
T5 2.233 2.743 2.727
T6 2.952 2.272 2.47
T7 2.858 2.895 2.458 1.723
T8 2.308 2.335 1.957
T9 2.013 1.788 2.248 2.115
T10 3.202 3.06 2.24 2.69
T11 1.192 1.652 1.075 1.03


21

Hình 10. Thực hiện phân tích phương sai một nhân tố trong Excel.
Bảng 7. Kết quả phân tích phương sai
Groups Count Sum Average Variance
T 1 4 14.576 3.644 0.443686
T 2 3 9.04 3.013333 0.108908
T 3 4 11.793 2.94825 0.171874
T 4 4 11.638 2.9095 0.253934

T 5 3 7.703 2.567667 0.084065
T 6 3 7.694 2.564667 0.122321
T 7 4 9.934 2.4835 0.296198
T 8 3 6.6 2.2 0.044469
T 9 4 8.164 2.041 0.037706
T 10 4 11.192 2.798 0.184963
T 11 4 4.949 1.23725 0.081114


ANOVA
Source of
Variation
SS df MS F P-value F crit
Between
Groups
15.1039 10 1.51039 8.54171 2.66E-06 2.1768
Within
Groups
5.1279 29 0.17682
Total 20.2319 39

22
Từ bảng 7 ta kết luận các công thức có tác động khác nhau tới năng suất lúa.
Giải thích: Như đã nói ở trên, phân tích phương sai một nhân tố tách biệt các
phương sai theo hai nguồn biến động nhân tố và sai số. Theo bảng 7, ta có:
- Tổng sai lệch giữa các nhóm do các mức của nhân tố tạo nên là SST (sum of
squares treatment) =
()
k
2

ii
i1
nx x
=


= = 15.1039. Do đó
tổng sai lệch trung bình giữa các nhóm là MSST = SST/ (k
−1) = 15.1039/ 10 = 1.5139.
ii
22
nn
kk
ij i ij
i1 j1 i=1 j=1
x/n x/
==
⎛⎞ ⎛ ⎞

⎜⎟ ⎜ ⎟
⎝⎠ ⎝ ⎠
∑∑ ∑∑
n
- Tổng sai lệch trong từng nhóm do các sai số e
ij
gây nên là SSE (sum of squares
error) =
()
i
n

k
2
ij
i1 j1
xx
==

∑∑
= = 5.1279. Do đó tổng sai lệch trung
bình trong từng nhóm là MSSE = SSE/ (n
−k) = 5.11279/ 29 = 0.12682.
ii
2
nn
kk
2
ij ij i
i=1 j=1 i 1 j 1
xx
==
⎛⎞⎛⎞

⎜⎟⎜⎟
⎝⎠⎝⎠
∑∑ ∑ ∑
/n
Với các giả thiết đã nêu, có thể chứng minh được đại lượng thống kê F =
MSST/MSSE (đối với mẫu lý thuyết) tuân theo phân phối Fisher với bậc tự do là (k
−1,
n

−k). Do đó, nếu F thực nghiệm = 8.54171 > F lý thuyết = f (0.05; 10, 29) = 2.1768 thì giả
thuyết “các công thức sử dụng thuốc không ảnh hưởng tới năng suất (trung bình) của lúa”
bị bác bỏ ở mức ý nghĩa
α = 0.05. Điều này có nghĩa là các công thức sử dụng thuốc có tác
động khác nhau tới năng suất lúa.
Ngoài ra, từ bảng 7 có thể nhận xét rằng công thức T1 cho năng suất cao nhất. Tuy
nhiên, để kết luận chính xác hơn về điều này cần so sánh trung bình giữa các nhóm.
Bảng 8. So sánh trung bình giữa các nhóm
Groups Count Sum Average
T1 − Ti
T1 4 14.576 3.6440
T2 3 9.040 3.0133 0.6307
T3 4 11.793 2.9483 0.6958
T4 4 11.638 2.9095 0.7345
T10 4 11.192 2.7980 0.8460
T5 3 7.703 2.5677 1.0763
T6 3 7.694 2.5647 1.0793
T7 4 9.934 2.4835 1.1605
T8 3 6.600 2.2000 1.4440
T9 4 8.164 2.0410 1.6030
T11 4 4.949 1.2373 2.4068
Phần mềm Excel không cho phép so sánh các trung bình của các nhóm ứng với
các mức của nhân tố (các công thức). Tuy nhiên, nếu cần so sánh trung bình m
i
(với n
i
lần
lặp) với trung bình m
j
(n

j
lần lặp) người dùng có thể tự tính thêm LSD (Least Significance
Difference) theo công thức LSD = t
α,df
× SQRT(s
2
(1/n
i
+ 1/n
j
)), trong đó s
2
là phương sai

23
chung được ước lượng bởi trung bình sai số bình phương trong nội bộ nhóm (MS within
groups),
α = 1 − p, và t
α , df
là giá trị t của bảng Student ứng với mức ý nghĩa α và df bậc tự
do. t
α , df
có thể tìm được bằng cách tra bảng số hay bằng hàm TINV trong Excel.
Trong ví dụ 9, để so sánh ảnh hưởng của thuốc T1, T2 đến năng suất lúa, trước hết
cần tính trị tuyệt đối | m
1
− m
2
| của hiệu các năng suất trung bình m
1

, m
2
khi sử dụng 2 loại
thuốc trên (chính bằng 0.6307, xem bảng 8). Ứng với t = t(0.05 , 29) = 2.045 (tra từ bảng
Student)có s
2
= 0.17682. LSD được tính cho các trường hợp r
i
, r
j
bằng 3 hoặc 4 như sau:
LSD= 2.045
× SQRT( 0.17682×(1/3+1/4) = 0.656739049;
LSD= 2.045
× SQRT( 0.17682×(1/4+1/4) = 0.608022212;
LSD= 2.045
× SQRT( 0.17682×(1/3+1/3) = 0.702083575.
Trong trường hợp tính ảnh hưởng của thuốc T1, T2 tới năng suất trung bình của lúa
ta có: | m
1
- m
2
| = 0.6307 <LSD = 0.656739049 nên công thức T1, T2 không khác nhau rõ
rệt. Các kết quả tính toán tương tự được ghi trong bảng 8 cho thấy công thức T1 và T2 là
không khác nhau rõ rệt, công thức T1 khác các công thức từ T3 đến T11. Tương tự có thể
so sánh công thức T2 với các công thức từ T3 đến T11. Công thức T1 cho năng suất cao
nhất là tốt nhất, công thức T11 cho năng suất nhỏ nhất là kém nhất.
5.2. Phân tích phương sai hai nhân tố không tương tác
Khi phân tích phương sai hai nhân tố A và B có thể xảy ra các hai trường hợp:
trường hợp A và B không tương tác (biến động gây nên bởi tác động đồng thời của A và B

gần sát 0) và trường hợp A và B tương tác (nếu trái lại). Phân tích phương sai một nhân tố
bố trí kiểu khối ngẫu nhiên đầy đủ được coi là trường hợp riêng của phân tích phương sai
hai nhân tố không tương tác (nhân tố khối là nhân tố thứ hai không tương tác với nhân tố
thứ nhất).

Thiết kế thí nghiệm theo khối ngẫu nhiên đầy đủ RCBD.
Giả sử có k công thức,
mỗi công thức lặp lại r lần. Tất cả có n = k
×r ô thí nghiệm. Để tránh các tác động của một
số yếu tố ngoại cảnh lên kết quả đầu ra của một số công thức nào đó, chúng ta cần bố trí
các ô thí nghiệm một cách hợp lý. Trong điều kiện không có đủ n ô thí nghiệm đồng đều,
cần thiết kế thí nghiệm bằng cách chia thí nghiệm thành r khối với k ô trong mỗi khối
tương đối đồng đều về mọi mặt sao cho các tác động phụ không ảnh hưởng tới thí nghiệm.
Sau đó, xét khối thứ nhất và làm k phiếu để bắt thăm xem k công thức xếp vào k ô nào.
Tiếp tục bắt thăm cho khối thứ hai, thứ ba, . . . cho tới khối thứ r.
Việc chia khối thí nghiệm nói chung phụ thuộc vào địa điểm thí nghiệm. Chẳng
hạn, cần chia khối thẳng góc với một hướng biến động có ảnh hưởng đến kết quả thí
nghiệm như hướng gió, hướng chảy của nước ngầm, hướng nắng, hướng dốc, hướng thay
đổi của độ phì của đất sao cho mỗi công thức có mặt một lần ở một mức của biến động.
Việc chia khối thí nghiệm cũng có thể phụ thuộc vào thời gian tiến hành thí nghiệm với các
tác động của thời tiết. Nếu mỗi ngày chỉ làm được k thí nghiệm và ta chỉ có r ngày để làm

24
tất cả các thí nghiệm, thì cần phải phân chia việc thực hiện các thí nghiệm ra r ngày, như
vậy ở đây ngày là khối.
Một cái lợi nữa là trong thiết kế thí nghiệm RCBD có thể chọn khối khác nhau về
không gian hoặc khác nhau về thời gian (nhưng không được khác nhau quá xa đến mức có
sự thay đổi điều kiện thí nghiệm). Do đó, kết luận rút ra có tính khái quát cao hơn khi so
với kết luận đạt được trong thiết kế thí nghiệm hoàn toàn ngẫu nhiên (tập trung toàn bộ các
thí nghiệm vào một nơi hay cùng một thời gian).

Việc tính toán và kết luận dựa trên mô hình: x
ij
= μ + α
i
+ β
j
+ e
ij
(i = 1, …, k và j
= 1, , r), với x
ij
là kết quả của mức i ở khối j, μ là trung bình chung, α
i
là ảnh hưởng của
mức i của nhân tố,
β
j
là ảnh hưởng của khối j, còn e
ij
là sai số ngẫu nhiên. Các sai số e
ij

được giả thiết là độc lập và tuân theo phân phối chuẩn với kỳ vọng 0 và phương sai
σ
2
. Các
tham số
α
i
và β

j
được coi là thoả mãn điều kiện
k
i
i1=
α

=
r
j
j1=
β

= 0.
a. Các bước thực hiện
Khi phân tích phương sai hai nhân tố không tương tác, số liệu cần được sắp xếp
theo cách sau: hàng là các mức của nhân tố thứ nhất, cột là các mức của nhân tố thứ hai
(trong trường hợp cần phân tích phương sai một nhân tố bố trí kiểu khối ngẫu nhiên thì
hàng là các mức của nhân tố, cột là các khối ngẫu nhiên).
Chọn
Tools >Data Analysis >Anova: Two Factor Without Replication sau đó khai
báo tiếp các thông tin trong hình 11 và kích OK.

Hình 11. Hộp thoại khai báo để phân tích phương sai không tương tác
Ví dụ 10: Bố trí thí nghiệm phân tích nhân tố 1 (có bốn mức) theo khối ngẫu nhiên đầy đủ
(nhân tố 2 có bốn khối), ta thu được các số liệu như trong bảng 9.

25

×