1
Ứng dụng phần mềm SPSS 12.0 trong xử lý thống kê
I/ GIỚI THIỆU CHUNG
1. Sơ lược về phần mềm SPSS
SPSS là tên viết tắt của cụm từ Statistical Package for the Social Sciences. Đây là một phần mềm
được sử dụng rộng dãi nhất để phân tích thống kê trong nghiên cứu khoa học tự nhiên và khoa học
xã hội nói chung. Phiên bản đầu tiên được phát hành năm 1968 do Công ty liên hợp SPSS- Chicago
Mỹ sản xuất. Đến tháng 7 năm 2007 đã có phiên bản thứ 16 (SPSS 16.0)
Môi trường làm việc của SPSS gồm hai phần: phần soạn thảo dữ liệu đầu vào (SPSS Data Editor) và
phần kết quả đầu ra (Output – SPSS Viewer). SPSS Data Editor gồm Data Viewer và Variable
Vierer cho phép nhập số liệu đầu vào trực tiếp hoặc add file số liệu ở dạng Excel.xml, đồng thời định
dạng các biến số theo dạng số (number) hay dạng trữ (String). Output – SPSS Viewer chứa các kết
quả mong muốn sau khi chạy các phép toán tương ứng.
Tương tự như các phần mềm Genstar và Minitab, SPSS 12.0 cho phép sử lý các phép phân tích
thống kê thông thường như:
Descriptive statistics: Cross tabulation (sắp xếp thành bảng, hàng đối xứng nhau);
Frequencies (tần số, tần suất….); Descriptive (mô tả, diễn tả…); Explore (khảo sát tỉ mỉ…);
Descriptive Ratio Statistics (thống kê mô tả tỷ lệ, tỷ số….).
Bivariate statistics (thống kê hai biến số): Means (trung bình); t-test (phép thử, kiểm tra,
phân tích…); ANOVA (phân tích phương sai); Correlation (tương quan) bao gồm bivariate (hai
biến), partial (tương quan từng phần, tương quan không hoàn toàn), distances (tương quan dời dạc,
lỏng lẻo); Nonparametric tests (kiểm tra thông số giới hạn).
Prediction for numerical outcomes: Linear regression (dự đoán về kết quả bằng số dạng hồi
qui tuyến tính…)
Prediction for identifying groups: Factor analysis (phân tích nhân tố); cluster analysis (phân
tích cho đám đông) bao gồm two – step (hai bậc), K-means (số K), hierarchic (có thứ bậc).
SPSS cũng cho phép lưu và chạy lại các thuật toán giúp việc kiểm tra kết quả dễ dàng. Nhưng phần
Output – SPSS Viewer đã được thiết kế tiện lợi hơn cho người sử dụng. Mục này bao gồm các bảng
kết quả (ví dụ như bảng phân tích phương sai, bảng thống kê mô tả….) hay các đồ thị có thể được
thay đổi định dạng trực tiếp cho phù hợp với form của bài viết và có thể copy trực tiếp vào bài viết
2. Cài đặt SPSS 12.0 cho máy tính
- Double click vào biểu tượng
Setup.exe
trong thư mục SPSS 12.0 để cài đặt.
- Nhấn Next đến khi cửa sổ dưới đây xuất hiện
2
II/ MỘT SỐ KIỂU THIẾT KẾ THÍ NGHIỆM VÀ ỨNG DỤNG SPSS ĐỂ SỬ LÝ SỐ LIỆU
2.1. Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn (CRD – Completely
Randomised Design)
Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn có nghĩa là các nghiệm thức được phân vào các
đơn vị thí nghiệm một cách hoàn toàn ngẫu nhiên, hay mỗi đơn vị thí nghiệm có một cơ hội giống
nhau để được tiếp nhận một nghiệm thức.
Thiết kế thí nghiệm theo kiểu này rất hiệu quả trong trường hợp các đơn vị thí nghiệm đồng đều
nhau và ngược lại sẽ không hiệu quả nếu các đơn vị thí nghiệm không đồng nhất. Bao gồm thiết kế
thí nghiệm ngẫu nhiên hoàn toàn một nhân tố và thiết kế thí nghiệm ngẫu nhiên hoàn toàn đa nhân
tố. Các nhân tố trong thí nghiệm có thể chỉ có nhân tố định tính hoặc định lượng hoặc bao gồm cả
hai. Trong các nhân tố thí nghiệm lại có thể có nhiều mức nhân tố. Thí nghiệm một nhân tố cung cấp
thông tinh về ảnh hưởng chính chỉ của một nhân tố thí nghiệm. Thí nghiệm đa nhân tố Có hai hoặc
nhiều hơn nhân tố được nghiên cứu đồng thời. Có hiệu quả hơn so với tiến hành từng thí nghiệm
riêng lẻ và cung cấp thông tin về ảnh hưởng chính và ảnh hưởng của tương tác giữa các nhân tố.
- Mở fine Licence 12.0SPSS để copy dòng số
55345 26752 51345 33006 86803 93573 71895 65752 87
sau đó paste vào ô Licence code.
- Click Update để tiếp tục cài cặt.
- Nhấn Next/Next/Install quá trình cài đặt mất vài phút, nhấn Finish để hoàn tất cài đặt.
Note:
+ Nếu quá trình cài đặt báo lỗi thì có thể phải gỡ bỏ các chương trình Anti virut thường không tương thích
với SPSS 12.0 (AVG, Noton….), sau khi cài đặt SPSS hoàn tất có thể cài đặt lại các chương trình Anti
virut này.
+ Vào Start/ Program để đưa biểu tượng của SPSS 12.0
SPSS 12.0 for Windows.lnk
ra màn hình, để tiện lợi
cho việc sử dụng.
3
* Mô hình ANOVA một nhân tố
y
ij
=μ+A
i
+e
ij
– y
ij
: Giá trị của biến phụ thuộc của con vật j trong nghiệm thức i (i=1,…a; j=1,…n)
– i chỉ số mức của nhân tố, j chỉ số lần lặp lại
– μ: Là trung bình tổng thể
– A
i
: Là ảnh hưởng cố định hoặc ngẫu nhiên của nhân tố nghiên cứu với mức i
– e
ij
: Là hiệu dư, IID N(0,σ2), independent identically distributed
1. Tình huống 1: Nghiên cứu ảnh hưởng của 3 mức protein 14%; 17%; 18% trong khẩu phần đến
tăng trọng của lợn lai F1 (MC x ĐM) trong giai đoạn sinh trưởng. Có 24 ô chuồng và 24 con lợn.
Các con lợn này tương đồng về các yếu tố tuổi tác, trọng lượng…
a. Phân tích tình huống
- Nhân tố thí nghiệm: 1 nhân tố, là mức protein.
- Mức nhân tố: 3 mức (14% pro, 17% pro, 18% pro)
- Kiểu thiết kế thí nghiệm: ngẫu nhiên hoàn toàn.
- Đơn vị thí nghiệm: mỗi cá thể lợn.
- Số lần lặp lại: 24/3 = 8 lần.
b.Thiết kế thí nghiệm (bằng Excel)
- B1: Liệt kê danh sách các ô chuồng tương ứng cho từng cá thể lợn thí nghiệm (ochuong)
– B2: Dùng hàm RAND() trong EXCEL để gán các con số ngẫu nhiên cho các ô chuồng (Rand1)
sau đó copy và past special các con số này tại đúng vị trí ấy.
– B3: Dùng hàm SORT trong thẻ DATA, có thể dùng ascending hay descending, SORT theo số
ngẫu nhiên vừa mới tạo (Rand1), chú ý bao gồm cả số ô chuồng (ochuong)
– B4: Liệt kê các mức protein theo thứ tự 18%, 17%, 14%; 18%, 17%, 14%; hoặc ngược lại. Đồng
thời tạo số ngẫu nhiên thứ 2 (Rand 2).
– B5: SORT lần thứ 2 theo cột vùng chứa 2 cột mức protein (muc protein) và số ngẫu nhiên 2
(Rand 2).
– B6: SORT theo cột vùng chứa 2 cột ochuong và muc protein.
B¶ng 1
.
B¶ng tãm t¾t AN
OVA trong thí nghiệm kiểu CRD với 1 nhân tố
Nguån biÕn ®éng df MS F
Gi÷a c¸c nhãm/
nhân
tố thí nghiệm
a-1 MS
T
MS
T
/MS
E
Trong c¸c nhãm a(n-1) MS
E
Tæng an-1
4
Hình1: Thiết kế thí nghiệm ngẫu nhiên hoàn toàn một nhân tố bằng Excel
Kết quả thiết kế:
Các mức protein được phân chia hoàn toàn ngẫu nhiên vào các cá thể lợn như sau:
– Mức protein 14% được phân chia vào các ô chuồng: 3; 7; 11; 19; 20; 22; 23; 24.
– Mức protein 17% được phân chia vào các ô chuồng: 5; 6; 13; 15; 16; 17; 18; 21.
– Mức protein 18% được phân chia vào các ô chuồng còn lại: 1; 2; 4; 8; 9; 10; 12; 14.
Chú ý: Về cách thiết kế thí nghiệm trên:
Cách làm như trên gọi là Double randomization tuy nhiên, theo tài liệu Design of Experiments:
Statistical Principles of Research Design and Analysis (Kuehl, 2000), thì ở bước thứ 4 có thể trực
tiếp phân các mức protein vào các ô chuồng, 18, 18…18; 17, 17…17; 14, 14…14. Cách làm như
vậy còn gọi là Single randomization
c. Nhập kết quả và xử lý bằng SPSS
* Nhập số liệu:
Giả sử kết quả tăng trọng (kg/tháng) trong thí nghiệm thu được như sau:
5
Như vậy, số liệu thí nghiệm sẽ được nhập theo cột tương ứng với từng mức protein trong Excel. Sau
đó file này được sử dụng để chạy bằng SPSS.
* Xử lý bằng SPSS
- Phân tích thống kê
Chọn thẻ Analyze/ Descriptive Statistics, sau đó tùy theo từng thí nghiệm và mục đích phân tích
thống kê để chọn các thẻ khác nhau. Frequencies cho phân tích theo tần số, tấn suất; Descriptives
cho phân tích mô tả; Exprore cho phân tích mô tả chi tiết; Ratio cho phân tích theo tỷ lệ, tỷ số.
Trong tình huống này, phép phân tích mô tả chi tiết cho biết thông tin đầy đủ nhất. Chọn Analyze/
Descriptive Statistic/ Exprore hộp thoại Exprore xuất hiện như sau:
Mức protein (%)
Cá thể
14%
17%
18%
1
11
15
13
2
3
14
14
3
6
10
6
4
10
12
10
5
7
12
12
6
8
6
12
7
9
9
16
8
2
10
13
6
Chọn tangtrong là biến phụ thuộc (đưa vào ô Dependent list), mucprotein là nhân tố thí nghiệm
(đưa vào ô Factor list).
Trong phần Display chọn Statistics nếu chỉ mong muốn có kết quả thống kê; Plots nếu chỉ mong
muốn có sơ đồ, đồ thị hay biểu đồ; Both nểu mong muốn có cả 2 kết quả trên. Vào từng hộp thoại
Statistics; Plots và Options để chọn các thông số, khoảng tin cậy cho giá trị trung bình (Confidence
Interval for mean) hay các dạng đồ thị, biểu đồ mong muốn. Chọn Discriptives/ Histogram cho dạng
biểu đồ, Boxplots /Factor level together cho trường hợp biểu đồ biểu diễn các mức nhân tố với nhau,
dạng biểu đồ khối hộp; Boxplots/ Dependent together cho trường hợp biểu đồ giữa các biến phụ
thuộc với nhau, dạng biểu đồ khối hộp).
Kết quả sau đây xuất hiện trong hộp Output -SPSS Viewer:
Explore
mucprotein
Case Processing Summary
Cases
Valid Missing Total
mucprotein
N Percent N Percent N Percent
14
8
100.0%
0
.0%
8
100.0%
17
8
100.0%
0
.0%
8
100.0%
tangtrong
18
8
100.0%
0
.0%
8
100.0%
7
Descriptives
mucprotein Statistic Std. Error
Mean
7.00
1.134
Lower Bound
4.32
95% Confidence
Interval for Mean
Upper Bound
9.68
5% Trimmed Mean
7.06
Median
7.50
Variance
10.286
Std. Deviation
3.207
Minimum
2
Maximum
11
Range
9
Interquartile Range
6
Skewness
520
.752
14
Kurtosis
894
1.481
Mean
11.00
1.018
Lower Bound
8.59
95% Confidence
Interval for Mean
Upper Bound
13.41
5% Trimmed Mean
11.06
Median
11.00
Variance
8.286
Std. Deviation
2.878
Minimum
6
Maximum
15
Range
9
Interquartile Range
4
Skewness
335
.752
17
Kurtosis
.004
1.481
Mean
12.00
1.052
Lower Bound
9.51
95% Confidence
Interval for Mean
Upper Bound
14.49
5% Trimmed Mean
12.11
Median
12.50
Variance
8.857
Std. Deviation
2.976
Minimum
6
Maximum
16
Range
10
Interquartile Range
3
Skewness
-1.084
.752
tangtrong
18
Kurtosis
2.032
1.481
8
14 17 18
mucprotein
2
4
6
8
10
12
14
16
tangtrong
19
Qua bảng Descriptives có thể rút ra một số kết quả cần thiết sau:
Bảng 1: Thống kê mô tả ảnh hưởng của các mức protein khác nhau đến tăng trọng của lợn
Nhóm Tbình Phương sai
14% 7 10,286
17% 11 8,286
18% 12 8,857
Qua biểu đồ trên, cho thấy các giá trị tăng trọng của lợn trong mỗi mức protein có phân bố chuẩn.
Các mức protein khác nhau có ảnh hưởng đến tăng trọng lợn khác nhau. Mức 18% protein cho tăng
trọng cao nhất trong các mức.
Đồng thời qua biểu đồ cũng cho biết các giá trị ngoại lai, khác thường. Ví dụ ở mức 18% có giá trị
tăng trọng 19kg/tháng là bất thường. Do vậy có thể kiểm tra lại số liệu trong trường hợp cần thiết,
kiểm tra từ Data viewer.
Tuy nhiên, các kết quả thống kế trên chỉ mới cho biết rất ít các thông số. Chưa chỉ ra sự sai khác về
ảnh hưởng của các mức protein khác nhau đến tăng trọng lợn. Do đó cần tiến hành kiểm tra phương
sai (ANOVA) và hậu ANOVA (kiểm tra post-hoc) để biết ảnh hưởng khác nhau của các nhóm như
thế nào. SPSS cho phép kiểm tra tất cả các yêu cầu trên bằng một phép toán.
Trước khi phân tích ANOVA, cần kiểm tra xem các số liệu có theo phân bố chuẩn hay không. Phép
toán Homogeneity tests cho phép kiểm tra xem có sự đồng nhất phương sai hay không, cũng có
nghĩa là số liệu có phân bố chuẩn hay không.
Homogeneity tests kiểm tra với giả thiết Ho: có sự đồng nhất phương sai của số liệu; đối thiết H1:
không có sự đồng nhất phương sai của các số liệu.
Phép kiểm tra đồng nhất phương sai trong SPSS tiến hành như sau:
9
Click vào thẻ Homogeneity test ở mục Options trong hộp thoại Univariate hoặc Homogeneity of
Variance test ở mục Options trong hộp thoại One- Way ANOVA. Kết quả kiểm tra đồng nhất phương
sai thể hiện ở dạng bảng sau:
Levene's Test of Equality of Error Variances(a)
Dependent Variable: tangtrong
F df1 df2 Sig.
.151
2
21
.861
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+mucprotein
2 4 6 8 10 12 14 16
tangtrong
0
1
2
3
4
5
6
Frequency
Mean = 10
Std. Dev. = 3.636
N = 24
Trong đó df1 là số bậc tự do của mức nhân tố; df2 là số bậc tự do của mẫu. Sig = p là mức ý nghĩa,
nếu Sig > 0,05 thì chấp nhận giả thiết Ho, có nghĩa có sự đồng nhất về phương sai của số liệu, ngược
lại Sig < 0,05 thì bác bỏ Ho, chấp nhận H1, khi đó các phép phân tích phương sai là không có ý
nghĩa.
Khi Sig > 0,05 thì tiến hành phân tích phương sai. Phép phân tích phương sai trong SPSS tiến hành
như sau:
Mean : cho phép so sánh các giá trị trung bình.
Chọn Analyze /Compare Means One-sample T Test: cho phép kiểm tra mẫu đơn.
Paired-samples T Test: cho phép kiểm tra cặp đôi.
One – way ANOVA: cho phép kiểm tra 1 chiều (1 yếu tố).
Univariate: cho trường hợp có một biến phụ thuộc
(bao gồm 1 hoặc nhiều mức nhân tố)
Hoặc chọn Analyze /General linear model Multivariate: cho trường hợp có từ hai biến phụ
thuộc trở lên (bao gồm một hoặc nhiều mức nhân tố)
Tuy nhiên, trong SPSS kiểm tra phân bố chuẩn và phân tích ANOVA thường không tiến hành đơn
lẻ. Có nghĩa là, trong cùng một hộp thoại cho phép lựa chọn đồng thời hai nội dung này. Khi máy
tính xử lý sẽ tự động kiểm tra phân bố chuẩn trước, sau đó phân tích phương sai.
Trong tình huống này, tiến hành xử lý trong SPSS như sau:
Đ
ồ thị kiể
m tra m
ức độ
tập trung, theo phân bố
chuẩn của số liệu
10
Analyze /Compare Means / One – Way ANOVA
Chọn tangtrong là biến phụ thuộc (ô Dependent list); mucprotein là nhân tố cố định (ô Factor).
Trong hộp thoại One- Way ANOVA:
Ở mục contrasts chọn polynomial (trong trường hợp khoảng cách giữa các mức nhân tố không đều
14% - 17% và 17% - 18%) đồng thời chọn linear (cho dạng phương trình bậc nhất); Quadratic (cho
dạng phương trình bậc hai); Cubic (cho dạng phương trình bậc ba); 4
th
; 5
th
…cho dạng phương trình
bậc 4, bậc 5…không chọn polynomial cho trường hợp khoảng cách các mức nhân tố bằng nhau.
Ở mục Post Hoc chọn các dạng so sánh Tukey (cho trường hợp số mẫu trong các nhóm bằng nhau);
LSD (cho trường hợp số mẫu trong các nhóm có thể không bằng nhau), Duncan….chọn mức ý 0,05
hoặc 0,01…Trong tình huống này chọn so sánh LSD và Tukey (để so sánh độ nhạy cảm của hai
phương pháp này), mức ý nghĩa p = 0,05.
Ở mục Option chọn Discriptis và Homogeneity of Variance test
Kết quả sau đây trong Output – SPSS Viewer:
Oneway
Descriptives
tangtrong
N Mean
Std.
Deviation
Std. Error
95% Confidence Interval for
Mean
Minimum Maximum
Mucprotein
Lower
Bound
Upper
Bound
14
8
7.00
3.207
1.134
4.32
9.68
2
11
17
8
11.00
2.878
1.018
8.59
13.41
6
15
18
8
12.00
2.976
1.052
9.51
14.49
6
16
Total
24
10.00
3.636
.742
8.46
11.54
2
16
Test of Homogeneity of Variances
tangtrong
Levene
Statistic df1 df2 Sig.
.151
2
21
.861
ANOVA
tangtrong
Sum of
Squares
df Mean Square
F Sig.
(Combined)
112.000
2
56.000
6.125
.008
Contrast
111.692
1
111.692
12.216
.002
Between
Groups
Linear Term
Deviation
.308
1
.308
.034
.856
Within Groups
192.000
21
9.143
Total
304.000
23
11
Post Hoc Tests
Multiple Comparisons
Dependent Variable: tangtrong
95% Confidence Interval
(I)
mucprotein
(J)
mucprotein
Mean
Difference
(I-J)
Std. Error Sig.
Lower
Bound
Upper
Bound
17 -4.000(*)
1.512
.039
-7.81
19
14
18
-5.000(*)
1.512
.009
-8.81
-1.19
17 14
4.000(*)
1.512
.039
.19
7.81
18
-1.000
1.512
.788
-4.81
2.81
18 14 5.000(*)
1.512
.009
1.19
8.81
Tukey HSD
17
1.000
1.512
.788
-2.81
4.81
LSD 14 17
-4.000(*)
1.512
.015
-7.14
86
18
-5.000(*)
1.512
.003
-8.14
-1.86
17 14 4.000(*)
1.512
.015
.86
7.14
18 -1.000
1.512
.516
-4.14
2.14
18 14
5.000(*)
1.512
.003
1.86
8.14
17
1.000
1.512
.516
-2.14
4.14
* The mean difference is significant at the .05 level.
Homogeneous Subsets
tangtrong
Subset for alpha = .05
mucprotein N
1 2
14
8
7.00
17
8
11.00
18
8
12.00
Tukey
HSD(a)
Sig.
1.000
.788
Means for groups in homogeneous subsets are displayed.
a Uses Harmonic Mean Sample Size = 8.000.
* Lưu câu lệnh cho các phép toán trong SPSS:
Click vào paste trong hộp thoại Univariate, 1 hộp thoại xuất hiện có tên Syntax – SPSS Syntax
Editor. Chọn File /Save (Save as) trên thanh công cụ để lưu câu lệnh, lần sau có thể mở file chứa câu
lệnh và chạy Run.
* Tạo biểu đồ, đồ thị trong SPSS
Chọn Graphs, sau đó chọn dạng biểu đồ mong muốn (thao tác vẽ biểu đồ trong SPSS giống như
trong Minitab).
12
14 17 18
mucprotein
2
4
6
8
10
12
14
16
tangtrong
19
2 4 6 8 10 12 14 16
tangtrong
0
1
2
3
4
5
6
Frequency
Mean = 10
Std. Dev. = 3.636
N = 24
Histogram
Biểu đồ dạng Boxplots
* Mô hình ANOVA hai nhân tố
yijk=μ+Ai+Bj + ABij +eijk
– yijk: Giá trị của biến phụ thuộc của con vật k trong nghiệm thức A mức i và nhân tố
B mức j (i=1,…a; j=1,…b; k=1,…n)
– μ: Là trung bình tổng thể
– Ai: Là ảnh hưởng cố định hoặc ngẫu nhiên của nhân tố A với mức i
– Bj: Là ảnh hưởng cố định hoặc ngẫu nhiên của B nghiên cứu với mức j
– ABij: Là ảnh hưởng cố định hoặc ngẫu nhiên của tương tác giữa i và j
– eijk: Là hiệu dư, IID N(0,σ2)
– k chỉ số lần lặp
Tình huống 2: Nghiên cứu hàm lượng canxi trong máu của gà thuộc 2 giới tính khác nhau do ảnh
hưởng của việc có hay không có xử lý hormone
– 20 con gà (10 trống, 10 mái) tương đồng nhau về các yếu tố tuổi tác, trọng lượng…
– Cơ sở nghiên cứu có đủ điều kiện để nuôi cá thể
B¶ng 2. Tãm t¾t ANOVA hai nh©n tè
Nguån biÕn ®éng
df MS F
Nh©n tè A a-1 MS
A
MS
A
/MS
W
Nh©n tè B b-1 MS
B
MS
B
/MS
W
A X B (a-1)(b-1) MS
AB
MS
AB
/MS
W
NgÈu nhiªn (trong
c¸c nhãm)
N
T
-ab MS
W
Tæng N
T
-1
Đồ thị kiểm tra mức độ tập trung,
theo phân bố chuẩn của số liệu
13
a. Phân tích tình huống:
– Nhân tố thí nghiệm: 2 nhân tố
• Giới tính: Trống và Mái
• Hormone: Có xử lý hormone, không xử lý hormone.
– Kiểu thiết kế thí nghiệm: Ngẫu nhiên hoàn toàn
– Đơn vị thí nghiệm: Mỗi cá thể gà
– Số lần lặp lại: 5
b. Thiết kế thí nghiệm ( sử dụng Excel 4.0)
c. Nhập số liệu và phân tích thống kê bằng SPSS
Nhập số liệu trực tiếp trên SPSS hoặc trên Excel rồi mở bằng SPSS.
14
Kiểm tra đồng nhất phương sai, phân tích phương sai, các thống kê mô tả, tất cả được thực hiện
bằng phép toán Analyze/ General Linear Model/ Univariate (cho trường hợp có 1 biến phụ thuộc,
như trong tình huống 1)
Univariate Analysis of Variance
Between-Subjects Factors
N
gioitinh M
10
T
10
Hormon C
10
K
10
Descriptive Statistics
15
Dependent Variable: Canxi mau
gioitinh Hormon Mean Std. Deviation N
C
25.620
4.1288
5
K
12.920
1.3809
5
M
Total
19.270
7.2957
10
C
27.020
2.0327
5
K
14.080
3.5647
5
T
Total
20.550
7.3482
10
C
26.320
3.1555
10
K
13.500
2.6209
10
Total
Total
19.910
7.1569
20
Levene's Test of Equality of Error Variances(a)
Dependent Variable: Canxi mau
F df1 df2 Sig.
1.717
3
16
.204
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+Hormon+gioitinh+gioitinh * Hormon
Tests of Between-Subjects Effects
Dependent Variable: Canxi mau
Source
Type III Sum
of Squares df Mean Square F Sig.
Corrected Model
830.026(a)
3
276.675
30.919
.000
Intercept
7928.162
1
7928.162
886.001
.000
Hormon
821.762
1
821.762
91.835
.000
gioitinh
8.192
1
8.192
.915
.353
gioitinh * Hormon
.072
1
.072
.008
.930
Error
143.172
16
8.948
Total
8901.360
20
Corrected Total
973.198
19
a R Squared = .853 (Adjusted R Squared = .825)
Kết quả trên cho thấy, trong bảng Levene's Test of Equality of Error Variances(a), Sig = 0,204
>0,05 có nghĩa có sự đồng nhất về phương sai (Giả thuyết Ho: Có sự đồng nhất phương sai; Đối
thiết H1: Không có sự đồng nhất phương sai).
Cũng có thể kiểm tra sự phân bố chuẩn của số liệu bằng phép toán Graphs/ Histogram
( Chọn Display normal curve để có đường cong phân bố chuẩn).
16
10.0 15.0 20.0 25.0 30.0
Canxi mau
0
1
2
3
4
5
Frequency
Mean = 19.91
Std. Dev. = 7.1569
N = 20
- Sự bổ sung Hormon có ảnh hưởng đến hàm lượng canxi trong máu (p = 0.000< 0.05) sự sai khác
có ý nghĩa thống kê.
- Giới tính không có ảnh hưởng đến hàm lượng canxi trong máu (p =0.353 > 0.05) sự sai khác
không có ý nghĩa thống kê).
- Không có ảnh hưởng tương tác giữa hormone và giới tính (p = 0.930 > 0.05).
(Các bảng kết quả, đồ thị trong SPSS có thể copy nguyên dạng và page vào Word dễ dàng).
* Trình bày kết quả trong báo cáo
Bảng 1. Ảnh hưởng của hormone đến hàm lượng canxi trong máu của gà (mg/100ml)
Hormon Trống Mái Trung bình
Có 27,020
a
25,620
a
26,320
a
Không có 14,080
b
12,920
b
13,50
b
Trung bình 20,550 19,270
a, b chỉ sự sai khác có ý nghĩa ở mức p= 0.05
2.2. Thiết kế thí nghiệm theo kiểu ngẫu nhiên hoàn toàn theo khối (RCB - Randomized
Completed Block Design).
Thế nào là thiết kế theo khối ngẫu nhiên hoàn toàn?
Thiết kế theo khối ngẫu nhiên hoàn toàn là thiết kế thí nghiệm có các đặc tính sau:
– Theo khối: Các nhóm của thiết kế ngẫu nhiên hoàn toàn
– Ngẫu nhiên: Áp dụng ngẫu nhiên trong mỗi khối
– Hoàn toàn:Tất cả nghiệm thức được phân vào trong mỗi khối
* Ưu điểm của thiết kế ngẫu nhiên hoàn toàn theo khối
17
RCB hiu qu hn CRD
Cỏc n v thớ nghim trong cỏc nhúm l tng ng vi nhau hn
Cỏc n v thớ nghim gia cỏc nhúm l khỏc nhau hn
Sai s thớ nghim l nh hn
* Mô hình của thiết kế thí nghiệm theo khối ngẫu nhiên hon ton
Mụ hỡnh tuyn tớnh khụng tng tỏc:
yij = à+ Bi + Dj + ij
yij : Trọng l ợng ban đầu
Bi : ảnh hửơng của khối
Dj: ảnh hửơng của nhân tố thí nghiệm
ij: hiệu d
à: Trung bình tổng thể.
Mụ hỡnh tuyn tớnh cú tng tỏc:
yijk = à + Bi + Dj + BDij + ijk
yijk = quan sỏt trờn cỏ th k cho nhõn t i, j.
BDij: l nh hng ca tng tỏc gia 2 nhõn t i, j.
Tỡnh hung:
- nh hng ca cỏc khu phn n tng trng ca ln
- 4 khu phn
- 6 con/khu phn
- Nuụi cỏ th
Cỏc n v thớ nghim c phõn chia mt cỏch ngu nhiờn vo cỏc khu phn.
a. Phõn tớch tỡnh hung:
ỏnh giỏ c nh hng ca cỏc khu phn n tng trng ln thỡ cn phi loi b hoc tớnh
toỏn c cỏc nh hng khỏc khụng phi t khu phn hiu chnh sai s do cỏc nh hng ny
mang li. Vỡ vy cỏc ln thớ nghim cn c phõn chia mt cỏch ngu nhiờn vo 4 khu phn, lm
th no ú trng lng ban u l ging nhau cho mi khu phn (khi lng ln thớ nghim
trong mi khu phn tng i ng nht). Thit k thớ nghim kiu khi ngu nhiờn hon ton.
- Nhõn t thớ nghim: khu phn n
- Mc nhõn t: 4 mc
- n v thớ nghim: mi cỏc th ln
- S ln lp li = s khi = 6.
b. Cỏch thit k thớ nghim
18
c. Nhập số liệu và xử lý thống kê
* Nhập số liệu (tiến hành trong Excel)
19
* Xử lý thống kê trong SPSS
Xử dụng phép phân tích Analyze/ General Linear Model/ Univariate
Chọn tangtrong cho Dependent Variable khauphan cho Fixed Factor, khoi cho random factor.
Trong hộp thoại Model chọn Custom, chọn các mô hình khauphan; khoi; khauphan*khoi để xem
ảnh hưởng cộng gộp của khối và phẩu phần.
Nhấn continue để tiếp tục. Trong hộp thoại Post hoc Mutiple Comparions chọn khauphan cho ô
Post Hoc test for. Chọn so sánh LSD hoặc Tukey tùy theo mục đích so sánh và yêu cầu của thí
nghiệm, sau đó nhấn continue để tiếp tục.
Trong hộp thoại Option chọn khauphan cho Display means for, chọn Descriptive Statistics cho các
mô tả thống kê và Homogeneity tests cho phép kiểm tra đồng nhất phương sai.
Kết quả sau đây xuất hiện trong hộp thoại Output – SPSS Viewer:
Univariate Analysis of Variance
Warnings
Post hoc tests are not performed for Khauphan because error term has zero degrees of
freedom.
Levene's Test of Equality of Error Variances(a)
Dependent Variable: tangtrong
F df1 df2 Sig.
.
23
0
.
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+Khauphan+khoi+Khauphan * khoi
20
Tests of Between-Subjects Effects
Dependent Variable: tangtrong
Source
Type III Sum
of Squares df Mean Square F Sig.
Hypothesis
8580104.167
1
8580104.167
803.067
.000
Intercept
Error
53420.833
5
10684.167(a)
Hypothesis
114712.500
3
38237.500
18.001
.000
Khauphan
Error
31862.500
15
2124.167(b)
Hypothesis
53420.833
5
10684.167
5.030
.007
khoi
Error
31862.500
15
2124.167(b)
Hypothesis
31862.500
15
2124.167
.
.
Khauphan *
khoi
Error
.000
0
.(c)
a MS(khoi)
b MS(Khauphan * khoi)
c MS(Error)
Expected Mean Squares(a,b)
Variance Component
Source
Var(khoi)
Var(Khauph
an * khoi) Var(Error)
Quadratic
Term
Intercept
4.000
1.000
1.000
Intercept,
Khauphan
Khauphan
.000
1.000
1.000
Khauphan
khoi
4.000
1.000
1.000
Khauphan * khoi
.000
1.000
1.000
Error
.000
.000
1.000
a For each source, the expected mean square equals the sum of the coefficients in the cells times the variance
components, plus a quadratic term involving effects in the Quadratic Term cell.
b Expected Mean Squares are based on the Type III Sums of Squares.
Khauphan
Dependent Variable: tangtrong
95% Confidence Interval
Khauphan Mean Std. Error
Lower Bound Upper Bound
A
606.667
.
.
.
B
496.667
.
.
.
C
596.667
.
.
.
D
691.667
.
.
.
Kiểm tra đồng nhất phương sai cho thấy không thể tiến hành kiểm tra Post hoc cho khauphan vì
đơn vị đo độ tự do df2 = 0.
Tuy nhiên, trong bảng kiểm tra các yếu tố ảnh hưởng Tests of Between-Subjects Effects vẫn cho thấy
ảnh hưởng của khẩu phần và ảnh hưởng của khối là có ý nghĩa với mức ý nghĩa p tương ứng là
0.000 và 0.007.
Nếu bỏ khoi ra khỏi ô Random factor và tiến hành phân tích chỉ ảnh hưởng của khauphan tới tăng
trọng thì kết quả sau đây trong hộp thoại Output – SPSS Viewer:
21
Univariate Analysis of Variance
Between-Subjects Factors
N
Khaupha
n
A
6
B
6
C
6
D
6
Descriptive Statistics
Dependent Variable: tangtrong
Khauphan Mean Std. Deviation N
A
606.67
28.048
6
B
496.67
69.474
6
C
596.67
64.704
6
D
691.67
85.186
6
Total
597.92
93.250
24
Levene's Test of Equality of Error Variances(a)
Dependent Variable: tangtrong
F df1 df2 Sig.
.933
3
20
.443
Tests the null hypothesis that the error variance of the dependent variable is equal across groups.
a Design: Intercept+Khauphan
Tests of Between-Subjects Effects
Dependent Variable: tangtrong
Source
Type III Sum
of Squares df Mean Square F Sig.
Corrected Model 114712.500(a
)
3
38237.500
8.967
.001
Intercept
8580104.167
1
8580104.167
2012.141
.000
Khauphan
114712.500
3
38237.500
8.967
.001
Error
85283.333
20
4264.167
Total
8780100.000
24
Corrected Total
199995.833
23
a R Squared = .574 (Adjusted R Squared = .510)
Pairwise Comparisons
Dependent Variable: tangtrong
95% Confidence Interval for
Difference(a)
(I) Khauphan (J) Khauphan
Mean
Difference
(I-J) Std. Error Sig.(a)
Lower Bound Upper Bound
B 110.000(*)
37.701
.009
31.356
188.644
C
10.000
37.701
.794
-68.644
88.644
A
D
-85.000(*)
37.701
.036
-163.644
-6.356
B A
-110.000(*)
37.701
.009
-188.644
-31.356
C
-100.000(*)
37.701
.015
-178.644
-21.356
D -195.000(*)
37.701
.000
-273.644
-116.356
C A
-10.000
37.701
.794
-88.644
68.644
B
100.000(*)
37.701
.015
21.356
178.644
D
-95.000(*)
37.701
.020
-173.644
-16.356
D A
85.000(*)
37.701
.036
6.356
163.644
B 195.000(*)
37.701
.000
116.356
273.644
C
95.000(*)
37.701
.020
16.356
173.644
Based on estimated marginal means
* The mean difference is significant at the .05 level.
a Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments).
22
Multiple Comparisons
Dependent Variable: tangtrong
95% Confidence Interval
(I) Khauphan (J) Khauphan
Mean
Difference
(I-J)
Std. Error Sig.
Lower Bound Upper Bound
B 110.00(*)
37.701
.039
4.48
215.52
C
10.00
37.701
.993
-95.52
115.52
A
D
-85.00
37.701
.143
-190.52
20.52
B A
-110.00(*)
37.701
.039
-215.52
-4.48
C
-100.00
37.701
.067
-205.52
5.52
D -195.00(*)
37.701
.000
-300.52
-89.48
C A
-10.00
37.701
.993
-115.52
95.52
B
100.00
37.701
.067
-5.52
205.52
D
-95.00
37.701
.087
-200.52
10.52
D A
85.00
37.701
.143
-20.52
190.52
B 195.00(*)
37.701
.000
89.48
300.52
Tukey HSD
C
95.00
37.701
.087
-10.52
200.52
LSD A B
110.00(*)
37.701
.009
31.36
188.64
C
10.00
37.701
.794
-68.64
88.64
D
-85.00(*)
37.701
.036
-163.64
-6.36
B A -110.00(*)
37.701
.009
-188.64
-31.36
C -100.00(*)
37.701
.015
-178.64
-21.36
D
-195.00(*)
37.701
.000
-273.64
-116.36
C A
-10.00
37.701
.794
-88.64
68.64
B
100.00(*)
37.701
.015
21.36
178.64
D
-95.00(*)
37.701
.020
-173.64
-16.36
D A 85.00(*)
37.701
.036
6.36
163.64
B
195.00(*)
37.701
.000
116.36
273.64
C
95.00(*)
37.701
.020
16.36
173.64
Based on observed means.
The mean difference is significant at the .05 level.
Cỏc kt qu trờn cho bit cỏc nh hng ca khu phn rừ rng hn, ng thi so sỏnh c nh
hng khỏc nhau ca cỏc khu phn. Trong trng hp ny, nh hng ca khoi ó c chuyn
vo nh hng ca cỏc khu phn.
2.3. Thit k thớ nghim theo kiu ụ vuụng Latinh (Latin Square Design- LSD)
Th no l thit k thớ nghim theo kiu ụ vuụng Latinh ?
Thit k thớ nghim theo kiu ụ vuụng Latinh l thit k ở đó các chữ la tinh có thể đ ợc tổ chức
nhóm thành một ma trận vuông, mỗi chữ chỉ đ ợc xuất hiện một và chỉ một lần mà thôi tại một ô
vuông trong mỗi hàng và mỗi cột.
Thit k thớ nghim kiu ụ vuụng Latinh cú cỏc c im sau:
- Cỏc n v thớ nghim c phõn t theo hai cỏch: cỏc hng v cỏc ct.
- Mi hng v mi ct l mt thit k thớ nghim RCB.
- Khụng cú s tng tỏc gia cỏc nhõn t.
23
a. ¦u ®iÓm
– Giảm MSE bằng cách xoá bỏ sự khác nhau giữa các hàng và các cột.
– Có hơn một bình phương có thể được sử dụng.
– Giảm số lặp lại do vậy giảm chi phí.
b. Nh îc ®iÓm
– Số hàng và số cột phải bằng số nghiệm thức.
– Giả thuyết không tương tác thường bị thiên lệch.
– Không nên sử dụng khi xác định ảnh hưởng lâu dài, tích luỷ của nhân tố thí nghiệm.
– Làm giảm độ tự do
Với LSD 2x2 thì df error=0
Với LSD 3x3 thì df error =4
Với LSD 4x4 thì df error=6
c. Tình huống:
– Nghiên cứu ảnh hưởng của chế độ ăn mùa Đông đến năng suất sữa.
– 4 khẩu phần thức ăn (A, B, C, D), mỗi loại được cho ăn 3 tuần/bò.
– Tổng lượng sữa trong tuần thứ 3 của mỗi giai đoạn được xác định.
– Cơ sở thí nghiệm có thể cung cấp 4 con bò.
* Phân tích tình huống:
- Nhân tố thí nghiệm: khẩu phần thức ăn, với 4 mức: A, B, C, D
- Đơn vị thí nghiệm: không phải là BÒ mà là BÒ và GIAI ĐOẠN
- Số lần lặp lại =4
- Có 2 nguồn biến động ngoài nhân tố thí nghiệm: Giống và Giai Đoạn (4 giống, 4 giai đoạn)
- Phương pháp phân tích: giống như phân tích theo khối ngẫu nhiên + 1 nguồn biến động.
Mô hình phân tích:
Trong đó:
- Dk: Ảnh hưởng của khẩu phần
- Yijk: Tổng lượng sữa của cá thể bò i, giai đoạn j và được ăn khẩu phần k
* Thiết kế thí nghiệm và sử lý thống kê:
- Thiết kế thí nghiệm:
Tất cả các hình vuông la tinh với một kích thước xác định đều có thể lấy từ các hình vuông
la tinh chuẩn
Hình vuông la tinh chuẩn có các ký hiệu của nghiệm thức là A, B, C, D… và các ký hiệu này
được viết theo thứ tự alphabet trong dòng đầu tiên và hàng đầu tiên
• Khi t=2 hoặc 3 thì có 1 hình vuông la tinh chuẩn (HVLTC)
y
ijk
= µ + G
i
+ P
j
+ D
k
+ ε
ijk
24
• Khi t =4 thì có 4 HVLTC
• Khi t = 5 thì có 56 HVLTC
• Khi t = 6 thì có 9408 HVLTC
• HVLTC với bất kỳ kích thước nào đều có thể tạo bằng cách
§ Viết các ký tự của hàng đầu tiên theo thứ tự alphabet A, B, C…
§ Hàng thứ 2 được xác định từ hàng thứ nhất bằng cách chuyển hàng thứ nhất một
ký tự về phía trái, chuyển ký tự A về phía cuối của hàng về phái bên phải
§ Hàng thứ 3 được xác định bằng cách chuyển hàng thứ 2 tương tự như trên
Làm thế nào để thiết kế ngẫu nhiên
Nếu chúng ta có HVLTC với kích thước t x t, thì quá trình ngẫu nhiên được thực hiện như
sau (HVLTC có thể tự tạo, có thể lấy từ bất cứ sách thiết kế thí nghiệm nào).
B1: Chọn ngẫu nhiên một hình vuông la tinh chuẩn (trong trường hợp này là hình vuông
Latinh chuẩn với 4 nghiệm thức).
A B C D
B C D A
C D A B
D A B C
B2: Ngẫu nhiên hóa trật tự tất cả các hàng ngoại trừ hàng thứ nhất
+ Để thực hiện B2 cần có các số ngẫu nhiên cho 3 hàng cuối (dùng hàm RAN()) để sắp xếp
trật tự 3 hàng cuối/hoán vị trật tự (nếu không có hình vuông Latinh chuẩn thì tiến hành ngẫu nhiên
hóa tất cả các hàng).
+ Dùng hàm Data/Sort để sort theo cột số ngẫu nhiên (RAND) chỉ với 3 hàng cuối.
25
B3: Ngẫu nhiên hóa trật tự tất cả các cột
+ Tạo số ngẫu nhiên theo hàng và sort theo hàng ( Data/Sort/Sort option/Sort left to right )
Sau khi sắp xếp hình vuông Latinh sẽ có dạng sau:
B4: Phân chia một cách ngẫu nhiên các nghiệm thức vào các ký tự
+ Cần có các số ngẫu nhiên để phân các nghiệm thức vào các ký tự.
+ Nếu HVLTC là đã được chọn một cách ngẫu nhiên từ các HVLTC có khả năng, thì
bước này không cần thiết.
ü Giả sử ta không chọn ngẫu nhiên HVLTC
ü Giả sử các nghiệm thức là x; y; z; t (các khẩu phần).
Như vậy ta đã tiến hành bố trí ngẫu nhiên các nghiệm thức (các nhân tố hoặc mức nhân tố thí
nghiệm, vdụ: khẩu phần) vào các ký tự (các cá thể thí nghiệm, các ô chuồng…).
Kiểu thiết kế trên đã phân ngẫu nhiên các nghiệm thức vào các đối tượng thí nghiệm và ngẫu
nhiên trong từng giai đoạn thí nghiệm (hoàn toàn ngẫu nhiên ở mỗi hàng và mỗi cột).