Tải bản đầy đủ (.docx) (21 trang)

PHÂN TÍCH PHƯƠNG SAI TRONG KIỂM TOÁN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (423.94 KB, 21 trang )

PHÂN TÍCH PHƯƠNG SAI
(Analysis of Variance)
I. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU
1. Trường hợp k tổng thể được giả định có phân phối chuẩn và có phương sai
bằng nhau
2. Trường hợp các tổng thể được giả định có phân phối bất kỳ
II. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU
1. Trường hợp có một quan sát mẫu trong một ô
2. Trường hợp có hơn một quan sát trong một ô
III. PHÂN TÍCH SÂU ANOVA
IV. THỰC HIỆN ANOVA TRÊN PHẦN MỀM EXCEL
BÀI TẬP

Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các
trung bình mẫu và thông qua kiểm định giả thuyết để kết luận. Trong chương này chúng ta đề
cập đến hai mô hình phân tích phương sai: phân tích phương sai một chiều và phân tích phương
sai hai chiều.
I. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU (One-Way Analysis of Variance)
Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố (Single
factor).
1. Trường hợp k tổng thể được giả định có phân phối chuẩn và có phương sai bằng nhau:
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể có phương sai bằng nhau dựa trên
những mẫu ngẫu nhiên độc lập gồm n1, n2 , , nk quan sát từ k tổng thể khác nhau có phân phối
chuẩn. Nếu trung bình của các tổng thể được kí hiệu là (1 , (2 , . , (k thì mô hình phân tích
phương sai một chiều được mô tả dưới dạng kiểm định giả thuyết như sau:
H
0
: µ
1
= µ
2


= = µ
k

Nghĩa là giả thuyết H0 cho rằng trung bình của k tổng thể khác nhau thì bằng nhau. Ðể kiểm
định giả thuyết này cần thực hiện các bước sau:
Bước 1:
Trước tiên, tính các trung bình mẫu từ những quan sát của các mẫu ngẫu nhiên độc lập Ĩ)
và trung bình chung của tổng thể Ĩ) từ trường hợp tổng quát như sau:
Bảng 5.1: Bảng số liệu tổng quát
Tổng thể
1 2 k
x
11
x
21
x
k1
x
12
x
22
x
k2

x
1n1
x
2n2
x
knk

• Tính trung bình mẫuĠ:
(i=1,2, ,k)
• Và trung bình chung của k tổng thểĠ:

Bước 2:
Tính trung bình bình phương giữa các nhóm trong tổng thể (MSG) từ tổng bình phương
giữa các nhóm (SSG), trung bình bình phương trong từng nhóm riêng biệt (MSW) từ tổng bình
phương trong từng nhóm (SSW), và tính tổng bình phương của toàn mẫu quan sát (SST).
Tính tổng bình phương trong từng nhóm riêng biệt SSW (Sum of Squares within-groups):
• Tính cho nhóm thứ nhất: ĉ
· Tính cho nhóm thứ hai:

Tương tự như vậy ta có thể tính cho nhóm thứ k. Vậy tổng bình phương trong từng nhóm được
tính như sau:
SSW = SS
1
+ SS
2
+ + SS
k
Tương tự như vậy ta có thể tính cho nhóm thứ k. Vậy tổng bình phương trong từng nhóm được
tính như sau:

SSW = SS
1
+ SS
2
+ + SS
k
Hoặc ĉ

Suy ra trung bình bình phương của mỗi nhóm:ĉ
Tính tổng bình phương giữa các nhóm - SSG (Sum of Squares between-groups):

Suy ra trung bình bình phương giữa các nhóm:ĉ
Tính tổng bình phương của toàn mẫu quan sát - SST (Total Sum of Squares):
SST = SSW + SSG
Hoặc: ĉ
Bước 3:
Cuối cùng kiểm định giả thuyết được quyết định dựa trên tỉ số F - là thương số giữa trung
bình bình phương giữa các nhóm (MSG) và trung bình bình phương trong từng nhóm
(MSW).

Bác bỏ giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau khi: F > F
k-1 ,
n-k ,
α

Biến ngẫu nhiên F k-1 , n-k theo một phân phối F được kí hiệu F v1 , v2 khi tra bảng. Sau đây
là biểu bảng tổng quát của ANOVA.
Bảng 5.2: bảng tổng quát của ANOVA
Source of Variation Sum of
Squares
(SS)
Degree
of Freedom
(D.f)
Mean Squares
(MS)
F
ratio

Between-Groups SSG k - 1
Within-Groups SSW n - k
Total SST n - 1
Ví dụ: Một quản trị Marketing muốn xem xét chi phí bán hàng trung bình trên tháng (1000đồng)
của một sản phẩm điện tử ở ba cửa hàng khác nhau: A, B và C. Số liệu của chỉ tiêu trên được thu
thập trong 7 tháng cho cửa hàng A, 7 tháng cho cửa hàng B và 6 tháng cho cửa hàng C như trong
bảng sau:
Ðặt giả thuyết H0: Chi phí bán hàng trung bình/sản phẩm của ba cửa hàng A, B và C đều bằng
nhau:
H0 : (1=(2 =(3
1. Tính trung bình mỗi nhóm (mỗi cửa hàng):
* Chi phí bán hàng trung bình/sản phẩm của cửa hàng A:

* Chi phí bán hàng trung bình/sản phẩm của cửa hàng B:

* Chi phí bán hàng trung bình/sản phẩm của cửa hàng C:

* Chi phí bán hàng trung bình/sản phẩm tính chung cho ba cửa hàng:

2. Tính tổng bình phương của cả 3 nhóm: SSW = SS1 + SS2 + SS3

Tương tự:
SS
2
= (24,6 - 23,2)
2
+ (23,1- 23,2 )
2
+ + (23,5- 23,2)
2

= 4,96
SS
3
= (22,7 - 22,9)
2
+ (21,9 - 22,9)
2
+ + (23,4 - 22,9)
2
= 3,46
⇒ SSW = 3,76 + 4,96 + 3,46 = 12,18
Suy ra, trung bình phương trong từng nhóm:

3. Tổng bình phương giữa các nhóm: SSG

Suy ra, trung bình bình phương giữa các nhóm:

4. Tính tổng bình phương chung : SST
SST = SSW + SSG = 12,18 + 21,55 = 33,73
5. Tính tỉ số F:ĉ
Tra bảng phân phối F với mức ý nghĩa ( =1%, ta có:

Vì F = 15,04 > 6,11 cho nên nguồn số liệu cho phép bác bỏ giả thuyết H0 rằng chi phí bán hàng
trung bình ở ba cửa hàng thì bằng nhau ở mức ý nghĩa 1%. Nghĩa là ở mức ý nghĩa 1% thì chi
phí bán hàng trung bình/ sản phẩm ở ba cửa hàng thì khác nhau. Sau đây là bảng kết quả phân
tích phương sai một chiều từ ví dụ trên.
Bảng 5.3: Bảng kết quả ANOVA một chiều

2. Trường hợp các tổng thể được giả định có phân phối bất kỳ (phương pháp phi tham số)
Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm n1, n2, , nk quan sát từ k tổng

thể có phân phối bất kỳ. Ta sử dụng kiểm định KRUSKAL- WALLIS bằng cách xếp hạng các
quan sát mẫu. Mặc dù số quan sát của nk mẫu là khác nhau nhưng khi xếp hạng thì được sắp xếp
một cách liên tục từ nhỏ đến lớn, nếu giá trị quan sát trùng nhau thì hạng xếp giống nhau bằng
cách dùng số trung bình cộng các hạng của chúng để chia đều.
Ðặt n = n1 + n2 + + nk là tổng các quan sát thuộc các mẫu, và R1 , R2, , Rk là tổng
của các hạng được xếp theo thứ tự của k mẫu. Kiểm định giả thuyết ở mức ý nghĩa ( cho
trường hợp này là:
H0 : (1 = (2 = = (k : Trung bình của k tổng thể đều bằng nhau. Ở đây ta sử dụng biến W thay
cho tỉ số F trong phần tính toán giá trị kiểm định.

Tra bảng phân phối (2 (Chi-Square) để so sánh, và giả thuyết H0 bị bác bỏ khi:
W > χ
2
k-1,
α
Trở lại ví dụ chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng ta có kết quả xếp hạng như
trong bảng 10.4. Trong cách xếp hạng này, chi phí nhỏ nhất trong ba cửa hàng là 19,9 (ngàn
đồng) được xếp hạng 1, tương tự hạng được xếp cho đến chi phí lớn nhất là 24,6 (ngàn đồng)
được xếp hạng 20. Những chi phí trùng nhau sẽ có hạng bằng nhau, chẳng hạn như có hai chi phí
là 20,3 (ngàn đồng) trong cửa hàng A, hạng thứ tự của chúng là 2 và 3. Vì vậy, hai giá trị 20,3 có
hạng bằng nhau và bằng (2+3)/2 = 2,5.
Bảng 5.4: Xếp hạng liên tục các dữ liệu ở ba cửa hàng. Ðvt: 1000 đồng

Suy ra:

= 11,10
Ở đây chúng ta có bậc tự do (k -1) = 2 và nếu kiểm định ở mức ý nghĩa 0,5%, khi tra bảng phân
phối (2 ta tìm được: (22;0,5% = 10,6
Bởi vì W = 11,10 > (22;0,5% = 10,6 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 0,5%, nghĩa là
chi phí bán hàng trung bình / sản phẩm ở ba cửa hàng không bằng nhau.

II. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU (Two -Way Analysis of Variance)
Phân tích phương sai hai chiều là xét đến hai yếu tố (hai nguyên nhân) ảnh hưởng đến
hiện tượng nghiên cứu. Ví dụ như trong phân tích phương sai một chiều cho ta biết kết quả chi
phí bán hàng trung bình/sản phẩm ở ba cửa hàng là khác nhau mà ở đây ta chưa nghiên cứu đến
trình độ tiếp cận của người bán hàng đến khách hàng hoặc kỹ năng đặc biệt của từng nhân viên
khi bán hàng Phân tích phương sai hai chiều sẽ có ý nghĩa trong trường hợp này.
1. Trường hợp có một quan sát mẫu trong một ô: (One observation per cell)
Giả sử xij là một quan sát thấy được ở cột thứ i và hàng thứ j trong một mẫu, như vậy
nếu có k cột và h hàng thì ta kí hiệu tổng số quan sát là n = k.h
Dạng tổng quát của quan sát mẫu trên k cột và h hàng như sau:
Bảng 5.5: Quan sát mẫu của phương sai hai chiều
Ðể phát triển một kiểm định giả thuyết cho rằng trung bình của các tổng thể thì bằng nhau cho k
cột . Ta thực hiện theo các bước sau:
Bước 1: Tính trung bình của riêng từng cột (từng tổng thể): group
(i=1, 2, , k)
Bước 2: Tính trung bình riêng cho từng hàng: block
(j = 1, 2, , h)
Bước 3: Tính trung bình chung của toàn mẫu quan sát :
Bước 4 : Tính
1. Tổng bình phương chung: SST = SSG + SSB + SSE

2. Tổng bình phương giữa các cột: between-groups

3. Tổng bình phương giữa các hàng: between-blocks

4. Tổng bình phương sai số: error

Bước 5: Tính các trung bình bình phương:
1. Trung bình bình phương giữa các cột:ĉ
2. Trung bình bình phương giữa các hàng:ĉ

3. Trung bình bình phương sai số: ĉ
Bước 6 : Tính giá trị kiểm định từ hai tỉ số F tương ứng cho hai cặp giả thuyết H0:
ĉ và ĉ
Bước 7 : Có 2 trường hợp trong quyết định bác bỏ giả thuyết H0 của ANOVA hai chiều một quan
sát trong một ô:
1. Ðối với F1, ở mức ý nghĩa (, giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu cột
thì bằng nhau (nếu F1 trong bảng kết quả là chỉ tiêu theo cột) có thể bị bác bỏ khi:
F
1
> F
k -1,(k-1)(h-1), a
2. Ðối với F2, ở mức ý nghĩa (, giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu
hàng thì bằng nhau (nếu F1 trong bảng kết quả là chỉ tiêu theo hàng) có thể bị bác bỏ khi:
F
2
> F
h -1,(k-1)(h-1),
α
Chú ý: F k -1,(k-1)(h-1), ( hay F h -1,(k-1)(h-1), ( là giá trị trong bảng phân phối F (phân phối
Fisher ở sau sách) có dạng F v1, v2, ( .
Bảng kết quả phân tích phương sai hai chiều được xử lý từ phần mềm Excel. hoặc SPSS, Kết quả
được in ra có dạng tổng quát như sau:
Bảng 5.6: Bảng kết quả tổng quát ANOVA hai chiều
Ví dụ: Trở lại ví dụ về chi phí bán hàng trung bình/sản phẩm nhưng có một số nội dung thay đổi.
Trước tiên, người bán hàng được xếp theo 6 nhóm tuổi:

Nhóm 1: ( 25 tuổi
2: 26 - 35
3: 36 - 45
4: 46 - 55

5: 56 - 65
6: > 65
Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có tuổi khác nhau ở 3
của hàng được thu thập trong bảng sau:
Bảng 5.7: Chi phí bán hàng trung bình/sản phẩm theo nhóm tuổi

Ðặt giả thuyết H0:
1. Chi phí bán hàng trung bình/sản phẩm ở các cửa hàng khác nhau đều bằng nhau (giả thuyết H0
theo chỉ tiêu cột).
2. Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau
thì bằng nhau (giả thuyết H0 theo chỉ tiêu hàng).
Bước 1 : Tính chi phí bán hàng trung bình/sản phẩm của 3 cửa hàng:
 • Cửa hàng A:ĉ =Ġ = 24,7
 • Cửa hàng B: Ġ2 = Ġ = 23,9
 • Cửa hàng C: Ġ3 =Ġ = 25,2
Bước 2 : Tính chi phí bán hàng trung bình /sản phẩm cho từng loại tuổi nhân viên:
Nhóm 1: Ġ=Ġ = 25
Nhóm 2: Ġ2 =Ġ = 24,Ķ
Nhóm 3: Ġ3 =Ġ = 25,4
Nhóm 4: Ġ4 =Ġ = 24
Nhóm 5: Ġ5 =Ġ = 23,9
Nhóm 6: Ġ6 =Ġ = 24,7
Bước 3 : Tính chi phí bán hàng trung bình/sản phẩm chung của 18 mẫu quan sát. Ta có:
n = k x h = 3 x 6 = 18
Và Ġ =Ġ = 24,6
Bước 4 :Tính các tổng bình phương:
SST = (25,1-24,6)
2
+ (24,7-24,6)
2

+ + (25,4-24,6)
2
= 11,88
SSG = 6 [(24,7-24,6)
2
+ (23,9-24,6)
2
+ (25,2-24,6)
2
] = 5,16
SSB = 3[ (25-24,6)
2
+ + (24,7-24,6)
2
] = 4,98
SSE = SST - SSG - SSB = 11,88 - 5,16 - 4,98 = 1,74
Bước 5 : Tính trung bình bình phương:

Bước 6 : Tính các tỉ số F và kết luận
• Tương ứng với giả thuyết H0 thứ nhất (trang 173) ta có:

Nếu kiểm định ở mức ý nghĩa ( =1%, tra bảng phân phối F thì giá trị
Fk -1,(k-1)(h-1),( = F2,10,1% = 7,56. Vậy F1 > F2,10,1% ta bác bỏ giả thuyết H0, nghĩa là chi
phí bán hàng trung bình/sản phẩm ở ba cửa hàng khác nhau thì khác nhau.
• Tương ứng với giả thuyết H0 thứ hai (trang 173) ta có:

Tra bảng ta có: F5,10,1% = 5,64. Bởi vì F2 > F5,10,1% ta có thể bác bỏ giả thuyết H0 ở mức ý
nghĩa 1%, nghĩa là chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ
tuổi khác nhau thì khác nhau. Sau đây là bảng kết quả ANOVA của ví dụ trên.
Bảng 5.8: Bảng kết quả ANOVA hai chiều

2. Trường hợp có hơn một quan sát trong một ô: (More than one obserration per cell)
Phát triển thêm từ trường hợp một quan sát trong một ô. Ðể tăng tính chính xác khi suy
rộng một vấn đề nào đó của mẫu cho một tổng thể, ta tăng mẫu quan sát (n) trong điều kiện cho
phép. Gọi (l) là số quan sát trong một ô, ta có dạng tổng quát của (l) quan sát trong một ô như
sau:
Bảng 5.9: Quan sát mẫu tồng quát của ANOVA nhiều quan sát trong một ô
Có ba giả thuyết H0 trong trường hợp phân tích phương sai hai chiều nhiều quan sát trong một ô
tương ứng với ba tỉ số F (F1,F2 và F3).
• Hai giả thuyết H0 tương ứng với tỉ số F1 và F2 giống như trong trường hợp phân tích
phương sai hai chiều một quan sát trong một ô (trang 173). Nghĩa là, trung bình chỉ tiêu
nghiên cứu của chỉ tiêu theo cột và theo hàng thì bằng nhau.
• Giả thuyết H0 tương ứng với tỉ số F3: không có sự ảnh hưởng qua lại giữa các chỉ tiêu theo
cột và hàng đến chỉ tiêu nghiên cứu.
Cũng từ ví dụ chi phí bán hàng (chỉ tiêu nghiên cứu), thay vi thu thập một quan sát trong một ô,
ta tiến hành thu thập ba quan sát trong một ô nhằm để tăng khả năng chính xác của việc suy rộng
cho tổng thể. Bảng sau đây thể hiện dữ liệu thu thập ba quan sát trong một ô:

Nhóm tuổi Cửa hàng
nhân viên A B C
1 25,0 25,4 25,2 24,0 24,4 23,9 25,9 25,8 25,4
2 24,8 24,8 24,5 23,5 23,8 23,8 25,2 25,2 25,4
3 26,1 26,3 26,2 24,6 24,9 24,9 25,7 25,9 25,5
4 24,1 24,4 24,4 23,9 24,0 23,8 24,0 23,6 23,5
5 24,0 23,6 24,1 24,4 24,4 24,1 25,1 25,2 25,3
Ðặt các giả thuyết H0:
1. Giả thuyết H0 trong trường hợp F1: Chi phí bán hàng trung bình/sản phẩm ở các cửa hàng
khác nhau đều bằng nhau.
2. Giả thuyết H0 trong trường hợp F2: Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi
các nhân viên có độ tuổi khác nhau thì bằng nhau.
3. Giả thuyết H0 trong trường hợp F3: không có tương tác giữa độ tuổi khác nhau của nhân viên

bán hàng bán ở ba cửa hàng khác nhau.
Bước 1 : Tính trung bình nhóm (group means):

Bước 2 : Tính trung bình theo hàng (block means):

Bước 3: Tính trung bình trong một ô (cell means)

Tương tự ta cũng tính được:


Bước 4 : Tính trung bình chung (overall mean):

Ðể đơn giản ta có thể tính trung bình chung theo công thức như dưới đây với điều kiện số
quan sát trong mỗi nhóm đềubằng nhau.
Ġ Ľ (Tổng các trung bình theo nhóm chia cho số nhóm)
Theo ví dụ ta có:

Bước 5 : Tính các tổng bình phương (SS) và các trung bình bình phương (MS):

Chú ý: ở đây xuất hiện thêm một chỉ tiêu SSI (sums of squares for interaction) là tổng bình
phương của sự tác động qua lại giữa chỉ tiêu cột và hàng.
Bước 6: Tỉ số F
1. F1 =Ġ được so sánh với Fk-1 ,k h (l-1),( hay còn được kí hiệu Fv1,v2, ( trong bảng phân phối
F. Quyết định bác bỏ giả thuyết H0 tương ứng với F1 khi: F1 > Fk-1 ,k h (l-1),(
2. F2 =Ġ được so sánh với Fh-1 ,k h (l-1),( trong bảng phân phối F. Ta có thể bác bỏ giả thuyết
H0 tương ứng với F2 khi: F2 > Fh-1 ,k h (l
-1),
α

3. F3 =Ġ được so sánh với F (k-1)(h-1), k h (l-1),( .Quyết định bác bỏ giả thuyết H0 tương ứng

với F3 khi: F3 > F (k-1)(h-1), k h (l-1),(
Sau đây là bảng kết quả ANOVA tổng quát:
Bảng 5.10: Bảng kết quả ANOVA hai chiều tổng quát
Nguồn biến động Tổng bình
phương
Ðộ tự do Trung bình
bình phương
Tỉ số F
Giữa các nhóm SSG (k-1) MSG F
1
Giữa cãc hàng SSB (h-1) MSB F
2
Giữa các nhóm và hàng SSI (k-1)(h-1) MSI F
3
Sai số SSE k.h(l-1) MSE
Tổng cộng SST khl -1
Và bảng kết quả ANOVA trong ví dụ trên là:
Nguồn biến động Tổng bình
phương
Ðộ tự
do
Trung bình
bình phương
Tỉ số F
Các cửa hàng (A,B và C) 7,1565 2 3,5783 92,46
Lọai tuổi nhân viên 13,1517 4 3,2879 84,96
Interaction 6,6045 8 0,8256 21,33
Error 1,1600 30 0,0387
Total 28,0727 44


Nhận xét:
Ta có k = 3 h = 5 l = 3 và ( = 1%
1. F1 = 96,42 và khi tra bảng phân phối F, ta có Fk-1 ,k h (l-1),(
= F
2,30,1%
= 5,39.
Vì: F1 = 96,42 > F2,30,1% = 5,39 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là chi
phí bán hàng trung bình / sản phẩm ở các cửa hàng khác nhau thì khác nhau.
2. F2 = 84,96 và khi tra bảng phân phối F, ta có Fh-1 ,k h (l-1),(
= F
4,30,1%
= 4,02.
Vì: F2 = 84,96 > F4,30,1% = 4,02 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là chi
phí bán hàng trung bình / sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì
khác nhau.
3. F3 = 21,33 và khi tra bảng phân phối F, ta có F (k-1)(h-1), k h (l-1),(
= F
8,30,1%
= 3,17.
Vì: F3 = 21,33 > F8,30,1% = 3,17 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là có
liên hệ và ảnh hưởng qua lại giữa độ tuổi khác nhau của nhân viên bán hàng bán ở ba cửa hàng
khác nhau đến chi phí bán hàng trung bình/sản phẩm.
Chú ý: Khi thực hiện ANOVA trên máy vi tính, trong bảng kết quả cho ta thêm một cột mang tên
F Critical, cột này sẽ là kết quả tra bảng dùng để so sánh với cột F ratio để quyết định bác bỏ hay
chấp nhận giả thuyết H0.

III. PHÂN TÍCH SÂU ANOVA (Further analysis of ANOVA)
Như đã trình bày, mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng
trung bình của các tổng thể thì bằng nhau. Tuy nhiên, sau khi phân tích và kết luận, có thể có một
trong hai khả năng xảy ra là chấp nhận giả thuyết H0 hoặc bác bỏ giả thuyết H0.

• Nếu chấp nhận giả thuyết H0 thì mong đợi của chúng ta về kiểm định đã được thực hiện,
việc phân tích kết thúc.
• Nếu bác bỏ giả thuyết H0, có nghĩa là trung bình của các tổng thể không bằng nhau. Vì vậy,
vấn đề cần được phân tích sâu hơn với giả thuyết mới được giả định, hoặc chọn khoảng tin
cậy thích hợp để xác định sự khác nhau xuất hiện ở đâu, trên phương diện nào và tầm quan
trọng của sự khác nhau đó. Sơ đồ phân tích ANOVA được tóm tắt như sau:
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0, chẳng
hạn như phương pháp so sánh trực giao (Orthogonal comparison), phương pháp Student-
Newman-Keuls, phương pháp Tukey, kiểm định đa khoảng Duncan (Duncans Multiple
Range Test), kiểm định Scheffé (Scheffé Test) hay phương pháp khác biệt nhỏ nhất có ý
nghĩa (Least-Significant Difference: LSD) Nói chung, tất cả các phương pháp này đều sử
dụng trung bình mẫu Ĩ) là tham số ước lượng cho trung bình tổng thể ((i) và trung bình bình
phương sai số (MSE) là tham số ước lượng cho phương sai tổng thể ((2).
Trong phạm vi giáo khoa này chỉ đề cập đến phương pháp khá thông dụng đó là phương
pháp Tukey (Tukey method), phương pháp này còn được gọi là kiểm định HSD (Honestly
Significant Differences). Mục đích của phương pháp này là so sánh từng cặp các trung bình tổng
thể ở mức ý nghĩa ( nào đó cho toàn bộ các cặp kiểm định. Phương pháp Tukey dùng phân phối
khoảng (phân phối q) trên cơ sở phân phối Student t (Studentized range distribution: q) - là
phân phối xác suất với độ tự do (r) và (n - r) để kiểm định trong đó r là số tổng thể.
Thực hiện kiểm định này trước hết ta tìm số cặp so sánh. Trường hợp tổng quát với r tổng thể ta
tính số cặp so sánh như sau:

Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0, chẳng
hạn như phương pháp so sánh trực giao (Orthogonal comparison), phương pháp Student-
Newman-Keuls, phương pháp Tukey, kiểm định đa khoảng Duncan (Duncans Multiple Range
Test), kiểm định Scheffé (Scheffé Test) hay phương pháp khác biệt nhỏ nhất có ý nghĩa (Least-
Significant Difference: LSD) Nói chung, tất cả các phương pháp này đều sử dụng trung bình
mẫu Ĩ) là tham số ước lượng cho trung bình tổng thể ((i) và trung bình bình phương sai số (MSE)
là tham số ước lượng cho phương sai tổng thể ((2).
Trong phạm vi giáo khoa này chỉ đề cập đến phương pháp khá thông dụng đó là phương

pháp Tukey (Tukey method), phương pháp này còn được gọi là kiểm định HSD (Honestly
Significant Differences). Mục đích của phương pháp này là so sánh từng cặp các trung bình tổng
thể ở mức ý nghĩa ( nào đó cho toàn bộ các cặp kiểm định. Phương pháp Tukey dùng phân phối
khoảng (phân phối q) trên cơ sở phân phối Student t (Studentized range distribution: q) - là
phân phối xác suất với độ tự do (r) và (n - r) để kiểm định trong đó r là số tổng thể.
Thực hiện kiểm định này trước hết ta tìm số cặp so sánh. Trường hợp tổng quát với r tổng thể ta
tính số cặp so sánh như sau:

Ví dụ: ta có r = 3, thì số cặp so sánh trong kiểm định là 3, nói cách khác có 3 giả thuyết H0 tương
ứng với ba cặp so sánh.


Giá trị kiểm định: T = q( Ġ
Trong đó: q( là giá trị tra bảng HSD
MSE là giá trị trong bảng kết quả phân tích ANOVA
n là tổng số quan sát mẫu (n = (ni)
Quyết định bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn
hơn hay bằng T. Chẳng hạnĠ( T
Ước lượng khoảng tin cậy cho sự khác biệt hai trung bình tổng thể:

Trong đó t là giá trị tra bảng phân phối Student t với (n - r) độ tự do.
Ví dụ: Cho r = 3, ( = 5%, n = 200 và MSE = 593,2
Ta có: Giá trị tra bảng HSD q5% = 3,31
Giá trị kiểm định T = 3,31Ġ
Giả sử độ lệch tuyệt đối các cặp trung bình mẫu như sau:

Như vậy, theo điều kiện bác bỏ giả thuyết H0 thì chỉ có trung bình tổng thể (2 và (3 là khác nhau
vìĠ = 6,2 > T = 5,7.
Ta có thể thực hiện phân tích sâu ANOVA bằng phần mềm SPSS. Sau khi nhập số liệu
theo định nghĩa dãy số của biến phụ thuộc (dependent list) và nhân tố ảnh hưởng của chúng

(factor), ta vào lần lượt các menu sau:
Analyze - Compare means - One- way ANOVA - Chọn dependent list và factor - Post
Hoc Chọn bất kỳ phương pháp nào bạn muốn kiểm định trong đó có phương pháp Tukey.
IV. THỰC HIỆN ANOVA TRÊN PHẦN MỀM EXCEL
Ðể có được những bảng kết quả ANOVA như trên, chúng ta có thể sử dụng các phần
mềm Excel, SAS, SPSS hoặc các phần mềm thống kê khác. Cũng cần nói thêm, phần mềm Excel
chỉ xử lý những nội dung thống kê rất hạn chế và đơn giản. Vì vậy, nếu nguồn dữ liệu lớn và xử
lý những nội dung thống kê phức tạp hơn bạn nên sử dụng phần mềm SAS hoặc SPSS. Nội dung
thống kê được xử lý ở hai phần mềm này khá chi tiết và đa dạng, đặc biệt dữ liệu được xử lý rất
nhanh.
Riêng SPSS (Statistical Package for the Social Sciences), bạn có thể vào menu Statistics
hoặc Analyze tùy theo version của SPSS là 7.0 hay 9.0 rồi chọn nội dung thống kê mà bạn muốn
xử lý. Tuy nhiên, Excel trong Window chỉ xử lý đến nội dung ANOVA hai chiều, trong khi SPSS
có thể xử ký ANOVA năm chiều. Cho dù bạn xử lý ở bất kỳ phần mềm nào bạn cũng cần làm
quen trước những từ chuyên môn bằng tiếng Anh trong thống kê để có thể dễ dàng hiểu bảng kết
quả sau khi xử lýï.
Trong giới hạn trang này, xin giới thiệu kỹ thuật xử lý trên phần mềm Excel cho cả hai
trường hợp ANOVA một chiều và hai chiều và các phân tích khác mà nội dung được đề cập ở
những chương sau.
Bước 1:
Mở phần mềm Excel và nhập dữ liệu giống như trong các ví dụ.
Bước 2:
Chọn Menu Tool - Add-Ins - Ðánh dấu 3 mục để thể hiện menu Data Analysis trong menu Tools.
(Analysis ToolPak (Nếu Excel có version khác 5.0 thì chỉ đánh dấu một mục này)
•  MS Excel 4.0 Analysis Function
•  MS Excel 4.0 Analysis Tools
Bước 3:
Chọn vùng số liệu vừa mới nhập (trừ tên cột), nếu chọn cả tên cột phải đánh dấu Lable.
Chọn ( (( mặc nhiên là 5%)
Chọn vùng chứa kết quả (nếu chọn New Worksheet thì kết quả được in trên trang mới với đầy

đủ các thông tin như được tính trong các công thức phần ví dụ). Nhấn phím OK.
• Trong khung (1) trang 185 có thể thay thế menu cho các kiểm định sau đây:
1. - Menu Correlation: Hệ số tương quan
2. - Menu t - test paired 2 sample for means: Kiểm định (t) trung bình tổng thể dựa vào phân
phối từng cặp.
3. - Menu t - test paired 2 sample assuming equal variances: Kiểm định (t) trung bình tổng thể
có phương sai được giả sử bằng nhau.
4. - Menu t - test paired 2 sample assuming unequal variances: Kiểm định (t) trung bình tổng
thể có phương sai được giả sử không bằng nhau.
5. - Menu Z - test 2 sample for means: Kiểm định (Z) cho trung bình tổng thể.
6. - Menu Regreesion: Hồi qui
7. - Menu Moving average: Trung bình di động (chú ý khi vào menu này xuất hiện ô interval đó
chính là số mức độ (m) để lấy trung bình. Chẳng hạn muốn nhóm trung bình 5 mức độ thì gỏ
số 5 vào ô này.
8. - Menu Exponential Smoothing: Dự báo bằng phương pháp làm phẳng dãy số. Trong menu
này xuất hiện ô damping factor, ta thế giá trị của hệ số làm phẳng ( vào ô này trước khi chạy
chương trình.
9. Riêng đối với ANOVA:
• Trong hai bước trên, chú ý phần trong khung: Nếu chúng ta dùng menu ANOVA: Single
Factor đó là phân tích phương sai một chiều. Trong hai trường hợp phân tích ANOVA còn lại:
- Phân tích phương sai hai chiều với một quan sát trong một ô thì ta thay vào trong
khung (1) trên bằng Menu: ANOVA: Two-factor without replication.
- Phân tích phương sai hai chiều với nhiều quan sát trong một ô thì ta thay vào trong
khung (1) ở trên bằng Menu: ANOVA: Two-factor with replication. Tuy nhiên, phủ khối dữ
liệu (select) cho input range thì chọn cả phần chữ và phần số.
Ðặc biệt, trong ANOVA nhiều quan sát trong một ô, cách nhập số liệu có khác biệt. Nếu
nhập không đúng cách, chương trình sẽ bị trục trặc hoặc cho ra kết quả sai. Kiểm tra kết quả in ra
để biết chương trình chạy đúng hay sai bằng cách kiểm tra cột độ tự do tổng cộng phải đúng
bằng (n-1). Cụ thể trong phần ví dụ chi phí bán hàng ở ba cửa hàng, dữ liệu được tổng hợp như
sau:

Loại tuổi Cửa hàng
nhân viên A B C
1 25,0 25,4 25,2 24,0 24,4 23,9 25,9 25,8 25,4
2 24,8 24,8 24,5 23,5 23,8 23,8 25,2 25,2 25,4
3 26,1 26,3 26,2 24,6 24,9 24,9 25,7 25,9 25,5
4 24,1 24,4 24,4 23,9 24,0 23,8 24,0 23,6 23,5
5 24,0 23,6 24,1 24,4 24,4 24,1 25,1 25,2 25,3
Nhưng khi nhập số liệu trong màn hình Excel có dạng:
Lọai tuổi Cửa hàng A Cửa hàng B Cửa hàng C
1 25,0 24,0 25,9
25,4 24,4 25,8
25,2 23,9 25,4
2 24,8 23,5 25,2
24,8 23,8 25,0
24,5 23,8 25,4
3 26,1 24,9 25,7
26,3 24,9 25,9
26,2 24,9 25,5
4 24,1 23,9 24,0
24,4 24,0 23,6
24,4 23,8 23,5
5 24,0 24,4 25,1
23,6 24,4 25,2
24,1 24,1 25,3

BÀI TẬP
Top
Các bài tập dưới đây phân phối của tổng thể được giả sử có phân phối chuẩn.
1. Một nhà sản xuất nước giải khát đang xem xét 3 màu lon cho một lọai nước ngọt: đỏ, vàng và
xanh ảnh hưởng đến doanh thu như thế nào. 16 cửa hàng được chọn ra để gởi các lon nước ngọt

đến bán. Những lon màu
đỏ được gởi đến 6 cửa hàng. Những lon màu vàng được đưa đến 5 cửa hàng khác và số màu
xanh cũng được gởi đến 5 cửa hàng còn lại. Sau một vài ngày nhà sản xuất kiểm tra ở các cửa
hàng thì doanh số bán của nước ngọt như sau:
Ðơn vị tính: 1000đồng
Ðỏ Vàng Xanh
43
52
59
76
61
81
52
37
38
64
74
61
29
38
53
79
a) Hãy tính tổng bình phương của mỗi nhóm, giữa các nhóm và tổng bình phương chung
của doanh số ba loại màu lon nước ngọt?
b) Kiểm định ở mức ý nghĩa 5% giả thuyết H0 rằng doanh thu trung bình của tổng thể thì
bằng nhau cho cả 3 màu lon?

2. Một giáo viên trong một lớp học có 23 sinh viên. Ðầu học kỳ mỗi sinh viên được chọn ngẫu
nhiên một trong 4 trợ giảng hướng dẫn (A,B,C và D) để thảo luận những khó khăn về tài liệu và
giải thích thêm cho môn học. Cuối học kỳ, tổng số điểm kiểm tra của các sinh viên ở 4 người

hướng dẫn như sau:
A B C D
72 78 80 79
69
84
76
64

93
79
97
88
81

68
59
75
82
68
70
61
74
85
63
a) Tính giống như câu (a) bài 1.
b) Kiểm định ở mức ý nghĩa 5% và 1% giả thuyết H0 rằng có sự bằng nhau về điểm trung
bình của tất cả sinh viên ở 4 trợ giảng được chọn ?

3. Ba nhà cung cấp gạo xuất khẩu (A, B, C), gạo xuất khẩu của mỗi nhà cung cấp được chuyển
bằng tàu gồm 500 bao. Mẫu ngẫu nhiên gồm 6 tàu cho mỗi nhà cung cấp được kiểm tra cẩn thận,

số bao gạo không đúng tiêu chuẩn được xác định ở 6 tàu như trong bảng sau:
Ðvt: bao gạo
A B C
28
37
34
29
31
33
22
27
29
20
18
30
33
29
39
33
37
38
a) Hãy phân tích phương sai cho những tài liệu này?
b) Kiểm định ở mức ý nghĩa 1% giả thuyết H0 rằng trung bình tổng thể của các bao gạo
trên tàu không đúng tiêu chuẩn thì giống nhau giữa 3 nhà cung cấp ?

4. Một giám đốc của một xí nghiệp chế biến thực phẩm đang quan tâm đến chi tiêu của mỗi hộ
gia đình trong một tháng cho sản phẩm của ông. Những mẫu ngẫu nhiên độc lập gồm 6 gia đình
có thu nhập dưới 1,25 triệu một tháng, 5 gia đình có thu nhập từ 1,25-2,5 triệu/tháng và 4 gia
đình có thu nhập trên 2,5 triệu đồng một tháng đã được chọn ra. Chi phí ước đoán hàng tháng
cho thực phẩm chế biến được chi tiêu bởi các gia đình như sau:

Ðvt: 1000 đồng
<1250
1250→2500
>2500
452
601
528
317
336
394
482
516
637
468
492

507
716
613
498
a) Hãy phân tích phương sai cho tài liệu này?
b) Kiểm định ở mức ý nghĩa 5 % giả thuyết H0 rằng chi tiêu trung bình cho thực phẩm
chế biến của tất cả các hộ gia đình trong ba loại thu nhập khác nhau thì bằng nhau?

5. Sử dụng số liệu ở bài (1), sử dụng kiểm định Kruskal-Wallis cho giả thuyết Ho rằng mức
doanh thu trung bình của tổng thể thì giống nhau cho ba loại màu sắc của các lon nước ngọt?

6. Sử dụng tài liệu và câu hỏi ở bài 3 nhưng phân phối của tổng thể được giả sử không phải là
phân phối chuẩn?


* Bài tập trên máy vi tính:
7. Những mẫu ngẫu nhiên độc lập được chọn ra từ bốn quận nội thành để nghiên cứu
về giá bán nhà. Giá bán (triệu đồng) được trình bày trong bảng sau. Hãy kiểm định giả
thuyết H0 rằng trung bình tổng thể về giá bán thì bằng nhau ở bốn quận.

Hãy giải thích bảng kết quả được in ra bằng cách trả lời những câu hỏi sau đây:

8. Có ba phương pháp bán hàng khác nhau được một công ty áp dụng. Sau đây là số lượng sản
phẩm bán ra được thu thập cho ba phương pháp bán hàng. Hãy giải thích kết quả nghiên cứu dựa
vào bảng ANOVA được in ra?
phương pháp 1 phương pháp 2 phương pháp 3
21 27 18
20 28 17
22 22 19
25 29 24
24 32 20
19 37 17

26 33 19
18 34 22
24 28 20
25 29 21
25 29 24
27 32 18
29 35 18
19 37 22
20 28 21
23 27 21
18 32 17
27 31 21

22 26 20
23 35 19
24 29 18
20 34 23

9. Gần đây sự cạnh tranh giữa hãng fim Kodak và Fuji trở nên mãnh liệt hơn. Kodak đang phân
tích những tấm fim của Fuji và quyết định bí mật về độ sáng màu của fim Fuji. Như là một phần
của sự phân tích, một mẫu ngẫu nhiên gồm 5 tấm fim được chụp bởi Kodak và được xư rlý theo
ba qui trình khác nhau - qui trình (A), qui trình (B) và qui trình (C). Hai hãng fim Fuji và Agfa
cũng được thực hiện như vậy để đo độ sáng màu của fim. Dưới đây là bảng chấm điểm độ sáng
của fim ở ba hãng. Ðộ sáng càng tốt thì điểm càng cao. Hãy sử dụng máy vi tính để thực hiện
ANOVA hai chiều trong trường hợp một ô có 5 quan sát?
Fim Các qui trình xử lý phim
A B C
Kodak 32,34,31,30,37 26,29,27,30,31 28,28,27,30,32
Fuji 43,41,44,50,47 32,38,38,40,46 32,32,36,35,34
Agfa 23,24,25,21,26 27,30,25,25,27 25,27,26,22,25

×