Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành:
Ngày khảo sát
Các quận nội thành
Quận 1
Quận 2
Quận 3
Quận 4
Quận 5
Thứ hai
254
236
267
223
245
Thứ ba
245
212
256
213
234
Thứ tư
236
223
245
230
232
Thứ năm
235
197
243
213
224
Thứ sáu
250
210
232
215
233
Thứ bảy
247
196
223
207
242
Lượng báo thực sự bán ra ở 5 quận có khác nhau khơng? Lượng báo bán ra có chịu yếu tố tác
động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %.
1.Cơ sở lý thuyết:
Đây là dạng toán phân tích phương sai hai yếu tố (không lặp):
2.Tính toán trên máy tính:
Giả thiết: H0 – các giá trị trung bình là bằng nhau
Đối giả thiết: H1 – các giá trị trung bình là không bằng nhau.
Nhập dữ liệu vào máy tính:
Các bước thực hiện:
Sử dụng công cụ “Anova: Two – Factor without Replication”:
a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”.
b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn định các giá trị:
- Phạm vi đầu vào (input range): chọn bảng tính ta vừa tạo.
-Nhãn dữ liệu (labels in first row/column)
-Ngưỡng tin cậy: Alpha = 5% = 0.05
-Phạm vi đầu ra (output Range).
Sau khi click Ok thì kết quả được hiện trong wooksheet mới:
Nhận xét: Ta thấy FA > F5 (4.305483 > 2.71089) -> Lượng báo bán ra chịu yếu tố tác động trực
tiếp của các ngày trong tuần.
Tương tự, FB > F4 -> Lượng báo bán ra ở 5 quận có sự khác nhau.
Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô cùng lớn,
chúng ta có số liệu:
Kết cục
Vật liệu 1
Vật liệu 2
Vật liệu 3
Vỡ vụn
25
45
41
Bị phá hủy một phần
40
35
33
Cịn tồn vẹn
35
20
26
Hãy kiểm định xem có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
không? Sử dụng mức ý nghĩa 2%.
BÀI LÀM:
Dạng bài: Kiểm định giả thiết về tỉ lệ.
Phương pháp giải: Áp dụng Kiểm định chi bình phương 2.
Cơng cụ giải: hàm CHITEST trên Excel.
Cơ sở lý thuyết:
- Trong thống kê, kiểm định chi bình phương hay kiểm tra 2. (đơi khi đọc là "khi bình
phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê kiểm
định tuân theo phân bố 2 nếu giả thuyết không là đúng. Chúng gồm:
Kiểm định chi bình phương Pearson
Kiểm định chi bình phương Yates
Kiểm định chi bình phương Mantel-Haenszel
...
- Dạng thống kê kiểm định thông dụng nhất là:
2
2 ( o−e)
γ=
e
Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.
Xét một bộ A gồm r tính trạng, A = (A1, A2, ...Ar), trong đó mỗi cá thể của tập hợp chính
H có và chỉ có một trong các tính trạng (hay phạm trù) Ai.
Gọi pi (i = 1, 2, ... r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H. Khi đó véctơ =(p1
, p2, ...pr) được gọi là phân bố của A trong tập hợp chính H.
Giả sử (p1, p2,...pr) là phân bố của (A1, A2,...Ar) trong tập hợp chính H và (q1, q2,...qr) là
phân bố của A = (A1, A2,...Ar) trong tập hợp chính Y. Ta nói (A1, A2,...Ar) có phân bố như
nhau trong X và Y nếu (p1, p2,...pr) = (q1, q2,...qr) p1 = q1,...pr = qr.
Chúng ta muốn kiểm định xem A = (A1, A2,...Ar) có cùng phân số trong X và Y hay không
dựa trên các mẫu ngẫu nhiên rút từ X và Y.
Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2,...Hk. Gọi π i=(p i1 , pi2 , … , pir ) là phân bố
của A = (A1, A2,...Ar) trong tập hợp chính Hi.
Ta muốn kiểm định giả thuyết sau:
1
2
k
H 0 :π =π =…=π (Các phân bố này là như nhau trên các tập hợp chính Hi).
Chú ý rằng H0 tương đương với hệ đẳng thức sau:
{
1
2
k
p 1= p1=…= p1
1
2
k
p 2= p2=…= p2
1
2
k
p i = pi =…= pi
1
2
k
p r = pr =…= pr
Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên chọn từ tập
hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2,... k).
Giả sử trong mẫu ngẫu nhiên thứ i:
Có n1i cá thể có tính trạng A1
n2i cá thể có tính trạng A2
..............................
nri cá thể có tính trạng Ar
k
r
j=1
i=1
Ký hiệu: nio =∑ nij ; n oj =∑ nij
Như vậy n0j là kích thước của mẫu thứ j, cịn nio là tổng số cá thể có tính trạng Ai trong
toàn bộ k mẫu đang xét:
r
k
i=1
j=1
nio =∑ nio =∑ n oj là tổng số tất cả các cá thể của k mẫu đang xét.
{
Nếu giả thiết H0 là đúng nghĩa là:
1
2
k
p 1= p1=…= p1= p 1
1
2
k
p 2= p2=…= p2= p 2
1
2
k
−−−−−−−−−−−¿ pi = pi =…= pi =p i
1
2
k
−−−−−−−−−−−¿ pr = pr =…= p r = pr
thì các tỷ lệ chung p1, p2,...pr được ước lượng bởi:
^
pi=
nio
n
Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai. Khi đó số cá thể có tính
trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:
n oj nio
n
Các số n^ij (i = 1,2,...r; j = 1,2,...k)được gọi là các tần số lý thuyết (TSLT), các số nij
được gọi là các tần số quan sát (TSQS).
Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách
giữa TSQS và TSLT được đo bằng test thống kê sau đây:
k
r
2
( nij −n^ij )2
(TSQS −TSLT )
T =∑ ∑
=∑
n^ij
TSLT
f =1 i=1
n^ij =noj ^
pi=
Người ta chứng minh được rằng nếu H0 đúng và các TSLT khơng nhỏ hơn 5 thì T sẽ có
phân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do. Thành thử miền bác bỏ có dạng {T > c} ở
đó c được tìm từ điều kiện P{T > c} = . Vậy c là phân vị mức của phân bố 2 với (k1)(r-1) bậc tự do.
Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta dùng kiểm
định 2 (chi-quared):
2
r
c
(n −n^ )
tổnghàng x tổngcột
nij: tần số thực nghiệm;
γ 2=∑ ∑ ij ij với n pi=
n^ij
n
i=1 j=1
npij: tần số lý thuyết của ơ (i,j);
r: số hàng;
c: số cột
Dùng hàm CHITEST (actual_range,expected_range).
Tính giá trị: P ( X > χ 2 ) = CHITEST
Nếu: P ( X > χ 2 ) > ∝thì chấp nhận H0 và ngược lại.
Thực hiện bài toán bằng excel:
Nhập dữ liệu vào bảng tính và tính tổng các hàng các cột:
Tính các tần số lý thuyết:
tần số lý thuyết = (Tổng hàng × Tổng cột)/(Tổng cộng):
Sử dụng hàm CHITEST tính xác suất P(X> 2 ):
Kết quả và biện luận:
Giả thiết H0: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
H1: Khơng có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ
Ta có: P(X> 2 ) = 0.026580894 > α=0.02
Bác bỏ giả thiết H1, chấp nhận giả thiết H0 . Vậy: có mối liên hệ phụ thuộc giữa loại vật liệu với
tác động thay đổi nhiệt độ.