Tải bản đầy đủ (.pdf) (39 trang)

BÀI GIẢNG XÁC SUẤT THỐNG KÊ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (599.11 KB, 39 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HCM
KHOA KHOA HỌC CƠ BẢN

HUỲNH HỮU DINH

BÀI GIẢNG TOÁN THỐNG KÊ

MSSV:...................................................
Họ tên:..................................................

TPHCM - Ngày 8 tháng 3 năm 2015


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

2


Chương 1
ƯỚC LƯỢNG THAM SỐ
1.1 Ước lượng điểm
Xét một tập hợp chính Ω và giả sử ta quan tâm tới biến lượng X đo
lường một dấu hiệu gì đó của cá thể trong tập hợp chính. Về mặt Toán
học, X được coi là một BNN (giá trị của nó thay đổi từ cá thể này sang
cá thể khác). Phân bố xác suất của X rất khó nắm bắt, và thông thường
ta giới hạn ở việc xác định một số tham số đặc trưng của X như giá trị
trung bình (kỳ vọng), phương sai, trung vị (median), mode,. . . Các tham
số này không thể xác định chính xác được, mà phải ước lượng từ giá trị
của X trên một mẫu chọn ngẫu nhiên. Như vậy bài toán ước lượng tham


số được phát biểu như sau:
Giả sử X là một BNN có tham số đặc trưng θ nào đó (chưa biết) mà
ta đang quan tâm. Vấn đề đặt ra là: Căn cứ trên n giá trị x1 , x2 , . . . , xn
của X đo được trên một mẫu kích thước n lấy ra từ tập hơp chính, cần
tìm giá trị gần đúng θ∗ của θ.

Định nghĩa 1.1. Một hàm θ∗ = Sn (x1 , x2 , . . . , xn ) của n giá trị
x1 , x2 , . . . , xn được gọi là một ước lượng điểm cho θ.

Để cho gọn ta sẽ gọi tắt ước lượng điểm là ước lượng. Để khảo sát
về mặt Toán học, ta sẽ coi x1 , x2 , . . . , xn là giá trị quan sát được (hay giá
trị thực nghiệm) của mẫu tổng quát X1 , X2 , . . . , Xn , trong đó các BNN
X1 , X2 , . . . , Xn độc lập với nhau và có cùng phân bố với X.
Như vậy ước lượng θ∗ = Sn là một hàm của n BNN X1 , X2 , . . . , Xn và
do đó nó cũng là một BNN. Giá trị của θ∗ cũng thay đổi từ mẫu quan
sát này sang mẫu quan sát khác.
Việc lựa chọn một ước lượng nào là “tốt” được căn cứ trên các tiêu
chuẩn dưới đây.
3


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Định nghĩa 1.2. Ước lượng Sn được gọi là ước lượng không chệch
cho θ nếu ESn = θ.
Ước lượng Sn được gọi là ước lượng vững nếu với mọi ϵ > 0 ta có
lim P (|Sn − θ| ≤ ϵ) = 1.
n→∞


Ước lượng Sn được gọi là hiệu quả nếu Sn là ước lượng không
chệch và phương sai DSn là nhỏ nhất trong lớp tất cả các ước lượng
không chệch.

Tính chất không chệch có nghĩa là ước lượng Sn không có sai số hệ
thống.
Tính chất vững đảm bảo cho ước lượng Sn gần θ tùy ý với xác suất
cao khi kích thước mẫu đủ lớn.

1.1.1 Ước lượng giá trị trung bình µ
Giả sử X là BNN với EX = µ (chưa biết). µ được gọi là giá trị trung
bình của tập hợp chính.
Nếu ta có một mẫu n gồm giá trị x1 , x2 , . . . , xn của X thì trung bình
mẫu
x1 + x2 + · · · + xn
x=
n
sẽ được dùng làm ước lượng cho µ.

Định lý 1.1. Trung bình mẫu là ước lượng không chệch và vững cho
trung bình của tập hợp chính.

Chứng minh. Ta có x là giá trị quan sát của
X=

X1 + X2 + · · · + Xn
n

trong đó các BNN X1 , X2 , . . . , Xn độc lập với nhau và có cùng phân bố

với X, suy ra
EX =

EX1 + EX2 + · · · + EXn

=
= µ.
n
n

Vậy X là ước lương không chệch của µ. Hơn nữa,
DX =

DX1 + DX2 + · · · + DXn
DX
=
.
2
n
n
4


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Áp dụng bất đẳng thức Chebyshev ta được
P


(

suy ra

)
(
) DX
DX
X − µ > ε = P X − EX > ε ≤ 2 =
ε
nε2

)
(
)
DX
X −µ ≤ε =1−P X −µ >ε ≥1−
.
nε2
(
)
Cho n → +∞ ta có ngay lim P X − µ ≤ ε = 1. Vậy X là ước
P

(

n→+∞

lượng vững của µ.


1.1.2

Ước lượng phương sai σ 2

Giả sử X là BNN với DX = σ 2 (chưa biết). σ 2 được gọi là phương sai
của tập hợp chính. Nếu ta có một mẫu gồm n giá trị x1 , x2 , . . . , xn của X
thì một cách hợp lí phương sai mẫu chưa hiệu chỉnh
s2 =

(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2
n

được xem xét dùng để ước lượng σ 2 . Tuy nhiên phương sai mẫu chưa
hiệu chỉnh s2 là một ước lượng chệch. Thật vậy, s2 là giá trị quan sát
của BNN
(
)2 (
)2
(
)2
X

X
+
X

X
+
·
·

·
+
X

X
1
2
n
S2 =
n
trong đó các BNN X1 , X2 , . . . , Xn độc lập với nhau và có cùng phân bố
với X.
Đặt Yi = Xi − µ, ta suy ra
• EYi = EXi − µ = 0.
• EY = 0.
• Xi − X = Yi − Y .
• EYi2 = E(Xi − µ)2 = E(Xi − EXi )2 = DXi = σ 2 .
• DYi = DXi = σ 2 .
2

• EY = E(Y − EY )2 = DY =

σ2
.
n

Do đó,
n (
n (
)2

)2
1∑
1∑
1
=
Xi − X
Yi − Y =
n i=1
n i=1
(n
)n
1 ∑
2
=
Y 2 − nY
n i=1 i

5

(

n


i=1

Yi2

− 2Y


n

i=1

Yi + nY

2

)


Huỳnh Hữu Dinh
Vậy
(
E S2

)

1
=
n

(

Trường Đại Học Công Nghiệp TPHCM

n


)

EYi2 − nEY

2

=

i=1

) n−1 2
1( 2
nσ − σ 2 =
σ ̸= σ 2 .
n
n

Kết quả trên chứng tỏ S 2 là một ước lượng chệch.
Do đó, nếu ta xét phương sai mẫu đã hiệu chỉnh
s2 =

(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2
n−1

thì s2 là một ước lượng không chệch của σ 2 .

1.1.3 Ước lượng tỉ lệ
Giả sử ta quan tâm đến một đặc tính A nào đó mà mỗi cá thể của tập
hợp chính Ω có thể mang hoặc không mang. Gọi p là tỉ lệ cá thể mang
đặc tính A trong Ω. Chúng muốn ước lượng p dựa trên việc khảo sát
một mẫu gồm n cá thể. Chẳng hạn ta muốn biết tỉ lệ phế phẩm trong
một mặt hàng được nhập khẩu, tỉ lệ sinh viên đến từ Miền Tây trong

trường Đại học Công Nghiệp TP.HCM, v.v. . .
Xét biến lượng X xác định như sau:
{
0 nếu cá thể không có đặc tính A
X=
1 nếu cá thể có đặc tính A
Từ định nghĩa của X ta có
• P (X = 0) = 1 − p.
• P (X = 1) = p.
Nếu x1 , x2 , . . . , xn là một mẫu gồm n giá trị quan sát của X thì x1 +
x2 + . . . + xn là số cá thể mang đặc tính A của mẫu và
f=

x1 + x2 + · · · + xn
n

chính là tần suất xuất hiện đặc tính A trong mẫu.
Ta thấy f là giá trị quan sát của BNN
F =

X1 + X2 + · · · + Xn
n

trong đó X1 , X2 , . . . , Xn là các BNN độc lập với nhau và có cùng phân bố
với X. Vì EX = p nên ta dễ dàng chứng minh được f là một ước lượng
không chệch và vững cho p.
Chú ý 1.1. Từ đây trở về sau, để tiện cho việc trình bày phần lí thuyết,
các mẫu được xem xét mà mẫu tổng quát.
6



Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

1.2 Ước lượng khoảng
Bài toán tìm ước lượng khoảng đặt ra như sau: Căn cứ trên mẫu quan
sát X1 , X2 , . . . , Xn , hãy xác định một khoảng (a; b) để khoảng đó chứa
tham số θ với xác suất 1 − α cho trước (1 − α thường được chọn là 0, 95
hay 0, 99). Một cách chính xác hơn, khoảng ước lượng được định nghĩa
như sau:

Định nghĩa 1.3. Khoảng có hai đầu mút a = a(X1 , X2 , . . . , Xn ) và
b = b(X1 , X2 , . . . , Xn ) được gọi là khoảng ước lượng với độ tin cậy 1−α
nếu P (a ≤ θ ≤ b) = 1 − α.

Chú ý 1.2. Hai đầu mút a, b của khoảng ước lượng là hai BNN. Chúng
là hàm của X1 , X2 , . . . , Xn nên thay đổi từ mẫu này cụ thể này sang mẫu
cụ thể khác.
Khoảng ước lượng chỉ cho ta biết với một xác suất cao khoảng này
chứa θ chứ ta không chắc chắn θ có nằm trong khoảng ước lượng hay
không (trừ khi chúng ta xác định toàn bộ tập chính, mà điều này không
thể thực hiện trong thực tế).

1.2.1

Ước lượng khoảng cho kỳ vọng

Phương sai σ 2 đã biết


Định lý 1.2. Giả sử X ∼ N (µ, σ 2 ) trong đó σ 2 đã biết. Với độ tin cậy
1−α
1 − α, gọi zα là giá trị thỏa mãn φ(zα ) =
, ở đây
2
1
φ (x) = √


∫x

t2

e− 2 dt.

0

(
)
Khi đó X − zα √σn ; X + zα √σn là khoảng ước lượng cho µ với độ
tin cậy 1 − α, trong đó
X=

X1 + X2 + · · · + Xn
n

với X1 , X2 , . . . , Xn là các quan sát độc lập về X.

7



Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Chứng minh. Vì các BNN Xi , i = 1, n độc lập và
có cùng phân bố với

(X−µ) n
σ2
2
X ∼ N (µ, σ ) nên X ∼ N (µ, n ), suy ra Z =
∼ N (0, 1). Khi đó
σ
(
)
)
(

σ
σ
(X − µ) n
P X − zα √ < µ < X + zα √
< zα
= P −zα <
σ
n
n
= P (−zα < Z < zα )
= 2φ (zα ) = 1 − α.

Định lý đã được chứng minh.
Chú ý 1.3. Các giá trị thông dụng nhất của 1 − α và zα là:
• Nếu 1 − α = 90% thì zα = 1, 64.
• Nếu 1 − α = 95% thì zα = 1, 96.
• Nếu 1 − α = 98% thì zα = 2, 33.
• Nếu 1 − α = 99% thì zα = 2, 58.
Ví dụ 1.1. Đo chiều cao (đơn vị cm) 100 sinh viên trường Đại học Công
Nghiệp TP. HCM ta được trung bình mẫu x = 160cm. Giả sử độ lệch
chuẩn σ của chiều cao người trưởng thành là 8cm, hãy xác định khoảng
ước lượng chiều cao trung bình của sinh viên trường ĐHCN trong các
trường hợp sau:
1) Độ tin cậy 95%.
2) Độ tin cậy 99%.
3) Độ tin cậy 98%.
Giải. Từ đề bài ta có n = 100; x = 160cm; σ = 8cm.
1) Với đô tin cậy 95% ta được zα = 1, 96. Vậy khoảng ước lượng chiều
cao trung bình của sinh viên trường ĐHCN là
)
(
σ
σ
x − zα √ ; x + zα √
= (158, 43; 161, 57) .
n
n
2) Với đô tin cậy 99% ta được zα = 2, 58. Vậy khoảng ước lượng chiều
cao trung bình của sinh viên trường ĐHCN là
)
(
σ

σ
x − zα √ ; x + zα √
= (157, 94; 162, 06) .
n
n
3) Làm tương tự như hai câu trên.
8


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Phương sai σ 2 chưa biết và kích thước mẫu n ≥ 30
Trong nhiều trường hợp, ta không biết được phương sai của tập hợp
chính. Nếu kích thước mẫu n > 30 thì ta có thể xấp xỉ σ 2 bằng phương
sai đã hiệu chỉnh s2 của mẫu.
Khi đó, khoảng ước lượng trung bình với độ tin cậy 1 − α sẽ là
)
(
s
s
.
x − zα √ ; x + zα √
n
n
Ví dụ 1.2. Một mẫu ngẫu nhiên gồm 100 sinh viên của trường ĐHCN
TP.HCM được hỏi về quãng đường họ đi từ nhà tới trường. Giá trị trung
bình và độ lệch chuẩn đã hiệu chỉnh của mẫu này tương ứng là 5km và
0, 8km. Với độ tin cậy 95%, hãy xác định khoảng ước lượng quãng đường

trung bình đi học của tất cả sinh viên trường ĐHCN TP.HCM.
Giải. Từ đề bài ta tính được n = 100; x = 5km; s = 0, 8km; zα = 1, 96.
Do đó, khoảng ước lượng
( quãng đường trung
) bình đi học của tất cả sinh
s
s


viên trường ĐHCN là x − zα n ; x + zα n = (4, 84; 5, 16).
Ví dụ 1.3. Trường ĐHCN TP.HCM tiến hành một cuộc điều tra xem
trung bình một sinh viên của trường tiêu hết bao nhiêu tiền gọi điện
thoại trong một học kỳ. Một mẫu ngẫu nhiên gồm 49 sinh viên được
chọn và số tiền chi cho việc gọi điện thoại của họ như sau (đơn vị nghìn
đồng):
112
155
175
195
212
240
275

126
157
177
197
216
243
277


130
161
181
200
220
247
281

133
167
184
201
222
249
284

145
169
187
205
229
255
287

149
171
189
208
233

260
289

151
173
191
210
237
263
291

Với độ tin cậy 99%, hãy xác định khoảng ước lượng trung bình số tiền
gọi điện thoại của sinh viên trường ĐHCN trong một học kỳ.
Giải. Từ bảng số liệu ta có n = 49; x = 206, 31; s = 48, 36; zα = 2, 58.
Khi đó, khoảng ước lượng trung bình số tiền
( gọi điện thoại )của
sinh viên trường ĐHCN trong một học kỳ là x − zα √sn ; x + zα √sn =
(188, 49; 224, 13).
Ví dụ 1.4. Để xác định chiều cao trung bình (đơn vị m) của các cây bạch
đàn trong một khu rừng bạch đàn rất lớn, người ta chọn ngẫu nhiên 64
cây để đo. Kết quả thu được như sau:
9


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Khoảng chiều cao
5, 5 − 6, 5

6, 5 − 7, 5
7, 5 − 8, 5
8, 5 − 9, 5
9, 5 − 10, 5

Số cây
6
15
20
13
10

Với độ tin cậy 98%, hãy xác định khoảng ước lượng chiều cao trung
bình của cây bạch đàn trong khu rừng.
Giải. Để dễ tính toán, mỗi khoảng chiều cao ta sẽ lấy trung điểm của
khoảng làm đại diện. Từ đây, ta tính được n = 64; x = 8, 09; s = 1, 2 và
zα = 2, 33.
Khi đó, khoảng(ước lượng trung bình
) chiều cao của cây bạch đằng
s
s
trong khu rừng là x − zα √n ; x + zα √n = (7, 74; 8, 44).
Phương sai σ 2 chưa biết và n < 30
Cơ sở cho việc xây dựng khoảng ước lượng cho trường hợp này dựa vào
định lý sau:

Định lý 1.3. Giả sử X ∼ N (µ, σ 2 ) và X1 , X2 , . . . , Xn là các BNN√ độc
n
lập với nhau và có cùng phân bố với X. Khi đó, BNN T = (X−µ)
sẽ

S
có phân bố Student với bậc tự do n − 1, tức T ∼ tn−1 , trong đó
(
2

S =

X1 − X

)2

(
)2
(
)2
+ X2 − X + · · · + Xn − X
.
n−1

Gọi tn−1
là giá trị sao cho S(tn−1
α
α ) =
Γ

(n)

S (x) = √
(n − 1) πΓ
2


1−α
,
2

trong đó

∫x (
1+
( n−1 )
2

0

t2
n−1

)−n
dt.

)
(
√S ; X + tn−1 √S
là khoảng ước lượng cho µ với
Khi đó, X − tn−1
α
α
n
n
độ tin cậy 1 − α.


Ví dụ 1.5. Một phương pháp điều trị bệnh mới đang được xem xét
nghiệm thu. Một chỉ tiêu để đánh giá hiệu quả của phương pháp là
số ngày trung bình µ từ lúc điều trị cho đến khi bệnh nhân khỏi bệnh.
Một mẫu ngẫu nhiên gồm 16 bệnh nhân được theo dõi và số ngày điều
trị cho tới khi bệnh nhân khỏi bệnh được ghi lại như sau:
10


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM
4 4
2 6

5
4

8
7

6
9

10
11

3
6


9
8

Với độ tin cậy 95%, hãy xác định khoảng ước lượng trung bình số
ngày cần thiết để bệnh nhân được điều trị hết bệnh.
Giải. Từ đề bài ta tính được n = 16; x = 6, 375; s = 2, 630; t15
α = 2, 131.
Khi đó,
( khoảng ước lượng trung
) bình số ngày cần thiết để chữa khỏi
n−1 √s
n−1 √s
bệnh là x − tα
; x + tα
= (4, 974; 7, 776).
n
n
Ví dụ 1.6. Khảo sát một mẫu gồm 12 người ở một địa phương A cho
thấy số lần họ đi xem phim trong 1 năm như sau:
14 16 17 17

24

20

32

18

29


31

15

35

Với độ tin cậy 95%, xác định khoảng ước lượng trung bình số lần một
người ở địa phương A đi xem phim trong thời gian 1 năm.
Giải. Từ đề bài ta tính được n = 12; x = 22, 333; s = 7, 512; t11
α = 2, 201.
Khi đó, khoảng ước lượng trung bình số lần một người ở địa phương
A đi xem phim trong thời gian 1 năm là (17, 560; 27, 106).

1.2.2

Ước lượng khoảng cho tỉ lệ

Giả sử trong tập hợp chính, mỗi cá thể của nó mang hay không mang
một đặc tính A nào đó. Gọi p là tỉ lệ cá thể mang đặc tính A trong toàn
bộ tập chính (p chưa biết). Ta muốn ước lượng tham số p này dựa trên
mẫu điều tra.
Giả sử trong một mẫu kích thước n có k cá thể mang đặc tính A.
Chúng ta đã biết tần xuất mẫu f = nk là một ước lượng không chệch và
vững cho p. Bài toán đặt ra là xây dựng khoảng ước lượng cho p với độ
tin cậy 1 − α. Để thực hiện điều này ta tìm hiểu kết quả sau:

Định lý 1.4. Cho Xi , i = 1, n là các BNN Becnulli độc lập với nhau
và Xi ∼ B(p). Khi đó, BNN
F =


X1 + X2 + · · · + Xn
n

có phân bố xấp xỉ chuẩn với kỳ vọng và phương sai tương ứng là
EF = p; DF = p(1−p)
biết rằng np > 5; n(1 − p) > 5.
n

Chứng minh. Vì X1 , X2 , . . . , Xn là các BNN Becnulli độc lập với nhau
và Xi ∼ B(p), i = 1, n nên nF = X1 + X2 + · · · + Xn ∼ B(n, p).
Hơn nữa, vì np > 5 và n(1 − p) > 5 nên B (n, p) ≃ N (np, np (1 − p)).
Do đó nF ∼ N (np, np(1 − p)), suy ra F ∼ N (p, p(1−p)
).
n
11


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM


√−p)
Vì F ∼ N (p, p(1−p)
) nên (F
n

n


p(1−p)

∼ N (0, 1). Do đó, khoảng ước lượng

cho p với độ tin cậy 1 − α là
)
(


p (1 − p)
p (1 − p)
; F + zα
F − zα
n
n



Do ta không biết p nên với mẫu cụ thể ta có thể dùng xấp xỉ

p(1−p)
n



nếu nf > 10; n(1 − f ) > 10. Khi đó, khoảng ước lượng cho p với
độ tin cậy 1 − α là
(
)



f (1 − f )
f (1 − f )
f − zα
; f + zα
.
n
n
f (1−f )
n

Ví dụ 1.7. Trước ngày bầu cử tổng thống, một cuộc thăm dò dư luận đã
được tiến hành. Người ta chọn ngẫu nhiên 400 người để hỏi ý kiến thì
có 240 người nói rằng họ sẽ bỏ phiếu cho ông A. Tìm khoảng ước lượng
cho tỉ lệ cử tri bỏ phiếu cho ông A với độ tin cậy 95%.
= 53 = 0, 6; zα = 1, 96. Vì
Giải. Từ đề bài ta tính được n = 400; f = 240
400
{
nf = 400 × 0, 6 = 240 > 10
n (1 − f ) = 400 × 0, 4 = 160 > 10
nên(khoảng√ước lượng tỉ lệ cử√tri bỏ phiếu
) cho ông A là
f (1 − f )
f (1 − f )
; f + zα
= (55, 2%; 64, 8%) .
f − zα
n
n

Ví dụ 1.8. Ở cây ngọc trâm thì đặc tính lá phẳng hay lá nhăn là do một
gen có hai alen, A trội và a lặn, quyết định. Các đồng hợp tử AA và dị
hợp tử Aa có lá phẳng, còn đồng hợp tử aa có lá nhăn. Trong số 560 cây
có được khi lai hai dị hợp tử thì có 110 cây lá nhăn. Tìm khoảng ước
lượng cho xác suất p để có cây lá nhăn khi lai hai dị hợp tử với độ tin
cậy 95%. Số liệu trên có phù hợp với lí thuyết của Mendel hay không (lí
thuyết của Mendel cho rằng p = 14 )?
Giải. Từ đề bài ta tính được n = 560; f = 110
= 0, 1964; zα = 1, 96. Vì
560
{
nf = 109, 984 > 10
n (1 − f ) = 450, 016 > 10
nên khoảng ước lượng cho p là
)
(


f (1 − f )
f (1 − f )
; f + zα
= (16, 35%; 22, 93%) .
f − zα
n
n
Vì p = 14 không thuộc khoảng (16, 35%; 22, 93%) nên số liệu trên
không phù hợp với lí thuyết của Mendel.
12



Huỳnh Hữu Dinh

1.2.3

Trường Đại Học Công Nghiệp TPHCM

Ước lượng khoảng cho phương sai

Giả sử X ∼ N (µ, σ 2 ). Tập hợp chính ở đây là tập hợp tất cả các giá trị
của X. Một mẫu có kích thước n bao gồm các giá trị X1 , X2 , . . . , Xn thu
được từ n quan sát độc lập từ X. Với mẫu được lấy, ta muốn tìm khoảng
ước lượng cho σ 2 với độ tin cậy 1 − α.
Trước hết, ta tìm hiểu kết quả quan trọng sau:

Định lý 1.5. Giả sử X1 , X2 , . . . , Xn là n quan sát độc lập từ BNN
2
X ∼ N (µ, σ 2 ). Khi đó, T = (n−1)S
có phân bố χ2 với bậc tự do n − 1,
σ2
2
tức T ∼ χ (n − 1), trong đó
(
2

S =

X1 − X

)2


(
)2
(
)2
+ X2 − X + · · · + Xn − X
n−1

là phương sai đã hiệu chỉnh của mẫu X1 , X2 , . . . , Xn .

Ta gọi λ2α là giá trị sao cho P (T > λ2α ) = α. Khi đó,
)
(
α α
P λ21− α < T < λ2α = 1 − − = 1 − α.
2
2
2
2
Hơn nữa, ta có
(n − 1) S 2
(n − 1) S 2
2
<
σ
<
.
λ2α
λ21− α

λ21− α < T < λ2α ⇔

2

2

2

2

Vậy, khoảng ước lượng cho σ 2 với độ tin cậy 1 − α là
)
(
(n − 1) S 2 (n − 1) S 2
;
.
λ2α
λ21− α
2

2

Ví dụ 1.9. Đường kính của một chi tiết máy do Xí nghiệp A sản xuất là
một BNN có phân phối chuẩn. Chọn ngẫu nhiên 9 chi tiết máy ta tính
được độ lệch chuẩn đã hiểu chỉnh là s = 0, 1. Với độ tin cậy 95%, xác
định khoảng ước lượng cho phương sai của toàn bộ chi tiết máy do Xí
nghiệp A sản xuất.
Giải. Từ giả thiết đề bài ta có
n = 9; s = 0, 1; λ2α = 17, 535; λ21− α = 2, 18.
2

2


Khoảng ước lượng(cho phương sai
) của toàn bộ chi tiết máy do Xí
2
2
; (n−1)S
= (0, 0046; 0.0367).
nghiệp A sản xuất là (n−1)S
λ2α
λ2 α
2

1− 2

13


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

1.3 Xác định kích thước mẫu
Với độ tin cậy 1 − α đã cho, ta thấy có mối quan hệ giữa kích thước mẫu
n và độ dài khoảng ước lượng. Kích thước mẫu n càng lớn thì độ dài
khoảng ước lượng càng nhỏ, nghĩa là độ chính xác của ước lượng của
ta càng cao. Tuy nhiên, kích thước mẫu lớn thì đòi hỏi nhà nghiên cứu
phải tốn nhiều thời gian, tiền bạc và công sức để khảo sát. Vậy bài toán
đặt ra là: Cần chọn kích thước mẫu tối thiểu là bao nhiêu để đạt được
độ chính xác mong muốn.


1.3.1 Trường hợp ước lượng cho trung bình
Giả sử ta muốn ước lượng µ với sai số không quá ϵ cho trước và độ tin
cậy 1 − α. Ta biết rằng với xác suất 1 − α thì
σ
X − µ ≤ zα √
n
Ta cần có bất đẳng thức
( z σ )2
σ
α
zα √ ≤ ϵ ⇔ n ≥
ϵ
n
Vậy n =

⌈(

)
zα σ 2
ϵ

(1.1)


là cỡ mẫu nhỏ nhất để ước lượng µ với sai số không

quá ϵ cho trước và độ tin cậy 1 − α, trong đó ⌈x⌉ là số nguyên bé nhất
không nhỏ hơn x.
Công thức trên chỉ áp dụng được khi biết σ. Nhưng thông thường σ
không được biết. Để khắc phục điều này, ta lấy sơ bộ một mẫu có kích

thước m > 30 để tính
s. Sau đó, trong công thức (1.1), ta sẽ thay σ
⌈(x và
)⌉
zα s 2
bằng s. Khi đó, n =
là cỡ mẫu nhỏ nhất nếu điều kiện
ϵ

⌈(
z α s )2
≥ 30.
ϵ
được thỏa mãn.
Ví dụ 1.10. Ta muốn xây dựng một khoảng ước lượng cho khối lượng
trung bình của các gói đường được đóng bằng máy tự động với độ tin
cậy 99%. Điều tra sơ bộ một mẫu cho ta x = 11, 8kg, độ lệch chuẩn đã
hiệu chỉnh s = 0, 9kg. Hỏi cần phải lấy kích thước mẫu tối thiểu là bao
nhiêu để đạt được sai số không vượt quá 0, 1kg ?
Giải. Từ giả thiết ta có x = 11, 8kg; s = 0,⌈ 9kg; ϵ ⌉= 0, 1kg; zα = 2, 58. Cỡ
( )2
mẫu nhỏ nhất thỏa yêu cầu đề bài là n = zαϵ s
= 540.
14


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM


Ví dụ 1.11. Một cuộc nghiên cứu được tiến hành nhằm xác định lương
trung bình các luật sư giỏi ở Mỹ dựa trên một mẫu điều tra. Hỏi cần lấy
mẫu với kích thước tối thiểu là bao nhiêu để sai số không vượt quá 100
USD, với độ tin cậy được ấn định là 95% ? Biết rằng độ lệch tiêu chuẩn
của tập hợp chính là σ = 1000 USD.
Giải. Từ giả thiết ta được σ = 1000 USD;
⌈(ϵ =)100
⌉ USD; zα = 1, 96. Cỡ
zα σ 2
mẫu nhỏ nhất thỏa yêu cầu đề bài là n =
= 385.
ϵ

1.3.2

Trường hợp ước lượng cho tỉ lệ

Giả sử ta muốn ước lượng tỉ lệ p với sai số không quá ϵ cho trước và độ
tin cậy 1 − α. Ta biết rằng với xác suất 1 − α thì

p (1 − p)
|F − p| ≤ zα
n
Ta cần có bất đẳng thức

p (1 − p)
zα2 p (1 − p)

≤ε⇔n≥
n

ϵ2
Vì p không biết nên với mẫu cụ thể ta dùng xấp xỉ



p(1−p)
n





f (1−f )
n

nếu nf > 10; n(1 − f ) > 10. Do đó, bất đẳng thức trên có thể viết lại như
sau:
z 2 f (1 − f )
n≥ α 2
.
(1.2)
ϵ
Từ (1.2) ta suy ra cỡ mẫu nhỏ nhất để ước ⌈
lượng tỉ ⌉lệ p với sai số
2
)
không quá ϵ cho trước và độ tin cậy 1 − α là n = zα f (1−f
.
ϵ2
Ví dụ 1.12. Một nhà nông học muốn ước lượng tỉ lệ nảy mầm của một

loại hạt giống.
1) Với 1000 hạt đem gieo thì có 640 hạt nảy mầm. Tìm khoảng ước
lượng tỉ lệ hạt nảy mầm với độ tin cậy 90%. Sai số ở đây là bao nhiêu ?
2) Nếu muốn có khoảng ước lượng tỉ lệ hạt nảy mầm với độ tin cậy
90% và sai số không vượt quá 0, 02 thì cần lấy mẫu với kích thước tối
thiểu là bao nhiêu ?
640
Giải. 1) Từ giả thiết ta có n = 1000; f = 1000
= 0, 64; zα = 1, 64. Vì
{
nf = 640 > 10
n (1 − f ) = 360 > 10

nên khoảng ước lượng tỉ lệ hạt nảy mầm là
)
(


f (1 − f )
f (1 − f )
; f + zα
f − zα
= (59, 98%; 68, 02%)
n
n
15


Huỳnh Hữu Dinh


Độ chính xác zα

Trường Đại Học Công Nghiệp TPHCM
f (1−f )
n

= 4, 02% = 0, 0402.

2) Từ giả thiết ta có f = 0, 64;⌈ϵ = 0, 02;
⌉ zα = 1, 64. Do đó, cỡ mẫu nhỏ
2 f (1−f )

nhất thỏa yêu cầu đề bài là n =
= 1550.
ε2

16


Chương 2
KIỂM ĐỊNH GIẢ THIẾT
THỐNG KÊ
2.1 Nguyên lí chung
Trong chương này chúng ta sẽ đề cập đến một vấn đề rất quan trọng
trong Thống kê: Đó là vấn đề kiểm định giả thiết thống kê. Nội dung
của bài toán như sau:
Căn cứ trên các số liệu thu được, hãy cho kết luận về một giả thiết
thống kê nào đó mà ta quan tâm.
Một giả thiết thống kê là một giả thiết về sự phân bố của tập hợp
chính đang xét.

Nếu phân bố đó được đặc trưng bởi các tham số (như giá trị trung
bình, phương sai, . . . ) thì giả thiết thống kê là giả thiết về tham số của
phân bố nó. Một số thí dụ về giả thiết thống kê:
• Tập hợp chính có phân bố chuẩn với kỳ vọng là 3.
• Phương pháp điều trị A chữa khỏi 90% bệnh nhân.
• Tuổi thọ trung bình của hai loại bóng đèn A và B là như nhau.
Từ nay trở đi một giả thiết sẽ được hiểu là một giả thiết thống kê.
Một qui tắc hay một thủ tục dẫn đến việc chấp nhận hay bác bỏ giả
thiết đã nêu gọi là kiểm định (test) thống kê.
Giả thiết được đưa ra kiểm nghiệm được kí hiệu là H0 và được gọi là
giả thiết không. Đó là giả thiết là ta nghi ngờ và muốn bác bỏ. Thường
đi kèm với giả thiết H0 là một đối thiết, ký hiệu H1 . H1 sẽ được chấp
nhận khi H0 bị bác bỏ.
Câu hỏi đặt ra là: Chúng ta chấp nhận hay bác bỏ một giả thiết bằng
cách nào ? Các nhà thống kê đều nhất trí với nhau nguyên lí sau đây:
Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử
hay một vài phép thử, biến cố đó sẽ không xảy ra.
17


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Như vậy, chúng ta sẽ quyết định bác bỏ giả thiết H0 nếu xác suất
xuất hiện một sự kiện quan sát được, tính trong điều kiện giả thiết H0
đúng, là “nhỏ”.
Sau đây ta sẽ trình bày một số ví dụ để minh họa ý này.
Ví dụ 2.1. Gieo một đồng tiền 1000 lần ta thấy xuất hiện mặt sấp 700
lần. Ta nghi ngờ xác suất xuất hiện mặt sấp cao hơn mặt ngữa và nhiệm

vụ của ta là kiểm tra điều đó. Gọi p là xác suất xuất hiện mặt sấp. Như
vậy, giả thiết H0 là p = 0, 5 và đối thiết H1 là p > 0, 5. Nếu giả thiết H0
đúng, tức p = 0, 5, thì xác suất gieo 1000 lần đồng xu được 700 lần mặt
1
700
sấp là C1000
= 5, 067 × 10−38 . Giá trị xác suất này quá nhỏ nên ta có
21000
thể bác bỏ H0 và chấp nhận H1 .
Ví dụ 2.2. Mọi cuộc nghiên cứu ở Mỹ cho biết trẻ em Mỹ ở độ tuổi đến
trường tiêu thụ trung bình 19,4 OZ sữa 1 ngày (OZ: chữ viết tắt của
ounce, đơn vị đo lường Anh: 1 OZ = 28,35g).
Trong một mẫu ngẫu nhiên gồm 140 trẻ em, người ta tính được
lượng sữa trung bình chúng uống là 18,5 OZ với độ lệch tiêu chuẩn là
6,8 OZ. Điều này có cho phép ta kết luận là trung bình lượng sữa tiêu
thụ ít hơn 19,4 OZ hay không ?
Giải. Gọi µ là lượng sữa tiêu thụ trung bình của một đứa trẻ trong một
ngày. Như vậy, giả thiết H0 là µ = 19, 4 và đối thiết H1 là µ < 19, 4. Nếu
giả thiết H0 đúng, ta sẽ tính xác suất để trung bình mẫu X bé hơn hay
bằng 18, 5.
Như đã biết, BBN X có phân bố chuẩn (hoặc xấp xỉ chuẩn) với kỳ
vọng là 19,4 và phương sai là √sn = √6,8
= 0, 575. Khi đó,
140
(
)
(
)
18, 5 − 19, 4
1

P X ≤ 18, 5 = φ
+ = 0, 0582.
0, 575
2
Xác suất này không nhỏ lắm (thông thường xác suất bé hơn 0,05 mới
được xem là nhỏ). Do đó, ta chưa có cơ sở để bác bỏ H0 . Nói cách khác,
chúng ta chưa thể khẳng định lượng sữa tiêu thụ trung bình của trẻ ít
hơn 19,4 OZ.
Trong khi đưa ra quyết định cho các tình huống tương tự như trên,
phải lựa chọn giữa hai giả thiết H0 và H1 , ta có thể phạm hai loại sai
lầm:
• Bác bỏ H0 trong khi H0 đúng, mà ta gọi là sai lầm loại I.
• Chấp nhận H0 trong khi H0 sai, mà ta gọi là sai lầm loại II.
Sai lầm loại I tương tự như sai lầm của quan tòa khi kết án nhầm
người vô tội, còn sai lầm loại II tương tự như tha bổng người có tội.
Một kiểm định thống kê được gọi là lý tưởng nếu làm cực tiểu cả sai
lầm loại I và sai lầm loại II. Tiếc thay không tồn tại một kiểm định lý
18


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

tưởng như vậy. Nếu ta làm giảm sai lầm loại I thì làm tăng sai lầm loại
II và ngược lại.
Trong một xã hội văn minh, người ta có xu hướng thừa nhận việc kết
án nhầm người vô tội là một sai lầm nghiêm trọng hơn nhiều so với sai
lầm tha bổng kẻ có tội. Trong bài toán kiểm định giả thiết cũng vậy. Ta
coi sai lầm loại I là nghiêm trọng hơn sai lầm loại II. Thành thử người

ta cố định trước xác suất sai lầm loại I. Xác suất của việc mắc sai lầm
loại I còn gọi là mức ý nghĩa, ký hiệu α. Xác suất mắc sai lầm loại II
được ký hiệu là β. Con số 1 − β được gọi là lực lượng của kiểm định. Lực
lượng của kiểm định là xác suất bác bỏ H0 khi H0 sai. Thông thường α
được lấy là 0, 05; 0, 02 và 0, 01. Trong tập hợp các kiểm định thống kê có
cùng mức ý nghĩa α, thống kê nào có β nhỏ nhất được xem là tốt nhất.
Các kiểm định được sử dụng trong chương này đều đã được chứng minh
một cách chặt chẽ là các kiểm định tốt nhất.
Cần lưu ý rằng khi kiểm định thống kê dẫn tới việc chấp nhận H0
thì β bằng bao nhiêu thì ta không biết. Thành thử, việc chấp nhận H0
được hiểu là các chứng cứ và số liệu đã có chưa đủ cơ sở để bác bỏ H0 ,
cần phải được nghiên cứu tiếp.
Các bước cần thiết trong việc tiến hành một kiểm định giả thiết
thống kê:
1. Phát biểu giả thiết H0 và đối thiết H1 .
2. Định rõ mức ý nghĩa α (xác suất mắc sai lầm loại I).
3. Chọn test thống kê.
4. Chọn miền bác bỏ H0 .
5. Tính giá trị của test thống kê từ mẫu quan sát được.
6. Kết luận bác bỏ hay chấp nhận H0 tùy theo giá trị của test thống
kê có rơi vào miền bác bỏ giả thiết hay không.

2.2

Kiểm định giả thiết về giá trị trung bình

Giả sử X ∼ N (µ, σ 2 ). Tập hợp chính ở đây là tập hợp tất cả các giá trị
của X. Một mẫu có kích thước n bao gồm các giá trị X1 , X2 , . . . , Xn thu
được từ n quan sát độc lập từ X. Ta muốn kiểm định giả thiết về µ.


2.2.1

Phương sai σ 2 đã biết

Bài toán 2.1. Ta muốn kiểm định giả thiết H0 với đối thiết H1 như sau:
H0 : µ = µ 0
H1 : µ ̸= µ0
ở đây µ0 là giá trị cho trước.
19


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Bài toán 2.1 được gọi là bài toán kiểm định hai phía.
Test thống kê được chọn ở đây là

(X − µ0 ) n
,
T =
σ


với mẫu cụ thể ta dùng ký hiệu t = (x−µσ0 ) n .
Ta sẽ bác bỏ H0 nếu T lớn (hoặc bé) một cách có ý nghĩa. Do đó, miền
bác bỏ H0 có dạng ∆ = {|T | > c} với c phụ thuộc vào mức ý nghĩa α.
Nếu H0 đúng, tức µ = µ0 , thì T ∼ N (0, 1). Vậy với mức ý nghĩa α đã
cho, hằng số c được tìm từ điều kiện
P ({|T | > c}) = α ⇔ P ({|T | ≤ c}) = 1 − α ⇔ c = zα

với φ(zα ) =

1−α
.
2

Ví dụ 2.3. Những thống kê trong năm 2008 cho thấy một người Mỹ đi
du lịch ở Châu Âu trong vòng 3 tuần sẽ chi hết trung bình 1010 USD.
Một cuộc nghiên cứu được tiến hành trong năm 2009 để xác định xem
có sự thay đổi gì trong việc chi tiêu mua sắm khi du lịch Châu Âu của
người Mỹ hay không. Khảo sát 100 khách du lịch cho thấy số tiền trung
bình họ tiêu là 1015 USD. Hãy kiểm định giả thiết: “Số tiền trung bình
một người Mỹ chi tiêu khi đi du lịch ở Châu Âu trong hai năm 2008
và 2009 là như nhau” với mức ý nghĩa 5%, biết độ lệch chuẩn qua từng
năm là như nhau, bằng 300 USD.
Giải. Trước hết ta phát biểu giả thiết H0 và đối thiết H1 :
H0 : µ = 1010
H1 : µ ̸= 1010
với µ là số tiền trung bình một người Mỹ chi tiêu khi đi du lịch ở Châu
Âu trong năm 2009.
Test thống kê được chọn là

(x − µ0 ) n
t=
σ
với x = 1015; µ0 = 1010; n = 100; σ = 300. Khi đó, ta tính được t = 61 .
Hơn nữa, với mức ý nghĩa α = 5% thì zα = 1, 96. Ta thấy |t| < zα nên
giả thiết H0 được chấp nhận.
Bài toán 2.2. Ta muốn kiểm định giả thiết H0 với đối thiết H1 như sau:
H0 : µ = µ0

H1 : µ > µ 0
ở đây µ0 là giá trị cho trước.
20


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Bài toán 2.2 được gọi là bài toán kiểm định một phía.
Test thống kê được chọn là
(
)√
X − µ0
n
T =
,
σ


với mẫu cụ thể ta dùng ký hiệu t = (x−µσ0 ) n .
Ta sẽ bác bỏ H0 nếu T lớn một cách có ý nghĩa. Do đó, miền bác bỏ
H0 có dạng ∆ = {T > c} với c phụ thuộc vào mức ý nghĩa α.
Nếu H0 đúng, tức µ = µ0 , thì T ∼ N (0, 1). Vậy với mức ý nghĩa α đã
cho, hằng số c được tìm từ điều kiện
P ({T > c}) = α ⇔ P ({T ≤ c}) = 1 − α ⇔ c = z2α .
Ví dụ 2.4. Theo thông báo của Lầu Năm Góc, quân đội Mỹ bố trí trung
bình 90 tên lửa ở mỗi căn cứ tên lửa. Một tổ chức hòa bình quốc tế dự
định kiểm tra 49 căn cứ để xem thông báo nói trên có đúng hay không.
Đoàn kiểm tra sử dụng mức ý nghĩa 0, 1.

1) Phát biểu giả thiết H0 và đối thiết H1 .
2) Giả sử đoàn kiểm tra tính được số tên lửa bố trí trung bình trong
mỗi căn cứ là 92. Họ cần phải rút ra kết luận gì ? Biết rằng σ = 9.
Giải. 1) Mặc dù đề bài không đề cập đến, nhưng ta thấy mục đích lớn
nhất của đoàn kiểm tra là xem Lầu Năm Góc có bố trí nhiều tên lửa
hơn so với thông báo hay không. Chính vì thế, giả thiết H0 và đối thiết
H1 ở đây là:
H0 : µ = 90
H1 : µ > 90
với µ là trung bình số tên lửa mà Lầu Năm Góc bố trí thực sự cho tất cả
căn cứ quân sự.
2) Test thống kê được chọn là

(x − µ0 ) n
t=
σ
với x = 92; µ0 = 90; n = 49; σ = 9. Khi đó, ta tính được t = 1, 56.
Hơn nữa, với mức ý nghĩa α = 0, 1 thì z2α = 1, 28. Vì t > z2α nên ta
bác bỏ H0 và chấp nhận H1 , tức Lầu Năm Góc bố trí tên lửa dày đặc hơn
so với thông báo.
Bài toán 2.3. Ta muốn kiểm định giả thiết H0 với đối thiết H1 như sau:
H0 : µ = µ 0
H1 : µ < µ 0
ở đây µ0 là giá trị cho trước.
21


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM


Bài toán 2.3 cũng được gọi là bài toán kiểm định một phía.
Test thống kê được chọn là
(

X − µ0
T =
σ

)√
n

,



với mẫu cụ thể ta dùng ký hiệu t = (x−µσ0 ) n .
Ta sẽ bác bỏ H0 nếu T nhỏ một cách có ý nghĩa. Do đó, miền bác bỏ
H0 có dạng ∆ = {T < −c} với c phụ thuộc vào mức ý nghĩa α.
Nếu H0 đúng, tức µ = µ0 , thì T ∼ N (0, 1). Vậy với mức ý nghĩa α đã
cho, hằng số c được tìm từ điều kiện
⇔ P ({T < −c}) = α ⇔ c = z2α .
Ví dụ 2.5. Từ một tập hợp chính có phân bố chuẩn với kỳ vọng µ (chưa
biết) và độ lệch chuẩn σ = 10, người ta lấy một mẫu gồm 121 quan sát
và tính được x = 95. Với mức ý nghĩa α = 0, 01, hãy kiểm định giả thiết
H0 và đối thiết H1 như sau:
H0 : µ = 100
H1 : µ < 100
Giải. Test thống kê được chọn là


(x − µ0 ) n
t=
σ
với x = 95; µ0 = 100; n = 121; σ = 10. Khi đó, ta tính được t = −5, 5.
Hơn nữa, với mức ý nghĩa α = 0, 01 ta được z2α = 2, 33. Vì t < −z2α
nên ta bác bỏ H0 và chấp nhận H1 , tức trung bình của tập hợp chính bé
hơn 100.

2.2.2 Phương sai σ 2 chưa biết, kích thước mẫu n ≥ 30
Trong trường hợp này ta vẫn dùng các test thống kê như trên nhưng ta
thay độ lệch chuẩn σ của tập chính bằng độ lệch chuẩn đã hiệu chỉnh s
của mẫu. Chú ý rằng, theo định lý giới hạn trung tâm, test thống kê T
có phân bố xấp xỉ chuẩn dù tập chính có phân bố như thế nào.
Ví dụ 2.6. Một nghiên cứu cho rằng trung bình một khách hàng vào
siêu thị A tiêu hết 200 ngàn đồng. Ta muốn kiểm định khẳng định trên
bằng cách chọn ngẫu nhiên 64 khách hàng. Với mẫu đã chọn, ta tính
được số tiền trung bình họ tiêu là 220 ngàn đồng với độ lệch tiêu chuẩn
là 50 ngàn đồng. Phát biểu giả thiết H0 , đối thiết H1 và kiểm định H0
với mức ý nghĩa α = 5%.
22


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Giải. Trước hết, ta phát biểu giả thiết H0 và đối thiết H1 :
H0 : µ = 200
H1 : µ ̸= 200
với µ là số tiền trung bình của khách hàng chi tiêu trong siêu thị A.

Test thống kê được chọn là

(x − µ0 ) n
t=
s
với x = 220; µ0 = 200; n = 64; s = 50. Khi đó, ta tính được t = 3, 2.
Hơn nữa, với mức ý nghĩa α = 5% ta được zα = 1, 96. Vì |t| > zα nên
ta bác bỏ H0 và chấp nhận H1 .
Ví dụ 2.7. Trong năm học trước, mức chi tiêu trung bình hàng tháng
của sinh viên trường ĐHCN là 1.400.000 đồng. Trong năm học này, với
một mẫu ngẫu nhiên 80 em, ta tìm được mỗi tháng họ chi tiêu trung
bình 1.460.000 đồng với độ lệch chuẩn đã hiệu chỉnh là 100.000 đồng.
Với mức ý nghĩa 5%, ta có thể kết luận chi phí của sinh viên năm nay
cao hơn năm trước hay không ?
Giải. Trước hết, ta phát biểu giả thiết H0 và đối thiết H1 :
H0 : µ = 1.400.000
H1 : µ > 1.400.000
với µ là chi phí chi tiêu trung bình của toàn bộ sinh viên trường ĐHCN.
Test thống kê được sử dụng là

(x − µ0 ) n
t=
s
với x = 1.460.000; µ0 = 1.400.000; n = 80; s = 100.000. Khi đó, ta tính được
t = 5, 37.
Hơn nữa, với mức ý nghĩa α = 5% ta được z2α = 1, 65. Vì t > z2α nên
ta bác bỏ H0 và chấp nhận H1 , tức sinh viên năm nay chi tiêu nhiều hơn
năm trước.
Ví dụ 2.8. Để điều trị một loại bệnh R người ta thường dùng loại thuốc
A. Thời gian chữa trị bằng thuốc A trung bình kéo dài 30 ngày thì bệnh

nhân khỏi bệnh. Vì chữa trị bằng thuốc A khá tốn kém nên các nhà
khoa học đã cố gắng chế tạo ra một loại thuốc mới, mà ta gọi là B, với
phí chữa trị thấp hơn và thời gian khỏi bệnh nhanh hơn. Để kiểm tra
tính hiệu quả thật sự của B, các nhà khoa học đã chọn ngẫu nhiên 100
bệnh nhân mắc bệnh R và cho dùng thuốc B. Kết quả cho thấy thời gian
khỏi bệnh trung bình của bệnh nhân là 25 ngày với độ lệch chuẩn đã
hiệu chỉnh là 5 ngày. Với mức ý nghĩa 1%, ta có thể kết luận thuốc B
hiệu quả hơn thuốc A hay không ?
23


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Giải. Trước hết, ta phát biểu giả thiết H0 và đối thiết H1 như sau:
H0 : µ = 30
H1 : µ < 30
với µ là số ngày trung bình để người bị bệnh R được chữa khỏi bằng
thuốc B.
Test thống kê được chọn là

(x − µ0 ) n
t=
s
với x = 25; µ0 = 30; n = 100; s = 5. Khi đó, ta tính được t = −10.
Hơn nữa, với mức ý nghĩa α = 1% ta được z2α = 2, 33. Vì t < −z2α nên
ta bác bỏ H0 và chấp nhận H1 , tức thuốc B hiệu quả hơn thuốc A.

2.2.3 Phương sai σ 2 chưa biết, kích thước mẫu n < 30

Bài toán 2.4. Ta muốn kiểm định giả thiết H0 với đối thiết H1 như sau:
H0 : µ = µ0
H1 : µ ̸= µ0
ở đây µ0 là giá trị cho trước.
Test thống kê được chọn ở đây là

(X − µ0 ) n
T =
,
S


với mẫu cụ thể ta dùng ký hiệu t = (x−µs0 ) n .
Ta sẽ bác bỏ H0 nếu T lớn (hoặc bé) một cách có ý nghĩa. Do đó, miền
bác bỏ H0 có dạng ∆ = {|T | > c} với c phụ thuộc vào mức ý nghĩa α.
Nếu H0 đúng, tức µ = µ0 , thì T ∼ tn−1 . Vậy với mức ý nghĩa α đã cho,
hằng số c được tìm từ điều kiện
P ({|T | > c}) = α ⇔ P ({|T | ≤ c}) = 1 − α ⇔ c = tn−1
α
với S(tn−1
α ) =

1−α
.
2

Ví dụ 2.9. Một công ty sản xuất pin tuyên bố rằng pin của họ có tuổi
thọ trung bình là 21, 5 giờ. Một cơ quan kiểm tra chất lượng của 6 pin
và thu được số liệu về tuổi thọ của 6 pin này (đơn vị, giờ):
19 18


22

20

16

25

Kết quả này có xác nhận là quảng cáo của công ty là đúng hay không ?
Mức ý nghĩa được chọn là α = 5%.
24


Huỳnh Hữu Dinh

Trường Đại Học Công Nghiệp TPHCM

Giải. Trước hết, ta phát biểu giả thiết H0 và đối thiết H1 như sau:
H0 : µ = 21, 5
H1 : µ ̸= 21, 5
với µ là tuổi thọ trung bình của pin trong thực tế.
Test thống kê được chọn là

(x − µ0 ) n
t=
s
với x = 20; µ0 = 21, 5; n = 6; s = 3, 16. Khi đó, ta tính được t = 1, 16.
Hơn nữa, với mức ý nghĩa α = 5% và bậc tự do n − 1 = 5 ta được
5

tα = 2, 571. Vì |t| < t5α nên ta chưa có cơ sở bác bỏ H0 .
Bài toán 2.5. Ta muốn kiểm định giả thiết H0 với đối thiết H1 như sau:
H0 : µ = µ 0
H1 : µ > µ 0
ở đây µ0 là giá trị cho trước.
Test thống kê được chọn là
(

X − µ0
T =
S

)√
n

,



với mẫu cụ thể ta dùng ký hiệu t = (x−µs0 ) n .
Ta sẽ bác bỏ H0 nếu T lớn một cách có ý nghĩa. Do đó, miền bác bỏ
H0 có dạng ∆ = {T > c} với c phụ thuộc vào mức ý nghĩa α.
Nếu H0 đúng, tức µ = µ0 , thì T ∼ tn−1 . Vậy với mức ý nghĩa α đã cho,
hằng số c được tìm từ điều kiện
n−1
P ({T > c}) = α ⇔ P ({T ≤ c}) = 1 − α ⇔ c = t2α
.

Ví dụ 2.10. Trong năm học trước, mức chi tiêu trung bình hàng tháng
của sinh viên trường ĐHCN là 1.400.000 đồng. Trong năm học này, với

một mẫu ngẫu nhiên 16 em, ta tìm được mỗi tháng họ chi tiêu trung
bình 1.460.000 đồng với độ lệch chuẩn đã hiệu chỉnh là 100.000 đồng.
Với mức ý nghĩa 5%, ta có thể kết luận chi phí của sinh viên năm nay
cao hơn năm trước hay không ?
Giải. Trước hết, ta phát biểu giả thiết H0 và đối thiết H1 :
H0 : µ = 1.400.000
H1 : µ > 1.400.000
với µ là chi phí chi tiêu trung bình của sinh viên trường ĐHCN.
25


×