Tải bản đầy đủ (.pdf) (63 trang)

Bài giảng thống kê xã hội 2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (734.93 KB, 63 trang )

TRƯỜNG ĐẠI HỌC ĐÀ LẠT
KHOA XÃ HỘI HỌC VÀ CÔNG TÁC XÃ HỘI
– ¯ —

THS. NGUYỄN HỮU TÂN

BÀI GIẢNG TÓM TẮT

THỐNG KÊ XÃ HỘI 2
Dành cho sinh viên ngành Công tác xã hội và Phát triển cộng đồng
(Lưu hành nội bộ)

Đà Lạt, 2007

1


LỜI NÓI ĐẦU
Bài giảng tóm tắt này được viết nhằm phục vụ cho những sinh viên ngành Công
tác xã hội và Phát triển cộng đồng theo học môn “Thống kê xã hội 2” (3 tín chỉ).
Đây là học phần tiếp nối của học phần “Thống kê xã hội 1” (2 tín chỉ).
Nội dung của bài giảng được biên soạn dựa trên các yêu cầu về mục tiêu cũng
như nội dung đã được Khoa Xã hội học và Công tác xã hội thiết kế dành cho
môn học.
Do trình độ người viết có hạn, mặc dù có nhiều cố gắng song bài giảng tóm tắt
chắc chắn không tránh khỏi những lỗi sai. Người viết rất mong nhận được những
góp ý và phê bình quý giá của các bạn đọc.
Mọi thư từ nhận xét, góp ý liên quan đến bài giảng tóm tắt xin gửi theo địa chỉ:
Nguyễn Hữu Tân
Khoa Xã hội học và Công tác xã hội
Trường Đại Học Đà Lạt


01 Phù Đổng Thiên Vương, Đà Lạt
Chân thành cảm ơn.

Đà Lạt, tháng 8 năm 2008
Nguyễn Hữu Tân

2


MỤC LỤC
CHƯƠNG 1 – PHÂN PHỐI MẪU.......................................................................
1. Phân phối tổng thể và phân phối mẫu..................................................................
1.1 Phân phối tổng thể .................................................................................
1.2 Phân phối mẫu .......................................................................................
2. Sai số mẫu và sai số không do lấy mẫu ..............................................................

1
1
1
1
2

3. Trung bình và độ lệch chuẩn của x .................................................................... 3
4. Hình dáng phân phối mẫu của x ........................................................................ 5
4.1 Mẫu rút từ tổng thể có phân phối chuẩn ................................................. 5
4.2 Mẫu rút từ tổng thể có phân phối không chuẩn ...................................... 8
5. Ứng dụng phân phối mẫu của x ......................................................................... 11
6. Tỷ lệ tổng thể và tỷ lệ mẫu ................................................................................. 12
7. Trung bình, độ lệch chuẩn và hình dáng phân phối mẫu của pˆ .......................... 13
8. Ứng dụng phân phối mẫu của pˆ ........................................................................ 15

Bài tập Chương 1 ...................................................................................................
CHƯƠNG 2 – ƯỚC LƯỢNG TRUNG BÌNH VÀ TỶ LỆ .................................
1. Bài toán ước lượng .............................................................................................
2. Ước lượng điểm và ước lượng khoảng ...............................................................
2.1 Ước lượng điểm ....................................................................................
2.2 Ước lượng khoảng .................................................................................
3. Ước lượng khoảng trung bình tổng thể: Mẫu lớn ................................................
4. Ước lượng khoảng trung bình tổng thể: Mẫu nhỏ ...............................................
5. Ước lượng điểm và ước lượng khoảng tỷ lệ tổng thể: Mẫu lớn ...........................
5.1 Ước lượng điểm tỷ lệ tổng thể ...............................................................
5.2 Ước lượng khoảng tỷ lệ tổng thể ...........................................................
6. Xác định độ lớn mẫu đối với ước lượng trung bình ............................................
7. Xác định độ lớn mẫu đối với ước lượng tỷ lệ .....................................................
Bài tập Chương 2 ...................................................................................................
CHƯƠNG 3 – KIỂM ĐỊNH GIẢ THUYẾT ĐỐI VỚI TR. BÌNH VÀ TỶ LỆ .
1. Dẫn nhập ...........................................................................................................
1.1 Kiểm định giả thuyết là gì? ....................................................................
1.2 Hai giả thuyết ........................................................................................
1.3 Miền bác bỏ và miền chấp nhận ............................................................
1.4 Hai loại sai lầm .....................................................................................
1.5 Kiểm định hai đuôi và một đuôi ............................................................
2. Kiểm định giả thuyết trung bình đối với mẫu lớn: Dùng cách tiếp cận giá trị p ..
3. Kiểm định giả thuyết đối với trung bình tổng thể: Mẫu lớn ................................
4. Kiểm định giả thuyết đối với trung bình tổng thể: Mẫu nhỏ ...............................
5. Kiểm định giả thuyết đối với tỷ lệ tổng thể: Mẫu lớn .........................................

16
20
20
20

20
21
22
24
26
27
27
28
28
29
34
34
34
34
35
36
38
42
45
48
52
3


Bài tập Chương 3 ................................................................................................... 54
CÁC PHỤ LỤC
TÀI LIỆU THAM KHẢO

4



CHƯƠNG 1

PHÂN PHỐI MẪU
1. Phân phối tổng thể và phân phối mẫu
1.1 Phân phối tổng thể
Phân phối tổng thể là phân phối xác suất được rút ra từ thông tin của tất cả các phần tử
thuộc tổng thể. Nói cách khác, phân phối tổng thể là phân phối xác suất của dữ liệu
tổng thể.
Ví dụ: Giả sử chỉ có 5 sinh viên đăng ký học lớp Thống kê Xã hội học. Điểm thi cuối
kỳ của 5 sinh viên này lần lượt là 70 78 80 80 95.
Gọi x là điểm thi cuối kỳ của sinh viên. Dùng lớp một giá trị ta có thể tính được phân
phối tần suất của điểm này như sau:
Phân phối tần suất tương đối tổng thể
x
70
78
80
95

f
Tần suất tương đối
1
1/5 = 0,20
1
1/5 = 0,20
2
2/5 = 0,40
1
1/5 = 0,20

N=5
Tổng = 1,00

Dựa vào phân phối tần suất tương đối ta có phân phối xác suất tổng thể.
Phân phối xác suất tổng thể
x
70
78
80
95

P(x)
0,20
0,20
0,40
0,20
Tổng = 1,00

Từ phân phối xác suất tổng thể ta có thể tính được giá trị trung bình µ và độ lệch
chuẩn σ. Ta có µ = 80,60 và σ = 8,09. Đây chính là các tham số tổng thể.
1.2 Phân phối mẫu
Từ tổng thể trên, ta chọn ra ngẫu nhiên các mẫu khác nhau có cùng kích thước. Ứng
với mỗi mẫu ta tính được một trung bình mẫu x .
Ta thấy rằng giá trị của µ (tham số tổng thể) không đổi nhưng giá trị của x thì thay đổi
tùy theo các phần tử có trong mẫu.
Ta có thể nói trung bình mẫu x là một biến ngẫu nhiên. Như vậy giống như các biến
ngẫu nhiên khác, trung bình mẫu cũng có phân phối xác suất.
Phân phối xác suất của trung bình mẫu x được gọi là phân phối mẫu.
Tổng quát, phân phối xác suất của một thống kê mẫu được gọi là phân phối mẫu.
5



Nhắc lại trong chương 3, các đo lường tóm lược được tính toán đối với tập dữ liệu tổng
thể được gọi là tham số tổng thể, còn tính toán đối với tập dữ liệu mẫu thì được gọi là
thống kê mẫu.

Ví dụ: Trở lại ví dụ trước, ta gán A, B, C và D cho các điểm số của 5 sinh viên. Rút
ngẫu nhiên từ tổng thể các mẫu gồm 3 sinh viên.
Tất cả các mẫu có thể có và trung bình mẫu của chúng
Mẫu Các điểm trong mẫu Trung bình mẫu
ABC
70, 78, 80
76, 00
ABD
70, 78, 80
76,00
ABE
70, 78, 95
81,00
ACD
70, 80, 80
76, 67
ACE
70, 80, 95
81, 67
ADE
70, 80, 95
81, 67
BCD
78, 80, 80

79,33
BCE
78, 80, 95
84,33
BDE
78, 80, 95
84,33
CDE
80, 80, 95
85,00
Phân phối tần suất tương đối của trung bình mẫu
Trung bình mẫu
76, 00
76,67
79,33
81,00
81,67
84,33
85,00

f
2
1
1
1
2
2
1
Tổng = 10


Tần suất tương đối
2/10 = 0,20
1/10 = 0,10
1/10 = 0,10
1/10 = 0,10
2/10 = 0,20
2/10 = 0,20
1/10 = 0,10
Tổng = 1,00

Phân phối mẫu của x (Phân phối xác suất của x )
x

76, 00
76,67
79,33
81,00
81,67
84,33
85,00

P( x )
2/10 = 0,20
1/10 = 0,10
1/10 = 0,10
1/10 = 0,10
2/10 = 0,20
2/10 = 0,20
1/10 = 0,10
Tổng = 1,00


2. Sai số mẫu và sai số không do lấy mẫu
Nhận xét.
Các mẫu khác nhau được chọn từ cùng một tổng thể sẽ cho các kết quả khác nhau.
Nhìn chung, kết quả thu được từ một mẫu bất kỳ sẽ khác với kết quả thu được từ tổng
thể tương ứng. Ví dụ trung bình của một mẫu sẽ khác với trung bình tổng thể. Sự sai
khác này được gọi là sai số mẫu (sai số có từ việc lấy mẫu).
6


Tổng quát, sai số mẫu (sampling error) là sự chênh lệch giữa giá trị của một thống kê
mẫu và giá trị của tham số tổng thể tương ứng.
Trong trường hợp của trung bình, ta có sai số mẫu = x - µ .
Điều quan trọng cần nhớ là sai số mẫu xảy ra là do may rủi bởi vì mẫu được chọn ngẫu
nhiên.
Ngoài sai số mẫu ta còn những sai số khác xảy ra từ những việc như thu thập dữ liệu,
nhập dữ liệu, hoặc tổ chức dữ liệu thành bảng. Những sai số này được gọi là sai số
không do lấy mẫu (nonsampling errors).
Ví dụ: Trở lại ví dụ điểm của 5 sinh viên.
Điểm của 5 sinh viên là 70, 78, 80, 80 và 95.
Trung bình tổng thể µ = (70+78+80+80+95) / 5 = 80,60
Lấy một mẫu ngẫu nhiên gồm 3 phần tử, giả sử có điểm lần lượt là 70, 80 và 95.
Trung bình mẫu = (70+80+95) / 3 = 81,67
Sai số mẫu = x - µ = 81,67 – 80,60 = 1,07
Sự chênh lệch này xảy ra do may rủi (do tình cờ), bởi vì ta đã dùng một mẫu ngẫu
nhiên thay vì dùng tổng thể.
Cũng với mẫu ngẫu nhiên trên nhưng khi thu thập dữ liệu để xử lý ta có thể ghi nhầm
số 80 thành 82.
Khi đó trung bình mẫu = (70+82+95) / 3 = 82,33
Sai số mẫu = x - µ = 82,33 – 80,60 = 1,73

Ta có 1,73 – 1,07 = 0,66
Trong trường hợp này:
• Sai số mẫu = 1,07
• Sai số không do việc lấy mẫu = 0,66
Như vậy, sai số không do việc lấy mẫu = TB mẫu không đúng – TB mẫu đúng = 82,33
– 81,67 = 0,66
Chú ý rằng trong thực tế ta thường không biết được trung bình tổng thể. Do đó ta chọn
một mẫu và dùng trung bình của mẫu này như là một ước lượng của trung bình tổng
thể. Như vậy ta cũng không biết được sai số mẫu.
3. Trung bình và độ lệch chuẩn của x
Trung bình và độ lệch chuẩn của phân phối mẫu của x được gọi là trung bình và độ
lệch chuẩn của x , và được ký hiệu là µ x và σ x một cách tương ứng.
Ta có trung bình của phân phối mẫu của x luôn luôn bằng trung bình của tổng thể.
Tức là

µx = µ .

7


Ví dụ: Trở lại ví dụ cũ ta có
x

76, 00
76,67
79,33
81,00
81,67
84,33
85,00


P( x )
2/10 = 0,20
1/10 = 0,10
1/10 = 0,10
1/10 = 0,10
2/10 = 0,20
2/10 = 0,20
1/10 = 0,10
Tổng = 1,00

Trung bình của x là trung bình của phân phối mẫu của x tức là trung bình của phân
phối xác suất của x .
µ x = 76,0 x 0,2 + 76,67 x 0,1 + 79,33 x 0,1 + 81,0 x 0,1 + 81,67 x 0,2 + 84,33 x 0,2
+ 85,0 x 0,1 = 80,60

Trung bình tổng thể µ = (70+78+80+80+95) / 5 = 80,60
Ta có

µx = µ .

Trung bình mẫu x được gọi là một ước lượng (estimator) của trung bình tổng thể µ.
Khi giá trị kỳ vọng (hoặc trung bình) của một thống kê mẫu bằng giá trị của tham số
tổng thể tương ứng thì thống kê mẫu đó được gọi là một ước lượng không chệch
(unbiased estimator).
Đối với trung bình mẫu x ta có

µx = µ

nên trung bình mẫu x là một ước lượng


không chệch của trung bình tổng thể µ. Đây là một tính chất quan trọng mà một ước
lượng nên có.
Tuy nhiên độ lệch chuẩn của x thì lại không bằng độ lệch chuẩn σ của tổng thể (trừ
khi n=1).
Tổng quát, ta có:

σx =

σ
n

, trong đó σ là độ lệch chuẩn của tổng thể và n là kích

thước mẫu. Công thức này được dùng khi n/N ≤ 0,05 với N là kích thước tổng thể.
Nếu điều kiện n/N ≤ 0,05 không thỏa thì công thức sau được dùng để tính độ lệch
chuẩn của phân phối mẫu của x .

σx =

σ
n

N −n
N −1

trong đó, n là kích thước mẫu và N là kích thước tổng thể.

(Tuy nhiên trong phần lớn các ứng dụng thực tế thì kích thước mẫu nhỏ hơn kích
thước tổng thể nhiều nên điều kiện n/N ≤ 0,05 thường được thỏa mãn.)


8


Hai quan sát quan trọng đối với phân phối mẫu của x .
• Độ giãn của phân phối mẫu của x nhỏ hơn độ giãn của phân phối tổng thể
tương ứng. Tức là σ x < σ .
• Độ lệch chuẩn của phân phối mẫu của x giảm khi kích thước mẫu tăng lên.
Tổng quát, nếu độ lệch chuẩn của một thống kê mẫu giảm khi kích thước mẫu tăng lên
thì thống kê mẫu này được xem là một ước lượng phù hợp (consistent estimator) của
tham số tổng thể. Đây cũng là một tính chất quan trọng mà một ước lượng nên có.
Như vậy trung bình mẫu x là một ước lượng phù hợp của trung bình tổng thể µ.
Ví dụ: Trung bình lương giờ của tất cả 5000 công nhân của một công ty là $17,50 và
độ lệch chuẩn là $2,90. Gọi x là trung bình lương giờ của một mẫu ngẫu nhiên nào đó
được chọn ra từ công ty. Tìm trung bình và độ lệch chuẩn của x đối với mẫu có kích
thước lần lượt là 30, 75 và 200.
Ta có N = 5000, µ = 17,50 và σ = 2,90.
a) n = 30
µ x = µ = 17,50
σx =

σ
n

=

2,90
30

= 0,529


b) n = 57
µ x = µ = 17,50

σx =

σ
n

=

2,90
75

= 0,335

c) n = 200
µ x = µ = 17,50

σx =

σ
n

=

2,90
200

= 0,205


Nhận xét trung bình của x luôn luôn bằng trung bình của tổng thể nhưng độ lệch
chuẩn của x thì giảm khi n tăng lên.
4. Hình dáng phân phối mẫu của x
4.1 Mẫu rút từ tổng thể có phân phối chuẩn
Nếu tổng thể từ đó mẫu được lấy ra có phân phối chuẩn với trung bình µ và độ lệch
chuẩn σ thì phân phối mẫu của x cũng sẽ là phân phối chuẩn bất chấp n với

µx = µ



σx =

σ
n

(Chú ý điều kiện n/N ≤ 0,05 phải thỏa)
9


Phân phối tổng thể
Phân phối chuẩn

Phân phối mẫu của x
với n = 5

Phân phối chuẩn

Phân phối mẫu của x

với n = 16

Phân phối chuẩn

Phân phối mẫu của x
với n = 30

Phân phối chuẩn

Ví dụ: Trong một cuộc thi tuyển mới đây, điểm trung bình của tất cả các thí sinh là
1020. Giả sử phân phối của điểm thi của tất cả các thí sinh là phân phối chuẩn với
trung bình là 1020 và độ lệch chuẩn là 153. Coi x là điểm trung bình của một mẫu
ngẫu nhiên các thí sinh. Tính trung bình và độ lệch chuẩn của x và mô tả hình dáng
phân phối chuẩn ứng với kích thước mẫu lần lượt là 16, 50 và 1000.
a) n = 16.

10


µ x = µ = 1020
σx =

σ
n

=

153
16


= 38,250

Phân phối mẫu của
x với n = 16

σ x = 38,250

Phân phối chuẩn

σ = 153

µ x = µ = 1020

b) n = 50.
µ x = µ = 1020

σx =

σ
n

=

153

= 21,637

50

Phân phối mẫu của


x với n = 50

σ x = 21,637

σ = 153

Phân phối chuẩn

µ x = µ = 1020

c) n = 100.
µ x = µ = 1020
σx =

σ
n

=

153
1000

= 4,838

11


Phân phối mẫu của
x với n = 50


σ x = 4,838

Phân phối chuẩn

σ = 153

µ x = µ = 1020

4.2 Mẫu rút từ tổng thể có phân phối không chuẩn
Trong trường hợp tổng thể từ đó mẫu được lấy ra có phân phối không phải là phân
phối chuẩn thì hình dáng của phân phối mẫu của x được suy ra từ định lý giới hạn
trung tâm.
Định lý giới hạn trung tâm
Đối với mẫu có kích thước lớn (n ≥ 30), phân phối mẫu của x xấp xỉ chuẩn bất
chấp hình dáng của phân phối tổng thể.

µx = µ



σx =

σ
n

(Chú ý điều kiện n/N ≤ 0,05 phải thỏa)

Phân phối tổng thể


Phân phối mẫu của x với n = 4

12


Phân phối mẫu của x với n = 15

Phân phối mẫu của x với n = 30

Xấp xỉ phân phối chuẩn

Phân phối mẫu của x với n = 80

Ví dụ: Tiền thuê nhà trung bình của tất cả các người thuê nhà trong một thành phố lớn
là $1550 với độ lệch chuẩn là $225. Tuy nhiên phân phối tổng thể của tiền thuê nhà
của tất cả những người thuê trong thành phố là xiên về bên phải. Tính trung bình và độ
lệch chuẩn của x và mô tả hình dáng của phân phối mẫu với kích thước mẫu lần lượt
là 30, 100.
a) n = 30. Áp dụng định lý giới hạn trung tâm
µ x = µ = 1550

σx =

σ
n

=

225
30


= 41,079

13


Phân phối tổng thể
σ = 225

µ = 1550

Phân phối mẫu của x với n = 30

σ x = 41,079

µ x = 1550

x

b) n = 100. Áp dụng định lý giới hạn trung tâm
µ x = µ = 1550

σx =

σ
n

=

225

100

= 22,500

Phân phối tổng thể
σ = 225

µ = 1550

Phân phối mẫu của x với n = 100

σ x = 22,500

µ x = 1550

x
14


5. Ứng dụng phân phối mẫu của x
Từ định lý giới hạn trung tâm ta suy ra được một số mệnh đề như sau.
Mệnh đề 1
Từ một tổng thể nếu ta rút ra tất cả các mẫu có cùng kích thước (lớn) có thể có
và tính trung bình của từng mẫu thì có khoảng 68,26% các trung bình mẫu này
sẽ nằm trong khoảng một độ lệch chuẩn so với trung bình của tổng thể.

P ( µ − σ x ≤ x ≤ µ + σ x ) = 0,6826
Diện tích vùng xám
là 0,6826


µ −σ x

µ

µ +σx

x

Mệnh đề 2
Từ một tổng thể nếu ta rút ra tất cả các mẫu có cùng kích thước (lớn) có thể có
và tính trung bình của từng mẫu thì có khoảng 95,44% các trung bình mẫu này
sẽ nằm trong khoảng hai độ lệch chuẩn so với trung bình của tổng thể.

P ( µ − 2σ x ≤ x ≤ µ + 2σ x ) = 0,9544
Diện tích vùng xám
là 0,9544

µ − 2σ x

µ

µ + 2σ x

x

Mệnh đề 3
Từ một tổng thể nếu ta rút ra tất cả các mẫu có cùng kích thước (lớn) có thể có
và tính trung bình của từng mẫu thì có khoảng 99,74% các trung bình mẫu này
sẽ nằm trong khoảng ba độ lệch chuẩn so với trung bình của tổng thể.


P ( µ − 3σ x ≤ x ≤ µ + 3σ x ) = 0,9974

15


Diện tích vùng xám
là 0,9974

µ − 3σ x

µ + 3σ x

µ

x

Ví dụ: Giả sử rằng trọng lượng của tất cả các gói bánh (một loại bánh có nhãn hiệu nào
đó) có phân phối chuẩn với trung bình là 320g và độ lệch chuẩn là 3g. Tính xác suất để
trọng lượng trung bình, x , của một mẫu ngẫu nhiên gồm 20 gói bánh nằm giữa 318g
và 319g.
Mặc dù kích thước mẫu nhỏ (n < 30) nhưng hình dáng của phân phối mẫu của x là
chuẩn vì tổng thể có phân phối chuẩn.
Trung bình và độ lệch chuẩn của x là:
µ x = µ = 320

σx =

σ
n


=

3
20

= 0,6708

Ta tính xác suất P(318 ≤ x ≤ 319).
Trước hết ta tính giá trị z tương ứng giá trị x

z=

x−µ

σx

Sau khi chuyển qua z ta tính được:
P(318 ≤ x ≤ 319) = P(-2,98 ≤ z ≤ -1,49) = 0,0667
6. Tỷ lệ tổng thể và tỷ lệ mẫu
Khái niệm tỷ lệ giống như khái niệm tần suất tương đối ở chương 2 và khái niệm xác
suất thành công trong phép thử nhị thức.
Tần suất tương đối của một loại hoặc lớp cho ta tỷ lệ của mẫu hoặc tỷ lệ của tổng thể
thuộc loại hoặc lớp đó.
Tương tự, xác suất thành công trong một phép thử nhị thức biểu diễn tỷ lệ của mẫu
hoặc tỷ lệ của tổng thể có đặc tính đã cho.
Tỷ lệ tổng thể, ký hiệu là p, và tỷ lệ mẫu, ký hiệu là pˆ , là các tỷ số

p=

X

N



pˆ =

x
n

trong đó:
• N = tổng số các phần tử có trong tổng thể


n = tổng số các phần tử có trong mẫu
16




X = số phần tử trong tổng thể có đặc tính đã cho



x = số phần tử trong mẫu có đặc tính đã cho

Ví dụ: Giả sử tổng cộng có tất cả 789.654 gia đình sống trong một thành phố và có
563.282 gia đình trong số này có sở hữu nhà. Một mẫu gồm 240 gia đình được chọn từ
thành phố này, trong đó có 158 gia đình là có sở hữu nhà. Tính tỷ lệ gia đình sở hữu
nhà trong tổng thể và trong mẫu.
p = X / N = 789654 / 563282 = 0,71

Tương tự pˆ = x / n = 158 / 240 = 0,66
Sai số mẫu = pˆ – p = 0,66 – 0,71 = -0,05
Khi nói đến sai số mẫu ta cần giả sử mẫu được chọn ngẫu nhiên và không có sai số
không do việc lấy mẫu.
7. Trung bình, độ lệch chuẩn và hình dáng phân phối mẫu của pˆ
Giống như trung bình mẫu x , tỷ lệ mẫu pˆ cũng là biến ngẫu nhiên. Do đó nó cũng có
phân phối xác suất, và phân phối xác suất này được gọi là phân phối mẫu của pˆ .
Nói cách khác, phân phối mẫu của pˆ là phân phối xác suất của tỷ lệ mẫu pˆ .
Ví dụ: Hội Tham vấn học đường có tất cả là 5 nhân viên. Sau đây là thông tin liên
quan đến kiến thức thống kê của những nhân viên này.
Tên nhân viên Biết thống kê
An
Biết
Bình
Không biết
Hải
Không biết
Linh
Biết
Nam
Biết
Gọi p là tỷ lệ nhân viên biết thống kê của tổng thể.
Ta có: p = 3/5 = 0,60 (p là tỷ lệ tổng thể)
Giả sử ta lấy ngẫu nhiên tất cả các mẫu có thể có từ tổng thể (mẫu có 3 phần tử) à
Tổng số mẫu = 10.
Mẫu
Tỷ lệ người biết thống kê pˆ
An, Bình, Hải
1/3 = 0,33
An, Bình, Linh

2/3 = 0,67
An, Bình, Nam
2/3 = 0,67
An ,Hải, Linh
2/3 = 0,67
An, Hải, Nam
2/3 = 0,67
3/3 = 1,00
An, Linh, Nam
Bình, Hải, Linh
1/3 = 0,33
Bình, Hải, Nam
1/3 = 0,33
Bình, Linh, Nam
2/3 = 0,67
Hải, Linh, Nam
2/3 = 0,67

17


Phân phối tần suất tương đối của pˆ khi kích thước mẫu là 3


f
Tần suất tương đối
0,33
3
3/10 = 0,30
0,67

6
6/10 = 0,60
1,00
1
1/10 = 0,10
Tổng = 10
Tổng = 1,00
Phân phối xác suất của pˆ


P( pˆ )
0,33
0,30
0,67
0,60
1,00
0,10
Tổng = 1,00
µ pˆ = 0,33 x 0,30 + 0,67 x 0,60 + 1,00 x 0,10 = 0,6 = p

Trung bình của pˆ luôn luôn bằng tỷ lệ của tổng thể. Tức là µ pˆ = p (*)
(Ta nói trung bình của pˆ tức là trung bình của phân phối mẫu của tỷ lệ mẫu pˆ )
Tỷ lệ mẫu pˆ được gọi là một ước lượng của tỷ lệ tổng thể p.
Do tính chất (*), pˆ được xem là một ước lượng không chệch của p.
Độ lệch chuẩn của pˆ thì được tính bằng công thức sau nếu kích thước mẫu nhỏ so với
kích thước tổng thể (tức là khi n / N ≤ 0,05).

σ pˆ =

pq

n

trong đó p là tỷ lệ tổng thể, q = 1 – p, và n là kích thước mẫu.

(Ta nói độ lệch chuẩn của pˆ tức là độ lệch chuẩn của phân phối mẫu của tỷ lệ
mẫu pˆ )
Tuy nhiên nếu n không thỏa điều kiện n/N ≤ 0,05 thì độ lệch chuẩn của pˆ được tính
như sau:

σ pˆ =

pq
n

N −n
N −1

Ta nhận xét khi kích thước mẫu tăng lên thì độ lệch chuẩn của pˆ giảm xuống. Do tính
chất này, pˆ được xem là một ước lượng phù hợp của p.
Hình dáng của phân phối mẫu của pˆ có thể được suy ra từ định lý giới hạn trung tâm.
Định lý giới hạn trung tâm
Phân phối mẫu của pˆ xấp xỉ chuẩn đối với mẫu có kích thước đủ lớn. Trong
trường hợp này, mẫu được xem là có kích thức đủ lớn nếu cả np và nq đều lớn
hơn 5.

18


Ví dụ: Một cuộc điều tra khảo sát sinh viên cho thấy 87% sinh viên năm 1 và 2 đánh
giá kinh nghiệm đại học của họ là “tốt” hoặc “xuất sắc”. Giả sử điều này đúng đối với

tổng thể sinh viên năm 1 và 2. Coi pˆ là tỷ lệ của sinh viên trong một mẫu ngẫu nhiên
gồm 900 sinh viên năm 1 và 2 có cùng đánh giá như vậy. Tìm trung bình và độ lệch
chuẩn của pˆ và mô tả hình dáng của phân phối mẫu.
Gọi p là tỷ lệ tất cả sinh viên năm 1 và 2 có nhận định kinh nghiệm đại học của họ là
“tốt” hoặc “xuất sắc”.
p = 0,87 và q = 1 – p = 1 – 0,87 = 0,13

µ pˆ = p = 0,87
σ pˆ =

pq
(0,87)(0,13)
=
= 0,011
n
900

np = 900 (0,87) = 783 và nq = 900 (0,13) = 117
Cả np và nq đều lớn hơn 5 nên ta có thể áp dụng định lý giới hạn trung tâm để suy ra
hình dáng của phân phối mẫu của pˆ .
Phân phối mẫu của pˆ xấp xỉ chuẩn với trung bình là 0,87 và độ lệch chuẩn là 0,11.
σ pˆ = 0,011

µ pˆ = 0,87



8. Ứng dụng phân phối mẫu của pˆ
Ví dụ: Theo một điều tra khảo sát của ĐH Michigan năm 2002, chỉ có 1/3 dân chúng
Mỹ hy vọng rằng 5 năm tới là thời gian tốt đẹp liên tục của đất nước. Giả sử rằng 33%

tổng thể hiện thời của dân chúng Mỹ có nhận định này. Coi pˆ là tỷ lệ của một mẫu
ngẫu nhiên gồm 800 người dân Mỹ có cùng nhận định như vậy. Tính xác suất để tỷ lệ
này ở giữa 0,35 và 0,37.
Ta có n = 800, p = 0,33, q = 1 – p = 0,67.

µ pˆ = p = 0,33
σ pˆ =

pq
(0,33)(0,67)
=
= 0,0166
n
800

np = 800 (0,33) = 264 và nq = 800 (0,67) = 536
Cả np và nq đều lớn hơn 5 nên phân phối mẫu của pˆ xấp xỉ chuẩn.
Để tính xác suất này ta cần chuyển qua giá trị z. z =

pˆ − p

σ pˆ
19


pˆ = 0,35 thì z = 1,20
pˆ = 0,37 thì z = 2,41

P(0,35 < pˆ < 0,37) = P(1,20 < z < 2,41) = P(0 < z < 2,41) – P(0 < z < 1,20)
= 0,4920 – 0,3849 = 0,1071

Xác suất để pˆ nằm trong khoảng giữa 0,35 và 0,37 là 0,1071.

BÀI TẬP CHƯƠNG 1
1. Coi một tổng thể bao gồm 6 số: 15 13 8 17 9 12
• Tính trung bình tổng thể.
• Giả sử có một mẫu gồm 4 số được chọn từ tổng thể trên. Mẫu này bao gồm
các số 13, 8, 9 và 12. Tính trung bình mẫu và sai số mẫu đối với mẫu đã
chọn.
• Cũng với mẫu như trên nhưng giả sử rằng khi nhập dữ liệu vào để tính trung
bình mẫu thì có sơ suất nên các số được nhập vào là 13, 8, 6 và 12. Tính sai
số mẫu và sai số không do lấy mẫu.
• Liệt kê tất cả các mẫu gồm 4 số (mẫu không thay thế) có thể được chọn từ
tổng thể đã cho. Tính trung bình và sai số mẫu đối với từng mẫu.
2. Dữ liệu sau là tuổi của tất cả sáu thành viên trong một gia đình: 55 53 28 25
21 15.
• Ký hiệu x là tuổi của thành viên trong gia đình. Lập phân phối tổng thể của
x.
• Liệt kê tất cả các mẫu gồm 5 số (mẫu không thay thế) có thể được chọn từ
tổng thể đã cho. Tính trung bình đối với từng mẫu. Lập phân phối mẫu của
x.
• Tính trung bình đối với dữ liệu tổng thể. Hãy chọn một mẫu ngẫu nhiên gồm
5 số từ tổng thể và tính trung bình của mẫu này. Tính sai số mẫu.
3. Một tổng thể kích thước N = 5000 có σ = 25. Trong mỗi trường hợp sau đây công
thức nào sẽ được dùng để tính σ x và hãy cho biết tại sao? Hãy dùng công thức
thích hợp tính σ x cho mỗi trường hợp sau đây:
• n = 300.
• n = 100.
4. Một tổng thể kích thước N = 100.000 có σ = 40. Trong mỗi trường hợp sau đây
công thức nào sẽ được dùng để tính σ x và hãy cho biết tại sao? Hãy dùng công
thức thích hợp tính σ x cho mỗi trường hợp sau đây:

• n = 2500.
20


• n = 7000.
5. Không gian sống của tất cả các gia đình trong một thành phố có trung bình là 2300
feet vuông (1 feet = 30,48 cm), và độ lệch chuẩn là 450 feet vuông. Gọi x là không
gian sống trung bình của một mẫu gồm 20 gia đình được chọn ngẫu nhiên trong
thành phố. Tính trung bình và độ lệch chuẩn của phân phối mẫu của x .
6. Theo báo cáo của tổ chức International Communication Research for Cingular
Wireless, đàn ông gọi điện thoại di động mỗi tháng trung bình là 594 phút (Nguồn:
USA Today, July 29, 2002). Giả sử hiện thời tại Mỹ tất cả các đàn ông gọi điện
thoại di động mỗi tháng trung bình là 594 phút với độ lệch chuẩn là 160 phút. Gọi
x là thời gian trung bình gọi điện thoại di động mỗi tháng của một mẫu ngẫu nhiên
gồm 400 người đàn ông có điện thoại di động. Tính trung bình và độ lệch chuẩn
của x .
7. Thời gian giao hàng của tất cả các đơn đặt hàng thức ăn tại một nhà hàng bán thức
ăn nhanh vào buổi trưa có phân phối chuẩn với trung bình là 6,7 phút và độ lệch
chuẩn 2,1 phút. Gọi x là thời gian giao hàng trung bình của một mẫu ngẫu nhiên
gồm 16 đơn đặt hàng tại nhà hàng. Tính trung bình và độ lệch chuẩn của x và mô
tả hình dáng của phân phối chuẩn của x .
8. Giả sử giá trị (số tiền) của tất cả các hóa đơn tiền điện của tất cả các hộ trong một
thành phố có phân phối xấp xỉ phân phối chuẩn với trung bình $80 và độ lệch
chuẩn $15. Gọi x là giá trị trung bình hóa đơn tiền điện của một mẫu ngẫu nhiên
gồm 25 hộ gia đình được chọn từ thành phố. Tính trung bình và độ lệch chuẩn của
x và nhận xét hình dáng phân phối mẫu của x .
9. Giả sử trọng lượng của tất cả những người sống trong thành phố có phân phối lệch
về phía phải với trung bình 133 pounds (1 pound = 0,454 kg) và độ lệch chuẩn 24
pounds. Gọi x là trọng lượng trung bình của một mẫu gồm 45 người được chọn
ngẫu nhiên trong thành phố. Tính trung bình và độ lệch chuẩn của x và nhận xét

hình dáng phân phối mẫu của x .
10. Dựa theo báo cáo của tổ chức College Board, học phí trung bình đối với 4 năm học
cử nhân tại các trường cao đẳng và đại học tư tại Mỹ trong năm học 2002-2003 là
18.273 USD. Giả sử rằng ta không biết được phân phối xác suất của học phí đối
với 4 năm học cử nhân tại các trường cao đẳng và đại học tư tại Mỹ trong năm học
2002-2003, nhưng biết được học phí trung bình là 18.273 USD và độ lệch chuẩn là
2100 USD. Gọi x là học phí trung bình của 4 năm học cử nhân trong năm học
2002-2003 của một mẫu ngẫu nhiên gồm 49 trường cao đẳng và đại học tư tại Mỹ.
Giả sử rằng n/N ≤ 0,05.
• Hãy tính xác suất để học phí trung bình x của mẫu đã chọn nằm trong
khoảng hơn kém 550 USD so với trung bình tổng thể.
• Hãy tính xác suất để học phí trung bình x của mẫu đã chọn thấp hơn hoặc
cao hơn trung bình tổng thể 400 USD.
11. Thời gian giao hàng của tất cả các đơn đặt hàng thức ăn tại một nhà hàng bán thức
ăn nhanh vào buổi trưa có phân phối chuẩn với trung bình là 6,7 phút và độ lệch
chuẩn 2,1 phút. Tính xác suất để thời gian giao hàng trung bình của một mẫu ngẫu
nhiên gồm 16 đơn đặt hàng tại nhà hàng này là:
21


• Ở giữa 7 và 8 phút.
• Hơn kém 1 phút so với trung bình tổng thể.
• Ít hơn hoặc nhiều hơn trung bình tổng thể 1 phút.
12. Giả sử thời gian mà các sinh viên đại học phải bỏ ra mỗi tuần để học có phân phối
lệch về phía phải với trung bình là 8,4 giờ và độ lệch chuẩn là 2,7 giờ. Tính xác
suất để thời gian trung bình phải bỏ ra mỗi tuần để học của một mẫu ngẫu nhiên
gồm 45 sinh viên là:
• Ở giữa 8 và 9 giờ.
• Ít hơn 8 giờ.
13. Giả sử rằng cân đối của tất cả các tài khoản tiết kiệm tại một ngân hàng địa phương

có phân phối lệch với trung bình là 12.450 USD và độ lệch chuẩn là 4300 USD.
Hãy tính xác suất để cân đối trung bình của một mẫu được chọn ngẫu nhiên gồm
50 tài khoản tiết kiệm từ ngân hàng là:
• Nhiều hơn 11.500 USD.
• Ở giữa 12.000 USD và 13.800 USD.
• Hơn kém 1500 USD so với trung bình tổng thể.
• Nhiều hơn trung bình tổng thể ít nhất là 1000 USD.
14. Một công ty đã sản xuất ra tất cả 6 bộ ti vi trong một ngày nào đó, và những bộ ti
vi này đã được kiểm tra xem chúng có lỗi hay không. Kết quả kiểm tra như sau:
Tốt Tốt Lỗi Lỗi Tốt Tốt
• Tỷ lệ bộ ti vi tốt là bao nhiêu?
• Có bao nhiêu mẫu kích thước 5 cả thảy (mẫu không thay thế) có thể được
chọn từ tổng thể đã cho?
• Liệt kê tất cả các mẫu kích thước 5 có thể từ tổng thể (mẫu không thay thế)
và tính tỷ lệ mẫu pˆ số bộ ti vi tốt trong từng mẫu. Xác định phân phối mẫu
của pˆ .
• Với mỗi mẫu liệt kê trong câu trên hãy tính sai số mẫu.
15. Dựa theo nguồn tin của USA Today – CNN năm 2002 thì có đến 37% người nộp
thuế cho rằng phần thuế thu nhập mà họ phải đóng là không công bằng (Nguồn:
USA Today, April 15, 2002). Giả sử rằng con số phần trăm này là đúng đối với
tổng thể hiện thời gồm tất cả những người đóng thuế. Gọi pˆ là tỷ lệ những người
đóng thuế trong một mẫu ngẫu nhiên gồm 300 người mà họ cho rằng phần thuế thu
nhập mà họ phải đóng là không công bằng. Hãy tính trung bình và độ lệch chuẩn
của pˆ và nhận xét về hình dáng phân phối chuẩn của pˆ .
16. Một cuộc điều tra các công ty liên doanh qui mô vừa và lớn cho thấy rằng 64%
trong số họ đưa ra kế hoạch về hưu cho các nhân viên của họ. Gọi pˆ là tỷ lệ trong
một mẫu ngẫu nhiên gồm 50 liên doanh như vậy mà họ có đề ra kế hoạch về hưu
cho các nhân viên của họ. Hãy tính xác suất để giá trị của pˆ là:
• Ở giữa 0,54 và 0,61.
22



• Lớn hơn 0,71.
17. Công ty Dartmouth Distribution Warehouse thực hiện giao hàng một lượng lớn các
sản phẩm đến khách hàng của họ. Biết rằng có khoảng 85% các đơn đặt hàng từ
khách hàng là được giao hàng đúng hẹn. Gọi pˆ là tỷ lệ các đơn đặt hàng trong một
mẫu ngẫu nhiên gồm 100 đơn đặt hàng mà chúng được giao hàng đúng hẹn. Hãy
tính xác suất để giá trị của pˆ là:
• Ở giữa 0,81 và 0,88.
• Nhỏ hơn 0, 87.
18. Mong Corporation là một công ty chuyên sản xuất các bình điện xe hơi. Công ty
này khẳng định rằng có đến 80% các bình điện loại LL70 mà họ sản xuất đạt tiêu
chuẩn chất lượng tốt có thời gian sống đến 70 tháng hoặc hơn. Giả sử rằng khẳng
định trên là đúng. Gọi pˆ là tỷ lệ của một mẫu gồm 100 bình điện như vậy mà
chúng đạt tiêu chuẩn chất lượng tốt có thời gian sống đến 70 tháng hoặc hơn.
• Tính xác suất để tỷ lệ mẫu này nằm trong khoảng hơn kém 0,05 so với tỷ lệ
tổng thể.
• Tính xác suất để tỷ lệ mẫu này nhỏ hơn hoặc lớn hơn tỷ lệ tổng thể là 0,06.

23


CHƯƠNG 2

ƯỚC LƯỢNG TRUNG BÌNH VÀ TỶ LỆ
1. Bài toán ước lượng
Phân biệt tham số tổng thể và thống kê mẫu.
• Các đo lường tóm lược được tính toán đối với tập dữ liệu tổng thể được gọi
là tham số tổng thể. Ví dụ trung bình của tổng thể là một tham số tổng thể.
• Các đo lường tóm lược được tính toán đối với tập dữ liệu mẫu được gọi là

thống kê mẫu. Ví dụ trung bình của một mẫu là một thống kê mẫu.
Việc gán giá trị cho một tham số tổng thể dựa trên giá trị của thống kê mẫu tương ứng
được gọi là sự ước lượng (estimation).
Ví dụ: Để điều tra thu nhập trung bình của một gia đình trong thành phố, người ta có
thể tiến hành điều tra toàn thể các gia đình hiện đang sống trong thành phố. Sau đó sẽ
tính được thu nhập trung bình tổng thể µ. Khi đó ta không cần đến ước lượng.
Tuy nhiên cách làm này có thể sẽ mất nhiều thời gian cũng như tốn nhiều chi phí và
công sức.
Người ta có thể làm cách khác. Bằng cách chọn ngẫu nhiên từ các gia đình trong thành
phố một mẫu gồm n gia đình mang tính đại diện, sau đó tính thu nhập trung bình x
của mẫu này.
Dựa trên giá trị của x người ta gán giá trị cho thu nhập trung bình µ của tổng thể.
Như vậy ta có sự ước lượng giá trị cho một tham số tổng thể dựa trên giá trị của một
thống kê mẫu.
Giá trị được gán cho tham số tổng thể dựa trên giá trị của thống kê mẫu được gọi là
ước lượng (estimate).
Ví dụ: Một nhà quản lý lấy một mẫu gồm 40 công nhân mới vào làm và tính được thời
gian học việc trung bình x là 5,5 giờ. Nếu anh ta hoặc cô ta gán giá trị này cho trung
bình tổng thể thì 5,5 giờ được gọi là một ước lượng của µ.
Cách thức ước lượng bao gồm các bước sau:
• Chọn mẫu.
• Thu thập thông tin từ các phần tử của mẫu.
• Tính toán giá trị thống kê mẫu.
• Gán giá trị cho tham số tổng thể tương ứng dựa trên giá trị thống kê mẫu.
2. Ước lượng điểm và ước lượng khoảng
2.1 Ước lượng điểm
Ước lượng có thể là ước lượng điểm hay ước lượng khoảng.
Giá trị của một thống kê mẫu được dùng để ước lượng một tham số tổng thể được gọi
là một ước lượng điểm (point estimate).
24



Ví dụ: Một trung tâm nghiên cứu về xã hội lấy một mẫu gồm 10000 gia đình và tính
được thu nhập một tháng trung bình x của mẫu này là 375000 đồng. Sau đó dùng x
như là một ước lượng điểm của µ, trung tâm nghiên cứu có thể phát biểu rằng thu nhập
một tháng trung bình đối với tất cả các gia đình là khoảng 375000 đồng. Cách làm này
được gọi là ước lượng điểm.
Thông thường, khi dùng ước lượng điểm, người ta thường tính giới hạn sai số kết hợp
với ước lượng điểm đó.
Chẳng hạn, đối với sự ước lượng trung bình tổng thể thì giới hạn sai số (margin of
error) được tính là:
Giới hạn sai số = ± 1,96σ x hoặc ± 1,96 s x (trong đó σ x là độ lệch chuẩn của phân
phối mẫu của x , còn s x là một ước lượng điểm của σ x sẽ được đề cập sau).
2.2 Ước lượng khoảng
Trong việc ước lượng điểm, mỗi mẫu được chọn từ tổng thể sẽ cho ra giá trị thống kê
mẫu khác nhau. Như vậy, giá trị gán cho tham số tổng thể bằng việc ước lượng điểm
phụ thuộc vào mẫu nào được chọn. Ta thấy rằng giá trị này luôn khác với giá trị đúng
(giá trị chân thực) của tham số tổng thể.
Đối với việc ước lượng khoảng (interval estimation), một khoảng sẽ được xây dựng
quanh ước lượng điểm và khoảng này được xem là khoảng có khả năng chứa tham số
tổng thể tương ứng.
Ví dụ: Trở lại ví dụ tính thu nhập một tháng trung bình của một gia đình trong thành
phố bằng việc chọn mẫu. Thay vì cho rằng thu nhập một tháng trung bình của một gia
đình trong thành phố là 375000 đồng (tức là ta cho rằng µ = 375000 đồng), ta có thể
đưa ra được một khoảng chứa µ, chẳng hạn như khoảng (275000 đồng, 475000 đồng).
Khi đó ta nói rằng thu nhập một tháng trung bình của một gia đình trong thành phố có
khả năng nằm trong khoảng (275000 đồng, 475000 đồng).
Cách thức tính ra khoảng có khả năng chứa µ được gọi là sự ước lượng khoảng. Giá trị
275000 đồng gọi là giới hạn dưới của khoảng và 475000 đồng là giới hạn trên của
khoảng.

Hình sau minh họa khái niệm ước lượng khoảng.

µ x = µ x = 375000
275000

x

475000

25


×