Tải bản đầy đủ (.pdf) (23 trang)

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 6 - TS. Nguyễn Duy Long

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 23 trang )

9/8/2010

Phần 06
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD

©2010, Nguyễn Duy Long, Tiến Sỹ




1

Các mô hình phân phối mẫu
Các khoảng tin chắc cho các phần

©2010, Nguyễn Duy Long, Tiến Sỹ

2

1


9/8/2010

Sampling Distribution Models

©2010, Nguyễn Duy Long, Tiến Sỹ







3

Các khảo sát luôn biểu thị sự biến đổi vì lấy mẫu bởi các cá
thể khác nhau.
Chú
Chúng
t sẽ
ta
ẽ dự
d báo
bá sự biến
biế đổi này.
à Thay
Th vìì lặp
lặ lại
l i nhiều
hiề mẫu

thực, chúng ta sẽ tưởng tượng điều gì sẽ xảy ra nếu ta thực
sự thực hiện nhiều mẫu.
Hãy tưởng tượng:




1. 25% độc giả VnExpress ủng hộ thu phí ôtô vào trung tâm.
2. 64 sinh viên lớp này mỗi người lấy khảo sát 100 thị dân, hỏi

họ có ủng hộ phương án thu phí không

Điều gì xảy ra nếu ta xem biểu đồ tần suất tất cả các phần
của
ủ mẫu
ẫ cho
h các
á khảo
khả sát
á này.
à
Bạn nghĩ gì về biểu đồ tần suất của tất cả các phần của
mẫu này?

©2010, Nguyễn Duy Long, Tiến Sỹ

4

2


9/8/2010







Ta kỳ vọng biểu đồ tần suất của các phần trong mẫu

tập trung ở phần (proportion) thực,
thực p, trong quần
thể.
Ta có thể mô phỏng các mẫu ngẫu nhiên mà không
thật sự lấy mẫu.
Biểu đồ tần suất là một mốt, đối xứng, và trung tâm
là p.

©2010, Nguyễn Duy Long, Tiến Sỹ




5

Dưới đây là hình dạng của phân phối.
Phân phối này nhắc bạn điều gì?

©2010, Nguyễn Duy Long, Tiến Sỹ

6

3


9/8/2010







Dùng mô hình chuẩn là hợp lý!
Với các phần, biết trị trung bình thì sẽ có độ lệch
chuẩn:
h ẩ
pq
n
Phân phối của các phần trong mẫu được mô phỏng
với mô hình xác suất:

N  p,


pq 

n 

©2010, Nguyễn Duy Long, Tiến Sỹ





7

Mô hình chuẩn càng tốt hơn cho phân phối của các
phần khi kích thước mẫu càng lớn hơn.
Ta cần kích thước mẫu ra sao? Sẽ trình bày sau…


©2010, Nguyễn Duy Long, Tiến Sỹ

8

4


9/8/2010





Các mô hình chỉ hữu ích khi các giả định của
chúng là thật.
Hai giả định trong trường hợp mô hình cho phân
phối của các phần trong mẫu:

1.
2.



Các giá trị được lấy mẫu là độc lập nhau.
Kích thước mẫu, n, phải đủ lớn.

Các giả định là rất khó để kiểm tra.
Cần kiểm tra các giả định là hợp lý bằng cách
kiểm
ể tra các điều

ề kiện cho biết
ế thông tin về
ề các
giả định.

©2010, Nguyễn Duy Long, Tiến Sỹ

1.
2.

9

Điều kiện 10% (10% condition): Nếu mẫu không
được lấy cùng với sự thay thế, thì kích thước
mẫu,
ẫ n, phải không lớn hơn 10% quần
ầ thể.

Điều kiện thành công/thất bại (Success/failure
condition): Kích thước mẫu phải đủ lớn để cả np
và nq lớn hơn 10.

©2010, Nguyễn Duy Long, Tiến Sỹ

10

5


9/8/2010






Ứng viên A có 55% quần thể thích hơn ứng viên còn
lại (B), nhưng chỉ kỳ vọng 100 người đi bầu. Ta có
thể xác định xác suất ứng viên A có 50% hay ít hơn
phiếu bầu, hay thua cuộc.
◦ Trị trung bình:  ( pˆ )  p = 0.55
◦ Độ lệch chuẩn: SD( pˆ )  pq
n = 0.049
◦ z = (0.50 - 0.55)/0.049 = -1.005
◦ Pr(bầu < 0.50) = 0.157
Có kh
khoảng

16% cơ hội ứ
ứng viên
iê B thắng,
hắ
dù phần
hầ
lớn thích ứng viên A hơn.

©2010, Nguyễn Duy Long, Tiến Sỹ



11


Một phần không chỉ là sự tính toán từ tập hợp của
dữ liệu.
ệ Nó có thể là một
ộ lượng
ợ g ngẫu
g
nhiên có p
phân
phối.
◦ Phân phối này được gọi là mô hình phân phối mẫu
(sampling distribution model) cho các phần.




Dù ta phụ thuộc vào các mô hình phân phối mẫu,
chúng ta không bao giờ thật sự thấy nó.
Các mô hình phân phối mẫu là quan trọng vì:

◦ Chúng đóng vai trò như cầu nối từ thế giới thực của dữ liệu
đến thế giới tưởng tượng của thống kê và...
◦ Cho ta biết gì đó về quần thể khi tất cả những gì ta có là dữ
liệu từ thế giới thực.

©2010, Nguyễn Duy Long, Tiến Sỹ

12

6



9/8/2010




Các phần (proportions) tóm tắt các biến định tính.
Ta có thể làm điều tương tự với các dữ liệu định
tính?

©2010, Nguyễn Duy Long, Tiến Sỹ




Như bất cứ trị thống kê nào được tính từ mẫu ngẫu
nhiên, trị trung bình của mẫu cũng có một phân phối
mẫu.

Có thể dùng mô phỏng để xem phân phối mẫu của
trị trung bình mẫu ra sao…
Ví dụ, mô phỏng một con súc sắc 10,000 lần:
Số lần tu
ung



13


Số nút

©2010, Nguyễn Duy Long, Tiến Sỹ

14

7


9/8/2010

Trung bình số nút của
2 súc sắc của mô
phỏng 10,000 lần

tung:

Trung bình số nút của
3 súc sắc của mô
phỏng 10,000 lần tung:

Số lần tung



Số lần tung



Số nút trung bình của 2 súc sắc


Số nút trung bình của 3 súc sắc

©2010, Nguyễn Duy Long, Tiến Sỹ

Trung bình số nút của
5 súc sắc của mô
phỏng10,000 lần
ầ tung:



Trung bình số nút của
20 súc sắc của mô
phỏng
hỏ
10 000 lần
10,000
lầ tung:

ần tung
Số lầ

Số lầ
ần tung



15


Số nút trung bình của 5 súc sắc

Số nút trung bình của 20 súc sắc

©2010, Nguyễn Duy Long, Tiến Sỹ

16

8


9/8/2010



Khi mẫu càng lớn (số súc sắc), bình quân của mẫu
có khả năng càng gần trị trung bình của quần thể.
◦ Ta sẽ thấy tiếp tục gần 3.5



Phân phối mẫu của trị trung bình trở thành phân
phối chuẩn.

©2010, Nguyễn Duy Long, Tiến Sỹ








17

Định lý giới hạn trung tâm (Central Limit Theorem,
CLT) phát biểu rằng trị trung bình của mẫu ngẫu
nhiên có phân phối mẫu có hình dạng xấp xỉ mô
g lớn,, việc
ệ xấp
p xỉ càng
g tốt.
hình chuẩn. Mẫu càng
Phân phối mẫu của bất cứ trị trung bình nào trở
thành phân phối chuẩn khi kích thước mẫu lớn.
CLT tốt hơn nếu…

◦ Kích thước mẫu lớn
◦ Mô hình quần thể gần với mô hình chuẩn.

©2010, Nguyễn Duy Long, Tiến Sỹ

18

9


9/8/2010

Mô hình quần thể


3 mẫu khác
nhau, gồm
các trị trung
bình

Biểu đồ tần suất của các trị
trung bình từ tất cả các
mẫu
Biểu đồ tần suất tương tự
với phân phối này

©2010, Nguyễn Duy Long, Tiến Sỹ






19

CLT nói rằng phân phối mẫu của bất cứ trị trung
bình hay phần nào đều xấp xỉ mô hình chuẩn
Mô hình chuẩn của phần phối mẫu của phần:
pq
 ( pˆ )  p
SD  pˆ  
n
Mô hình chuẩn của phân phối mẫu của trị trung
bình:


 ( y)  

SD  y  



n

σ độ lệch chuẩn của quần thể.

©2010, Nguyễn Duy Long, Tiến Sỹ

20

10


9/8/2010

Dùng CLT đòi hỏi kiểm tra các điều sau:



1.

2.

Điều kiện lấy mẫu ngẫu nhiên (Random Sampling
Condition): Các giá trị dữ liệu phải lấy mẫu một cách ngẫu
nhiên nếu không khái niệm phân phối mẫu không có ý

nghĩa.
nghĩa
Giả định tính độc lập (Independence Assumption): Các giá
trị của mẫu phải độc lập nhau. (Khi mẫu lấy ra mà không
có sự thay thế, kiểm tra điều kiện 10%…)

CLT không tốt cho các mẫu nhỏ, hay khi dữ liệu bị
lệch lớn.






Cho các phần (proportions) điều này có nghĩa là kỳ
vọng có ít nhất 10 thành công và 10 thất bại trong mẫu
Không có qui tắc cho các trị trung bình – kinh nghiệm
cho các biến cố rời rạc là có ít nhất 10 lần xuất hiện
được kỳ vọng cho mỗi biến cố.

©2010, Nguyễn Duy Long, Tiến Sỹ



21

Giả định trọng lượng trung bình của của người Việt
Nam là 60 kg và độ lệch chuẩn là 10 kg. Thang máy
ở trường ĐH Bách Khoa có giới hạn tối
ố đa 15 người

hay 1000 kg. Xác suất nếu 15 người dùng thang
máy và vượt tải trọng cho phép?
◦ Bạn cần biết trọng lượng của tất cả 15 người hay chỉ cần
trọng lượng trung bình của nhóm?
◦ Bạn có cần biết trọng lượng là phân phối chuẩn?
◦ Các giả định của ta là thỏa để có thể dùng CLT?
◦ Hãy tính xác suất

©2010, Nguyễn Duy Long, Tiến Sỹ

22

11


9/8/2010






Độ lệch chuẩn của phân phối mẫu giảm chỉ với căn
bậc hai của kích thước mẫu.
T
Trong
khi ta
t luôn
l ô muốn
ố có

ó mẫu
ẫ lớn
lớ hơn,
hơ căn
ă bậc
bậ
hai giới hạn mẫu có thể nói về quần thể . (Một ví dụ
của qui tắc sự thu lại giảm (Law of Diminishing
Returns)
Trở lại với ví dụ kế hoạch thu phí xe hơi vào thành
phố ở TP.HCM
p

©2010, Nguyễn Duy Long, Tiến Sỹ




23

Có thể dùng các trị thống kê của mẫu để ước lượng
các thông số của quần thể.
Bất cứ khi nào ta ước lượng độ lệch chuẩn của phân
phối mẫu,
mẫu ta gọi nó là sai số chuẩn (standard error).
error)
◦ Với phần của mẫu, sai số chuẩn là

SE  pˆ  


ˆˆ
pq
n

◦ Với trị trung bình của mẫu, sai số chuẩn là

SE  y  

s
n

◦ Với s là độ lệch chuẩn của mẫu.


Tính sai số chuẩn giống với tính độ lệch chuẩn chỉ
khác ký hiệu!
©2010, Nguyễn Duy Long, Tiến Sỹ

24

12


9/8/2010

Confidence Intervals for
Proportions

©2010, Nguyễn Duy Long, Tiến Sỹ




Mô hình phân phối mẫu của
độ
đ lệch
l h chuẩn
h ẩ là pq



25

có trung tâm p, và

n



Vì không biết p, ta không thể tìm độ lệch chuẩn
thực của mô hình phân phối mẫu, cần tìm sai số
chuẩn:

ˆˆ
SE( pˆ )  pq
n

©2010, Nguyễn Duy Long, Tiến Sỹ

26


13


9/8/2010



Từ qui tắc 68-95-99.7%, ta biết:

◦ Khoảng 68% của tất cả các mẫu có pˆ trong 1 SE của p
◦ Khoảng 95% của tất
ấ cả các mẫu
ẫ có pˆ trong 2 SE của p
◦ Khoảng 99.7% của tất cả các mẫu pˆ trong 3 SE của p



Từ p
ˆ , thường ước tính phần thực p với một mẫu
đã cho…

©2010, Nguyễn Duy Long, Tiến Sỹ





27

Xem xét mức 95%:

◦ Có khoảng 95% cơ hộ p không lớn hơn 2 lần sai
số chuẩn (SE) từ p

◦ Nếu vươn ra 2 lầnSE, ta có 95% chắc chắn rằng p
sẽ trong khoảng đó. Nói cách khác, nếu vươn ra
2 lần SE theo hai hướng của p
ˆ , ta có 95% tin rằng
khoảng này chứa phần thực.
◦ Phần còn lại hoặc quá lớn (khoảng 2.5% cơ hội)
hay quá thấp
ấ (khoảng 2.5% cơ hội).
Điều này được gọi là khoảng tin chắc 95% (95%
confidence interval).

* Hay chính xác hơn là 95.45% cơ hội
©2010, Nguyễn Duy Long, Tiến Sỹ

28

14


9/8/2010

Vươn ra 2 lần SE theo hai bên của pˆ cho
ta 95% tin ta sẽ “bẫy” được phần thực p
Nguồn: De Veaux, 2006, tr.429)






©2010, Nguyễn Duy Long, Tiến Sỹ

29

Mỗi khoảng tin chắc dùng một trị số thống kê của
mẫu để ước lượng tham số của quần thể.
Nhưng vì các mẫu biến đổi, các trị số thống kê ta
dùng, và các khoảng tin chắc ta xây dựng cũng
biến đổi.

©2010, Nguyễn Duy Long, Tiến Sỹ

30

15








Hình bên chỉ một số khoảng
tin chắc thu nạp được phần
thực (đường màu xanh nằm
ngang), trong khi một số
không:

Độ tin chắc là quá trình xây
dựng khoảng, chứ không
phải một khoảng nào đó.
Vì vậy, ta kỳ vọng 95% của
tất cả các khoảng tin chắc
95% chứa tham số quần thể
thực đang ước lượng.

Nguồn: De Veaux, 2006, tr.431

Phần (proportio
on)

9/8/2010

Mẫu số

©2010, Nguyễn Duy Long, Tiến Sỹ

31

Ta có thể tuyên bố với khoảng 95% tin chắc, khoảng
pˆ  2* SE ( pˆ ) chứa phần thực.
◦ Tầm của khoảng cho mỗi bên pˆ được gọi là biên
sai số (lỗi) (margin of error (ME)).
 Tổng quát, các khoảng tin chắc có dạng: ước lượng
(estimate) ± ME.
 Càng muốn độ tin chắc lớn, ME càng cần lớn.
 Tổng quát, dạng biên sai số (ME), với z* là giá trị tới
h

hạn ((critical
i i l value)
l )

ME   z   SE  pˆ 

©2010, Nguyễn Duy Long, Tiến Sỹ

32

16


9/8/2010

• Bây giờ ta tin chắc hơn, nhưng chúng ta thiệt gì?

Nguồn: De Veaux, 2006, tr.432)





©2010, Nguyễn Duy Long, Tiến Sỹ

33

Càng tin chắc (confident), càng ít chính xác
(precise).
Mọi khoảng tin chắc là sự cân bằng giữa sự chắc

chắn (certainty) và chính xác (precision).

◦ Trong hầu hết trường hợp ta có thể vừa chắn chắn một cách
đầy đủ và chính xác một cách đầy đủ để có các phát biểu hữu
ích.





Lựa chọn mức tin chắc là khá tùy tiện, nhưng nhớ
rằng “sức căng” giữa chắc chắn và chính xác khi
chọn mức tin chắc.
Các mức tin chắc hay dùng là 90%, 95%, và 99%,
nhưng có thể dùng bất cứ phần trăm nào.

©2010, Nguyễn Duy Long, Tiến Sỹ

34

17


9/8/2010

Sự cân bằng giữa chắc chắn (certainty) và chính xác (precision),
đây là một thái cực...
cực

Nguồn: De Veaux, 2006, tr.433)




©2010, Nguyễn Duy Long, Tiến Sỹ

35

Bạn làm việc với phòng tiếp thị của một cửa hiệu
bán giầy dép trực tuyến và khảo sát ngẫu nhiên
100 người về
ề ý kiến
ế của họ đối
ố với mẫu
ẫ website
mới. 60% người được khảo sát thích website mới
so với website củ.

◦ Khoảng tin chắc 95% cho phần thực của người mua thích
website mới hơn? Biên sai số bao nhiêu?
◦ Khoảng tin chắc 99.7% cho phần thực của người mua thích
website
ebs te mới
ớ hơn?
ơ
Biên
ê sa
sai số bây g
giờ
ờ bao nhiêu?
êu

◦ Nếu muốn cả tin chắc và chính xác hơn, theo bạn cần phải
làm gì?

©2010, Nguyễn Duy Long, Tiến Sỹ

36

18


9/8/2010






‘2’ trong pˆ  2*SE( pˆ ) (khoảng tin chắc 95%) là từ qui tắc 6895-99.7%.
Bảng z cho giá trị chính xác hơn cho khoảng tin chắc 95% là
1.96
1 96 thay vì 2.
2
◦ Ta gọi 1.96 là giá trị tới hạn (critical value) ký hiệu z*.
Cho mỗi mức tin chắc, có thể tìm giá trị tới hạn tương ứng.

©2010, Nguyễn Duy Long, Tiến Sỹ





37

Với khoảng tin chắc 90%, giá trị tới hạn là 1.645.
Chú ý tính đối xứng!

©2010, Nguyễn Duy Long, Tiến Sỹ

38

19


9/8/2010



Tất cả các mô hình xác suất phụ thuộc và các giả
định (assumptions).

◦ Mô hình khác nhau phụ thuộc vào các giả định khác nhau.
◦ Nếu các giả định là không đúng, mô hình có thể không
thích hợp và các kết luận dựa vào mô hình có thể sai.



Ta không bao giờ chắc chắn giả định là đúng,
nhưng ta thường quyết định giả định có hợp lý
không bằng cách kiểm tra điều kiện liên quan.

©2010, Nguyễn Duy Long, Tiến Sỹ






39

Trước khi tạo khoảng tin chắc cho phần, cần kiểm
tra
Giả đinh độc lập (independence assumption): Giá trị dữ liệu
được giả định độc lập nhau.
1 Điều
1.
Điề kiện
kiệ độc
độ lập
lậ hợp
h
lý (Plausible
(Pl
ibl Independence
I d
d
Condition): Có lý do gì để tin rằng giá trị dữ liệu ảnh
hưởng nhau?
2. Với lấy mẫu không thay thế, kiểm tra điều kiện 10%
3. Điều kiện ngẫu nhiên hóa

 Giả định kích thước mẫu (Sample Size Assumption): Mẫu cần


khá lớn để có thể dùng CLT.
4. Điều kiện thành công/thất bại (Success/Failure Condition)

©2010, Nguyễn Duy Long, Tiến Sỹ

40

20


9/8/2010






Khoảng z một phần (one-proportion z-interval) còn được gọi
là khoảng tin chắc cho một phần (the confidence interval for a
proportion)
Khi các điều kiện thỏa, có thể tìm khoảng tin chắn (CI) cho
phần
hầ của
ủ quần
ầ thể,
hể p.
Khoảng tin chắc là
± biên sai số (ME)




CI  pˆ  z   SE  pˆ 

với



ˆˆ
SE( pˆ )  pq
n

Giá trị tới hạn, z*, phụ thuộc vào mức tin chắc tương ứng, C.

©2010, Nguyễn Duy Long, Tiến Sỹ



41

Từ phương trình của ME để xác định kích thước
mẫu cần thiết để tạo ra khoảng tin chắc với ME đã
cho và với một mức tin chắc đã cho:

z 

n

 2

ˆˆ

pq

ME 2

với z* là giá trị tới hạn cho mức tin chắc đã cho.
cho

©2010, Nguyễn Duy Long, Tiến Sỹ

42

21


9/8/2010



Sếp bạn nghĩ rằng khảo sát trước (60% thích, 100
người) là quá miên man không thể hữu ích. Sếp
muốn tăng sự chính xác.
xác Tính số người bạn cần
có trong khảo sát...

1.

2.

Bạn muốn có 95% tin chắc rằng phần thực của người mua
sắm thích website mới hơn là từ 55% đến 65%?

Nếu bạn muốn có 99.7% tin chắn cho cùng khoảng?

©2010, Nguyễn Duy Long, Tiến Sỹ



43

Chủ tịch một xã nhỏ (5000 người) đề nghị huyện
xây một nhà sinh hoạt cộng đồng, lập luận rằng
việc xây dựng sẽ cải thiện đời sống

văn hóa của
dân. Tổng cộng 183 dân trong xã tham gia buổi
tham vấn cộng đồng về đề án, và việc biểu quyết
đưa tay chỉ có 31 người ủng hộ đề án.

◦ Bạn có thể kết luận gì về ý kiến người dân trong xã về đề

án?

◦ Ta có nên xây dựng khoảng tin chắc 95% ?

©2010, Nguyễn Duy Long, Tiến Sỹ

44

22



9/8/2010

©2010, Nguyễn Duy Long, Tiến Sỹ

45

23



×