Tải bản đầy đủ (.pdf) (21 trang)

PHÂN PHỐI XÁC SUẤT (Probability distributions) ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (246.68 KB, 21 trang )

PHÂN PHỐI XÁC SUẤT
(Probability distributions)

I. PHÂN PHỐI XÁC SUẤT (PPXS) CỦA CÁC BIẾN SỐ RỜI
Định nghĩa: PPXS của một biến số ngẫu nhiên rời là một bảng, biểu, công thức,
hoặc công cụ khác được sử dụng để biểu thị tất cả các giá trị có thể có của một
biến số rời cùng với xác suất tương ứng của chúng.
Thí dụ: Một nhân viên Ban DS-KHHGĐ phụ trách 50 hộ gia đình. Hãy thiết lập
PPXS của X, là số trẻ em của từng hộ, cho dân số này.
Phân phối xác suất của số trẻ em/hộ gia đình trong 1 dân số có 50 gia đình
x Tần số xuất hiện P(X=x)
của x (Số hộ gia đình)
0 1 1/50
1 4 4/50
2 6 6/50
3 4 4/50
4 9 9/50
5 10 10/50
6 7 7/50
7 4 4/50
8 2 2/50
9 2 2/50
10 1 1/50
50 50/50

Xác su
ất













10/50
9/50
8/50
7/50
6/50
5/50
4/50
3/50
2/50
1/50
0

0 1
2 3 4 5 6 7 8 9 10 x
Đặc điểm chung: (1) 0  P(X=x)  1
(2)  P (X=x) = 1
Diễn giải:
+ Giả sử nhân viên này chọn ngẫu nhiên một hộ gia đình để đi thăm. Xác suất để
thăm
trúng một hộ gia đình có 3 trẻ là bao nhiêu?
Nhìn vào bảng PPXS: P(X=x) = 4/50 = 0,08
+ Xác suất để thăm trúng một gia đình có 3 hoặc 4 trẻ là bao nhiêu?

P(X=3 hoặc X=4) = P(X=3) + P(X=4) = 0,26
1.1. PPXS dồn (Cummulative Distrubitions)
Phân phối xác suất dồn của số trẻ em/hộ gia đình trong 1 dân số có 50 gia
đình
x Tần số xuất hiện P(X=x) P(X 
x)
của x (Số hộ gia đình)
0 1 1/50 1/50
1 4 4/50 5/50
2 6 6/50 11/50
3 4 4/50 15/50
4 9 9/50 24/50
5 10 10/50
34/50
6 7 7/50 41/50
7 4 4/50 45/50
8 2 2/50 47/50
9 2 2/50 49/50
10 1 1/50 50/50
50 50/50
Diễn giải:
+ Tìm xác suất để thăm trúng một hộ gia đình được chọn ngẫu nhiên có từ 5 con
trở lên?
P(X  5) = 1 – P(X < 5) = 1 – 0,48 = 0,52
+ Tìm xác suất để thăm trúng một hộ gia đình được chọn ngẫu nhiên có từ 3 đến 6
con?
P(3  X  6) = P(X  6) – P(X < 3) = 4/50 – 11/50 = 0,82 – 0,22 = 0,60
1.2. Phân Phối Nhị Phân (Binomial Distribution)
Là một trong các PPXS rất thường gặp trong thống kê ứng dụng.
Tiến trình Bernoulli: bao gồm một loạt các thử nghiệm Bernoulli (Bernoulli

trials) được tiến hành liên tiếp nhau dưới những điều kiện sau:
1. Mỗi thử nghiệm chỉ cho ra một trong hai kết quả độc lập hỗ tương. Một loại kết
quả
được đặt là thành công, và kết quả còn lại được đặt là thất bại.
2. Xác suất của một lần thành công, gọi là p, không đổi từ thử nghiệm sang thử
nghiệm
khác. Xác suất của 1 lần thất bại, 1 – p, gọi là q.
3. Các thử nghiệm độc lập với nhau; nghĩa là kết quả của 1 thử nghiệm bất kỳ
không bị
ảnh hưởng bởi kết quả của bất kỳ lần thử nghiệm nào khác.
Thí dụ: Tại một bệnh viện phụ sản có 52% số sản án ghi nhận sinh con trai (xác
suất để chọn một sản án sinh con trai là 0,52), nếu chọn ngẫu nhiên 5 sản án từ dân
số sản án của BV này thì xác suất để chọn được đúng 3 sản án sinh con trai là bao
nhiêu?
– Đặt kết quả chọn được sản án sinh con trai là 1 và
kết quả chọn được sản án sinh con gái là 0
– Đặt xác suất của 1 lần thành công là p (chọn được sản án sinh con trai)
xác suất của 1 lần thất bại là q (chọn được sản án sinh con gái)
– Giả sử sau khi chọn 1 đợt, có kết quả như sau: 10110
– Theo phép nhân xác suất,
P (1,0,1,1,0) = pqppq = p
3
q
2
Nếu không quan tâm đến thứ tự sản án trong từng đợt rút mà chỉ quan tâm đến
việc rút được 3 sản án sinh con trai thôi thì có các cách rút sau:
Lần rút Thứ tự

1 10110
2 11100

3 10011
4 11010
5 11001
6 10101
7 01110
8 00111
9 01011
10 01101

Xác suất để chọn được sản án sinh con trai của mỗi đợt rút đều bằng nhau (= p
3
q
2
).
Theo luật (phép) cộng xác suất, xác suất để rút 1 lần được 3 sản án sinh con trai
bằng:
10 (0,52)
3
(0,48)
2
= 10 (0,140608) (0,2304) = 0,32
Qui ra công thức,
f(3) =
5
C
3
p
3
q
5 – 3

Công thức chung:

xnx
xn
qpCxf

)(
với x = 0,1,2,…… ,n
Phân phối nhị phân
II. PHÂN PHỐI XÁC SUẤT (PPXS) CỦA CÁC BIẾN SỐ LIÊN TỤC :

1. Giới thiệu :

Tần
số

Histogram của 57 giá trị cân nặng (ounces) của các khối u ác tính:
Mỗi hình chữ nhật (khoảng cách lớp) có đặc điểm
+ Chiều rộng: khoảng cách giữa 2 điểm (giá trị) định trước trên trục x
+ Bề cao: tần số của các giá trị nằm trong khoảng 2 điểm này.
Tần số của từng KCL sẽ được tính bằng tỉ lệ tương ứng với phần diện tích giới
hạn bởi 2 điểm trên trục x và bề cao của hình chữ nhật.

Giả sử tình huống biến số ngẫu nhiên liên tục có một số lượng rất lớn các giá trị và
KCL được chia rất nhỏ, histogram có thể sẽ trông giống như biều đồ dưới đây:































x

Nếu nối các điểm giữa của các KCL lại để thiết lập đa giác tần số, chắc chắn sẽ
được 1 đường cong ít góc cạnh hơn.
Giả sử số lượng các giá trị, n, tiến đến vô cực, và bề rộng của các KCL tiến đến 0,

đa giác tần số sẽ có dạng 1 đường cong tròn trịa
F(x)






a b x
Các đường cong tròn trịa này thường được dùng để biểu thị phân phối của các biến
số liên tục. Các đường cong này có đặc điểm như sau:
+ Tổng diện tích nằm bên dưới đường cong bằng 1 (tương tự như của
histogram)
+ Tần số tương đối của các giá trị nằm giữa 2 điểm trên trục x bằng với
tổng diện tích
giới hạn bởi đường cong, trục x, và 2 đường thẳng đứng dựng lên từ 2 điểm
này trên
trục x.
Xác suất của bất kỳ 1 giá trị đặc hiệu nào của biến số này đều bằng 0 (vì 1 giá trị
chỉ được tiêu biểu bằng 1 điểm trên trục x, và vùng diện tích ở phía trên 1 điểm
bằng 0).
Định nghĩa: Một hàm số không âm f(x) được gọi là phân phối xác suất của 1
biến số ngẫu nhiên liên tục X nếu tổng diện tích giới hạn bởi đường cong và trục x
của nó bằng 1, và nếu phần diện tích nằm dưới đường cong giới hạn bởi đường
cong, trục x và các đường thẳng đứng dựng lên từ 2 điểm a và b bất kỳ cho biết
xác suất của X giữa 2 điểm a và b.

2. PHÂN PHỐI BÌNH THƯỜNG (Normal distribution)
Phân phối bình thường (PPBT), còn gọi là phân phối Gauss (Gaussian
distribution), có công thức biểu thị:


e
x
xf
22
2/)(
2
1
)(




, -  < x < + 





x
Phân phối Bình thường có 2 thông số là , số trung bình, và , độ lệch chuẩn.
Đường biểu diễn là đường cong hình chuông.
Đặc điểm:
1/ Đối xứng xung quanh số trung bình của nó.
2/ Số trung bình = số trung vị = số trội
3/ Tổng diện tích dưới đường cong bằng 1 đơn vị vuông.
4/ Nếu dựng các đường thẳng đứng ở cách số trung bình (1 khoảng cách bằng) 1
ĐLC về
cả hai phía, phần diện tích giới hạn bởi 2 đường thẳng này, trục x, và đường
cong sẽ

gần bằng 68% của tổng diện tích.
Nếu nới rộng giới hạn bên một khoảng cách bằng 2 ĐLC về cả hai phía, phần
diện
tích giới hạn sẽ gần bằng 95%, và con số này sẽ gần bằng 99,7% nếu khoảng
cách là
3 ĐLC.
5/ PPBT hoàn toàn được xác định bởi các thông số  và . Nghĩa là có rất nhiều
PPBT
được xác định bởi các giá trị  và/hoặc  khác nhau, và chúng hợp thành một
họ
(family) PPBT.



0,68

(a)

6





1




1


x


(b)








2




2

x


(c)
1

1


0,95


2

2


0,025 0,025
0,997







3




3

x



1

2


3 x

1 <

2 <

3







3

3


0,0015

0,0015



1



2


3

1 <

2 <

3 x
Phân phối bình thường chuẩn (Standard Normal Distribution)
Là thành viên quan trọng nhất của họ PPBT, còn gọi là PPBT đơn vị, vì có
 = 0 và  = 1.
Biến số của PPBT chuẩn được đặt là z với z = (x – )/.
Công thức tính PPBT chuẩn

e
z
zf
2/
2
2
1
)(



, -  < x < + 
Để tìm xác suất của giá trị z nằm trong khoảng xác định bởi 2 điểm bất kỳ z
0

z

1
trên trục z, phải tìm phần diện tích giới hạn bởi
1
các đường thẳng đứng dựng lên
từ z
0
và z
1
,
2
đường cong, và
3
trục hoành.
Phần diện tích này được tính bằng phép tính tích phân

dze
z
z
z
z
2/
2
1
0
2
1
)(






Tuy nhiên, có thể dùng bảng đã tính sẵn để tra ra các kết quả tích phân này.
Thí du:
1/ Cho PPBT chuẩn, tìm phần diện tích dưới đường cong, trên trục z giữa = – 
và z = 2.
Tra bảng thấy z = 2 tương ứng với phần diện tích là 0,9772.
Diễn giải:
1
Xác suất để chọn ngẫu nhiên và tìm được 1 giá trị z nằm trong khoảng ( –
 - 2) là 0,9772; hoặc
2
Tần số tương đối của các giá trị của z nằm trong khoảng (–  - 2) là
97,72%;
3
92,72% các giá trị của z nằm trong khoảng (–  - 2) .
2/ Tính xác suất để chọn ngẫu nhiên được một z có giá trị trong khoảng – 2,55 và
+ 2,55.
P(–2,55 < z < 2,55) = P(z < 2,55) – P(z < –2,55) = 0,9946 – 0,0054 = 0,9892
3/ Tìm P(z

2,71).
P(z

2,71) = 1 – P(z

2,71) = 1 – 0,9966 = 0,0034
ỨNG DỤNG CỦA PPBT
Mô hình PPBT rất hữu ích và tiện lợi hơn các mô hình phức tạp khác trong việc
tính xác

suất của một số biến số (có phân phối bình thường hoặc gần như bình thường)
Thí dụ:
1/ Trong 1 nghiên cứu về bệnh Alzheimer, về trọng lượng của não bệnh nhân,
người ta tính được µ = 1076,80 grams và  = 105,76 grams. Được biết (biến số)
trọng lượng não của bệnh nhân bị Alzheimer phân phối gần như bình thường, hãy
tìm xác suất để chọn ngẫu nhiên được 1 bệnh nhân có não nặng < 800 grams.
– vẽ hình phân phối
– chuyển số liệu từ x sang z (PPBT chuẩn):






x
z
62,2
76,105
80,1076800


z

– trình bày

 
0044,062,2
76,105
80,1076800
)800( 








 zPzPxP


Xác suất để chọn ngẫu nhiên được một bệnh nhân có não nặng < 800 grams là
0,0044.
2/ Biết được chiều cao của một dân số có 10.000 người phân phối gần như bình
thường
với trung bình bằng 70 inches và ĐLC bằng 3 inches.
a/ Tính xác suất để chọn ngẫu nhiên được 1 người có chiều cao trong
khoảng
65 và 74 inches.

Với x = 65 67,1
3
7065


z

Với x = 74 33,1
3
7074



z


 
65 70 74 70
P 65 x 74 P z
3 3
 
 
    
 
 

= P(– 1,67

z

1,33)
= P(–



z

1,33) – P(–



z


–1,67)
= 0,9082 – 0,0475
= 0,8607
Xác suất tìm được là 0,8607.
b/ Tính xem có bao nhiêu người  77 inches.
Xác suất để 1 người được chọn ngẫu nhiên có chiều cao

77 inches,

77 70
P(x 77) P z P(z 2,33) 1 0,9901 0,0099
3

 
       
 
 


Có 10.000 (0,0099) = 99 người có chiều cao > 77 inches.


×