Tải bản đầy đủ (.pdf) (86 trang)

Nghiên cứu khoa học Tổng quan Thống kê y học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.99 MB, 86 trang )

TRƯỜNG ĐẠI HỌC Y KHOA PHẠM NGỌC THẠCH
DỰ ÁN U-PNT-03

PHƯƠNG PHÁP
NGHIÊN CỨU KHOA HỌC
(LỚP CƠ BẢN 3)

PHẦN THỐNG KÊ Y HỌC 1

Tháng 3/2010


Bài 1

KHÁI NIỆM về THỐNG KÊ Y HỌC và
CÁCH SẮP XẾP & TỔ CHỨC SỐ LIỆU
ThS. BS. Nguyễn Thế Dũng

MỤC TIÊU: Sau khi học xong bài này, học viên có thể:

1/ Phân biệt đúng các loại biến số thường dùng trong thống kê y học
2/ Phân biệt được các thang đo lường dùng trong thống kê y học
3/ Biết cách thiết lập các bảng phân phối tần số, tần số tương đối, tần số dồn, tần

số tương đối dồn
4/ Phát biểu đúng ý nghóa của số liệu trong các bảng phân phối tần số, tần số
tương đối, tần số dồn, tần số tương đối dồn
I. MỘT SỐ KHÁI NIỆM CƠ BẢN :
Thống kê học (Statistics): là môn học về cách :
1
thu thập, tổ chức, tóm tắt và phân tích số liệu


2
rút ra những suy diễn cho toàn bộ (số liệu) từ kết quả khảo sát 1 phần
của số liệu.
Thống kê sinh học (Biostatistics): là thống kê học có số liệu phân tích có
nguồn gốc sinh hoặc y học.
Biến số (Variable): là đặc tính có thể mang nhiều giá trò khác nhau ở người,
nơi chốn, vật khác nhau.
– Biến số đònh lượng (Quantitative variable): là biến số có thể đo đạc được
bằng các phép đo lường thông thường. Số đo thực hiện trên các biến số
đònh lượng chuyển tải thông tin về số (khối) lượng.
– Biến số đònh tính (Qualitative variable) : là biến số không thể được đo
bằng những phép đo lường thông thường, mà chỉ có thể được nhóm loại
(categorized). Số đo thực hiện trên các biến số đònh tính chuyển tải thông
tin về thuộc tính.
– Biến số ngẫu nhiên (Random variable): là biến số mà các giá trò có được
là kết quả của các yếu tố mang tính cơ hội (chance factors) không thể
tiên đoán chính xác trước được. Các giá trò có được qua các phương pháp
đo lường được gọi là các quan sát (observations) hoặc số đo easurements)
– Biến số ngẫu nhiên rời (Discrete random variable): là biến số đặc trưng bởi
các khoảng trống giữa các giá trò.
⎯ Biến số ngẫu nhiên liên tục (Continous random variable): là biến số không có các
khoảng trống giữa các giá trò.
DÂN SỐ (Quần thể – Population): là tập hợp lớn nhất các thực thể mà ta quan tâm ở
1 thời điểm xác đònh.
1


Nếu đo một biến số trên từng thực thể của dân số, chúng ta sẽ có 1 dân số các giá
trò của biến số đó. Dân số các giá trò là tập hợp lớn nhất các giá trò của 1 biến số ngẫu
nhiên mà ta quan tâm ở 1 thời điểm xác đònh.

MẪU (Sample): là 1 phần (bộ phận) của 1 dân số.
II. SỰÏ ĐO LƯỜNG và THANG ĐO LƯỜNG (Measurement & Measurement
Scale)
Sự đo lường được đònh nghóa là sự gán con số cho các vật thể hoặc biến cố theo 1 hệ
thống qui tắc. Do việc đo lường được thực hiện với nhiều hệ thống qui tắc khác nhau nên
phải có nhiều thang đo lường khác nhau.
1. Thang đònh danh (Nominal Scale): là thang đo lường (ở mức độ) thấp nhất và chỉ
bao gồm việc “đặt tên” cho các quan sát hoặc phân loại chúng vào các nhóm độc lập
hỗ tương (mutually exclusive). Thí dụ: các chẩn đoán y khoa (bệnh cao huyết áp,
bệnh nội tiết, v.v.), các thực thể nhò phân như nam-nữ, bệnh-khỏe, v..v
2. Thang thứ tự (Ordinal Scale): là thang đo lường bao gồm không chỉ việc đònh
danh mà còn phân hạng (rank) các nhóm loại theo 1 số tiêu chuẩn nào đó. Thí dụ:
bệnh (rất nặng, nặng, vừa, nhẹ), tình trạng kinh tế (cao, vừa, kém), v..v..
Lưu ý là mức độ khác biệt giữa các 2 số đo thuộc 2 nhóm loại đã phân hạng
không được biết là bằng bao nhiêu.
3. Thang khoảng (Interval Scale): tinh vi hơn thang thứ tự ở chỗ khoảng cách giữa
hai số đo bất kỳ được biết rõ. Thí dụ: hiệu của số đo 20 và 30 bằng với hiệu của số đo
30 và 40. Thang khoảng dùng 1 đơn vò về khoảng cách và một điểm zero được chọn
tùy ý. Tuy nhiên điểm zero trong trường hợp này không phải là zero thật sự (chỉ thò sự
hoàn toàn không có khối lượng đang được đo). Thí dụ rõ nhất về thang khoảng là cách
đo nhiệt độ, trong đó 00 C không đồng nghóa với việc hoàn toàn không có nhiệt lượng
nào.Thang khoảng là một thang đònh lượng.
4. Thang Tỉ số (Ratio Scale): là thang đo lường ở mức độ cao nhất, đặc trưng bởi sự
bằng nhau của các tỉ số cũng như của các khoảng có thể được đònh rõ. Điểm cơ bản
của thang tỉ số là có điểm zero thật. Thí dụ: chiều cao, cân nặng, chiều dài,v.v.
III. CHUỖI THỐNG KÊ (Ordered array) :
là danh mục các giá trò của 1 tập hợp số liệu xếp theo thứ tự từ giá trò nhỏ đến giá trò
lớn.

2



IV. PHÂN PHỐI TẦN SỐ (quency Distribution)
1. Phân nhóm số liệu: số liệu có thể được tổ chức, sắp xếp bằng cách phân
vào nhiều nhóm (Khoảng cách lớp – KCL).
Cách tính số KCL
Số KCL của 1 tập hợp số liệu thường không nên nhỏ hơn 6 và không lớn
hơn 15. Để chính xác hơn, có thể dùng công thức Sturges để tính số KCL :

k =

1 + 3,322 (log10 n)

với k : số KCL

&

n : số giá trò có được

Thí du: có tập hợp số liệu gồm 57 giá trò, nên phân vào bao nhiêu KCL thì vừa?
n = 57 log10 57 = 1,7559
k =

1 + 3,322 (1,7559)

Cách tính độ rộng của KCL
w =

R
k


≈ 7

w : độ rộng của KCL

với

R:

biên độ của chuỗi số liệu

Thí dụ: có tập hợp số liệu gồm 57 giá trò, giá trò lớn nhất là 79 và giá trò nhỏ
nhất là 12. Tính độ rộng của các KCL?

79 − 12
= 9, 6 ≈ 10
7
Tập hợp 57 giá trò là cân nặng tính bằng ounces của 57 khối u ác tính lấy ra từ bụng
của 57 bệnh nhân :
w

68
24
28
31
49

63
25
25

50
28

42
44
45
38
23

=

27
65
12
21
19

30
43
57
16
46

36
25
51
24
30

28

74
12
69
43

32
51
32
47
49

79
36
49
23
12

3

27
42
38
22

22
28
42
43

23

31
27
27


2. Lập bảng phân phối tần số
KCL
10
20
30
40
50
60
70









Tần số
19
29
39
49
59
69

79

5
19
10
13
4
4
2
57

3. Lập bảng phân phối tần số, tần số dồn, tần số tương đối, tần số tương đối dồn

KCL

10
20
30
40
50
60
70










Tần số

19
29
39
49
59
69
79

5
19
10
13
4
4
2
57

Tần số dồn

5
24
34
47
51
55
57


Tần số
tương đối
0,0877
0,3333
0,1754
0,2281
0,0702
0,0702
0,0351

Tần số
tương đối dồn
0,0877
0,4210
0,5964
0,8245
0,8947
0,9649
1,0000

1,0000

Lưu ý: Tùy theo nhu cầu mà chọn cột (tần số, tần số tương đối, tần số dồn, tần số tương
đối dồn) để trình bày. Thông thường nhất là trình bày tần số và tần số tương đối (tính
bằng %) trong cùng 1 bảng.
4. Lập biểu đồ Histogram
Histogram là biểu đồ phân phối tần số hình que (cột) đặc biệt của các biến số liên
tục. Do là biểu đồ là của biến số liên tục nên khi trình bày cần phải dùng các giới hạn
thật của các KCL. Tìm giới hạn thật của 1 KCL bằng cách trừ đi ½ đơn vò đối với giới hạn
dưới và cộng thêm ½ đơn vò đối với giới hạn trên.


4


Bảng phân phối tần số dùng giới hạn thật (để vẽ histogram)
Giới hạn thật
của KCL

Tần số

9,5 – 19,5
19,5 – 29,5
29,5 – 39,5
39,5 – 49,5
49,5 – 59,5
59,5 – 69,5
69,5 – 79,5

5
19
10
13
4
4
2
Tần số

20
18
16

14
12
10
8
6
4
2
9,5

19,5 29,5 39,5

49,5 59,5

69,5

79,5

X

5. Lập biểu đồ đa giác tần số
Biểu đồ đa giác tần số được thiết lập dựa trên histogram. Bằng cách nối trung điểm
của các mặt trên của từng ô chữ nhật tượng trưng cho tần số của các KCL, ta sẽ có 1
đa giác tần số.
Tần ố

20
18
16
14
12

10
8
6
4
2
9,5

29,5 39,5 49,5 59,5 69,5
19,5

79,5

X

5


6.

Lập biểu đồ thân–và–lá (Stem-and-leaf)
Thân
1
2
3
4
5
6
7



2
2
1 2
0
0
2
2
0 1
3 5
4 9

6
2
1
2
1
8

9
3 3 3 4 4 5 5 5 7 7 7 7 8 8 8 8
1 2 2 6 6 8 8
3 3 3 4 5 6 7 9 9 9
7
9

----------------------------------------------------------

6



Bài 2

TÓM TẮT SỐ LIỆU

MỤC TIÊU: Sau khi học xong bài này, học viên có thể:

1/ Biết cách tính các số đo khuynh hướng tập trung và phát biểu đúng ý nghóa của các số
đo này
2/ Biết cách tính các số đo khuynh hướng phân tán và phát biểu đúng ý nghóa của các số
đo này
3/ Biết cách thiết lập các biểu trình bày các số đo khuynh hướng tập trung và phân

tán
I. GIỚI THIỆU :

Số đo mô tả (descriptive measure) là phương tiện tóm tắt số liệu (TTSL).
– Số đo mô tả tính được từ số liệu của 1 mẫu được gọi là số thống kê (statistic)
– Số đo mô tả tính được từ số liệu của 1 dân số được gọi là thông số (parameter)
II. SỐ ĐO KHUYNH HƯỚNG TẬP TRUNG (Measures of Central Tendency) :
Số đo khuynh hướng tập trung chuyển tải thông tin về giá trò trung bình (average
value) của một tập hợp số liệu. Ba số đo khuynh hướng tập trung thường dùng nhất là: số
trội số trung vò , và số trung bình.
1. Số trội (Mode) :
Số trội của một tập hợp giá trò là giá trò xuất hiện nhiều lần nhất. Một tập hợp
giá trò có thể không có số trội nào, hoặc có nhiều hơn 1 số trội.
Đặc điểm của số trội
Số trội có thể được sử dụng để mô tả số liệu đònh tính.
2. Số trung vò (Median)
Số trung vò của một tập hợp số liệu là giá trò đứng giữa 2 phần bằng nhau của
tập hợp (số giá trò bằng hoặc lớn hơn số trung vò bằng với số giá trò bằng hoặc

nhỏ hơn số trung vò).
Nếu số giá trò là một số lẻ, số trung vò sẽ là giá trò đứng ngay giữa chuỗi thống
kê. Nếu số giá trò là một số chẵn, số trung vò sẽ bằng số trung bình của 2 giá trò
đứng ngay giữa chuỗi thống kê.
Đặc điểm của số trung vò:
– Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung vò)
– Đơn giản (dễ hiểu và dễ tính toán)
– Giá trò cực (extreme values) không gây ảnh hưởng nhiều đến số trung vò.
7


3. Số trung bình toán học (Arithmatic Mean) :
Trung bình (của) dân số (Population Mean) :
N

μ

∑x

i

=

i =1

N: số giá trò của dân số

N

Trung bình (của) mẫu (Sample Mean) :

n

x

∑x

i

=

i =1

n

n: số giá trò của mẫu

Đặc điểm của số trung bình:
– Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung bình)
– Đơn giản (dễ hiểu và dễ tính toán)
– Giá trò cực (extreme values) gây ảnh hưởng nhiều đến số trung bình.
Số trung bình gia trọng (Weighted mean)
Là số trung bình được tính khi phân tích số liệu từ nhiều mẫu về cùng 1 loại thông
tin nhưng được thu thập ở những thời điểm khác nhau và có cỡ mẫu khác nhau. Số trung
bình gia trọng được tính như sau:
Weighted x = ∑ ni x i/N
ni
số giá trò của mẫu i
số trung bình của mẫu i
xI
N

tổng số giá trò của các mẫu
Trimmed mean (số trung bình gọn) và Winsorized mean (số trung bình gán)
Là hai phép tính lại số trung bình nhằm hạn chế tác động của giá trò cực.

– Trimmed mean: số trung bình được tính sau khi đã “gọt bỏ” giá trò đầu và giá trò
cuối của chuỗi thống kê.
– Winsorize mean: số trung bình được tính sau khi đã gán 5% số giá trò ở đầu chuỗi
thống kê (các giá trò cực thấp) bằng với giá trò thấp kế tiếp (so
với 5% các giá trò cực thấp), và 5% số giá trò ở cuối chuỗi
thống kê (các giá trò cực cao) bằng với giá trò cao kế tiếp (so
với 5% các giá trò cực cao).

8


III. SỐ ĐO KHUYNH HƯỚNG PHÂN TÁN (Measures of Dispersion) :
Số đo phân tán chuyển tải thông tin về khối lượng (mức độ) biến thiên hiện diện
trong tập hợp số liệu.
1. Biên độ(Range) :

R = xL – xs
Công dụng của biên độ rất giới hạn (vì chỉ dùng có 2 giá trò).

2. Phương sai (Variance) :
Phương sai của một tập hợp số liệu là số đo độ phân tán tương đối của các giá
trò (thuộc tập hợp) xung quanh số trung bình (của tập hợp số liệu).
+ Phương sai (của) dân số (Population Variance)
N

σ2 =


∑ (x

− μ)

i

i =1

N

2

N: số giá trò của dân số

+ Phương sai (của) mẫu (Sample Variance)
™

Trường hợp mẫu nhỏ :
n

S2 =
™

∑ (x

i

i =1


− x)

n −1

2

n: số giá trò của mẫu

Trường hợp mẫu lớn :
n

n× ∑ xi2
S

2

=

i =1

− ⎛⎜ ∑ xi ⎞⎟
⎝ i =1 ⎠
n

2

n(n −1)

3. Độ lệch chuẩn (Standard Deviation)
ĐLC là số đo độ phân tán giống như phương sai, nhưng được diễn tả bằng đơn

vò đo ban đầu. ĐLC được tính bằng cách rút căn 2 của phương sai.
ĐLC của dân số có ký hiệu σ (sigma), ĐLC của mẫu có ký hiệu là s
IV. Bách phân vò và Tứ phân vò (Percentiles and Quartiles)
Cho một tập hợp có n giá trò x1, x2, …….., xn, bách phân vò thứ p (gọi là P) là giá trò
của X mà theo đó có ≤ p% số giá trò nhỏ hơn P và (100–p)% số giá trò lớn hơn P.
P10 chỉ bách phân vò thứ 10, P50 chỉ bách phân vò thứ 50, v..v..
Thông thường, bách phân vò được tính trong các trường hợp tập hợp số liệu lớn.
9


Vò trí của bách phân vò thứ k (Pk) có thể được tính như sau:

Pk =

k
×n
100

Bách phân vò thứ 25 thường được gọi là Tứ phân vò thứ nhất (Q1)
Bách phân vò thứ 50 (số trung vò) thường được gọi là Tứ phân vò thứ hai
(hoặc Tứ phân vò giữa – Q2)
Bách phân vò thứ 75 thường được gọi là Tứ phân vò thứ ba (Q3)
3. Hộp và Dây kéo (Box-and-Whisker Plots)
Công cụ hình ảnh để trình bày các tứ phân vò. Năm bước để vẽ:
– Đặt biến số lên trục ngang (hoành)
– Vẽ một box vào khoảng không nằm trên trục ngang với các đặc điểm: đầu
bên trái của box ứng với Q1, và đầu bên phải của box ứng với Q3.
– Chia box làm 2 phần bằng 1 đường dọc ứng với Q2.
– Kẻ 1 đường nằm ngang gọi là whisker từ đầu trái của box đến điểm ứng với
giá trò nhỏ nhất của chuỗi số liệu.

– Kẻ 1 đường nằm ngang khác, cũng gọi là whisker từ đầu phải của box đến
điểm ứng với giá trò lớn nhất của chuỗi số liệu.

10


Bài 3

I.

PHÂN PHỐI XÁC SUẤT
(Probability distributions)

PHÂN PHỐI XÁC SUẤT (PPXS) CỦA CÁC BIẾN SỐ RỜI

Đònh nghóa: PPXS của một biến số ngẫu nhiên rời là một bảng, biểu, công thức,
hoặc công cụ khác được sử dụng để biểu thò tất cả các giá trò có thể có của một biến số
rời cùng với xác suất tương ứng của chúng.
Thí dụ: Một nhân viên Ban DS-KHHGĐ phụ trách 50 hộ gia đình. Hãy thiết lập PPXS
của X, là số trẻ em của từng hộ, cho dân số này.
Phân phối xác suất của số trẻ em/hộ gia đình trong 1 dân số có 50 gia đình

x

Tần số xuất hiện
của x (Số hộ gia đình)

0
1
2

3
4
5
6
7
8
9
10

P(X=x)

1
4
6
4
9
10
7
4
2
2
1
50

1/50
4/50
6/50
4/50
9/50
10/50

7/50
4/50
2/50
2/50
1/50
50/50

Xác suất
10/50
9/50
8/50
7/50
6/50
5/50
4/50
3/50
2/50
1/50
0
0

1 2

3

4

5

6


7

8

9

10

11

x


Đặc điểm chung:

(1)
(2)

0 ≤ P(X=x) ≤ 1
Σ P (X=x) = 1

Diễn giải:
+ Giả sử nhân viên này chọn ngẫu nhiên một hộ gia đình để đi thăm. Xác suất để thăm
trúng một hộ gia đình có 3 trẻ là bao nhiêu?
Nhìn vào bảng PPXS: P(X=x) = 4/50 = 0,08
+ Xác suất để thăm trúng một gia đình có 3 hoặc 4 trẻ là bao nhiêu?
P(X=3 hoặc X=4) = P(X=3) + P(X=4) = 0,26
1.1. PPXS dồn (Cummulative Distrubitions)
Phân phối xác suất dồn của số trẻ em/hộ gia đình trong 1 dân số có 50 gia đình


x
0
1
2
3
4
5
6
7
8
9
10

Tần số xuất hiện
của x (Số hộ gia đình)

P(X=x)

1
4
6
4
9
10
7
4
2
2
1

50

P(X ≤ x)

1/50
4/50
6/50
4/50
9/50
10/50
7/50
4/50
2/50
2/50
1/50
50/50

1/50
5/50
11/50
15/50
24/50
34/50
41/50
45/50
47/50
49/50
50/50

Diễn giải:

+ Tìm xác suất để thăm trúng một hộ gia đình được chọn ngẫu nhiên có từ 5 con trở lên?
P(X ≥ 5) = 1 – P(X < 5) = 1 – 0,48 = 0,52
+ Tìm xác suất để thăm trúng một hộ gia đình được chọn ngẫu nhiên có từ 3 đến 6 con?
P(3 ≤ X ≤ 6) = P(X ≤ 6) – P(X < 3) = 4/50 – 11/50 = 0,82 – 0,22 = 0,60
1.2. Phân Phối Nhò Phân (Binomial Distribution)
Là một trong các PPXS rất thường gặp trong thống kê ứng dụng.
Tiến trình Bernoulli: bao gồm một loạt các thử nghiệm Bernoulli (Bernoulli trials) được
tiến hành liên tiếp nhau dưới những điều kiện sau:
1. Mỗi thử nghiệm chỉ cho ra một trong hai kết quả độc lập hỗ tương. Một loại kết quả
được đặt là thành công, và kết quả còn lại được đặt là thất bại.
2. Xác suất của một lần thành công, gọi là p, không đổi từ thử nghiệm sang thử nghiệm
khác. Xác suất của 1 lần thất bại, 1 – p, gọi là q.
12


3. Các thử nghiệm độc lập với nhau; nghóa là kết quả của 1 thử nghiệm bất kỳ không bò
ảnh hưởng bởi kết quả của bất kỳ lần thử nghiệm nào khác.
Thí dụ: Tại một bệnh viện phụ sản có 52% số sản án ghi nhận sinh con trai (xác suất để
chọn một sản án sinh con trai là 0,52), nếu chọn ngẫu nhiên 5 sản án từ dân số sản án của
BV này thì xác suất để chọn được đúng 3 sản án sinh con trai là bao nhiêu?
– Đặt kết quả chọn được sản án sinh con trai là 1 và
kết quả chọn được sản án sinh con gái là 0
– Đặt xác suất của 1 lần thành công là p (chọn được sản án sinh con trai)
xác suất của 1 lần thất bại là q (chọn được sản án sinh con gái)
– Giả sử sau khi chọn 1 đợt, có kết quả như sau:
10110
– Theo phép nhân xác suất,
P (1,0,1,1,0) = pqppq = p3q2
Nếu không quan tâm đến thứ tự sản án trong từng đợt rút mà chỉ quan tâm đến việc rút
được 3 sản án sinh con trai thôi thì có các cách rút sau:

Lần rút
Thứ tự
----------------------------------------------------------------------.
1
10110
2
11100
3
10011
4
11010
5
11001
6
10101
7
01110
8
00111
9
01011
10
01101
----------------------------------------------------------------------Xác suất để chọn được sản án sinh con trai của mỗi đợt rút đều bằng nhau (= p3q2).
Theo luật (phép) cộng xác suất, xác suất để rút 1 lần được 3 sản án sinh con trai bằng:
10 (0,52)3 (0,48)2 = 10 (0,140608) (0,2304) = 0,32
Qui ra công thức,
f(3)

= 5C3 p3q5 – 3


13


Công thức chung:

f ( x )= n C x p x q n− x

với x = 0,1,2,…….. ..,n

Phân phối nhò phân
II. PHÂN PHỐI XÁC SUẤT (PPXS) CỦA CÁC BIẾN SỐ LIÊN TỤC :
1. Giới thiệu :

Tần
số
20
18
16
14
12
10
8
6
4
2

9,5

19,5


29,5

39,5

49,5

59,5

69,5

79,5

X

Histogram của 57 giá trò cân nặng (ounces) của các khối u ác tính:
Mỗi hình chữ nhật (khoảng cách lớp) có đặc điểm
+ Chiều rộng: khoảng cách giữa 2 điểm (giá trò) đònh trước trên trục x
+ Bề cao: tần số của các giá trò nằm trong khoảng 2 điểm này.
Tần số của từng KCL sẽ được tính bằng tỉ lệ tương ứng với phần diện tích giới hạn bởi 2
điểm trên trục x và bề cao của hình chữ nhật.

14


Giả sử tình huống biến số ngẫu nhiên liên tục có một số lượng rất lớn các giá trò và KCL
được chia rất nhỏ, histogram có thể sẽ trông giống như biều đồ dưới đây:

f


x
Nếu nối các điểm giữa của các KCL lại để thiết lập đa giác tần số, chắc chắn sẽ được 1
đường cong ít góc cạnh hơn.
Giả sử số lượng các giá trò, n, tiến đến vô cực, và bề rộng của các KCL tiến đến 0, đa
giác tần số sẽ có dạng 1 đường cong tròn tròa

F(x)

a

b

x

Các đường cong tròn tròa này thường được dùng để biểu thò phân phối của các biến số liên tục.
Các đường cong này có đặc điểm như sau:
+ Tổng diện tích nằm bên dưới đường cong bằng 1 (tương tự như của histogram)
+ Tần số tương đối của các giá trò nằm giữa 2 điểm trên trục x bằng với tổng diện tích
giới hạn bởi đường cong, trục x, và 2 đường thẳng đứng dựng lên từ 2 điểm này trên
trục x.
Xác suất của bất kỳ 1 giá trò đặc hiệu nào của biến số này đều bằng 0 (vì 1 giá trò chỉ được tiêu
biểu bằng 1 điểm trên trục x, và vùng diện tích ở phía trên 1 điểm bằng 0).
Đònh nghóa: Một hàm số không âm f(x) được gọi là phân phối xác suất của 1 biến số ngẫu nhiên
liên tục X nếu tổng diện tích giới hạn bởi đường cong và trục x của nó bằng 1, và nếu phần diện
tích nằm dưới đường cong giới hạn bởi đường cong, trục x và các đường thẳng đứng dựng lên từ 2
điểm a và b bất kỳ cho biết xác suất của X giữa 2 điểm a và b.

15



2. PHÂN PHỐI BÌNH THƯỜNG (Normal distribution)
Phân phối bình thường (PPBT), còn gọi là phân phối Gauss (Gaussian
distribution), có công thức biểu thò:

f ( x) =

1

2πσ

− ( x − μ ) 2 / 2σ 2

×e

, -∞
x

μ

Phân phối Bình thường có 2 thông số là μ, số trung bình, và σ, độ lệch chuẩn. Đường
biểu diễn là đường cong hình chuông.
Đặc điểm:
1/ Đối xứng xung quanh số trung bình của nó.
2/ Số trung bình = số trung vò = số trội
3/ Tổng diện tích dưới đường cong bằng 1 đơn vò vuông.

4/ Nếu dựng các đường thẳng đứng ở cách số trung bình (1 khoảng cách bằng) 1 ĐLC về
cả hai phía, phần diện tích giới hạn bởi 2 đường thẳng này, trục x, và đường cong sẽ
gần bằng 68% của tổng diện tích.

Nếu nới rộng giới hạn bên một khoảng cách bằng 2 ĐLC về cả hai phía, phần diện
tích giới hạn sẽ gần bằng 95%, và con số này sẽ gần bằng 99,7% nếu khoảng cách là
3 ĐLC.
5/ PPBT hoàn toàn được xác đònh bởi các thông số μ và σ. Nghóa là có rất nhiều PPBT
được xác đònh bởi các giá trò μ và/hoặc σ khác nhau, và chúng hợp thành một họ
(family) PPBT.

16


0,68

(a)




μ

μ − 1σ

6

x

μ + 1σ

(b)

0,95


0,025



0,025



μ

μ − 2σ

x

μ + 2σ

(c)

0,997

0,0015



0,0015



μ


μ − 3σ

μ + 3σ

μ1

x

μ2

μ1

<

μ2

<

μ3

x

μ3
σ1

σ2
σ3
σ1


<

σ2

<

σ3

x

17


Phân phối bình thường chuẩn (Standard Normal Distribution)
Là thành viên quan trọng nhất của họ PPBT, còn gọi là PPBT đơn vò, vì có
μ = 0 và σ = 1.
Biến số của PPBT chuẩn được đặt là z với z = (x – μ)/σ.
Công thức tính PPBT chuẩn

f ( z) =

1

−z2 / 2

e


, -∞

Để tìm xác suất của giá trò z nằm trong khoảng xác đònh bởi 2 điểm bất kỳ z0 và z1
trên trục z, phải tìm phần diện tích giới hạn bởi 1các đường thẳng đứng dựng lên từ z0 và
z1, 2 đường cong, và 3 trục hoành.
Phần diện tích này được tính bằng phép tính tích phân



z1
z0

( z) =

1


−z2 / 2

e

dz

Tuy nhiên, có thể dùng bảng đã tính sẵn để tra ra các kết quả tích phân này.
Thí dụ:
1/ Cho PPBT chuẩn, tìm phần diện tích dưới đường cong, trên trục z giữa = – ∞ và z = 2.
Tra bảng thấy z = 2 tương ứng với phần diện tích là 0,9772.
Diễn giải:
1
Xác suất để chọn ngẫu nhiên và tìm được 1 giá trò z nằm trong khoảng ( – ∞ - 2)
là 0,9772; hoặc
2

Tần số tương đối của các giá trò của z nằm trong khoảng (– ∞ - 2) là 97,72%;
3
92,72% các giá trò của z nằm trong khoảng (– ∞ - 2) .
2/ Tính xác suất để chọn ngẫu nhiên được một z có giá trò trong khoảng – 2,55 và + 2,55.
P(–2,55 < z < 2,55) = P(z < 2,55) – P(z < –2,55) = 0,9946 – 0,0054 = 0,9892
3/ Tìm P(z ≥ 2,71).
P(z ≥ 2,71) = 1 – P(z ≤ 2,71) = 1 – 0,9966 = 0,0034
ỨNG DỤNG CỦA PPBT
Mô hình PPBT rất hữu ích và tiện lợi hơn các mô hình phức tạp khác trong việc tính xác
suất của một số biến số (có phân phối bình thường hoặc gần như bình thường)

Thí dụ:
1/ Trong 1 nghiên cứu về bệnh Alzheimer, về trọng lượng của não bệnh nhân, người ta
tính được μ = 1076,80 grams và σ = 105,76 grams. Được biết (biến số) trọng lượng não
của bệnh nhân bò Alzheimer phân phối gần như bình thường, hãy tìm xác suất để chọn
ngẫu nhiên được 1 bệnh nhân có não nặng < 800 grams.
– vẽ hình phân phối
– chuyển số liệu từ x sang z (PPBT chuẩn):
18


z=

x−μ

z=

σ

800 − 1076,80

= −2,62
105,76

– trình bày

800 − 1076,80 ⎞

P ( x < 800) = P⎜ z <
⎟ = P( z < −2,62) = 0,0044
105,76


Xác suất để chọn ngẫu nhiên được một bệnh nhân có não nặng < 800 grams là 0,0044.

2/ Biết được chiều cao của một dân số có 10.000 người phân phối gần như bình thường
với trung bình bằng 70 inches và ĐLC bằng 3 inches.
a/ Tính xác suất để chọn ngẫu nhiên được 1 người có chiều cao trong khoảng
65 và 74 inches.
Với x = 65

z=

65 − 70
= −1,67
3

Với x = 74

z=


74 − 70
= 1,33
3

74 − 70 ⎞
⎛ 65 − 70
P ( 65 < x < 74 ) = P ⎜
≤z≤

3 ⎠
⎝ 3
= P(– 1,67 ≤ z ≤ 1,33)
= P(– ∞ ≤ z ≤ 1,33) – P(– ∞ ≤ z ≤ –1,67)
= 0,9082 – 0,0475

= 0,8607

Xác suất tìm được là 0,8607.
b/ Tính xem có bao nhiêu người ≥ 77 inches.
Xác suất để 1 người được chọn ngẫu nhiên có chiều cao ≥ 77 inches,
77 − 70 ⎞

P(x > 77) = P ⎜ z >
⎟ = P(z > 2,33) = 1 − 0,9901 = 0, 0099
3 ⎠


Có 10.000 (0,0099) = 99 người có chiều cao > 77 inches.
-----------------------------------------------------------------------------------------------------------------------------


19


Bài 4

PHÂN PHỐI MẪU
(Sampling Distributions)
I.

GIỚI THIỆU
Phân phối (PP) mẫu là chìa khóa để hiểu được các suy luận thống kê.
Việc hiểu biết PPXS nhằm hai mục đích:
1
Tìm lời giải cho các câu hỏi về xác suất của các số thống kê của mẫu
2
Cung cấp nền tảng lý thuyết cần thiết cho việc đưa ra những suy luận thống kê
đúng đắn.
PP mẫu nhằm vào mục đích thứ nhất.
Đònh nghóa
PP. của tất cả các giá trò được xem là các số thống kê (statistics) tính được từ các
mẫu (samples) có cùng kích thước mẫu (sample size) rút ngẫu nhiên từ cùng một
dân số, được gọi là PP. mẫu của số thống kê đó.
Các bước thiết lập PP. mẫu
+ Từ một dân số hữu hạn có kích thước N, rút ngẫu nhiên tất cả các mẫu (có thể
rút được) có kích thước n.
+ Tính số thống kê có liên quan cho từng mẫu
+ Lập bảng phân phối tần số cho các số thống kê tính được này.
Đặc điểm quan trọng
03 điều cần được biết về 1 PP. mẫu: số trung bình, phương sai, và dạng hàm số.
Việc thiết lập PP. mẫu theo 3 bước nói trên sẽ trở nên rất khó khăn với dân số có

kích thước lớn, và trở nên bất khả thi khi gặp dân số vô hạn. Cách tốt nhất để giải
quyết 2 vấn đề này là dùng các lý thuyết toán học để tính gần đúng PP. mẫu của 1
số thống kê.

II.

PP. (CỦA SỐ) TRUNG BÌNH MẪU (Distribution of the Sample Mean)

Thí dụ dẫn nhập
Giả sử có 1 dân số có kích thước N = 5 (tuổi của 5 đứa trẻ điều trò ngoại trú tại
PKSK Tâm Thần Quận) với x1 = 6, x2 = 8, x3 = 10, x4 = 12, x5 = 14.

Số trung bình (dân số):
Phương sai (dân số):

μ=

∑x

i

Ν

σ

2

=

50

= 10
5

∑ (x
=

i

N

− μ)

2

=

40
=8
5

20


Phương sai:

S

2

∑ (x

=

i

− μ)

2

=

N −1

(tính cách khác)

40
= 10
4

Thiết lập PP. mẫu của số trung bình mẫu, x, dựa trên kích thước mẫu n = 2 rút ra từ dân
số này. Rút tất cả các mẫu có thể rút được với n = 2 từ dân số này theo cách “để lại”
(with replacement), nghóa là rút ra xem kết quả xong thì trả lại vào dân số; tổng số mẫu
rút được bằng Nn = 25
RÚT

LẦN

2

6


8

10

12

14

6

6, 6

8, 6

10, 6

12, 6

14, 6

RÚT

(6)

(7)

(8)

(9)


(10)

8

6, 8

8, 8

10, 8

12, 8

14, 8

LẦN

(7)

(8)

(9)

(10)

(11)

10

6, 10


8, 10

10, 10

12, 10

14, 10

1

(8)

(9)

(10)

(11)

(12)

12

6, 12

8, 12

10, 12

12, 12


14, 12

(9)

(10)

(11)

(12)

(13)

6, 14

8, 14

10, 14

12, 14

14, 14

(10)

(11)

(12)

(13)


(14)

14

(Số trong ngoặc là số trung bình, x )
Lập bảng phân phối tần số của x
Tần số
x
6
7
8
9
10
11
12
13
14
Tổng

1
2
3
4
5
4
3
2
1
25


Tần số tương đối
1/25
2/25
3/25
4/25
5/25
4/25
3/25
2/25
1/25
25/25

21


Dạng hàm số của PP. dân số: Phân phối đơn đều
f (x)
6

5
4
3
2
1

6

8

10


12

14

x

Dạng hàm số của PP. trung bình mẫu: phân phối dạng bình thường

f (x)
6
5
4
3
2
1

6

7

8

9

10

11

12


13

14

Tính thông số của PP. Trung bình mẫu

μx =

∑x
N

n

i

=

6 + 7 + 8 + .... + 14 250
=
= 10
25
25

số trung bình của PP. trung bình mẫu bằng số trung bình của dân số gốc

σx =
2

=


∑ (x − μ )
N
i

x

n

2

=

(6 − 10) 2 + (7 − 10)2 + ... + (14 − 10) 2
25

100
=4
25

22

x


Phương sai của PP. mẫu không bằng phương sai dân số, mà bằng phương sai dân số chia
cho kích thước mẫu

σ = σn
2


x

2

=

8
=4
2

σ
, được gọi là sai số chuẩn của số
n
trung bình, hoặc gọi đơn giản là sai số chuẩn (standard error).

Căn số bậc 2 của phương sai của PP. mẫu,

σ

2

x

=

Đặc điểm của PP. Trung bình mẫu
Khi lấy mẫu theo cách “để lại” hoặc lấy mẫu từ 1 dân số vô hạn
1. Từ một dân số phân phối bình thường, PP. Trung bình mẫu có những đặc điểm sau:
+ PP. của x sẽ bình thường

+ Số trung bình, μ , của phân phối x sẽ bằng với số trung bình của dân số, μ, mà
x

từ đó các mẫu được rút ra.
2
+ Phương sai, σ x , của phân phối x sẽ bằng phương sai của dân số chia cho kích
thước mẫu.

2. Từ một dân số phân phối không bình thường
Lý thuyết giới hạn trung tâm (Central Limit Theorem)
Cho một dân số có dạng hàm số không bình thường với số trung bình là μ và
phương sai hữu hạn σ2, phân phối mẫu của x (là các số trung bình tính được từ các mẫu
2
có kích thước n từ dân số này) sẽ có số trung bình μ = μ và phương sai σ x = σ2 / n và
x

sẽ phân phối gần như bình thường khi kích thước mẫu lớn.

Trong thực tiễn, kích thước mẫu bằng 30 được xem là đủ lớn. Nói chung, PP. Trung bình
mẫu càng gần với bình thường hơn khi kích thước mẫu càng lớn.
Lấy mẫu “Không để lại” (without replacement)
Trong hầu hết các tình huống thực tế, việc lấy mẫu nhất thiết phải được thực hiện với 1
dân số hữu hạn và PP. Trung bình mẫu trong những điều kiện này cũng có phần nào thay
đổi.
Với thí dụ dẫn nhập, nếu việc lấy mẫu được tiến hành theo cách “không để lại” và không
quan tâm đến thứ tự được rút ra của các giá trò (trong các mẫu), thì chỉ có 10 mẫu (5C2).
Số trung bình của phân phối x:
x
μ = ∑C
x


N

i

n

=

7 + 8 + 9 + ... + 13 100
=
= 10
10
10

Số trung bình của PP. mẫu cũng bằng với số trung bình dân số.
23


Phương sai của PP. mẫu

σx =
2

∑ (x

− μ x )2

i


N

Cn

Phương sai của PP. Trung bình mẫu,

σ

n

=

2

×

σ

2
x

30
=3
10

, không bằng

σ

2


n

=

8
=4
2

mà bằng

N −n 8 5−2
= ×
=3
N −1 2
3

(Nếu kích thước mẫu lớn, lý thuyết giới hạn trung tâm sẽ được áp dụng và x sẽ phân phối
gần như bình thường)

N −n
được gọi là yếu tố điều chỉnh dân số hữu hạn (finite population
N −1
correction) và có thể được bỏ qua khi kích thước mẫu tương đối nhỏ so với dân số.
(n / N ≤ 0,05)
Yếu tố

TÓM TẮT PHÂN PHỐI TRUNG BÌNH MẪU
1. Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối bình thường với phương sai
biết trước:

a. μ x = μ
b.
c.

σ

x

= σ/ n
Phân phối trung bình mẫu là phân phối bình thường

2. Khi việc lấy mẫu được thực hiện trên 1 dân số phân phối không bình thường với
phương sai biết trước:
a. Số trung bình
μx = μ
b. Sai số chuẩn

σ

x

= σ/ n

σ
c.

x

khi n / N ≤ 0,05


= (σ / n )

N−n
N −1

Phân phối trung bình mẫu là phân phối gần như bình thường

24


×