Tải bản đầy đủ (.docx) (56 trang)

GIÁO TRÌNH MÔN HỌC XÁC SUẤT VÀ THỐNG KÊ Y DƯỢC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 56 trang )

1

TRƯỜNG CAO ĐẲNG Y TẾ BÌNH DƯƠNG
KHOA KHOA HỌC CƠ BẢN

GIÁO TRÌNH MƠN HỌC

XÁC SUẤT VÀ THỐNG KÊ Y DƯỢC

Giảng viên: Ts. Nguyễn Hồng Chương

Lưu hành nội bộ năm 2016


2

MỤC LỤC

2


3

THƠNG TIN CHUNG VỀ KHĨA HỌC
1. SỐ ĐƠN VỊ HỌC TRÌNH: 03 lý thuyết

Số tiết: 30

2. MỤC TIÊU HỌC PHẦN
Về kiến thức: Nắm được các khái niệm cơ bản về xác suất thống kê như: xác suất, toán học
tổ hợp, biến số, nguyên tắc kiểm định thống kê.


Bổ sung các nội dung toán học phục vụ cho thống kê y, dược như: thống kê mô tả, mẫu và
phân bố mẫu, ước lượng điểm và ước lượng khoảng, kiểm định giả thiết thống kê, hệ số tương
quan và phương trình hồi quy tuyến tính...
Về kỹ năng: Sinh viên biết cách vận dụng giải các bài toán ứng dụng và xử lý được các bài
toán thống kê trong y dược. Áp dụng được các phương pháp thống kê vào những nghiên cứu
khoa học sau này của mình.
Thực hiện được các kiểm định thống kê dùng trong y, dược như: kiểm định Z, kiểm định T,
kiểm định Chi bình phương, phân tích phương sai, hệ số tương quan và phương trình hồi quy
tuyến tính… Có khả năng tự phân tích số liệu và lý giải kết quả phân tích bằng các phần mềm
thống kê.
Về thái độ: Nhận thức được ý nghĩa các số liệu thống kê.

3. YÊU CẦU
1. Tham dự đầy đủ tất cả các giờ học, nếu vắng măt phải có đơn xin phép
2. Hoàn thành các bài tập về nhà (theo từng cá nhân)
3. Khơng nói chuyện trong giờ học, tích cực tham gia thảo luận khi được yêu cầu
4. Mỗi học sinh cần in và mang theo giáo trình này vào lớp
5. Phương tiện học tập: Mỗi học sinh phải đem theo một máy tính cầm tay khi học

4. ĐIỂM HỌC PHẦN:
Điểm học phần được tính theo: Điểm chuyên cần và thái độ học tập; điểm bài tập về nhà;
điểm kiểm tra trong lớp học và điểm thi kết thúc học phần

3


4

Bài 1
MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT

I. ĐỊNH NGHĨA VỀ XÁC SUẤT
Xác suất là tần suất tương đối cho một biến cố xảy ra. Xác suất của một biến cố A được đo
bằng tỉ số giữa số kết cục xảy ra biến cố A với tổng số kết cục có thể có được trong một phép thử
ngẫu nhiên.
Trong đó

n[A] là số các kết cục thuận lợi cho biến cố A
N là tổng số kết cục có thể xảy ra

Đặc điểm:
(1) Kết cục đồng khả năng: Tất cả các biến cố khác nhau có xác xuất như nhau. Ví dụ, khi tung xúc
xắc, việc xuất hiện các kết cục ra mặt 1, ra mặt 2, ra mặt 3, ra mặt, 4, ra mặt 5, và ra mặt 6 có
xác suất bằng nhau
(2) Có tính loại trừ lẫn nhau: Khơng có nhiều hơn một biến cố xảy ra đồng thời. Ví dụ, khi tung một
xúc xắc, nếu ra mặt 1 thì khơng thể đồng thời ra mặt 2 hay ra mặt 3…
Ví dụ: Xác xuất của mặt sấp đồng tiền khi tung đồng xu là P(A) = n[A]/N= 1/2 = 0.5
Xác xuất ra mặt 5 của một lần tung xúc xắc là
P(B) = n[B]/N= 1/6 = 0.166. Các kết
cục của mỗi mặt này loại trừ lẫn nhau và có cùng một xác suất.
Tung hai đồng tiền cùng một lúc, có 4 kết cục đồng khả năng xảy ra là SS, SN, NS, và
NN. Xác suất xảy ra để cả hai mặt đều sấp là
P(SS) = n[SS]/N = 1/4 = 0.25
Thực hành tại lớp:
1. Tính xác xuất khi rút ra ngẫu nhiên 1 con Cơ trong bộ bài tây
2. Tính xác xuất khi rút ra ngẫu nhiên 1 con Át đỏ trong bộ bài tây
3. Tính xác xuất khi rút ra ngẫu nhiên 1 con có số trong bộ bài tây
4. Giới tính của bệnh nhân tại khoa Nhi và khoa Lao tại bệnh viện A như bảng sau:
Khoa Nhi

Khoa Lao


Tổng

Nam

60

50

110

Nữ

50

10

60

Tổng

110

60

170

Chọn một bệnh nhân bất kỳ tại hai khoa trên, tính
-


Xác suất của một bệnh nhân nằm tại khoa Lao

-

Xác suất của một bệnh nhân là Nam

4


5
II. CÁC VẤN ĐỀ LIÊN QUAN ĐẾN XÁC XUẤT
1. Miền giá trị. Giá trị của một xác xuất nằm trong miền giá trị từ 0 đến 1
do

0 ≤ n[A] ≤ N

nên

0/N ≤ n[A]/N ≤ N/N

hay 0 ≤ P(A) ≤ 1

(1.1)

2. Biến cố đối lập. Số lượng tổng các kết cục trong một một phép thử ngẫu nhiên luôn luôn bao
gồm hai khả năng đối lập nhau, biến cố A xảy ra và biến cố A không xảy ra (ký hiệu là ). Hai
biến cố này loại trừ lẫn nhau
n[A]
n[A] hay
hay


(1.2)

Ví dụ: Xác xuất cho để khơng có 2 mặt cùng sấp khi tung 2 đồng tiền là
3.

Số chênh (Odds). Vì miền giá trị của một xác xuất là [0, 1] nên cần các phương pháp khác đo
lường xác xuất theo một biểu thức tuyến tính để mở rộng miền giá trị. Một trong những phương
pháp đó là sử dụng số chênh. Số chênh của một biến cố A là:
Do vậy miền giá trị của số chênh là đoạn [0, +∞)
Ví dụ: P(2 mặt cùng sấp) là 1/4. Odds của biến cố này là 1/4:3/4 = 1:3. Ý nghĩa của số chênh
này là trong một cuộc chơi công bằng, khi đặt cược 1 đồng thì nếu thắng sẽ được 3 đồng.

4. Tỉ số nguy cơ (Odds Ratio).
Rất thường dùng trong dịch tễ học để đo lường các yếu tố nguy cơ. Tỉ số nguy cơ của một
biến cố A được tính như sau;
Ví dụ: Trong một nghiên cứu dịch tễ học để khảo sát mối tương quan giữa chế độ ăn và bệnh
tăng huyết áp, kết quả như sau:
Có tăng huyết áp

Không tăng huyết áp

Tổng

Ăn mặn

60

140


200

Không ăn mặn

40

260

300

Tổng

100

400

500

Tăng huyết áp là biến cố, ăn mặn là yếu tố nguy cơ.
-

Khi có ăn mặn

-

Khi không ăn mặn

5



6
Tỉ số nguy cơ là:

Ý nghĩa: Người ăn mặn có nguy cơ tăng huyết áp gấp……..lần so với người không ăn mặn
Bài tập về nhà
Bài tập 1. Phân bố giữa nhóm máu và giới tính của một nhóm bệnh nhân như sau:
Giới tính

Nam

Nữ

O

120

240

A

115

230

B

52

104


AB

8

16

Tổng

Nhóm máu

Tổng
1. Tính xác suất của một người được lựa chọn ngẫu nhiên có nhóm máu A, B, O, và AB.
2. Tính xác suất của một người được lựa chọn ngẫu nhiên là Nữ và có nhóm máu AB
Bài tập 2. Khảo sát mối quan hệ giữa hút thuốc lá và nhồi máu cơ tim trên nam giới tuổi trung
niên:

Nhồi máu cơ tim
Không hồi máu cơ tim

Hút thuốc

Không hút thuốc

25
45

55
105

Tổng


Tổng
1. Tính số chênh của bệnh nhân nhồi máu cơ tim có hút thuốc lá
2. Tính số chênh của bệnh nhân nhồi máu cơ tim không hút thuốc lá
3. Tính tỉ số nguy cơ do hút thuốc lá và nhồi máu cơ tim. Diễn giải bằng lời kết luận tìm
được

6


7

Bài 2
MỘT SỐ KHÁI NHIỆM VỀ TỐN HỌC TỔ HỢP
Tốn học tổ hợp (hay giải tích tổ hợp, đại số tổ hợp, lý thuyết tổ hợp) là một ngành toán
học rời rạc, nghiên cứu về các cấu hình kết hợp các phần tử của một tập hữu hạn phần tử. Các
cấu hình đó là các hốn vị, chỉnh hợp, tổ hợp,... các phần tử của một tập hợp. Toán học tổ hợp có
liên quan đến nhiều lĩnh vực khác của tốn học, như đại số, lý thuyết xác suất, hình học; cũng
như đến các ngành ứng dụng như khoa học máy tính, kinh tế, vật lý và thống kê y học.
Trong phạm vi của bài học này chúng ta chỉ nghiên cứu các khái niệm về hoán vị
(arrangement), chỉnh hợp (permutation) và tổ hợp (combination)
1. Hoán vị (Arrangement): Là cách sắp xếp những đối tượng phân biệt theo những thứ tự khác
nhau
a. Ví dụ 1: Có 3 học sinh A, B, C ngồi cùng một bàn. Số cách sắp xếp 3 học sinh đó có thể
suy luận như sau:
-

Học sinh A có thể chọn 1 trong 3 chỗ ngồi, như vậy có tất cả 3 cách chọn

-


Học sinh B có thể chọn 1 trong 2 chỗ còn lại, như vậy có tất cả 2 cách chọn

-

Học sinh C chỉ cịn duy nhất 1 chỗ cịn lại, như vậy có 1 cách chọn

Tổng số cách sắp xếp 3 học sinh A, B, C vào một bàn là 1 x 2 x 3 = 6 = 3!
Như vậy có tất cả 6 hoán vị là (A,B,C),(A,C,B),(B,A,C),(B,C,A),(C,A,B),(C,B,A).
b. Số các hoán vị:
Số các hoán vị của một tập hợp có n phần tử là:
Pn = n! = n (n-1) (n-2)… 1

(2.1)

Chú ý



n! = n (n-1)!
0! = 1

c. Thực hành tại lớp:
Một đoàn khách du lịch dự định đến tham quan 7 điểm du lịch A, B, C, D, E, F và G. Hỏi
hướng dẫn viên có bao nhiêu cách khác nhau để sắp xếp cho đoàn du lịch đi tham quan tất cả 7
điểm trên (Đáp số 5040 cách chọn)
2. Chỉnh hợp (Permutation): Là cách chọn k đối tượng, có chú ý đến thứ tự, từ n đối tượng cho
trước
a. Ví dụ 2: một nhân viên được giao 5 công việc (A, B, C, D, E) trong một tuần. Buổi sáng
anh ta hoàn thành một cơng việc và buổi chiều hồn thành một cơng việc khác. Khi đó các cách

để anh ta tiến hành làm các công việc trên như sau:
AB
BD

BA
DB

AC
BE

CA
EB

AD
CD

DA
DC

AE
CE

EA
EC

BC
DE

CB
ED


Mỗi cách chọn lựa trên là một chỉnh hợp. Số lượng các chỉnh hợp trên có thể suy luận
như sau
-

Để chọn cơng việc đầu tiên, anh ta có 5 cách chọn

7


8
-

Để chọn cơng việc buổi chiều, anh ta có 4 cách chọn

b. Số các chỉnh hợp:
Cho một tập gồm n phần tử, nếu lấy ra k phần tử (1 ≤ k ≤ n) và sắp xếp chúng theo một thứ
tự ta được một chỉnh hợp chập k của n phần tử. Số các chỉnh hợp là:
c. Thực hành tại lớp:
Trong trận chung kết bóng đá phải phân định thắng thua bằng đá luân lưu 11m. Huấn luyện
viên của mỗi đội cần trình với trọng tài một danh sách sắp thứ tự 5 cầu thủ trong số 11 cầu thủ
của đội để tham gia đá. Hỏi có bao nhiêu cách chọn lựa đội hình sút phạt (Đáp số 55440)
3. Tổ hợp (Combination): Là cách chọn k đối tượng, không để ý đến thứ tự lựa chọn, từ n đối
tượng cho trước
a. Ví dụ 3: Trong 5 cơng việc mà anh nhân viên làm trong một tuần. Nếu mỗi ngày anh ta có
thể làm cùng lúc 2 cơng việc khác nhau, trong trường hợp này thứ tự trước sau khơng quan
trọng, ví dụ AB và BA là đồng nhất. Các cách để anh ta lựa chọn như sau:
AB

AC


AD

AE

BC

BD

BE

CD

CE

DE

Như vậy anh ta có 10 cách để chọn lựa thay vì 20 cách như ví dụ 2
b. Số các Tổ hợp:
Cho một tập gồm n phần tử, nếu lấy ra k phần tử (1 ≤ k ≤ n, không quan tâm đến thứ tự) ta
được một tổ hợp chập k của n phần tử. Số các tổ hợp là:
c. Thực hành tại lớp: Trong buổi lễ khai giảng năm học, nhà trường yêu cầu một lớp chọn
ra 4 học sinh nam và 3 học sinh nữ tham gia buổi lễ. Hỏi có bao nhiêu cách lựa chọn nếu biết
rằng lớp đó có 20 học sinh nam và 15 học sinh nữ (Đáp số 2204475 cách chọn).
Bài tập về nhà:
Bài tập 1. Một người muốn trồng 6 cây ăn trái sau nhà thành một hàng (cam, dừa, bưởi, chuối,
mãng cầu và ổi). Nếu anh ta muốn trồng theo ý muốn, thì anh ta có bao nhiêu cách sắp xếp các
cây trồng.
Bài tập 2. Một lớp học có 20 học sinh. Có bao nhiêu cách để chọn một ban các sự lớp gồm 3
người ( lớp trưởng, lớp phó 1, và lớp phó 2)

Bài tập 3. Một trường học có 5 nữ và 6 nam giáo viên. Trường đó chọn một hội đồng gồm 4
người.
a. Có bao nhiêu cách chọn sao cho hội đồng đó có 3 nữ và 1 nam giáo viên
b. Có bao nhiêu cách chọn sao cho hội đồng đó có ít nhất 3 nữ giáo viên

8


9

Bài 3
BIẾN SỐ VÀ THỐNG KÊ MÔ TẢ
A. Một số thuật ngữ về thống kê
1. Dân số (population): là một tập hợp tất cả các cá nhân có cùng một đặc tính nào đó, như dân số
học sinh cao đẳng-đại học Việt nam, dân số trẻ sơ sinh có cân nặng dưới 2500gram. Thông
thường ta không thể biết rõ ràng về các chỉ số của dân số
2. Mẫu (sample): là một nhóm các nhân rút ra từ dân số. Chúng ta có thể đo lường các chỉ số của
mẫu được chọn để ước lượng các chỉ số của dân số
3. Chỉ số (parameter hay statistic): là các thống kê bằng số để mô tả các đặc điểm của dân số hay
mẫu
B. Tổng quan về biến số
I. Định nghĩa.
Do nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết vấn đề nghiên cứu hay trả
lời một câu hỏi nghiên cứu nên nghiên cứu khoa học cần phải thu thập thông tin các đặc tính hay
các đại lượng của đối tượng. Các đặc tính hay đại lượng này được gọi là biến số. Biến số là những
hiện tượng, hoặc đặc tính, thay đổi từ người này sang người khác, hoặc thay đổi trên một người
ở những thời điểm khác nhau
II. Các loại biến số
1. Biến số định tính:
a. Biến số danh định:

Định nghĩa: Là biến số mà giá trị của nó khơng thể biểu thị bằng số mà phải biểu diễn bằng một tên gọi
và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao.
Thí dụ: Dân tộc (với các giá trị: Kinh, Khmer, Hoa, Chăm…), giới tính (nam, nữ) là các
biến số danh định vì ta khơng thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay
ngược lại.
b. Biến số thứ tự:
Định nghĩa: Là biến số biến số danh định nhưng có thể sắp xếp thứ tự được.
Thí dụ: Tình trạng học vấn (với các giá trị: dưới tiểu học, dưới trung học, hết trung học,
cao đẳng và đại học) là các biến số thứ tự vì chúng phản ánh trình độ học vấn cao thấp từng người
Lưu ý:
-

Biến số danh định và biến số thứ tự có một dạng đặc biệt, đó là biến số nhị biến, trong đó mỗi biến số chỉ
có 2 giá trị như 0 và 1 hoặc A và không A…

-

Biến số danh định và biến số thứ tự còn gọi là các biến số có phân phối rời rạc

2. Biến số định lượng (cịn gọi là biến số liên tục)
a. Định nghĩa: Là biến số mà những giá trị của nó có thể là số nguyên hoặc phân số. Giữa hai giá
trị của một biến số liên tục có mọi giá trị đi liền nhau. Các giá trị có thể đo lường được và thể
hiện bằng một đại lượng hoặc thang đo nào đó. Biến số định lượng có thể đo lường trực tiếp như
chiều cao, cân nặng, tuổi… hay không thể đo lường trực tiếp được như kiến thức nuôi con của
bà mẹ, mức độ đắc khí, mức độ hài lịng của bệnh nhân, kiến thức của bà mẹ về thực hành chăm
sóc trẻ…

9



10
b. Thí dụ: Nhiệt độ là biến số biến số liên tục với những giá trị 37 0C, 380C, 390C... Giữa hai giá
trị 370C và 380C có vơ số giá trị đi liền nhau, thí dụ như 37,10C, 37,20C, 37,250C…
C. Thống kê mô tả
Thống kê mô tả là phương pháp dùng để mơ tả những đặc tính cơ bản của dữ liệu thu thập
được từ nghiên cứu thực nghiệm qua các cách thức khác nhau.
1. Thống kê mô tả cho biến số định tính.
Đối với biến số định tính (danh định và thứ tự), người ta thường dùng số lượng và tỉ lệ (ví
dụ tỉ lệ phần trăm) để mơ tả biến số.
2. Thống kê mô tả cho biến số định lượng hay liên tục.
2.1. Thống kê mô tả về khuynh hướng tập trung
a. Trung bình (Mean, ký hiệu là. Trung bình của một biến số x là tổng của tất cả giá trị của x chia
cho số lần quan sát (N)
Ví dụ: Chiều cao của 10 sinh viên nam được chọn ngẫu nhiên từ CĐYT như sau: 1,56;
1,72; 1,69; 1,70; 1,64; 1,60; 1,59; 1,73; 1,67; 1,68m. Trung bình chiều cao của nhóm sinh viên là
1,56 + 1,72 + 1,69 + 1,70 + 1,64 + 1,60 + 1,59 + 1,73 + 1,67 + 1,68)/10 = 1,658
b. Trung vị (Median, ký hiệu là M). Khi một bộ dữ kiện được sắp xếp theo thứ tự, trung vị là giá
trị chia đôi bộ dữ kiện đó thành hai phần bằng nhau.
Ví dụ:

5, 7, 8, 9, 12, 15, 17, 19, 21

4, 7, 9, 12, 18, 19

M = 12

M = (9+12)/2 = 10.5

c. Yếu vị (Mode). Yếu vị là giá trị xuất hiện nhiều nhất (có tần số cao nhất) của bộ dữ kiện
Ví dụ:


1,5, 4, 8, 4, 9, 4

Mode = 4

Thực hành tại lớp. Cân nặng của các bé trai 10 tuổi như sau:
33

36

38

39

39

40

41

41

41

42 kg

Tính trung bình, trung vị và yếu vị (ĐS: 39, 39.5, 41)
2.2. Thống kê mô tả về khuynh hướng phân tán
a. Phương sai (Variance, ký hiệu là ). Phương sai dùng để đánh giá độ phân tán của dữ kiện xung
quanh giá trị trung bình. Phương sai được tính bằng trung bình bình phương của độ lệch

(deviation)
Với () là độ lệch (deviation), là tổng bình phương (sum of squares, ký hiệu là SS) và n - 1
là độ tự do (degree of freedom, ký hiệu là DF, Df, dF, df)
b. Độ lệch chuẩn (Standard deviation, ký hiệu là SD hay ). Độ lệch chuẩn được tính bằng căn bậc
hai của phương sai, có cùng đơn vị như bộ dữ kiện
Ví dụ. Với số liệu của cân nặng của các bé trai 10 tuổi, phương sai và độ lệch chuẩn được
tính như sau:

10


11

SD =
c. Phạm vi (Range) là tất cả các giá trị từ vị trí thấp nhất đến vị trí cao nhất
Ví dụ. Với số liệu của cân nặng của 17 bé trai 10 tuổi, phạm vi là từ 33 đến 42
hay Range = 42– 33 = 9
Các thông số được sử dụng nhiều nhất trong thống kê mô tả là trung bình (Mean), phương
sai (Variance) và độ lệch chuẩn (Standard Deviation).

BÀI TẬP VỀ NHÀ
Bài tập 1. Những biến số sau đây loại nào là biến số danh định, biến số thứ tự và biến số liên tục, tình
trạng hơn nhân, tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo),
chiều cao của học sinh cao đẳng y tế, n hóm máu (A, B, AB và O), huyết áp (huyết áp
bình thường, huyết áp cao nhẹ, vừa, và nặng), chỉ số IQ, năm sinh
Bài tập 2. Tính các chỉ số để mô tả thống kê một mẫu sau: 7, 5, 6, 4, 9, 12, 5, 4, 3, 10, 9, 7, 5, 6,
10, 8, 5

11



12

Bài 4
PHÂN PHỐI MẪU - ƯỚC LƯỢNG
A. Đại cương về mẫu và phương pháp lấy mẫu
Trong nghiên cứu, chúng ta muốn kết quả của các số liệu được khái quát cho tồn bộ dân
số có các đặc tính cần quan tâm (được gọi là dân số mục tiêu), nhưng chúng ta thường khơng thể
thu thập số liệu trên tồn bộ dân số lớn như vậy. Thông thường, chúng ta chỉ có thể thu tập số
liệu trên một nhóm đối tượng để từ đó khái qt hóa cho tồn bộ dân số. Nhóm đối tượng đó
được gọi là mẫu (sample) nghiên cứu. Vì thế phương pháp chọn mẫu rất quan trọng để các kết
quả có thể áp dụng lên dân số. Tiêu chuẩn quan trọng là cỡ mẫu (sample size) phải đủ lớn và
phương pháp lấy mẫu phải có tính đại diện.Nguyên tắc chung là mẫu phải được chọn một cách
ngẫu nhiên từ dân số mục tiêu.
1. Các ký hiệu
Chỉ số

Dân số (population)

Mẫu (sample)

Số lượng

N

n

Trung bình

µ

ρ, π

p

Phương sai

/N

= /n-1

Đơ lệch chuẩn

σ

Tỉ lệ (cho phân phối nhị thức)

2. Phân phối nhị thức
Phân phối nhị thức là phân phối của biến số chỉ nhận hai giá trị là 0 và 1. Trung bình và
phương sai của dân số và mẫu có phân phối nhị thức như sau

3. Phân phối bình thường: là phân phối có hàm mật độ là:

Để thể hiện biến số X có phân phối bình thường với trung bình µ và phương sai σ2 có thể
sử dụng ký hiệu
X ~ N(µ, σ2)

4. Các đặc tính của phân phối bình thường
− Có dạng hình chng (Bell-shaped), tập trung cao nhất ở giá trị µ, càng xa giá trị µ hàm
mật độ càng giảm


12


13






Đối xứng qua đường thẳng đứng đi qua giá trị trung bình (µ), Mean = Median = Mode
Liên tục
Tiếp cận, nhưng khơng cắt trục hồnh
Tổng tồn bộ diện tích dưới đường cong là 1.00
Gần 68% nằm trong khoảng 1 độ lệch chuẩn xung quanh giá trị trung bình, 96% nằm
trong khoảng 2 độ lệch chuẩn xung quanh giá trị trung bình, 99,7% nằm trong khoảng 3
độ lệch chuẩn xung quanh giá trị trung bình

5. Phân phối chuẩn: là phân phối bình thường có trung bình là 0, phương sai và độ lệch chuẩn
là 1. Phân phối chuẩn có ký hiệu X ~ Z(0, 1)
6. Chuẩn hóa phân phối bình thường
Một phân phối bình thường X ~ N(µ, σ2) có thể chuyển thành phân phối chuẩn nếu ta
tạo một biến ngẫu nhiên mới Z, với
Biến số Z sẽ có phân phối chuẩn với µ = 0 và σ = 1

Đơn vị của trục hoành là độ lệch chuẩn. Chữ số ở dưới đường cong thể hiện diện tích (hay xác
suất) của vùng đó. Chúng ta có thể tìm các chỉ số này dựa theo phụ lục A
Quy luật
(1) Tần suất tích lũy đến giá trị x là diện tích dưới đường cong tính từ bên trái giá trị x, ký
hiệu : P(X ≤ x)

(2) P(X ≥ x) = 1 - P(X ≤ x)

(vì P(X ≤ x) + P(X ≥ x) = 1)

(3) P(x1 ≤X ≤ x2) = P(X ≤ x2) - P(X ≤ x1)

(4.4)
(4.5)

13


14

Ví dụ: Cho một phân phối chuẩn, tìm diện tích dưới đường cong nằm dưới giá trị Z = 1,5
Tra phụ lục A, ta có P(Z ≤ 1,5) = 0,933 hay 93,32% của tồn bộ diện tích
Diện tích dưới đường cong nằm trên giá trị Z = 1,5 ?
Ví dụ: Cho một phân phối chuẩn, tìm diện tích dưới đường cong nằm giữa giá trị Z = -1 và 2
P(-1 ≤Z ≤ 2) = P(Z ≤ 2) - P(Z ≤ -1) = 0,977 – 0,159 = 0,818
Ví dụ: Giả sử cân nặng của bé trai 10 tuổi là một phân phối bình thường với µ = 43 kg và độ
lệch chuẩn là 5 kg. Tính (1) xác suất các bé có cân nặng dưới 35,5kg, (2) các bé có cân nặng từ
34 đến 52 kg, và (3) tỉ lệ bé trai có cân nặng trên 65kg ? (
(1) Chuẩn hóa phân phối bình thường, ta có:
Xác suất các bé có cân nặng dưới 35,5kg
P(X ≤ 35,5) = P(Z ≤ -1,5) = 0,067
Ý nghĩa: 35,5 kg tương đương với 1,5 độ lệch chuẩn bên trái giá trị trung bình. Trong dân số,
6,68% bé trai có cân nặng dưới 35,5kg.
(2) Xác suất các bé có cân nặng từ 34 đến 52 kg
P(32 ≤X ≤ 52) = P(X ≤ 52) - P(X ≤ 34)


(3) Tỉ lệ bé trai có cân nặng trên 65kg ? (ĐS 0

,005)
*Lưu ý: Tất cả các phép tính trên chỉ có chính xác khi mẫu hay dân số có phân phối bình
thường. Nếu phân phối bị lệch (lệch trái, lệch phải, có nhiều đỉnh…) thì kết quả khơng cịn chính
xác nữa.
B. Định lý giới hạn trung tâm (Central limit theorem) - Phân phối trung bình mẫu

14


15
Nếu có các mẫu x1, x2,…,xn được rút ra ngẫu nhiên và độc lập từ một dân số có trung
bình µ và phương sai σ2 (gọi là dân số mẹ), trung bình của các mẫu đó (, ,.., ) sẽ có một phân
phối xấp xỉ bình thường nếu n đủ lớn, với
Trung bình

(4.6)

Độ lệch chuẩn của phân phối trung bình mẫu còn được gọi là sai số chuẩn (Standard Error)
Nếu n đủ lớn, phân phối trung bình của các mẫu sẽ chuẩn bất kể dân số mẹ có phân phối
bình thường hay khơng. Đây là một đặc tính rất quan trọng, giúp chúng ta có thể áp dụng phân
phối bình thường lên các mẫu nghiên cứu.
Ví dụ: Nếu ta tung một lần 4 con xúc xắc, rồi tính trung bình số điểm mỗi lần tung. Chúng ta
biết rằng giá trị trung bình và phương sai của dân số mẹ là 3.5 và 35/12 (thực hành tại lớp). Giả
sử một nhà nghiên cứu tung 1296 lần như vậy, kết quả như bảng sau;
Trung bình

1.00


1.25

1.50

1.75

2.00

2.25

2.50

2.75

3.00

3.25

3.50

Tần suất
f(x)

1

4

10

20


35

56

80

104

125

140

146

0.001

0.003

0.008

0.015

0.027

0.043

0.062

0.080 0.096


0.108

0.113

Trung bình
Tần suất
f(x)

3.75
140
0.108

4.00
125
0.096

4.25
104
0.080

4.50
80
0.062

4.75
56
0.043

5.00

35
0.027

5.25
20
0.015

5.50 5.75
10
4
0.008 0.003

6.00
1
0.001

tổng
1296
1.000

Phân phối của trung bình mẫu xấp xỉ bình thường

Tuy nhiên nếu một cỡ mẫu tương đối lớn thì phân phối trung bình mẫu đó xấp xỉ phân
phối bình thường và có thể dùng mẫu đó để ước lượng dân số mẹ. Nếu n đủ lớn, phân phối trung
bình của các mẫu sẽ bình thường bất kể dân số mẹ có phân phối bình thường hay khơng. Các
nhà thống kê thường chọn 20 đến 30 là đủ, vì cỡ mẫu như vậy có phân phối xấp xỉ bình thường,
đây gọi là quy luật cõ mẫu lớn. Tuy nhiên phân phối của trung bình mẫu cịn tùy thuộc vào dân
số mẹ. Nếu phân phối của dân số mẹ có dạng đối xứng thì phân phối của trung bình mẫu có
dạng bình thường thậm chí với cỡ mẫu rất nhỏ. Nếu phân phối của dân số mẹ có dạng gần đối
xứng, cỡ mẫu là 10 là đủ để phân phối trung bình mẫu bình thường. Tuy nhiên nếu dân số mẹ bị

lệch nhiều thì đòi hỏi cỡ mẫu phải nhiều hơn. Đây là một đặc tính rất quan trọng, giúp chúng ta
có thể áp dụng phân phối bình thường lên các mẫu nghiên cứu.
Ví dụ minh họa: Nếu trong 10.000 lần quan sát các mẫu sau được rút từ dân số mẹ

15


16

Thực hành tại lớp
Một mẫu gồm 64 cá thể được rút ngẫu nhiên từ một dân số có µ = 4 cm và σ 2 = 25 cm2,
Tính xác suất mà trung bình của mẫu đó nằm giữa 3,5 và 4,5 cm
Ký hiệu như sau:
Do cỡ mẫu tương đối lớn, áp dụng định lý giới hạn trung tâm ta thấy phân phối trung
bình của mẫu có phân phối xấp xỉ bình thường. Ta có thể chuẩn hóa giá trị 3.5 và 4,5 rồi dùng
phụ lục A để tính

16


17
Chúng ta có thể nói rằng khoảng 57,6% giá trị trung bình của mẫu này nằm giữa 3,5 và 4,5cm
Nếu chọn mẫu gồm 225 cá thể, tính tốn tương tự ta c ó
Nếu cỡ mẫu tăng lên n = 625,thì
Nhận xét: Khi cỡ mẫu tăng lên, trung bình của mẫu sẽ tập trung quanh trung bình của dân số
(μ), phương sai của phân phối trung bình mẫu giảm đi (vì )
Bình thường hóa phân phối nhị thức
Phân phối nhị thức là phân phối của biến số chỉ nhận hai giá trị là 0 và 1. Trung bình và
phương sai của một phân phối trung bình mẫu rút ra từ một phân phối nhị thức như sau:


Giả sử p1, p2,…, pn là tỉ lệ (trung bình) của những mẫu được rút ra một dân số có phân
phối nhị thức với tỉ lệ là π. Áp dụng định lý giới hạn trung tâm ta thấy phân phối tỉ lệ (trung
bình) của mẫu có phân phối xấp xỉ bình thường khi n đủ lớn mặc dù phân phối của dân số mẹ
không phải là bình thường (vì chỉ nhận 2 giá trị 0 và 1, không liên tục…). Nếu ta tạo một biến
mới Z
Thì Z có một phân phối chuẩn
Ví dụ: Trong một dân số có tỉ lệ nam và nữ tương đương nhau. Nếu chọn ngẫu nhiên 50 người từ
dân số đó.
Ký hiệu: n = 50 và p = 0,5, ta có
có một phân phối chuẩn.

Giả sử nếu ta quan tâm đến những tỉ lệ từ 0,44 đến 0,56, xác xuất để mẫu của ta nằm trong
khoảng đó là bao nhiêu?

= 0,604
Thực hành tại lớp: Giả sử tần suất bệnh viêm gan siêu vi B ở Việt nam là 20%. Nếu ta chọn
một mẫu n=100 người, tính xác suất nếu tỉ lệ VGSV của mẫu đó từ 15-25%

C. Ước lượng khoảng tin cậy

17


18
Ước lượng là một trong hai phương pháp chính sử dụng trong phân tích thống kê (phương
pháp kia là kiểm định, sẽ được trình bày trong những bài sau). Ước lượng là thuật ngữ ám chỉ
việc dùng những chỉ số có được trên mẫu để khái quát hóa ra dân số mục tiêu. Có hai dạng là
ước lượng điểm (point estimate) và là ước lượng khoảng (interval estimate).
1. Ước lượng điểm: Sử dụng một chỉ số điểm của mẫu để ước lượng chỉ số của dân số, thông
thường nhất là dùng giá trị trung bình


2. Ước lượng khoảng: Sử dụng một khoảng giá trị với một độ tin cậy nào đó mà có thể chứa
được chỉ số của dân số trong đó. Thơng thường hay chọn khoảng tin cậy 95% (95%
confidence interval, viết tắt 95%CI), ám chỉ rằng 95% chỉ số của dân số (ví dụ nằm trong
khoảng này.
Cơng thức chung tính ước lượng khoảng như sau:
CI =

Trong đó: * α là sai lầm cho phép (α còn gọi là ngưỡng có ý nghĩa thống kê, sẽ học ở bài tiếp
theo).
* 1-α là độ tin cậy và là bách phân vị của phân phối chuẩn
Trong thống kê ta hay chọn chọn khoảng tin cậy 95%, với α = 0,05. Tra phụ lục A ta có . Nếu
khoảng tin cậy là 99%, thì α =

Trong thực hành, ta tính khoảng tin cậy 95% như sau:

3. Ứng dụng tìm khoảng tin cậy 95% cho một dân số đã biết phương sai (σ2)
Ví dụ: Cân nặng bé 6 tháng tuổi trong dân số có phương sai σ2 =1kg2. Trong một mẫu nghiên cứa
30 em bé, ta đo được giá trị trung bình là 6,5kg.
Ký hiệu: σ2 =1kg2,
Do số lượng lớn, áp dụng định lý giới hạn trung tâm, ta có

Có một phân phối chuẩn. Khoảng tin cậy 95% được tính như sau:

Kết luận rằng 95% khả năng giá trị trung bình của dân số nằm trong khoảng [6,14 , 6,86]
Thực hành tại lớp: tìm khoảng tin cậy 99% của dân số trên

18



19
Bài tập về nhà
1. Giả sử Z là một phân phối chuẩn (µ=0, σ2=1), tìm
a.
b.
c.
2. Giả sử Z là một phân phối bình thường với µ=0 và σ2=1, tìm các trị số a sau:
a.
b.
c.
3. Cho một phân phối bình thường với µ=50 và σ2=25, tìm
a. Xác suất để cho một quan sát ngẫu nhiên lớn hơn 50
b. Xác suất để cho một quan sát ngẫu nhiên nằm trong khoảng từ 40 đến 60
4. Nếu chiều cao của bé 1 tuổi là một phân phối bình thường với µ=70 cm và σ2=2cm2, tìm
a. Xác suất để cho một bé được chọn ngẫu nhiên cao trên 74cm
b. Xác suất để cho một bé được chọn ngẫu nhiên cao trên 66cm nhưng thấp hơn 68cm
5. Giả sử chiều dài cánh của muỗi là một phân phối chuẩn có σ2=0.25mm2 (nhưng chưa biết µ).
Trên một mẫu gồm 16 muỗi ta đo được chiều dài cánh trung bình là 4,5 mm. Tìm
a. Khoảng tin cậy 90% cho µ, diễn giải bằng lời kết quả tìm được
b. Khoảng tin cậy 95% cho µ, diễn giải bằng lời kết quả tìm được
c. Khoảng tin cậy 99% cho µ, diễn giải bằng lời kết quả tìm được

19


20
Bài 5

KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ – KIỂM ĐỊNH Z
A. Một số khái niệm

1. Giả thiết thống kê (statistical hypothesis) là một mệnh đề để xác nhận hay phỏng đốn liên
quan tới một hay nhiều hiện tượng nào đó, là tiền đề cho những khám phá sâu hơn. Trong
nghiên cứu khoa học, giả thiết thường là những mối liên hệ giữa một hay nhiều biến số.
Ví dụ - Tỉ lệ bà mẹ mang thai nhiễm HIV là 0.5% trong tồn bộ dân số
- Thuốc hạ huyết áp A có tác dụng trên bệnh nhân bị cao huyết áp
2. Kiểm định giả thiết thống kê (statistical hypothesis test) là phương pháp dựa trên những
thông tin về mẫu để cho phép bác bỏ hay chấp nhận giả thiết thống kê. Các bước chính tiến
hành kiểm định giả thiết thống kê bao gồm:
(1) Xây dựng giả thiết không (H0)
(2) Lựa chọn kiểm định thích hợp
(3) Tính giá trị thống kê của phép kiểm định
(4) Chấp nhận hay bác bỏ H0
Xây dựng giả thiết không (H0)
Giả thiết không, ký hiệu là H0, là một mệnh đề âm tính cho rằng khơng có sự liên hệ thống kê
nào. Thường dùng từ KHÔNG KHÁC HOẶC KHƠNG LIÊN QUAN.
Ví dụ - Tỉ lệ bà mẹ mang thai nhiễm HIV không khác 0.5%
- Thuốc A không liên quan đến huyết áp
Giả thiết thay thế ký hiệu là H1 là một mệnh đề ngược với H0
Kiểm định giả thiết thống kê là phương pháp đưa ra quyết định bác bỏ hay chấp nhận giả thiết
H0
Có các khả năng có thể xảy ra trong kiểm định giả thiết như sau:
Thực tế
Bác bỏ H0

H0 đúng = H1 sai

H0 sai = H1 đúng

Sai lầm loại I


Quyết định đúng

Xác suất = α

Xác suất = 1- β

Quyết định đúng

Sai lầm loại II

Xác suất = 1- α

Xác suất = β

Quyết định
Chấp nhận H0


Sai lầm loại 1: Bác bỏ 1 giả thiết đúng ( bác bỏ H0 khi H0 đúng).



Sai lầm loại 2: Chấp nhận 1 giả thiết sai (chấp nhận H0 khi H0 sai).

Trong kiểm định giả thiết thống kê ta thường chú trọng đến sai lầm loại I, còn được ký
hiệu là α. α (là xác suất) được gọi là ngưỡng mức độ có ý nghĩa thống kê (Significance). Các nhà
khoa học thường chọn α = 0.05 hoặc nhỏ hơn. Ý nghĩa của α là xác suất để bác bỏ giả thiết H0
khi H0 đúng. Trong thống kê, chúng ta muốn sai lầm loại I càng nhỏ càng tốt.

20



21
Lựa chọn kiểm định thích hợp, tính giá trị thống kê của phép kiểm định, chấp nhận hay
bác bỏ H0
− Trước tiên ta chọn ngưỡng mức độ có ý nghĩa thống kê α, sau đó chọn loại kiểm định
thích hợp, và tra bảng tìm trị số giới hạn cho α. Giá trị giới hạn (c) là trị số nằm ngay
biên giới vùng bác bỏ và vùng chấp nhận giả thiết không. Với một giá trị α, mỗi loại
kiểm định khác nhau sẽ có giá trị giới hạn khác nhau.
− Tính giá trị thống kê của phép kiểm định
− Để chấp nhận hay bác bỏ H0 , ta so sánh với giá trị thống kê với giá trị giới hạn c

Chấp nhận
Chấp

Bác bỏ
Chấp

α nhận
Chấp
c nhận
Chấp
Nếu phép kiểm định có giá trị H1 . Nếu phép kiểm định có giá trị ≥ α, ta không thể bác bỏ giả thiết H0 (chấp nhận H0)
B. Kiểm định giả thiết cho một trung bình (đã biết phương sai của dân số σ2).
Chúng ta muốn kiểm định một giá trị trung bình thu được khi nghiên cứu trên một mẫu
với giá trị trung bình của dân số. Nếu giá trị trung bình của mẫu khác với dân số, vậy sự khác
nhau này là thật sự hay chỉ là sai sót ngẫu nhiên do chọn mẫu. Phép kiểm định thống kê Z (Z
test) cho phép trả lời câu hỏi này.
Ví dụ. Giả sử huyết áp tâm thu người cao tuổi là một phân phối bình thường với µ = 135 mmHg

và phương sai σ2 = 400. Một loại thuốc mới trị cao huyêt áp được thử nghiệm ngẫu nhiên trên 16
người. Giá trị trung bình của huyết áp tâm thu sau khi điều trị là 120 mmHg. Vậy thuốc này có
tác dụng hay không?
Bước 1. Ký hiệu:
σ2 = 400

n = 16

α = 0,05

Bước 2. Xây dựng giả thiết không (H0)
Giả thiết không là thuốc này khơng có tác dụng, hay giá trị trung bình huyết áp của mẫu
16 người được điều trị khơng khác với trung bình huyết áp của dân số. Để xây dựng giả thiết H0,

21


22
ta giả sử rằng mẫu 16 người này được rút ra ngẫu nhiên từ một dân số có µ = 120 mmHg. Như
vậy ta kiểm định xem dân số có µ = 120 mmHg có thật sự khác với 135 mmHg hay không. Chú
ý rằng giả thiết không được phát biểu dựa theo DÂN SỐ chứ không dựa theo mẫu.
Phát biểu như sau:
H0 : Mẫu được rút ra ngẫu nhiên từ một dân số có trung bình khơng khác 135
H1 : Mẫu được rút ra ngẫu nhiên từ một dân số có trung bình khác 135
Ngắn gọn hơn, ký hiệu như sau
H0 : µ = 135
H1 : µ≠ 135
Bước 3. Vẽ hình. H0 và H1 được rút ra từ các dân số sau

µ≠ 135


µ = 135

µ≠ 135

Bước 4. Lựa chọn kiểm định thích hợpvà tính giá trị thống kê của phép kiểm định
Vì đã biết phương sai của dân số, ta chọn phép kiểm định Z
Bước 5. Chọn lựa giá trị Z giới hạn (Z critical).

X

Nếu chọn sai lầm loại I (hay cịn gọi là ngưỡng có ý nghĩa thống kê) là α = 0.05, nghĩa là có 5%
cơ hội (xác suất) bác bỏ giả thiết H0 đúng.
Vì giả thiết H0 là khơng só sự khác biệt nên ta chọn kiểm định 2 phía, mỗi phía chiếm
diện tích 2,5%. Căn cứ vào phụ lục A, ta chọn giá trị Z giới hạn (Z critical).
Zα/2= Z0.025 = -1,96 và Z1-α/2 = Z0.975 = 1,96.
Chú ý: Zα/2 = - Z1-α/2
Hai vùng (1) dưới Z0.025(-1,96) và (2) trên Z0.975(1,96) gọi là vùng bác bỏ giả thiết không.

22


23
Bước 6. Kết luận:
Một cách khác để chấp nhận hay bác bỏ H0 là tính giá trị p-value(hay p). Giá trị thống kê
của phép kiểm định có thể biểu hiện bằng p-value (tính được bằng các phần mềm thống kê hay
hàm NORMSDIST trong Excel). p-value là xác suất tối đa để có thể nói rằng H 0 đúng. Nếu pvalue thấp hơn ngưỡng ý nghĩa thống kê (p-value< α), ta bác bỏ giả thiết H 0. Nếu
p-value ≥ α, ta chấp nhận giả thiết H0. Chú ý rằng nếu Z càng lớn thì p-value càng nhỏ
Câu kết luận ghi như sau: Vì Z thống kê (-3.00) < Z α/2 (-1,96) nên ta bác bỏ giả thiết H0
rằng mẫu có trung bình huyết áp là 135. Kết luận: Trung bình huyết áp của người dùng thuốc hạ

huyết áp khác biệt có ý nghĩa thống kê so với người không dùng thuốc (hay thuốc có tác dụng),
Z = -3,00, p < 0,05 (hay nếu biết được trị số p-value thì Z = -3,00, p = 0,001)
Thực hành tại lớp
Giả sử cân nặng của bé trai 10 tuổi là một phân phối bình thường với µ = 43 kg và
phương sai là 25 kg2. Khi tiến hành cân nặng cho 20 bé trai 10 tuổi được chọn ngẫu nhiên tại xã
X, ta thu được trung bình cân nặng là 45kg. Hỏi bé trai 10 tuổi ở xã X có cân nặng khác với dân
số hay khơng với ngưỡng có ý nghĩa thống kê = 0,05
Bước 1. Ký hiệu:
Bước 2. Xây dựng giả thiết thống kê
H0 :
H1 :
Bước 3. Vẽ hình
Bước 4. Tính giá trị thống kê của phép kiểm định: Chọn phép kiểm định Z (đã biết σ2)
H0
H1
H1
Bước 5. Với ngưỡng có ý nghĩa thống kê = 0,05, ta có giá trị Z giới hạn Z α/2= Z0.025 = -1,96
và Z1-α/2 = Z0.975 = 1
Bước 6. Chấp nhận hay bác bỏ H0
,9Vì Zα/2 (-1,96 ) < Z thống kê (-1,7 89) < Z1-α/2 (1 ,96) nên ta chấp nhận giả thiết
không rằng trung bình cân nặng của mẫu bé trai khơng khác 43 kg. Kết luận cân nặng của bé
trai 10 tuổi xã X có/khơng khác biệt có ý nghĩa thống kê so với dân số, Z = -1,79, p > 0,05
C. Kiểm định giả thiết một tỉ lệ
Nếu biết một tỉ lệ π trong dân số, ta có thể kiểm định một tỉ lệ p của một mẫu để so sánh
với dân số. Như bài 4, ta có thể chuẩn hóa một tỉ lệ theo công thức:
Các bước để kiểm định một tỉ lệ p tương tự như kiểm định Z thông thường
Ví dụ. Giả sử tỉ lệ nam:nữ trong dân số là 1:1. Một điều tra tại bệnh viện trên 120 trẻ em bị hội
chứng thận hư cho thấy có 72 trẻ mắc bệnh là nam. Vậy hội chứng thận hư có quan hệ với gới
tính khơng (ngưỡngcó ý nghĩa thống kê = 0,05 và 0,01)
Ta có tỉ lệ nam trong dân số = 0,5, tỉ lệ nam bị HCTH p = 72/120 = 0,6

(1) Xây dựng giả thiết thống kê bằng lời

23


24
H0 : ……………………………………………………………………………………...
H1 : ……………………………………………………………………………………...
H0 : π = 0,5
H1 : π ≠ 0,5
(2) Vẽ hình

(3) Tính giá trị thống kê của phép kiểm định
Chuẩn hóa tỉ lệ:
(4) Chấp nhận hay bác bỏ H0
Chọn Z giới hạn
* Với α = 0,05: Zα/2= Z0.025 = -1,96 và Z1-α/2 = Z0.975 = 1,96
Vì Z thống kê (2,24) > Z1-α/2 (1,96) nên ta bác bỏ giả thiết rằng tỉ lệ nam bị HCTH của
mẫu không khác 0,5. Kết luận tỉ lệ nam bị HCTH có/khơng khác biệt có ý nghĩa thống kê so với
dân số (hay HCTH có liên quan đến giới tính) , Z = 2,24, p < 0,05 hoặc Z = 2,24, p = 0,013)
*Với α = 0,01: Zα/2= Z0.005 = -2,58 và Z1-α/2 = Z0.995 = 2,58
Vì Z thống kê (2,24) < Z1-α/2 (2,58) nên ta chấp nhận giả thiết rằng tỉ lệ nam bị HCTH
của mẫu không khác 0,5. Kết luận tỉ lệ nam bị HCTH: có 2 cách kết luận sau:
− khơng khác biệt có ý nghĩa thống kê so với dân số, Z = 2,24, p > 0,01 hoặc Z = 2,24, p
= 0,013)
− khác biệt nhưng không có ý nghĩa thống kê so với dân số, Z = 2,24, p > 0,01 hoặc Z =
2,24, p = 0,013)
Khoảng tin cậy 95% cho một tỉ lệ
Khoảng tin cậy 95% cho một dân số:
95% CI =

Tương tự, khoảng tin cậy 95% cho một tỉ lệ là
Khoảng tin cậy 99% cho một tỉ lệ là
Ví dụ. Tỉ lệ cao huyết áp trong một điều tra 100 người cao tuổi là 30%. Như vậy khoảng tin cậy
95% là

24


25
95%CI = [0,21 , 0,39]
Ta có thể dùng khoảng tin cậy để kiểm định giả thiết thống kê, ví dụ trong điều tra trên,
nếu ta biết tỉ lệ cao huyết áp người cao tuổi ở dân số Việt nam là 18% (hay 0,18) , ta thấy rằng tỉ
lệ cao huyết áp ở mẫu nghiên cứu không chứa tỉ lệ của dân số. Kết luận rằng mẫu của ta khác
với dân số có ý nghĩa thống kê ở ngưỡng 0,05

Bài tập về nhà
1. Trong một điều tra vế suy dinh dưỡng trẻ dưới 6 tuổi năm 1994, kết quả như sau:
Tỉnh

Số trẻ được sàng lọc

Số trẻ SDD

Quảng Nam Đà Nẵng 1503

711

Bịnh Định

1510


708

Ninh Thuận

1520

707

Đắc Lắc

1488

705

TPHCM

1503

494

Sơng Bé
1488
579
a. Tính tỉ lệ SDD trẻ em mỗi tỉnh
b. Tính khoảng tin cậy 95% cho tỉ lệ SDD trẻ em mỗi tỉnh
2. Cho một mẫu với thông tin dưới đây. Dùng kiểm định Z để xác định xem mẫu đó có được rút
ra từ một dân số có trung bình là 105 hay khơng?
n = 25
σ=8

α = 0,10
3. Cho một dân số có trung bình là 50,00 và phương sai là 3,25. Một mẫu gồm 36 cá thể được
chọn ngẫu nhiên có trung bình là 45,00. Hỏi mẫu này có được rút ra từ dân số đó khơng?
(α=0,05)
4. Một nghiên cứu nhằm tìm ảnh hưởng của thuốc X lên cân nặng trẻ vị thành niên. Một mẫu
ngẫu nhiên được lựa chọn từ dân số có trung bình là 52 kg và độ lệch chuẩn là 2,56kg. Dùng
một kiểm định thích hợp để xác định thuốc X có ảnh hưởng tới cân nặng không ? (α=0,05)
An
Lan
Linh
Sương
Cúc
Đạt
Nam
Trang

54 kg
58 kg
57 kg
53 kg
53 kg
56 kg
57 kg
54 kg

Lệ
59 kg
Thu 52 kg
Tuấn 58 kg
Cường 54 kg

Trung 55 kg
Hoa 60 kg
Kim 61 kg

57 kg

25


×