Tải bản đầy đủ (.pdf) (201 trang)

Giáo trình Căn bản thống kê Y học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.01 MB, 201 trang )

MỤC LỤC
CHƯƠNG TRÌNH MÔN HỌC: THỐNG KÊ Y HỌC ............................................................. 6
Mục tiêu môn học: ................................................................................................................. 6
Nội dung................................................................................................................................. 6
Phương pháp giảng dạy: ........................................................................................................ 7
Lượng giá: .............................................................................................................................. 7
Tài liệu học tập: ..................................................................................................................... 7
THỐNG KÊ VÀ VAI TRÒ CỦA THỐNG KÊ TRONG Y HỌC ............................................ 8
1. Những tình huống không cần dùng đến thống kê .............................................................. 8
2. Các tình huống trong đó thống kê là quan trọng ................................................................ 8
3. Tại sao 2 nhóm tình huống này là khác nhau..................................................................... 9
4. Tại sao thống kê cần thiết cho y khoa và y tế công cộng? ............................................... 10
Tài liệu tham khảo ............................................................................................................... 10
MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT .............................................................. 11
Mục tiêu ............................................................................................................................... 11
1. Ðịnh nghĩa về xác suất ..................................................................................................... 11
2. Nhắc lại về lí thuyết tập hợp ............................................................................................ 14
4. Nhắc lại về đại số mệnh đề .............................................................................................. 15
5. Nến tảng tiên đề của lí thuyết xác suất ............................................................................ 15
6. Giải tích tổ hợp ................................................................................................................ 16
Bài tập .................................................................................................................................. 18
XÁC SUẤT CÓ ĐIỀU KIỆN - ĐỊNH LUẬT NHÂN XÁC SUẤT........................................ 21
Mục tiêu ............................................................................................................................... 21
1. Xác suất có điều kiện ....................................................................................................... 21
2. Ðịnh luật nhân xác suất .................................................................................................... 22
3. Công thức cộng xác suất tổng quát .................................................................................. 23
4. Công thức xác suất toàn phần và định lí Bayes ............................................................... 24
5. Biến số ngẫu nhiên ........................................................................................................... 24
6. Vọng trị ............................................................................................................................ 25
Bài tập .................................................................................................................................. 25
ỨNG DỤNG XÁC SUẤT TRONG RA QUYẾT ÐỊNH CHẨN ÐOÁN VÀ ÐIỀU TRỊ ....... 27


Mục tiêu ............................................................................................................................... 27
1. Mở đầu ............................................................................................................................. 27
2. Ðo lường tính đúng (accuracy) của một thủ thuật chẩn đoán .......................................... 27
3. Ra quyết định y khoa ....................................................................................................... 28
4. Mô hình cây quyết định ................................................................................................... 30
5. Chọn lựa điều trị thích hợp .............................................................................................. 31
Bài tập .................................................................................................................................. 32
PHÂN PHỐI XÁC SUẤT ....................................................................................................... 35
Mục tiêu ............................................................................................................................... 35
1. Phân phối xác suất ........................................................................................................... 35
2. Phân phối nhị thức ........................................................................................................... 35
i


3. Phân phối Poisson ............................................................................................................ 36
4. Phân phối xác suất của biến liên tục ................................................................................ 37
5. Phân phối bình thường ..................................................................................................... 38
6. Ứng dụng phân phối bình thường .................................................................................... 39
Bài tập .................................................................................................................................. 40
THỐNG KÊ, BIẾN SỐ VÀ PHÂN PHỐI ............................................................................... 43
Mục tiêu ............................................................................................................................... 43
1. Một số định nghĩa ............................................................................................................ 43
2. Biến số và các loại biến số ............................................................................................... 43
3. Phương pháp trình bày số liệu bảng................................................................................. 45
4. Các số thống kê mô tả ...................................................................................................... 47
5. So sánh các nhóm............................................................................................................. 55
Bài tập .................................................................................................................................. 57
SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ ...................................................................................... 62
1. Mục tiêu ........................................................................................................................... 62
2. Biến số định tính, biến số nhị giá ..................................................................................... 62

4. Ðại cương về mẫu và phương pháp lấy mẫu ................................................................... 62
5. Kí hiệu.............................................................................................................................. 63
6. Biến thiên mẫu nhị thức ................................................................................................... 63
7. Khoảng tin cậy 95% của tỉ lệ ........................................................................................... 64
8. Trình bày khoảng tin cậy ................................................................................................. 65
Bài tập .................................................................................................................................. 66
NGUYÊN TẮC KIỂM ÐỊNH - SO SÁNH HAI TỈ LỆ .......................................................... 70
Mục tiêu: .............................................................................................................................. 70
1. Thí dụ: .............................................................................................................................. 70
2. Nguyên tắc của kiểm định ý nghĩa ................................................................................... 70
3. Phương pháp tắt để tính z ................................................................................................ 72
4. Biện luận giá trị của p ...................................................................................................... 72
5. Sự lạm dụng của test thống kê ......................................................................................... 73
6. Khoảng tin cậy 95% của hai hiệu số ................................................................................ 73
Bài tập .................................................................................................................................. 73
NGUYÊN LÍ KIỂM ĐỊNH ...................................................................................................... 75
Mục tiêu: .............................................................................................................................. 75
1. Chọn lựa kiểm định phù hợp............................................................................................ 75
2. Kiểm định ý nghĩa; Kiểm định giả thuyết ........................................................................ 75
3. Sai lầm loại một và sai lầm loại hai ................................................................................. 77
4. So sánh các tiếp cận cổ điển (chủ nghĩa tần suất) và Bayes trong suy luận thống kê ..... 78
SỰ BIẾN THIÊN CỦA TRUNG BÌNH - KIỂM ÐỊNH T-TEST BẮT CẶP ......................... 80
Mục tiêu ............................................................................................................................... 80
1. Giới thiệu ......................................................................................................................... 80
2. Kí hiệu.............................................................................................................................. 80
3. Biến thiên mẫu ................................................................................................................. 81
5. Ước lượng khoảng tin cậy của một trung bình ................................................................ 82
ii



6. Sử dụng phân phối t ......................................................................................................... 82
7. Kiểm định giả thuyết cho một trung bình ........................................................................ 83
8. Kiểm định t bắt cặp .......................................................................................................... 84
Bài tập .................................................................................................................................. 85
SO SÁNH HAI TRUNG BÌNH - KIỂM ÐỊNH T KHÔNG BẮT CẶP .................................. 88
Mục tiêu ............................................................................................................................... 88
1. Giới thiệu ......................................................................................................................... 88
2. Kí hiệu.............................................................................................................................. 88
3. Thí dụ ............................................................................................................................... 88
4. Phân phối mẫu của hiệu số hai trung bình ....................................................................... 89
6. Kiểm định giả thuyết để so sánh hai trung bình............................................................... 89
7. Thí dụ về tính toán kiểm định so sánh 2 trung bình......................................................... 91
7. Ðiều kiện sử dụng test Z .................................................................................................. 92
8. Phương pháp với mẫu nhỏ ............................................................................................... 92
9. So sánh kiểm định z và kiểm định t ................................................................................. 93
5. Khoảng tin cậy của hiệu số hai trung bình ....................................................................... 93
Bài tập .................................................................................................................................. 94
MỘT SỐ NHỮNG PHÂN PHỐI LẤY MẪU QUAN TRỌNG. ............................................. 97
Mục tiêu ............................................................................................................................... 97
1. Lấy mẫu ngẫu nhiên đơn .................................................................................................. 97
2.Phân phối lấy mẫu ............................................................................................................. 97
3. Phân phối của trung bình của mẫu ................................................................................... 97
4. Ứng dụng ......................................................................................................................... 99
5. Phân phối của hiệu số của hai trung bình mẫu................................................................. 99
6. Phân phối của tỉ lệ của mẫu ............................................................................................. 99
7. Phân phối của hiệu số của hai tỉ lệ mẫu ......................................................................... 100
Bài tập ................................................................................................................................ 100
ƯỚC LƯỢNG ........................................................................................................................ 104
Mục tiêu: ............................................................................................................................ 104
1. Giới thiệu ....................................................................................................................... 104

2. Ước lượng trung bình của dân số ................................................................................... 105
3. Ước lượng khoảng tin cậy của hiệu số hai trung bình ................................................... 106
4. Ước lượng tỉ lệ dân số .................................................................................................... 106
5. Ước lượng tỉ số tỉ lệ (tỉ số nguy cơ) ............................................................................... 107
Bài tập về kiểm định và ước lượng .................................................................................... 108
SO SÁNH NHIỀU TRUNG BÌNH - PHÂN TÍCH PHƯƠNG SAI...................................... 111
Mục tiêu ............................................................................................................................. 111
1. Giới thiệu ....................................................................................................................... 111
2. Phân tích phương sai một chiều ..................................................................................... 112
3. Phân tích phương sai hai chiều ...................................................................................... 116
4. Quy hoạch cân đối có lặp ............................................................................................... 116
5. Quy hoạch cân đối không lặp......................................................................................... 117
6. Quy hoạch không cân đối .............................................................................................. 119
iii


7. Tác động cố định và ngẫu nhiên .................................................................................... 120
8. Bài tập ............................................................................................................................ 121
KIỂM ÐỊNH CHI BÌNH PHƯƠNG ...................................................................................... 124
Mục tiêu ............................................................................................................................. 124
1. Giới thiệu ....................................................................................................................... 124
2. Bảng 2 x 2 (so sánh hai tỉ lệ).......................................................................................... 124
3. Bảng lớn ......................................................................................................................... 127
4. Công thức ngắn gọn cho bảng 2 x c ............................................................................... 129
5. Bài tập ............................................................................................................................ 129
TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH ................................................................... 131
Mục tiêu: ............................................................................................................................ 131
Mục tiêu: ............................................................................................................................ 131
1. Giới thiệu ....................................................................................................................... 131
2. Tương quan .................................................................................................................... 133

3. Hồi quy tuyến tính ......................................................................................................... 135
4. Kiểm định và ước lượng trong tương quan và hồi quy .................................................. 136
5. Giả thiết .......................................................................................................................... 141
6. Bài tập ............................................................................................................................ 141
TÍNH PHÙ HỢP CỦA PHÂN PHỐI TẦN SUẤT ................................................................ 150
Giới thiệu ........................................................................................................................... 150
Phù hợp theo phân phối bình thường ................................................................................. 150
Kiểm định phù hợp chi bình phương ................................................................................. 151
PHÉP BIẾN ÐỔI ................................................................................................................... 155
Giới thiệu ........................................................................................................................... 155
Phép biến đổi logarithm ..................................................................................................... 155
Chọn phép biến đổi ............................................................................................................ 159
PHƯƠNG PHÁP PHI THAM SỐ ......................................................................................... 163
Giới thiệu ........................................................................................................................... 163
Kiểm định sắp hạng có dấu Wilcoxon ............................................................................... 164
Kiểm định tổng sắp hạng Wilcoxon................................................................................... 165
Tương quan sắp hạng Spearman ........................................................................................ 166
CÔNG THỨC TÓM TẮT: .................................................................................................... 168
BÀI TẬP TỔNG HỢP ........................................................................................................... 171
Bài tập 1 ............................................................................................................................. 171
Bài giải bài tập 1 ................................................................................................................ 173
Bài tập 2 ............................................................................................................................. 176
SỬ DỤNG MÁY TÍNH CẦM TAY ..................................................................................... 189
1. Các phương thức tính toán: ............................................................................................ 189
2. Các loại máy tính: ......................................................................................................... 189
3. Sử dụng máy tính ở phương thức tính toán thông thường ............................................. 189
4. Sử dụng máy tính để tính thống kê ................................................................................ 192
PHỤ LỤC: BẢNG SỐ THỐNG KÊ ...................................................................................... 194
Bảng A1 Hàm phân phối xác suất của phân phối chuẩn F(z) = P(Zz) ............................ 194
iv



Bảng A2 Ðiểm phần trăm của phân phối bình thường chuẩn ............................................ 195
Bảng A3 Ðiểm phần trăm của phân phối t ......................................................................... 196
Bảng A4 Ðiểm phần trăm của phân phối F........................................................................ 197
Bảng A6. Số ngẫu nhiên .................................................................................................... 201

v


CHƯƠNG TRÌNH MÔN HỌC: THỐNG KÊ Y HỌC
(Môn bắt buộc)
Mục tiêu môn học:
Sau khi hoàn thành môn học thống kê y học, các học viên Cao học Y tế công
cộng có khả năng:
- Ứng dụng được khái niệm xác suất trong việc chẩn đoán và ra quyết định
điều trị
- Giải thích được các khái niệm thống kê cơ bản được sử dụng trong các báo
cáo y tế hoặc bài báo nghiên cứu khoa học
- Chọn lựa được phương pháp thống kê mô tả để trình bày số liệu y tế một
cách thuyết phục và rõ ràng
- Chọn lựa test thống kê phù hợp để kiểm định giả thuyết và tiến hành được
các test thống kê đơn giản với máy tính cầm tay.
Vì mục tiêu của môn học là học viên có khả năng tiến hành được các test thống kê với
máy tính cầm tay, các học viên phải sở hữu một máy tính cầm tay có chức năng
thống kê trong giờ học của môn thống kê y học
Nội dung
Số tiết
STT


Tên bài học

Tổng số


Thực
Thuyết hành

1

Ðại cương xác suất (XS)

4

2

2

2

Xác suất có điều kiện - Ðịnh luật cộng XS, 4
nhân XS; Công thức XS toàn phần

2

2

3

Ứng dụng XS trong chẩn đoán và điều trị


4

2

2

4

Các phân phối xác suất: phân phối Poisson, 4
phân phối Bernoulli và phân phối bình thường

2

2

5

Khái
niệm
về
biến
số 4
Tóm tắt và trình bày số liệu bằng thống kê và
biểu đồ

2

2


6

Biến thiên tỉ lệ mẫu - ước lượng khoảng tin cậy 4
của tỉ lệ - Nguyên tắc kiểm định - So sánh 2 tỉ
lệ bằng kiểm định z

2

2

6

Biến thiên của trung bình mẫu - kiểm định t bắt 4
cặp - kiểm định z và t không bắt cặp

2

2

8

Kiểm định chi bình phương

4

2

2

9


Phân tích phương sai một chiều để so sánh 4
nhiều trung bình

2

2

10

Tương quan và hồi quy đơn biến

4

2

2

11

Phép biến đổi biến số

4

2

2

6



12

Phép kiểm phi tham số

4

2

2

Phương pháp giảng dạy:
- Thuyết trình sử dụng Phấn bảng và máy chiếu qua đầu
- Làm bài tập
- Thảo luận nhóm
Lượng giá:
- Lượng giá đào tạo sau mỗi đơn vị học trình:
bài tập kiểm tra
- Lượng giá kết thúc khi hết học phần:
Thi câu hỏi nhiều lựa chọn
Tài liệu học tập:
- Sách giáo khoa:
Ðỗ Văn Dũng. Xác suất và sinh thống kê căn bản. TP Hồ Chí Minh, Khoa Y tế công
cộng, Trường Ðại học Y Dược, 2001
- Sách tham khảo chính:
Kirwood B. Essentials of Medical Statistic. London, Blackwell Scientific
Publications, 1988 (Ðỗ Văn Dũng biên dịch)
- Tài liệu tham khảo:
Dawson-Saunders B, Trapp RG. Basic clinical biostatistics. London, Prentice Hall
International, 1990

Jekel JF, Elmore JG, Katz DL. Epidemiology, Biostatistics and Preventive Medicine.
Philadelphia, W.B. Saunders company, 1996.

7


THỐNG KÊ VÀ VAI TRÒ CỦA THỐNG KÊ TRONG Y HỌC
Thống kê là khoa học về việc thu thập, phân tích và lí giải số liệu.
Những quan sát trên sinh viên đều xác nhận rằng thống kê “Thống kê là một môn học
bị sinh viên ghét nhất” 1. Một nhà thống kê y học nổi tiếng cũng chỉ có thể tự an ủi
rằng: "sinh viên y khoa có thể không thích thống kê, nhưng nếu là bác sĩ, họ sẽ thích"2
Tại sao sinh viên y khoa không nhận thức được rằng thống kê là quan trọng như các
người thầy của họ?
Bởi vì trong các tình huống đơn giản, thống kê có vẻ như không cần thiết bởi vì chúng
ta có thể hiểu rõ mà không cần thống kê. Nhưng với nghề nghiệp là bác sĩ hay chuyên
viên y tế công cộng, tình huống sẽ phức tạp hơn, thống kê trở thành một công cụ then
chốt. Như vậy khi nào thống kê là hữu ích và nó có thể làm gì cho bạn.
1. Những tình huống không cần dùng đến thống kê
Hãy nhớ lại các thực nghiệm được tiến hành tại trường phổ thông? Trong vật lí, các
học sinh ghi nhận chu kì dao động của con lắc với các chiều dài con lắc khác nhau và
so sánh kết quả và như vậy là đủ để có thể kết luận về mối liên quan giữa chiều dài và
chu kì con lắc. Thống kê không cần thiết trong trường hợp này.
Trong bài thực tập về hoá học, khi thả miếng kim loại Natri vào nước, phản ứng sẽ
xẩy ra mãnh liệt. Phản ứng này có thể được thực hiện lập đi lập lại rất nhiều lần và
cho kết quả hằng định. Chúng ta có thể rút ra kết luận là kim loại Natri phản ứng
mạnh và tức thời với nước mà không cần phải viện dẫn thống kê.
Điều này cũng tương tự trong cuộc sống hàng ngày: nếu bạn sử dụng máy chiếu qua
đầu và không biết phải bật máy bằng nút nào bạn có thể cắm điện cho máy chiếu và
kiểm tra từng nút cho đến khi bật sáng được máy chiếu. Trong các tình huống đơn
giản, thống kê dường như không cần thiết.

Thống kê có thể làm gì ?
Cho phép tóm tắt và trình bày một cách dễ hiểu các thông tin bằng số
Kiểm định một giả thuyết – thí dụ sử dụng điều trị hormone thay thế có làm giảm
nguy cơ nhồi máu cơ tim ở phụ nữ mãn kinh hay không - và cho phép đo lường mức
độ chắc chắn của kết luận.
So sánh thông tin từ các nhóm khác nhau – thí dụ, so sánh kết cuộc từ nhóm sử dụng
dược phẩm có hoạt tính và nhóm sử dụng dược phẩm đối chứng.
Tiên đoán được khả năng một biến cố xảy ra đối với mọt bệnh nhân cụ thể - thí dụ, tử
vong trong vòng 5 năm – và ước lượng được mức độ chính xác của tiên đoán
2. Các tình huống trong đó thống kê là quan trọng
Xem xét một thí dụ khác. Một công ty muốn bán bảo hiểm nhân thọ cho các khách
hàng của mình và công ty đó phải ước lượng càng chính xác càng tốt xác suất khách
hàng đó bị tử vong hay bị tai nạn trong các khoảng thời gian tiếp theo và các khoản
phải đền bù tương ứng. Nếu công ty ước lượng quá thấp, tiền đền bù sẽ vượt quá
khoản phí bảo hiểm thu được. Nếu công ty ước lượng quá cao, công ty sẽ không thể
cạnh tranh với các công ty bảo hiểm khác. Công ty phải thiết lập phí bảo hiểm khác
nhau cho các khách hàng, người có nguy cơ thấp phải đóng phí bảo hiểm thấp bởi vì
nếu không những người có nguy cơ thấp sẽ không mua bảo hiểm hoặc sẽ mua bảo
hiểm ở các công ty khác.

8


Những làm thế nào một công ty bảo hiểm ước lượng được xác suất bị tử vong hay tai
nạn của khách hàng tốt hơn chính bản thân người khách hàng trong khi người này biết
rõ về bản thân mình hơn ai hết.
Bởi vì từ thống kê quốc gia, các công ty bảo hiểm có thể biết được nhóm người nào,
theo giới tính, tuổi, tình trạng sức khoẻ hiện tại, nghề nghiệp, v.v dễ bị các nguy cơ
bệnh tật và tai nạn. Nhưng để so sánh nguy cơ bệnh tật và tử vong ở nam và nữ,
không đơn giản như thực nghiệm so sánh chu kì của con lắc dài và ngắn, không thể

so sánh tử vong 1000 người nam và 1000 người nữ bởi vì không thể nào tìm được
một nhóm người đàn ông và đàn bà có cùng phân bố về tuổi, tình trạng sức khoẻ,
nghề nghiệp; Bởi vì có thể là chính sự khác biệt của các yếu tố này chứ không phải
bản thân giới tính sẽ chịu trách nhiệm cho sự khác biệt về về nguy cơ tử vong và bệnh
tật.
Điều đáng mừng là thống kê có thể xét đến các sự khác biệt và ước lượng được nguy
cơ tử vong và bệnh tật của các đối tượng. Ngoài ra nếu nguy cơ tử vong ở nam cao
hơn ở nữ, nó có thể giúp chúng ta quyết định sự khác biệt về nguy cơ này có phải là
do tình cờ (chance) hay không. Tình cơ là tác động của các yếu tố không rõ, do chúng
ta không có thông tin, ảnh hưởng đến nguy cơ tử vong như yếu tố di truyền, môi
trường, thói quen vệ sinh, tính khí. Thống kê do đó có thể ước lượng khả năng sự
khác biệt này là do cơ hội và nghĩa là thống kê có thể cho biết mức độ không chắc
chắn của ước lượng.
Khi nào thống kê có thể có ích?
Nhưng biến cố không lường trước được – thí dụ việc mắc bệnh
Thông tin có được từ nghiên cứu trên một số lớn đối tượng
Những yếu tố có liên quan không dễ dàng được kiểm soát
Những yếu tố có liên quan là chưa rõ
Nếu một người bác sĩ ước lượng nguy cơ tử vong và bệnh tật dựa trên kinh nghiệm
của mình chứ không dựa trên thống kê ít nhất có ba vấn đề. Thứ nhất, người bác sĩ đó
chỉ biết được một số giới hạn các bệnh nhân. Thứ hai, người bác sĩ không thể đánh giá
các thông tin một cách khách quan: người bác sĩ sẽ chỉ có thể biết được thông tin về
hiệu quả điều trị nếu kết quả điều trị tốt và người bệnh trở lại và sẽ mất thông tin nếu
bệnh nhân bỏ cuộc, bác sĩ sẽ nhớ các trường hợp bệnh đặc biệt hơn các trường hợp
bệnh thông thường. Thứ ba, nếu có một phác đồ điều trị có thể thay đổi nguy cơ tử
vong và bệnh tật, với kinh nghiệm người bác sĩ không thể biết điều trị này có phải
thực sự là có hiệu quả hay không hay ảnh hưởng này là do tác động của các yếu tố
khác như tuổi, giới, dinh dưỡng
3. Tại sao 2 nhóm tình huống này là khác nhau
Các biến cố trong nhóm đầu tiền hầu như hoàn toàn có thể tiên liệu trước. Chu kì dao

động của con lắc là một hằng số bất kể biên độ dao động. Natri luôn luôn phản ứng rất
mãnh liệt với nước. Trong các tình huống đơn giản, để có câu trả lời chỉ cần kinh
nghiệm là đủ. Trong nhóm tình huống thứ hai, các biến cố khó tiên liệu hơn và mặc
dù người nam có nguy cơ tử vong cao hơn người nữ nhưng có nhiều yếu tố khác cũng
quan trọng.
Các biến cố trong nhóm thứ nhất dễ dàng đo lường và kiểm soát bởi vì nó chỉ phụ
thuộc vào một số các yếu tố - trọng lượng và độ dài của con lắc. Nguy cơ tử vong phụ

9


thuộc vào rất nhiều yếu tố, một vài yếu tố không thể đo lường được được và hầu hết
các yếu tố này đều không thể kiểm soát.
Các biến cố trong nhóm thứ hai khó tiên liệu hơn. Một người phụ nữ trung niên,
không mắc bệnh mạn tính vẫn có thể bị chết trong năm tiếp theo nhưng một người đàn
ông lớn tuổi hơn bị cao huyết áp có thể lại vẫn sống. Chúng ta không thể dựa vào kinh
nghiệm của một số người.Dù vậy, thống kê với một số lớn người có thể cung cấp
thông tin giúp ước lượng nguy cơ tử vong.
Tại sao thống kê cho thông tin đúng đắn hơn kinh nghiệm
Thông tin từ nhiều bệnh nhân
Có thông tin chính xác hơn và khách quan hơn
Giảm thiểu sai lệch – thí dụ những bệnh nhân bỏ cuộc hay những yếu tố tình cảm
không ảnh hưởng đến kết luận
Phương pháp phân tích giúp chúng ta rút ra ý nghĩa của các thông tin phức tạp
4. Tại sao thống kê cần thiết cho y khoa và y tế công cộng?
Các chuyên viên y tế công cộng tham gia vào công việc phòng bệnh, chẩn đoán một
số bệnh tật cũng như cho lời khuyên cho người dân tiên lượng của các biến cố. Bác sĩ
cũng phải tham gia vào việc phòng bệnh, chẩn đoán, điều trị cho bệnh nhân. Những
thông tin cần thiết cho những hoạt động này là:
Phòng bệnh: Bệnh tật do nguyên nhân gì?

Chẩn đoán: Bệnh nhân có những triệu chứng và dấu hiệu gì của bênh
Điều trị: Điều trị nào là có hiệu quả cho một bệnh nhất định và có hiệu quả cho bệnh
nhân nào
Tư vấn: Một bệnh nhân bị một bệnh nào đó (như nhiễm HIV) sẽ có khả năng mắc
phải những bệnh lí gì trong 5 năm tới.
Những thông tin này phụ thuộc rất nhiều vào nhiều yếu tố và phần lớn những yếu tố
này không tiên đoán được, thí dụ bệnh có thể gây ra bởi yếu tố môi trường, bởi tác
nhân vi sinh vật (vi khuẩn, virus), các yếu tố bệnh nhân (di truyền, hành vi vệ sinh,
các yếu tố xã hội). Tương tự các triệu chứng, dấu hiệu bệnh tật, đáp ứng với điều trị
và diễn tiến tự nhiên của bệnh phụ thuộc vào nhiều biến số.
Thống kê rõ ràng là rất cần thiết. Tuy nhiên do thống kê là một công cụ hết sức mạnh
mẽ nên nó đã bị rất nhiều người lạm dụng trong khi họ chưa được huấn luyện một
cách đầy đủ. Một bác sĩ hay một chuyên viên y tế công cộng tương lai cần phải tìm
hiểu thấu đáo về thống kê khi sử dụng nó để tránh bị xếp vào cùng loại với những
người nói dối và những người nói dối trơ tráo như theo cách nhìn nhận của nhà văn
Mark Twain (“lies, damned lies, and statistics”)
Tài liệu tham khảo
1. Sinclair S. Making doctors: an institutional apprenticeship. Oxford: Berg, 1997.
2. Bland JM. Medical students may not like statistics, but as doctors they will. BMJ
1998;316:1674. />
10


MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày 2 định nghĩa về xác suất và đưa ra các ví dụ
- Xây dựng được tập giao và hợp của 2 tập hợp xác định
- Trình bày và phân biệt được hai công thức chuyển vị và tổ hợp
- Trình bày định nghĩa của xác suất có điều kiện

- Trình bày công thức cộng xác suất và công thức nhân xác suất
1. Ðịnh nghĩa về xác suất
1.1 Ðịnh nghĩa xác suất theo tần suất tương đối
Theo ngôn ngữ thông thường, xác suất chính là tần suất tương đối. Thí dụ mệnh đề
khẳng định xác suất sinh con trai là 0,515 có nghĩa là khi thống kê nhiều lần sinh, tần
suất tương đối sinh con trai sẽ xấp xỉ bằng 0,515 (tần suất tương đối là tần suất xảy ra
biến cố quan tâm chia cho tổng số lần thử). Nói cách khác, nếu một quá trình được lập
lại n nhiều lần, và nếu có f lần xảy ra biến cố E, tần suất tương đối của biến cố E sẽ
xấp xỉ bằng xác suất của E.
f
(1)
P( E ) 
n
Thí dụ: Buffon thực hiện 4040 lần tung đồng tiền và quan sát được 2048 lần xuất hiện
mặt sấp. Tần suất tương đối xảy ra mặt sấp là Error!. Xác suất xảy ra mặt sấp cũng
xấp xỉ bằng 0,507.
1.1 Phép thử, kết cục, biến cố, biến cố đối lập
Khi chúng ta gieo một đồng tiền lên một mặt phẳng có thể xảy ra một trong hai kết
cục: xuất hiện mặt sấp hoặc xuất hiện mặt ngửa với kết quả không thể tiên đoán được.
Người ta gọi việc gieo đồng tiền là phép thử (experiment) và sự xuất hiện mặt xấp hay
mặt ngửa của đồng tiền là các kết cục (outcome).
Tương tự, khi chúng ta tung con xúc xắc, có thể xuất hiện các mặt 1, 2, 3, 4, 5, 6 thì
việc tung con xúc xắc được gọi là phép thử ngẫu nghiên và việc xuất hiện mặt 1, xuất
hiện mặt 2, 3, 4, 5 và 6 được gọi các kết cục ngẫu nhiên. Nếu chúng ta quan tâm đến
biến cố ra mặt xúc xắc chẵn thì biến cố (event) này bao gồm 3 kết cục: ra mặt 2, ra
mặt 4 và ra mặt 6. Nói khác đi biến cố là tập hợp mà các phần tử là các kết cục. Bởi vì
tập hợp có thể có bao gồm toàn bộ các phần tử, 0 phần tử hay 1 phần tử nên việc ra
một mặt xúc xắc nào đó (thí dụ ra mặt 2) vừa có thể xem là kết cuộc vừa có thể xem là
biến cố: biến cố đó đôi khi được gọi là biến cố sơ cấp.
Nếu chúng ta tung 3 con xúc xắc phân biệt , có kết cục sau có thể xảy ra {1,1,1} (ba

con xúc xắc ra mặt 1); {1,1,2}; {1,1,3};....; {6,6,5}; {6,6,6}. Biến cố có tổng số điểm
của 3 con xúc xắc =18 bao gồm một kết cục {6,6,6}. Tương tự chúng ta có thể định
nghĩa biến cố tổng số điểm của ba con xúc xắc <=10, biến cố tổng số điểm là 11; biến
cố tổng số điểm >=12.
Đối với mỗi biến cố A có một biến cố đối lập (complementary event ) Ac (được đọc là
không A) bao gồm các kết cục không có tính chất A. Trở về thí dụ của phép thử tung
con súc sắc 6 mặt, biến cố đối lập với biến cố ra mặt chẵn là biến cố ra mặt lẻ. Biến cố
đối lập cho biến cố ra mặt >=2 là biến cố ra mặt 1.

11


1.2 Kết cục đồng khả năng
Khi chúng ta gieo con xúc xắc đồng nhất, cảm nhận thông thường cho phép chúng ta
giả định việc xuất hiện kết cục ra mặt 1, ra mặt 2, ra mặt 3, ra mặt 4, ra mặt 5, ra mặt 6
có xác xuất như nhau. Khi đó ta gọi các kết cục này là kết cục đồng khả năng.
1.4 Ðịnh nghĩa xác suất cổ điển
Nếu phép thử ngẫu nhiên có thể xảy ra theo N kết cục loại trừ lẫn nhau và có xác suất
như nhau và gọi m là số các kết cục thuận lợi cho biến cố E, xác suất xảy ra biến cố E,
được kí hiệu là P(E), sẽ bằng m chia cho N
m
(2)
P( E ) 
N
N còn được gọi là số các kết cục có thể và m số các kết cục thuận lợi.
Thí dụ: Nếu chúng ta tung con xúc xắc (xí ngầu) có 6 mặt: mặt 1, mặt 2, mặt 3, mặt 4,
mặt 5, mặt 6 thì có thể xảy ra với 6 kết cục khác nhau. Những kết cục này loại trừ lẫn
nhau (nếu ra mặt 1 thì không ra mặt 2 và ngược lại) và đồng xác suất. Giả sử ta quan
tâm đến biến cố con xúc xắc ra mặt chẵn. Biến cố này có thể xảy ra theo 3 cách, nói
khác đi biến cố này bao gồm 3 kết cục. Khi đó xác suất xảy ra biến cố ra mặt chẵn là

3/6=0.5
Thí dụ: Khoa phổi và khoa Thận của bệnh viện Chợ Rẫy có 50 bệnh nhân trong số
này có 35 bệnh nhân nữ. Có 12 bệnh nhân của khoa Thận trong đó có là 8 người là
nữ. Có bao nhiêu bệnh nhân nữ ở khoa phổi? Có bao nhiêu trong số những bệnh nhân
của 2 khoa này là nữ hay nằm ở khoa Phổi.
Trước tiên chúng ta lập một bảng chéo để phân loại các bệnh nhân theo giới tính và
theo khoa điều trị (Phổi hay Thận) và điền các thông tin đã cho từ đề bài vào bảng này
(các số in đậm của bảng). Từ các thông tin này chúng ta tính các số ở các ô còn lại
(các số in thường) của bảng chéo
Bảng 1. Giới tính của bệnh nhân của khoa Phổi và khoa Thận bệnh viện Chợ rẫy

Khoa
Phổi

Khoa
Thận

Tổng số

Nam

11

4

15

Nữ

27


8

35

Tổng số

38

12

50

Từ bảng chéo chúng ta biết được số bệnh nữ của khoa phổi là 27 và số bệnh nhân nữ
hay nằm ở khoa phổi là 46 người.
Thí dụ: Sử dụng số liệu của bảng trên hãy tính các xác suất:
1. Chọn một người bất kì tính xác suất người nằm ở khoa Phổi - P(Khoa Phổi):
N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 38;
P (Khoa Phổi) = Error!
2. Chọn một người bất kì tính xác suất người đó là nam - P(Nam)
N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 15;
P (Nam) = Error!
Khái niệm về nguy cơ và số chênh (odds)
Một khái niệm quan trọng trong dịch tễ học là nguy cơ. Nguy cơ được định nghĩa là tỉ
lệ mắc bệnh trong khoảng thời gian nghiên cứu ở một nhóm người người lúc đầu

12


không bị bệnh. Như vậy còn có thể được xem là xác suất của một người bị mắc bệnh

trong khoảng thời gian nghiên cứu với điều kiện lúc đầu không bị mắc bệnh. Đó là lí
do tại sao xác suất và thống kê có một vai trò then chốt trong các nghiên cứu dịch tễ.
Những chúng ta sẽ thấy xác suất là một hàm số có đặc tính thuận lợi về mặt toán học,
thí dụ như nguyên lí cộng tính. Tuy nhiên xác suất có miền xác định là đoạn [0;1] nên
để mô tả xác suất theo một biểu thức tuyến tính cần sử dụng các phép biến đổi để mở
rộng miền xác định. Một trong các phép biến đổi đó là số chênh (odds)
Số chênh của một biến cố A được kí hiệu là Odds(A) bằng xác suất của biến cố A
chia cho xác suất của biến cố không A.
Odds(A)=Error! = Error!
Miền xác định của số chênh là đoạn [0;∞) được mở rộng so với miền xác định của xác
suất. Số chênh cũng có một đặc tính khác quan trọng là số chênh của biến cố không
A bằng nghịch đảo của số chênh biến cố A.
Odds(Ac) = Error! = 1: Error!= 1:Odds
Mặc dù lí do chính để sử dụng số chênh là đặc tính toán học của nó, số chênh cũng là
một khái niệm quen thuộc trong cuộc sống hàng ngày.
Thí dụ: Khi ta gieo đồng tiền chúng ta chúng ta có 2 kết cục sấp và ngửa đồng khả
năng. Khi đó xác suất được mặt sấp, P(sấp) = Error! = 0,5. Số chênh được mặt sấp,
Odds(sấp) = Error! = Error!. Thực ra trong dân gian cách nói xác suất ra mặt sấp là
0,5 không quen thuộc bằng cách nói là việc được mặt ngửa là 1 ăn 1 thua (hay 5 năm
5 thua).
Khi biến cố A hiếm (P(A)<0,1) thì 1-P(A)  1 nên số chênh và xác suất là xấp xỉ. Từ
số chênh chúng ta cũng có thể tính được xác suất theo công thức sau:
P(A) = Error!
1.3 Ðịnh nghĩa xác suất chủ quan
Khái niệm về xác suất chủ quan lần đầu tiên được đề xướng bởi Von Newman,
Morgenstern, Ramsey và Savage. Theo khái niệm này, xác suất không chỉ áp dụng
cho các hiện tượng ngẫu nhiên mà còn được sử dụng cho các mệnh đề (proposition).
Có những mệnh đề có thể kiểm chứng bằng thử nghiệm lập lại được (thí dụ mệnh đề
“chiếc nhẫn vàng này là thật” có thể được kiểm chứng sau khi thử nghiệm kiểm tra
vàng bằng lửa). Mặc dù trước thử nghiệm, tính chân thực của mệnh đề là không chắc

chắn nhưng sau thử nghiệm chúng ta luôn luôn biết được mệnh đề này là đúng hay
sai. Tuy nhiên có những mệnh đề không thể kiểm chứng bằng thử nghiệm lập lại
được (thí dụ như mệnh đề “sử dụng vitamine A bổ sung sẽ làm giảm nguy cơ ung
thư” không thể chứng minh được dù chúng ta có thực hiện đến 10 thử nghiệm lâm
sàng bởi vì kết quả của 10 thử nghiệm này không cho kết quả giống hệt như nhau).
Với những mệnh đề này thì trước hay sau thử nghiệm chúng ta đều phải sử dụng một
số đo lường về mức độ không chắc chắn của mệnh đề và số đo lường này được gọi là
xác suất chủ quan. Khuyết điểm của các tiếp cận này ở chỗ xác suất của mệnh đề là
một con số chủ quan và thay đổi theo nhận định của từng người. Tuy vậy những
người ủng hộ nó lập luận rằng dù có chấp nhận tính chủ quan hay không, trong cuộc
sống và khoa học nhiều quả định của chúng ta là chủ quan và ưu điểm của phương
pháp này là nó minh bạch hoá tính chủ quan của các giả định. Định nghĩa chủ quan là
cơ sở của phương pháp Bayes (Bayes method) trong thống kê học hiện đại.

13


2. Nhắc lại về lí thuyết tập hợp
Một tập hợp là gồm nhiều những đối tượng xác định và khác nhau. Những đối tượng
này được gọi là phần tử của tập hợp. Tập hợp thường được kí hiệu bằng chữ in và có
thể biểu thị bằng giản đồ Venn.

Hình 1. Giản đồ Venn (Venn diagrams)

Thí dụ khi ta tung con xúc xắc có thể xảy ra 6 kết cuộc (1, 2, 3, 4, 5, 6). Do biến cố
(event) là một tập hợp với các phần tử kết cuộc như vậy chúng ta có xây dựng các
biến cố sau:
E1={1}; E2={2}; E3={3}; E4={4}; E5={5}; E6={6} (như đã quy ước, các biến cố chỉ
có một phần tử là một kết cục được gọi là biến cố sơ cấp)
S={1, 2, 3, 4, 5, 6} (biến cố này được gọi là biến cố toàn thể khi tất cả các kết cục đều

là các phần tử của biến cố này)
A= {2,4,6}: A là biến cố ra mặt chẵn.
Kí hiệu x X để chỉ định x là một phần tử của X và kí hiệu x X để chỉ rằng x không
thuộc tập hợp X. Áp dụng thí dụ trên và sử dụng kí hiệu chỉ định phần tử, ta có thể
viết
1 E1; 1 S; 1 E2 ; 1 A
Phần giao của hai tập hợp A và B là một tập hợp (kí hiệu bằng AB )gồm những
phần tử chung của hai tập hợp.
Phần hợp của hai tập hợp A và B là tập hợp (kí hiêu bằng AB) gồm những phần tử
có mặt trong tập hợp A hoặc có mặt trong tập hợp B.
Thí dụ: Nếu A là tập hợp của các mặt chẵn của con xúc xắc.
A= {2,4,6}
Nếu B là tập hợp các mặt lớn hơn hoặc bằng 3
B = {3,4,5,6}
AB = {2,3,4,5,6}
AB = {4,6}

14


4. Nhắc lại về đại số mệnh đề
Một mệnh đề (proposition) là một phát biểu hoặc đúng hoặc sai nhưng không thể cùng
đúng và cùng sai.
Thí dụ: Trong 3 phát biểu sau, phát biểu nào là mệnh đề
a. 42 chia hết cho 7
b. Trái đất là hành tinh duy nhất trong vũ trụ có sự sống
c. Mua hai vé xem đá banh trận đấu giữa Manchester United và Leed United
Trả lời: Hai phát biểu đầu (a và b) là mệnh đề và phát biểu thứ ba (c) không
phải là mệnh đề mà chỉ là một mệnh lệnh.
Khi chúng ta kết hợp hai mệnh đề con bằng từ và thì chúng ta có một mệnh đề thì

mệnh đề này chỉ đúng nếu hai mệnh đề con đều đúng:
Thí dụ: Trong hai mệnh đề sau, mệnh đề nào là mệnh đề đúng.
42 chia hết cho 7 và 100 chia hết cho 10
2 + 2 = 4 và 91 là số nguyên tố
Trả lời: Mệnh đề (a) là đúng còn mệnh đề (b) sai vì chỉ có một mệnh đề con
của nó là đúng. Mệnh đề con còn lại (91 là số nguyên tố) sai.
Khi chúng ta kết hợp hai mệnh đề con bằng từ hay thì chúng ta có một mệnh đề thì
mệnh đề này chỉ sai nếu hai mệnh đề con đều sai:
Thí dụ: Trong hai mệnh đề sau, mệnh đề nào là mệnh đề đúng.
42 chia hế t cho 7 và 100 chia hết cho 10
2 + 2 = 4 và 91 là số nguyên tố
Trả lời: Mệnh đề (a) là đúng vì cả hai mệnh đề con đều đúng. Mệnh đề (b) đúng vì có
một mệnh đề con của nó là đúng (2+2 = 4).
5. Nến tảng tiên đề của lí thuyết xác suất
Vào đầu thế kỉ 20, lí thuyết xác suất đã được xây dựng nền tảng tiên đề tương tự như
các ngành khác của toán học. Nhờ đó sự phát triển của lí thuyết xác suất dựa trên các
tiên đề này chỉ phụ thuộc vào tính chặt chẽ logic (logic correctness) dù rằng những
định lí của nó có phản ánh thế giới thực hay không. Nhà toán học Nga Kolmogorov
là người đã có công xây dựng trình bày các bài toán xác suất theo các khái niệm của lí
thuyết đo lường và các tiên đề để xây dựng lí thuyết xác suất do ông đưa ra được trình
bày sau đây:
Nếu chúng ta kí hiệu S là tập hợp các kết cục của phép thử (còn gọi là biến cố toàn
thể), M là một lớp các biến cố và M thoả 3 tính chất sau: (i) S M; (ii) nếu A M, thì Ac
M; (iii) nếu A1, A2, . . .

M, thì A1

A2

M.


Hàm số P được gọi là xác suất gán cho mỗi biến cố A thuộc lớp M một con số không
âm và có 2 tính chất sau:
1. P(S) = 1 (Xác suất của biến cố toàn thể bằng đơn vị)
2. Nếu A1, A2, . . . M và Ai Aj = Ø cho tất cả i j, thì P(A1 A2 …) = P(A1) + P(A2)
+ … (Nếu các biến cố A1, A2,… là loại trừ tương hỗ lẫn nhau thì xác suất của sự
xuất hiện A1 hay A2 hay .. bằng tổng của các xác suất đơn lẻ).
Tiên đề thứ hai là cơ bản cho các chứng minh trong thống kê và được gọi là nguyên lí
cộng tính (principle of additivity)

15


6. Giải tích tổ hợp
Giải tích tổ hợp (Combinatorics) là lãnh vực toán nghiên cứu về các bài toán chọn lựa,
hoán vị và các toán tử trong hệ thống hữu hạn. Trong phạm vi của tài liệu này chúng
ta chỉ trình bày các khái niệm về hoán vị (arrangment), chỉnh hợp (permutation) và tổ
hợp (combination).
6.1 Nhắc lại về giai thừa (factorial)
Giai thừa của n (với n là số nguyên) được đọc là n giai thừa và được kí hiệu là n!
n!=n.(n-1).(n-2)...1
Theo quy ước, 0! =1.
Nhờ kí hiệu giai thừa người ta có thể viết một cách vắn tắt tích một chuỗi các chữ số
liên tiếp. Thí dụ: Thể hiện biểu thức 1 2 3 4 5 6 7 bằng kí hiệu 7!
Thí dụ: Thể hiện biểu thức 3 4 5 6 7 bằng Error!
6.2 Hoán vị
Trạm y tế có 3 vị trí để treo 3 bức tranh A, B, C. Số cách sắp xếp 3 bức tranh vào 3 vị
trí có thể được tính theo cách lập luận sau:
- Vị trí số 1 có thể chọn 1 trong 3 bức tranh để treo, như vậy có tất cả 3 cách chọn
- Vị trí số 2 có thể chọn 1 trong 2 bức tranh còn lại, vậy ở vị trí này có 2 cách chọn

- Vị trí số 3 chỉ còn duy nhất một tranh để treo, vậy ở vị trí này chỉ có 1 cách chọn
Số cách sắp xếp 3 bức tranh vào 3 vị trí = 1  2  3 = 3!
Một cách tổng quát số cách sắp xếp n đối tượng vào n vị trí khác nhau còn được gọi là
số cách hoán vị (arrangments) của n đối tượng bằng n!.
6.3. Chỉnh hợp và tổ hợp
Chỉnh hợp và tổ hợp đều là cách chọn k đối tượng từ n đối tượng cho trước. Việc
chọn các đối tượng được gọi là chỉnh hợp (Permutation) nếu chúng ta để ý đến thứ tự
lựa chọn và được gọi là tổ hợp (Combination) nếu chúng ta không quan tâm đến thứ
tự lựa chọn.
Khái niệm về chỉnh hợp và tổ hợp sẽ được minh hoạ trong thí dụ sau. Giả sử chúng ta
có 5 đối tượng phân biệt (distinguishable objects) là các loại thuốc A (antibiotic), B
(beta agonist), C (corticosteroid), D (bronchoDilator) và E (expectorant). Giả sử để
điều trị cho bệnh nhân bị hen phế quản chúng ta cần phải chọn 2 loại thuốc và hai loại
thuốc này không dùng đồng thời (một thuốc dùng trước, một thuốc dùng sau). Khi đó
các cách để chọn 2 loại thuốc được liệt kê ở như sau:
AB
BA
AC
CA
AD
DA
AE
EA
BC
CB
BD
DB
BE
EB
CD

DC
CE
EC
DE
ED
Mỗi cách chọn lựa liệt kê ở trên được gọi là một chỉnh hợp. Số các chỉnh hợp này
được gọi là số chỉnh hợp 5 đối tượng chọn 2 (permuations of 5 objects taken 2) và
được kí hiệu là 5P2. Lập luận để tính số chỉnh hợp 5 đối tượng chọn 2 như sau:
Để chọn đối tượng thứ nhất chúng ta có 5 cách chọn
Để chọn đối tượng thứ hai sau khi chọn đối tượng đầu tiên chúng ta có 4 cách
chọn
Do đó 5P2 = 5  4 = Error!= Error!

16


Một cách tổng quát, công thức tính nPr (số chỉnh hợp n đối tượng chọn r) là số cách
trong n đối tượng chọn ra r đối tượng có phân biệt thứ tự được chọn (để giao các
nhiệm vụ hay nhận lãnh các vị trí khác nhau) là:
n!
n  (n  1)    1
(3)

n Pr 
(n  r )! (n  r )  (n  r  1)    1
Chúng ta hãy xét một thí dụ khác. Giả sử để điều trị cho bệnh nhân bị hen phế quản
chúng ta cần phải chọn 2 loại thuốc và cho dùng đồng thời. Trong trường hợp này tổ
hợp AB đồng nhất như tổ hợp BA, tổ hợp AC cũng đồng nhất như tổ hợp CA và số tổ
hợp bằng số chỉnh hợp chia số số hoán vị của 2 đối tượng được chọn.
Do đó 5C2 = 5C2 /2! = Error!= Error!

Một cách tổng quát, công thức tính nCr (số tổ hợp n đối tượng chọn r) là số cách trong
n đối tượng chọn ra r đối tượng có không phân biệt thứ tự được chọn (và sẽ nhận lãnh
cùng một nhiệm vụ hay cùng một vị trí ) là:
n!
n  (n  1)    1
(4)

n Cr 
(n  r )!r! (n  r )  (n  r  1)    1  r  (r  1)    1
Lưu ý: Tổ hợp và chỉnh hợp có thể được kí hiệu khác. Thí dụ tổ hợp n lấy r còn được
n
kí hiệu là Cnr hay   . Một số tài liệu nêu rõ tổ hợp là tổ hợp không lặp và dùng từ
r 
chập hay cho từ lấy do đó nCr được gọi là tổ hợp không lặp chập r của n đối tương.
Tuy nhiên phần lớn tài liệu hiện đại đều quy ước tổ hợp có nghĩa là tổ hợp không lặp
để tránh rườm rà.
6.4 Bài toán ngày sinh nhật
Bộ môn Y tế công cộng có n=23 giảng viên và nhân viên, hãy tính xác suất P trong bộ
môn ít nhất có 2 người trùng ngày sinh.
Để đơn giản, chúng ta hãy giả định là một năm chỉ có 365 ngày và mỗi ngày đều có
xác suất là ngày sinh của một người ngẫu nhiên là như nhau. Khi đó một nhóm n
người sẽ có 365n cách xảy ra ngày sinh của n người đó. Cách chọn trong 365 ngày
sinh để gán cho n người khác nhau chính là chỉnh hợp 365 chọn n. do đó Xác suất
trong bộ môn ít nhất 2 người trùng ngày sinh = 1 – xác suất n người có ngày sinh
hoàn toàn khác nhau.

Thay n=23, chúng ta có xác suất trong bộ môn Y tế công cộng có ít nhất 2 người trùng
ngày sinh là 0,5
Khi số lượng người gia tăng thì xác suất có ít nhất 2 người cùng ngày sinh nhật cũng
gia tăng. Đáp số cụ thể cho các trường hợp được trình bày như sau:

Số người

9

23

42

50

XS có ít nhất có 2 người
trùng ngày sinh

0,0946

0,5073

0,9140

0,9704

Số chênh

0,1045

1,0296

10,6320

32,7537


1:10

1:1

10:1

33:1

Tỉ lệ cá

17


Bài tập
Bài tập định nghĩa xác suất
1. Một bệnh viện có cơ cấu nhân viên theo tuổi và công tác được trình bày trong bảng
1. Giả sử nếu ta chọn một nhân viên trong bệnh viện., tính xác suất:
a- nhân viên đó là bác sĩ
b- nhân viên đó là bác sĩ lớn hơn 35 tuổi
c- nhân viên đó là điều dưỡng
d- nhân viên đó là một điều dưỡng tuổi từ 26 đến 35
1a.
Theo công thức
m
P( E ) 
N
Với N là số các biến cố có thể và m số các biến cố thuận lợi.
Khi chọn ngẫu nhiên việc chọn lực có thể kết cuộc theo 1766 cách khác nhau (Số biến
cố có thể N=1766). Trong việc tính xác suất nhân viên đó là bác sĩ, biến cố thuận lợi

là biến cố chọn được một trong 105 bác sĩ. Như vậy số biến cố thuận lợi m = 105.
Ta có xác suất chọn được một bác sĩ là 105/1766=0,059 = 5,9%
1b. Tương tự ta có xác suất chọn được một bác sĩ lớn hơn 35 tuổi là 75/1766 = 0,042
= 4,2%
1c. Xác suất chọn được một nhân viên điều dưỡng là 1220 /1766 = 0,691 = 69,1%
1d. Xác suất chon được một nhân viên điều dưỡng tuổi từ 26 đến 35 =
(375+442)/1766 = 817/1766 = 0,463 = 46,3%
Bài tập về tập hợp và mệnh đề
Bảng 1. Nhân viên của bệnh viện phân theo tuổi và công tác

Công tác

A1
 25

A2
2630

A3
3135

A4
>35

Tổng số

B1. Bác sĩ

0


5

25

75

105

B2. Phục vụ phòng thí nghiệm

20

30

35

35

120

B3. Phục vụ dinh dưỡng

3

6

6

10


25

B4. Phục vụ hồ sơ bệnh án

7

15

8

12

42

B5. Phục vụ điều dưỡng

200

375

442

203

1220

B6. Dược sĩ

1


12

8

3

24

B7. Quang tuyến

4

10

19

12

45

B8. Phục vụ điều trị

5

25

15

10


55

B9. Những ngành khác

20

35

50

25

130

Tổng số

260

513

608

385

1766

1. Dựa vào số liệu của bảng 1. Giải thích bằng lời những tập hợp sau đây. Những tập
hợp đó có bao nhiêu phần tử:
A4B3 ; B5A2 ; B3A4 ; (A4A3)B3
18



2. Trong các mệnh đề sau, mệnh đề nào là đúng
2+2 là 4 hay Darwin là con khỉ
Bệnh AIDS do một loại virus gây ra và bệnh AIDS có thể lây lan qua muỗi Aedes
aegypti
Bài giải
1. Giải thích các tập hợp
A4B3 là tập hợp những nhân viên cấp dưỡng >35 tuổi. n(A4B3) = 10
B5A2 là tập hợp những điều dưỡng tuổi từ 26 đến 30. n(B5A2) = 375
B3A4 là tập hợp những người nhân viên cấp dưỡng hay trên 35 tuổi.
n(B3A4)=385 +25 -10 = 400
(A4A3)B3 là tập hợp những nhân viên cấp dưỡng tuổi từ 31 trở lên.
N{(A4A3)B3}=16
2. Mệnh đề (a) là mệnh đề hay. Mệnh đề này đúng do một mệnh đề con của
nó là đúng (2+2 =4),
Mệnh đề (b) là mệnh đề và. Mệnh đề này sai do một mệnh đề con của nó
(bệnh AIDS có thể lây lan qua muỗi Aedes aegypti ) là sai.
Bài tập về chỉnh hợp, tổ hợp
1. Một nhân viên vật lí trị liệu sắp kế hoạch làm việc trong ngày. Anh ta biết rằng có 7
công việc phải làm trong ngày đó.
a. Nếu anh ta có thể tiến hành công việc theo ý muốn, thì anh ta có thể có bao
nhiêu cách sắp xếp?
b. Nếu anh ta quyết định nghỉ buổi chiều và chỉ làm 3 công việc vào buổi sáng
thì anh ta có bao nhiêu cách sắp xếp?
2. Một nhân viên muốn làm xét nghiệm 4 mẫu máu nhưng bà ta chỉ có đủ hóa chất để
xét nghiệm cho 3 mẫu mà thôi. Hỏi có bao nhiêu cách chọn 3 mẫu máu trong 4 mẫu
để làm xét nghiệm?
3. Giả sử trong phòng thí nghiệm có 3 công việc khác nhau phải làm và có 5 người
làm việc đó. Hỏi có bao nhiêu cách để giao 3 công việc này cho 5 người?

Bài giải
1a. Do người nhân viên vật lí trị liệu này muốn liên kết 7 công việc khác nhau
vào 7 thời điểm khác nhau trong kế hoạch công tác, anh ta có thể có sắp xếp
công việc theo 7!=7  6  5  4  3  2  1= 5040 cách.
1b. Nếu anh ta chỉ còn có đủ thời gian để làm 3 công việc, anh ta phải từ 7
công việc chọn ra 3, 3 công việc này sau khi được chọn sẽ được sắp xếp khác
nhau. Như vậy, số kế hoạch anh ta có thể sắp xếp là:
7P3 = 7!/(7-3)! = 7  6  5  4  3  2  1 / 4  3  2  1 = 7  6  5 = 210
cách.
2. Người nhân viên này muốn chọn từ 4 mẫu máu lấy 3 mẫu, 3 mẫu máu này
sau khi chọn là không phân biệt (đều được làm xét nghiệm). Vậy số cách chọn
3 mẫu máu để xét nghiệm là 4C3 = 4!/(4-3)!3! = 4  3  2  1 / (1  3  2  1)
=4
3. Từ 5 người chọn ra 3, và 3 người này sẽ có những công việc khác nhau. Số
kế hoạch có thể phân công là: 5P3 = 5!/(5-3)! = 5  4  3  2  1 / 3  2  1 =
20

19


20


XÁC SUẤT CÓ ĐIỀU KIỆN - ĐỊNH LUẬT NHÂN XÁC SUẤT
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày định nghĩa của xác suất có điều kiện
- Trình bày công thức cộng xác suất và công thức nhân xác suất
1. Xác suất có điều kiện
Nếu các kết cục có thể không bao gồm toàn thể các kết cục (khi một số kết cục bị hạn

chế) thì xác suất có thể được gọi là xác suất có điều kiện.
Xác suất có điều kiện được kí hiệu P(đặc tính quan tâm|Điều kiện)
Bảng 2. Giới tính của bệnh nhân của khoa Phổi và khoa Thận bệnh viện X

Khoa
Phổi

Khoa
Thận

Tổng số

Nam

11

4

15

Nữ

27

8

35

Tổng số


38

12

50

Thí dụ: Ở khoa Phổi và khoa Thận của bệnh viện X có 50 bệnh nhân và phân
bố của các đặc điểm của bệnh nhân này được trình bày trong bảng. Chọn một người
bất kì, xác suất người là nam và nằm ở khoa Phổi - P(Nam và Khoa Phổi)- có phải là
xác suất có điều kiện hay không? Hãy tính xác suất này.
Chọn một người bất kì, Xác suất người là nam và nằm ở khoa Phổi - P(Nam và Khoa
Phổi) – không phải là xác suất có điều kiện bởi vì các kết cục không có hạn chế (ai
cũng có thể được chọn).
N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 11;
P (Nam và Khoa Phổi) = Error!
Thí dụ: Chọn một người nam, xác suất người này nằm ở khoa Phổi có phải là
xác suất có điều kiện hay không? Hãy tính xác suất này.
Chọn một người nam, xác suất người này nằm ở khoa Phổi là xác suất có điều kiện
bởi vì số kết cục bị hạn chế (chỉ có bệnh nhân nam được chọn và như vậy kết cục chỉ
có thể là 1 trong số 15 bệnh nhân nam)
Nc: Số kết cuộc có thể là 15; m: số các kết cuộc thuận lợi cho 11;
Xác suất người này nằm ở khoa Phổi với điều kiện người này là nam giới = P
(Khoa Phổi|Nam) = Error!
Lưu ý: Xác suất có điều kiện được kí hiệu P(đặc tính quan tâm|Điều kiện) và điều
kiện này phải đúng cho cả kết cục thuận lợi (m) và kết cục có thể (Nc). Trong thí dụ
trên 11 kết cục thuận lợi vừa đòi hỏi điều kiện là nam giới và đặc tính là nằm ở khoa
phổi và 15 kết cục có thể đòi hỏi điều kiện là nam giới. Thể hiện nhận xét bằng công
thức:
m n( A  B ) n( A  B ) / N P ( A  B )
P( B | A) 




(5)
Nc
n( A)
n( A) / N
P( A)
n(AB ) là số kết cục thoả điều kiện A và đặc tính B và n(A) số kết cục thoả điều
kiện A
Thí dụ: Chọn một bệnh nhân ở khoa Thận, tính xác suất bệnh nhân này là nữ.

21


Đây là xác suất có điều kiện. P(nữ|khoa Thận) = Error!= Error! = Error!= 0,75
Thí dụ: Theo bản báo cáo “Số ca nghi nhiễm SARS tích luỹ” của Tổ Chức Y tế Thế
Giới ( Số ca bệnh SARS (Hội
chứng Hô hấp cấp tính trầm trọng) từ ngày 1/10/2002 đến ngày 17/5/2003 là 7761 với
623 trường hợp tử vong. Xác suất tử vong của những người mắc SARS là xác suất có
điều kiện: ( cả 623 ca tử vong và 7761 ca bệnh đều mắc SARS).
P(tử vong|SARS)=Error!
Xác suất có điều kiện này (Xác suất tử vong ở những người mắc một bệnh cụ
thể nào đó) được gọi là tỉ suất chết/mắc của bệnh đó (case-fatality rate).
Thí dụ: Trong một dân số, tỉ lệ những người có dấu hiệu lách to là 20%, những người
vừa sốt rét vừa lách to là 18%, những người bị sốt rét là 23%. Một người ngẫu nhiên
từ dân số đó, người này không có dấu hiệu lách to. Tính khả năng người này bị sốt
rét?
Bài giải:
P(sốt rét|lách không to) = P(sốt rét và lách không to) / P(lách không to)

= [P(sốt rét) - P(sốt rét và lách to)]/ P(lách không to)
= (0.23-0.18)/0.8 = 0.05/0.8 =0.0625
2. Ðịnh luật nhân xác suất
Từ phương trình (5) ta có thể xây dựng công thức:
P(AB) = P(A)  P(B|A)
(6)
P(AB) = P(BA) =P(B)  P(A|B)
Công thức này được gọi là định lí nhân xác suất.
Thí dụ: Nếu xác suất mắc bệnh lao, P(Lao) = 0,001 và xác suất chết/mắc của bệnh
Lao, P(chết|Lao) = 0,1. Xác suất chết vì bệnh lao:
P(Lao và Chết) = P(Lao)  P(Chết | Lao) = 0,001  0,1 = 0,0001
Tính độc lập
Một trong những khái niệm quan trọng trong lí thuyết xác suất là tính độc lập
(independence). Hai biến cố A và B được gọi là độc lập nếu P(B|A) = P(B), hoặc suy
ra từ (6) nếu
P(AB) = P(A)  P(B)
(7)
Ý nghĩa của định nghĩa theo xác suất có điều kiện là xác suất của B không thay đổi dù
có hay không có điều kiện A. Từ phương trình (7) chúng ta có thể suy ra là tính độc
lập có tính chất đối xứng (nếu A độc lập với B thì B độc lập với A và ngược lại).
Thí dụ:
Giả sử
Xác suất bị chấn thương giao thông trên dân số chung = P(chấn thương giao thông)
=0,01
Xác suất bị chấn thương giao thông ở người hút thuốc lá = P(chấn thương giao thông |
hút thuốc lá) = 0,01
Khi đó chấn thương giao thông và hút thuốc lá là hai biến cố độc lập.
Giả sử
Xác suất bị chấn thương giao thông trên dân số chung = P(chấn thương giao thông)
=0,01


22


Xác suất bị chấn thương giao thông ở người nghiện rượu = P(chấn thương giao thông |
hút thuốc lá) = 0,03
Khi đó chấn thương giao thông và nghiện rượu là hai biến cố không độc lập
Khi biến cố A không độc lập với biến cố B thì:
- A => B hoặc
- B => A hoặc
- Có một yếu tố ảnh hưởng đến cả A và B (yếu tố này được gọi là yếu tố gây
nhiễu).
Do đó nếu chúng ta có thể chứng minh P(B) ≠ P(B|A) ≠ P(B|Ac) (A và B không độc
lập) và chúng ta loại trừ được các mệnh đề
- B => A (bằng cách biện luận về thời gian)
- Yếu tố gây nhiễu ảnh hưởng đến cả A và B
Nghĩa là chúng ta có chứng cớ (evidence) của mệnh đề A=>B.
Đây là cách lập luận thường được sử dụng trong nghiên cứu xác định nguyên nhân
hay yếu tố nguy cơ.
Tính loại trừ của 2 biến cố
Nếu hai biến cố A và B không bao giờ xảy ra đồng thời người ta gọi biến cố A
và B loại trừ lẫn nhau.
Thí dụ bệnh nhân không bao giờ bị nhiễm sán dải và sán dải heo cùng lúc nên
việc nhiễm sán dải bò và sán dải heo là 2 biến cố loại trừ lẫn nhau. Trong thửu nghiệm
tung xúc xắc, biến cố ra mặt chẵn và biến cố ra mặt 3 là biến cố loại trừ lẫn nhau.
Cần lưu ý hai biến cố loại trừ lẫn nhau không phải là 2 biến cố độc lập mà
thực chất là 2 biến cố phụ thuộc lẫn nhau. Biến cố A xảy ra phụ thuộc vào việc không
xảy ra biến cố B và ngược lại.
3. Công thức cộng xác suất tổng quát
Thí dụ: Ở khoa Phổi và khoa Thận của bệnh viện X có 50 bệnh nhân và phân

bố của các đặc điểm của bệnh nhân này được trình bày trong bảng ở đầu chương.
Chọn một người bất kì, hãy tính xác suất người là nam hay nằm ở khoa Phổi - P(Nam
hay Khoa Phổi):
P(Nam hay Khoa Phổi)=Error!
P(Nam hay Khoa Phổi)=Error! = P(Phổi)+P(Nam)-P(Phổi và Nam)
Một cách tổng quát, nếu AB ≠ Ø thì chúng ta có
P(AB) = P(A) + P(B) – P(AB)

(8)

Nếu hai biến cố A và B loại trừ lẫn nhau thì chúng ta có thể tính được xác suất xảy ra
A hay B dựa trên nguyên lí cộng tính:
P(AB) = P(A) + P(B)
Đây là công thức cộng xác suất tổng quát. Sau đây là tổng kết công thức nhân và cộng
xác suất tuỳ theo mối quan hệ giữa 2 biến số A và B
Quan hệ giữa biến cố

Định luật Nhân xác suất

Định luật Cộng xác suất

23


A và B

P(AB)

P(AB)


Không đặc biệt

=P(A)P(B|A)

= P(A) + P(B) – P(AB)

Độc lập

= P(A)P(B)

= P(A) + P(B) – P(A)P(B)

Loại trừ

=0

= P(A) + P(B)

4. Công thức xác suất toàn phần và định lí Bayes
Nếu biến cố B phụ thuộc vào biến cố A – P(B) ≠ P(B|A) – thì xác suất của biến cố B
phụ thuộc vào xác suất của biến cố A. Khi đó xác suất xảy ra B (Ac là biến cố đối lập
của biến cố A và được đọc là không A)
P( B)  P( A  B)  P( AC  B)  P( A) P( B | A)  P( AC ) P( B | AC )

(9)

Công thức này được gọi là công thức xác suất toàn phần (law of total probability). Áp
dụng công thức này trong trường hợp ung thư phụ thuộc vào hút thuốc lá chúng ta có:
Xác suất ung thư = Xác suất hút thuốc lá  xác suất ung thư khi hút thuốc lá + Xác
suất không hút thuốc lá  xác suất ung thư khi không hút thuốc lá.

Tính xác suất A trên điều kiện B - P(A|B) và thay mẫu số với công thức xác
suất toàn phần ta được
P( A  B)
P( A) P( B | A)
P( A | B) 

(9)
P( B)
P( A) P( B | A)  P( A c ) P( B | A c )
Công thức này được gọi là định lí Bayes. Lí giải công thức này trong trường
hợp hút thuốc lá tăng nguy cơ ung thư phổi như sau. Xác suất một người hút thuốc lá
khi biết người này bị ung thư phổi bằng với tỉ lệ với xác suất vừa hút thuốc vừa ung
thư phổi trong xác suất bị ung thư phổi.
5. Biến số ngẫu nhiên
Khi chúng ta tiến hành phép thử, chúng ta thường không quan tâm đến chi tiết của
biến cố mà chỉ quan tâm giá trị của một đại lượng nào đó được xác định bởi kết cục
của phép thử. Thí dụ, khi chúng ta gieo 3 con xúc xắc, có thể chúng ta không quan
tâm đến con xúc xắc nào ra mặt mấy mà chỉ quan tâm đến tổng số điểm của 3 con
xúc xắc. Hay khi chúng ta mua vé số, chúng ta chỉ quan tâm đến số tiền mà chúng ta
trúng được (hay số tiền bị mất) sau khi đã có kết quả xổ số.
Đại lượng mà giá trị của nó được xác định bởi kết cục của phép thử ngẫu nhiên được
gọi là biến số ngẫu nhiên. Biến số ngẫu nhiên thường được kí hiệu bằng chữ in hoa
(như X, Y,..). Biến số ngẫu nhiên X của biến cố e được kí hiệu là X(e). Các thí dụ
khác về biến số ngẫu nhiên gồm:
- Thí dụ: Một người đặt một con số gồm 2 chữ số. Sau đó người ta tiến hành
quay số để có kết quả là một số 2 chữ số. Như vậy phép thử sẽ có 100 kết
cuộc là con số 00,01,02,03,...,99. Nếu kết cuộc trùng với con số được đặt,
người đặt sẽ được 70 đồng. Nếu kết cuộc không trùng với con số được đặt,
người đặt sẽ bị mất 1 đồng. Như vậy có 99 kết cục tương ứng với giá trị -1
và 1 kết cục tương ứng với giá trị 70. -1 và 70 là các giá trị của biến số

ngẫu nhiên X “số tiền thu được”. Ta có thể tính được P(X=-1)=0,99 và
P(X=70)=0,01
- Theo dõi 100 người nghiện chích ma tuý chưa bị nhiễm HIV, số người bị
nhiễm HIV sau 1 năm là biến số ngẫu nhiên
- Điều trị cho 15 ca bệnh SARS, số ca tử vong trong số 15 ca bệnh này là
biến số ngẫu nhiên

24


-

Một gia đình có 1 đứa con, số con trai trong gia đình này là biến số ngẫu
nhiên.
Đo chiều cao của một người, chiều cao người này là biến số ngẫu nhiên

6. Vọng trị
Nếu chúng ta không quan tâm đến chi tiết, chúng ta sẽ gán cho mỗi kết cục một giá trị
của biến số ngẫu nhiên và khi đó chúng ta sẽ gán cho phép thử một giá trị gọi là vọng
trị. Hãy trở lại với ví dụ về phép thử quay số (gồm 2 chữ số) được đưa ra trong phần
biến số ngẫu nhiên. Phép thử này có nhiều kết cục và các kết cục tương ứng với -1 và
70 là giá trị của biến số ngẫu nhiên “số tiền thu được”. Giả sử một người chơi trò chơi
này rất nhiều lần (N lần) thì người số tiền người đó thu được sau N lần chơi:
70  N  0,01 – 1  N  0,99 = N  (0,70 – 0,99) = -0,29  N
Như vậy trung bình mỗi lần chơi người đó bị thu được
(-0,29  N)/N=0,29 đồng
Con số này được gọi là vọng trị của trò chơi. Một cách tổng quát vọng trị của phép
thử là trung bình của biến số ngẫu nhiên nếu phép thử được lập lại nhiều lần và vọng
trị của biến số ngẫu nhiên X được kí hiệu là E(X)
E(X)=X(e1)P(e1) + X(e2)P(e2) +...

Bài tập
Ðịnh luật nhân và cộng xác suất
1. Trong một nhóm gồm 502 người có phân phối nhóm máu và giới tính như sau:
Giới tính
Nhóm máu

Nam

Nữ

Tổng số

O

113

113

226

A

103

103

206

B


25

25

50

AB

10

10

20

Tổng số

251

251

502

1a. Nếu một người được chọn ngẫu nhiên từ nhóm người này. Tính xác suất người
này có nhóm máu O? xác suất người này có nhóm máu A? Xác suất người này có
nhóm máu B? Xác suất người này có nhóm máu AB?
1b. Giới tính và nhóm máu có độc lập với nhau không? Chứng minh.
2. Xác suất một bệnh nhân được chọn từ một bệnh viện là nam là 0,6. Xác suất một
bệnh nhân nam và ở khoa ngoại là 0,2. Một bệnh nhân được chọn ngẫu nhiên từ bệnh
viện và người ta biết rằng đó là bệnh nhân nam. Tính xác suất bệnh nhân đó ở khoa
ngoại.

3. Trong dân số của một bệnh viện, xác suất một bệnh nhân được chọn ngẫu nhiên là
có bệnh tim là 0,35. Xác suất bệnh nhân bệnh tim là hút thuốc lá là 0,86. Tính xác suất
một bệnh nhân được chọn ngẫu nhiên là người hút thuốc lá và mắc bệnh tim?
4. Một nhà nghiên cứu muốn ước tính tỉ lệ tiêm chủng ở trẻ em dưới 2 tuổi trong tỉnh
X bằng phương pháp lấy mẫu PPS (probability proportionate to size) gồm 2 bước.
Bước 1: lên danh sách tất cả các xã trong tỉnh rồi chọn trong danh sách đó 30 xã.

25


×