1
THỐNG KÊ CƠ BẢN ỨNG DỤNG
THỐNG KÊ CƠ BẢN ỨNG DỤNG
TRONG NGHIÊN CỨU KHOA HỌC
TS. Hoàng Văn Minh, Đại học Y Hà nội
MỤC TIÊUMỤC TIÊU
Sau bài học, họcviêncókhả năng
Trình
bày
một
số
khái
niệm
cơ
bản
Trình
bày
một
số
khái
niệm
cơ
bản
về thống kê
Lựachọn đượctrắcnghiệmthống
kê phù hợpvớimục tiêu nghiên
cứu
2
Khái niệmKhái niệm
“Statistics is a mathematical science pertaining to
the
collection
analysis
interpretation
or
the
collection
,
analysis
,
interpretation
or
explanation,andpresentation of data”
Các bước chínhCác bước chính
1. Thu thậpsố liệu
2. Phân tích số liệu
3. Phiên giảikếtquả
4. Trình bày kếtquả
3
Bằng chứng
Phiên giải
Thông tin
Phân tích
Số liệu
Kết quả của việc thu thập các
đặc tính của các đối tượng
4
Số đo về chiều cao, cân nặng,
huyếtápcủa
từng người trong một
Số liệu
Số liệu, thông tin và bằng chứng
huyết
áp
của
từng
người
trong
một
nhóm đối tượng NC
Giá trị trung bình của chiều cao, cân
nặng, tỷ lệ cao huyết áp của cả
nhóm đối tượng NC
Số
liệu
Thông tin
Bằng chứng
Giá trị trung bình của chiều cao, cân
nặng, tỷ lệ cao huyết áp của một
cộng đồng so với các năm trước,
hoặc với cộng đồng khác.
CácCác dạngdạng sốsố liệuliệu((biếnbiếnsốsố))
Số liệu định lượng
Rờir
ạ
c
(
discrete
)
:khôn
g
có
g
iá tr
ị
th
ập
p
hân
ạ
()
g
g
ị
ập
p
Liên tục (continuous): Có giá trị thậpphân
Số liệu định tính
Danh mục (nominal, categorical)
Thứ h
ạ
n
g
(
ordinal
)
ạ g
()
Nhị phân (binominal)
5
Dạng số liệu ?Dạng số liệu ?
Biến sốĐịnh lượng Định tính
Rời rạcLiên tục Định
dh
Thứ
h
Nhị phân
d
an
h
h
ạng
Số răng
Tuổi
Hàm lượng
đường máu
Học vấn
C hết á
C
ao
h
uy
ết á
p
(có, không)
Mức độ trầm
trọng của
bệnh
Nghề nghiệp
Quần thể và mẫuQuần thể và mẫu
Quần thể
Toàn bộ các cá thể mà chúng ta đang quan tâm
Quần
thể
Toàn bộ các cá thể mà chúng ta đang quan tâm
Mẫu
Là 1 phầncủaquầnthể,baogồmnhững cá
thể mà chúng ta sẽ nghiên cứu
6
Thống kê mô tảThống kê mô tả suy luậnsuy luận
Thống kê mô tả (Descriptive statistics):
Kỹ thuật dùng để mô tả các đặctính
ủ
ẫ
c
ủ
am
ẫ
u
Thống kê suy luận (Inferential
statistics): Quá trình suy luậntừđặc
tính củamẫurađặctínhcủaquầnthể
Thống kêThống kê
Q
uần thể
Q
Chọn mẫu Thống kê
suy luận
Mẫu
Thống kê mô tả
7
Thống kê mô tả biến định lượngThống kê mô tả biến định lượng
Đolường độ tập trung (Location)
Trung
bình
(mean)
Trung
bình
(mean)
Trung vị (median)
Mode
Đolường độ phân tán (Spread )
Khoảng số liệu(range)
Độ lệch chuẩn (Standard deviation)
Phương sai (Variance)
Trung bìnhTrung bình
34 27 45 55 22 34
8
Trung vịTrung vị
Dãy số lẻ
1
5
2
8
7
Trun
g
v
ị
=
5
1
,
5
,
2
,
8
,
7
Dãy số chẵn
1, 5, 2, 10, 8, 7
g ị
1, 2, 5, 7, 8, 10
trung vị= ((5 + 7)/2 = 12/2 = 6)
ModeMode
Giá trị xuấthiện nhiềunhất
12, 12.5, 11, 13, 12.5 -> Mode = 12.5
12, 12.5, 11, 13, 12.5, 8 -> Mode = 12.5
9
Khoảng số liệuKhoảng số liệu
120 140 120 150
130
160
180
165
130
160
180
165
170 150
Khoảng số liệu 120-180
Độ lệch chuẩnĐộ lệch chuẩn
)
(
2
1
)
(
2
−
−
=
∑
n
x
x
SD
i
10
Độ lệch chuẩnĐộ lệch chuẩn
Hb TB (x - TB) (x -TB)
2
12 11.5 - 0.5 0.25
12.5
11
13
12.5
8
11.5
11.5
11.5
11.5
11.5
-1
0.5
-1.5
-1
3.5
1
0.25
2.25
1
12.25
Tổng 17
SD = √ 17/(6-1) =1.84
Thống kê mô tảThống kê mô tả
Huyết áp tâm thu
120 130 120 150
130 170 180 160
170 150
Tính toán trun
g
bình, trun
g
vị, mode, khoản
g
số liệuvàđộ lệch chuẩn?
11
Thống kê mô tả biến định tínhThống kê mô tả biến định tính
Tầnsố
Tỷ
lệ
phần
trăm
Tỷ
lệ
phần
trăm
Bảng 2x2, nx n
Nguy cơ Kh. nguy cơ Tổng
Bệnh a b a+b
Không bệnh c d c+d
Tổng a+c b+d a+b+c+d
Thống kêThống kê
Q
uần thể
Q
Chọn mẫu Thống kê
suy luận
Mẫu
Thống kê mô tả
12
Thống kê suy luậnThống kê suy luận
Ướclượng điểm
Qu
ầ
nth
ể
Ướclượng khoảng
Kiểm định giả thuyết
Qu
ầ
n
th
ể
Mẫu
Chọn mẫu
Mẫu
Chọn mẫu Thống kê
suy luận
Thống kê
suy luận
Thống kê mô tả
Ước lượng khoảngƯớc lượng khoảng khoảng tin cậykhoảng tin cậy
(confidence interval)(confidence interval)
Thường chọnkhoảng tin cậy 95% (95%CI)
Khi
thự
hiệ
đ
đ
100
lầ
thì
it
hất
95
lầ
Khi
thự
c
hiệ
n
đ
o
đ
ạc
100
lầ
n
thì
it
n
hất
95
lầ
n
kếtquả nằm trong khoảng tin cậy
95% tin tưởng rằng giá trị thựccủaquầnthể
nằm trong khoảng tin cậy
95%CI= Trung bình
±
1,96
*
sai số chuẩn
95%CI= Trung bình
±
1,96 sai số chuẩn
13
Sai số chuẩn (standard errors)Sai số chuẩn (standard errors)
14
Khoảng tin cậyKhoảng tin cậy(CI)(CI)
Nghiên cứuvề huyết áp trên 200 người
cho
kết
quả
sau
:
cho
kết
quả
sau
:
trị số huyếtáptối đa trung bình là 123mmHg
(sd=2.5)
tỷ lệ cao huyết áp là 18%
Tính toán khoảng tin cậy 95% của
t ị
ố
h ết
á
tối
đ
t
r
ị
s
ố
h
uy
ết
á
p
tối
đ
a
tỷ lệ cao huyếtáp
Phiên giảikếtquả???
KiểmKiểm địnhđịnh giảgiả thuyếtthuyết
sử dụng trắcnghiệm (test) thống kê để đưarakếtluậnvề
giả thuyếtcủa nhà nghiên cứulàchấpnhận đượchaykhông
Quần thể
Chọn mẫu
Ngoại suy
Trắcnghiệmthống kê
Mẫu NC
Chọn
mẫu
Ngoại
suy
Trắc
nghiệm
thống
kê
15
Kiểm định giả thuyết
Giả thuyết Ho: Không có sự khác biệt
Giả thuyếtHa:Cósự khác biệt
Sai lầm
Thực tế→
H
0
đúng H
0
sai
↓ Quyết định
Chấp nhận H
0
√ Sai lầm II (β)
Loại bỏ H
0
Sai lầm I (α) √
16
Mức ý nghĩa thống kê
Loạibỏ sai lầmloạiI
α =0.05
á
ấ
ể
ả
ế
ú
p = probability= X
á
csu
ấ
t đ
ể
g
i
ả
thuy
ế
tHođ
ú
n
g
P<0.05 = Xác suất để giả thuyếtHođúng là < 5%
=Hoxảyrachỉ là may rủi
=Bácbỏ Ho
=Xácsuất để giả thuyếtHađúng là > 95%
=
Ha
xảy
ra
là
chắc
chắn
Ha
xảy
ra
là
chắc
chắn
=ChấpnhậnHa
P>0.05 = ???
Độ mạnh
Loạibỏ sai lầmloạiII
1
-
β
=
80
%
1
-
β
=
80
%
Thường dùng trong tính toán cỡ mẫu
17
Mức ý nghĩa
thống kê (α)
z (1-α/2)
.01 (99) 2.576
.02 (98) 2.326
05 (95)
1 960
.
05 (95)
1
.
960
.10 (90) 1.645
Độ mạnh
(1-β)
z (1-β)
80
0 842
.
80
0
.
842
.85 1.036
.90 1.282
.95 1.645
Thống kêThống kê
Q
uần thể
Q
Chọn mẫu Thống kê
suy luận
Mẫu
Thống kê mô tả
18
Mục tiêuMục tiêu
Tương quan, liên quanTương quan, liên quan
So sSo sánhánh, t, tìmìm ssựự khkhácác bibiệtệt
•So sánhtỷ lệ lạm dụng rượu
ở người khuyết tật và người
bình thường
Sáhthhậ ở 2ãủ
•Cân nặng có liên quan đến
chiều cao như thế nào
•Tỷ lệ mắcbệnh tim mạch có
li
ê
đế
h
út
th
ố
l
á
•
S
o s
á
n
h
th
u n
hậ
p
ở
2
x
ã
c
ủ
a
1 huyện
li
ê
n quan
đế
n
h
út
th
u
ố
c
l
á
,
chếđộăn như thế nào
Lựa chọn trắc nghiệm thống kêLựa chọn trắc nghiệm thống kê
MỤC TIÊU PHÂN TÍCH
BIẾNSỐ
So sánh sự khác biệt
Phâ tí h t
Biến định lượngBiến định lượng
Biến định tínhBiến định tính
1
2
3
MỤC
TIÊU
PHÂN
TÍCH
BIẾN
SỐ
Phâ
n
tí
c
h
t
ươn
g
quan
Biến
định
tínhBiến
định
tính
4
19
Kiểm định giả thuyếtKiểm định giả thuyết
1. Hình thành giả thuyết
2. Đề xuấtmứcýnghĩathống kê
3. LựachọnTNTKthíchhợp
4. ThựchiệnTNTKvàtínhtoángiátrị p
5. Phiên giảikếtquả
6. Kếtluận
So sSo sánh, tánh, tìm sự khác biệt ìm sự khác biệt
bibiếnến địnhđịnh llượngượng
P.bố chuẩn+k.chuẩnP.bố chuẩn+k.chuẩnPhân bố chuẩnPhân bố chuẩn
1 1
nhnhómóm
>>22
nhnhómóm
1 1
nhnhómóm
ANOVA
22
nhnhómóm
>>22
nhnhómóm
Kruskal
22
nhnhómóm
tt t đlậ
Si t t
t test
ANOVA
(ph.sai đ
nhất)
Đ.lập:
Mann-
Whitney
test
Gh. cặp:
Sign test
Kruskal
-
Wallis test
tt
es
t
đlậ
p
ttest g.cặp
Si
gn
t
es
t
20
So sSo sánh, ánh,
tìm tìm sự sự
khác biệt khác biệt
bibiếnến địnhđịnh
ÓÓ
1 NHÓM1 NHÓM CI, ZtestCI, Ztest
Giá trị mong đợi <Giá trị mong đợi <55Giá trị mong đợi >=5Giá trị mong đợi >=5
ttínhính
>1 NH
Ó
M>1 NH
Ó
M
Fisher's exact test Fisher's exact test Khi bKhi bìnhình phphươươngng
21
Phân tích tương quan
Biến định lượng:
Hệ số tương quan (r)
Hệ số tương quan (r)
pearson
spearman
Hồi quy tuyến tính
Biến định tính
Biến định tính
Tỷ suất chênh (OR), nguy cơ tương đối (RR)
Hồi quy logistic
Tương quan giữa 2 biến đ.lượng
• Nghiên cứu mối liên hệ giữa cân nặng của 20 trẻ 5 tuổi
và thu nhậpgiađình
và
thu
nhập
gia
đình
g
của trẻ (kg)
Thu nhập gia đình ($)
Cân nặn
g
22
Hệ số tương quan (r)
Hệ số tương quan (r)
•Hệ số tương quan r
–
Có
g
iá tr
ị
từ -1 đến +1
g ị
• Khi HSTQ > 0 ⇒ tương quan đồng biến
• Khi HSTQ < 0 ⇒ tương quan nghịch biến
• Càng gần 1 ⇒ tương quan càng chặt
–Quy ước:
• <0,3: tương quan yếu
•>=
0,3
-
0,5:
tương quan TB
0,3
0,5:
tương
quan
TB
• >=0,5-0,7: tương quan chặt chẽ
• >=0,7: tương quan rất chặt chẽ
23
Hệ số tương quan (r)
Tương quan của 2 biến định tính
Khi muốn tìm cường độ mối liên quan giữa hai
biến định tính=> có thể sử dụng:
biến
định
tính=>
có
thể
sử
dụng:
––Tỷ suất chênh:Tỷ suất chênh: OR
–– Nguy cơ tương đối:Nguy cơ tương đối: RR
Phơi nhiễm Không phơi
nhiễm
Tổng
nhiễm
Bệnh a b a+b
Không bệnh c d c+d
Tổng a+c b+d a+b+c+d
24
Công thức tính OR
OR = ad/bc
95%CI :
–>1 Ö Yếu tố nguy cơ
–=1 Ö Không liên quan
dcba
Z
OR
/1/1/1/1
1
2/
+++
±
α
–<1 Ö Yếu tố bảo vệ
Tỷ suất chênh - OR
Nghiên cứu bệnh-chứng về mối liên quan giữa ăn thịt và
viêm ruộthoạitử
viêm
ruột
hoại
tử
25
Tỷ suất chênh - OR (tiếp)
•Nếu tỷ lệ ăn thịt ở nhóm bệnh (50/61) lớn hơn tỷ lệ này
ở nhóm chứng (16/57) có ý nghĩaTK
=>
có liên quan
ở
nhóm
chứng
(16/57)
có
ý
nghĩa
TK
có
liên
quan
giữa ăn thịt và bị hoại tử ruột
• Để tính được độ lớn của mối liên hệ => sử dụng OR
OR = ab/cd = 50 x 41/16 x 11 = 11,65
Khoảng tin cậy 95%: 4,87 - 27,85
Những người ăn thịt có nguy cơ bị hoại tử ruột
cao gấp hơn 11 lần so với người không ăn thịt!
Công thức tính RR
RR =
)/(
)/(
dcc
baa
+
+
95%CI :
dcba
Z
RR
/1/1/1/1
1
2/
+++
±
α
–>1 Ö Yếu tố nguy cơ
–=1 Ö Không liên quan
–<1 Ö Yếu tố bảo vệ