THỐNG KÊ CƠ BẢN VÀ
PHÂN TÍCH SỐ LIỆU
PGS. TS. Hồng Văn Minh
Hà nội- 2013
NỘI DUNG
1. Khái niệm cơ bản về thống kê
2. Lựa chọn trắc nghiệm thống kê
3. Tính tốn chỉ số nghiên cứu cơ bản
1
Trình bày và phiên giải?
Nam
n(%)
Nữ
n(%)
Chung
n(%)
Có bệnh
40 (66,7)
20 (33,3)
60 (100)
Khơng bệnh
50 (66,7)
25 (33,3)
75 (100)
Chung
90 (66,7)
45 (33,3)
135 (100)
Bảng 10: Tỷ lệ mắc bệnh theo giới
Nhận xét: Tỷ lệ mắc bệnh ở nam giới cao gấp 2 lần tỷ lệ mắc bệnh
ở nữ giới. Sự khác biệt có ý nghĩa thống kê với p<0.01
Trắc nghiệm thống kê?
1. So sánh tỷ lệ bác sỹ có thực hành lâm
sàng tốt ở 2 bệnh viện?
2. So sánh chi phí y tế của người dân
thành thị và nông thôn?
3. So sánh tổng điểm kiến thức của người
dân thuộc 3 xã?
2
Thống kê
“Phân mơn tốn học có nhiệm vụ thu thập,
phân tích, phiên giải và trình bày số liệu”
Thống kê
3
Số liệu là đối tượng chính của thống kê
Biến số# Hằng số
Các dạng số liệu (biến số)
Số liệu định lượng
Rời rạc (discrete): khơng có giá trị thập phân
Liên tục (continuous): Có giá trị thập phân
Số liệu định tính
Danh mục (nominal, categorical)
Thứ hạng (ordinal)
Nhị phân (binominal)
4
Dạng số liệu ?
Biến số
Định lượng
Rời rạc
Liên tục
Định tính
Định
danh
Thứ
hạng
Nhị phân
Tuổi
Trình độ
chun mơn
Điểm kiến
thức
Cao huyết áp
(có, khơng)
Mức độ trầm
trọng của
bệnh
Nghề nghiệp
Quần thể và mẫu
Quần thể
Toàn bộ các cá thể mà chúng ta đang quan tâm
Mẫu
Là 1 phần của quần thể, bao gồm những cá
thể mà chúng ta sẽ nghiên cứu
5
Thống kê mô tả- suy luận
Thống kê mô tả (Descriptive statistics):
Kỹ thuật dùng để mơ tả các đặc tính
của mẫu
Thống
kê
suy
luận
(Inferential
statistics): Q trình suy luận từ đặc
tính của mẫu ra đặc tính của quần thể
Thống kê
Quần thể
Chọn mẫu
Thống kê
suy luận
Mẫu
Thống kê mô tả
6
Thống kê mô tả biến định lượng
Đo lường độ tập trung (Location)
Trung bình (mean)
Trung vị (median)
Mode
Đo lường độ phân tán (Spread )
Khoảng số liệu (range)
Khoảng tứ phân vị (25%-75%) (Interquartile )
Độ lệch chuẩn (Standard deviation)
Phương sai (Variance)
Trung bình
34 27 45 55 22 34
7
Trung vị
Dãy số lẻ
Trung vị=5
1, 5, 2, 8, 7
Dãy số chẵn
1, 5, 2, 10, 8, 7
1, 2, 5, 7, 8, 10
trung vị= ((5 + 7)/2 = 12/2 = 6)
Mode
Giá trị xuất hiện nhiều nhất
12, 12.5, 11,
13, 12.5
-> Mode = 12.5
8
Khoảng số liệu (biên độ)
120 140 120 150
130 160 180 165
170 150
Khoảng số liệu 120-180
Độ lệch chuẩn
SD
( x x)
2
i
n 1
9
Độ lệch chuẩn
Điểm
12
12.5
11
13
12.5
8
TB
11.5
11.5
11.5
11.5
11.5
11.5
Tổng
(x - TB)
- 0.5
-1
0.5
- 1.5
- 1
3.5
(x -TB)2
0.25
1
0.25
2.25
1
12.25
17
SD = √ 17/(6-1) =1.84
Ví dụ
Điểm kiến thức
120
130
170
130
170
150
120
180
150
160
Tính tốn trung bình, trung vị, mode,
khoảng số liệu và độ lệch chuẩn?
10
Thống kê mơ tả biến định tính
Tần số
Tỷ lệ phần trăm
11
Thống kê
Quần thể
Chọn mẫu
Thống kê
suy luận
Mẫu
Thống kê mô tả
Thống kê suy luận
Ước lượng khoảng
Kiểm định giả thuyết
Quần thể
Chọn mẫu
Thống kê
suy luận
Mẫu
Thống kê mô tả
12
Ước lượng khoảng-khoảng tin cậy
(confidence interval)
Thường chọn khoảng tin cậy 95% (95%CI)
Khi thực hiện đo đạc 100 lần thì it nhất 95 lần
kết quả nằm trong khoảng tin cậy
95% tin tưởng rằng giá trị thực của quần thể
nằm trong khoảng tin cậy
95%CI= Trung bình± 1,96*sai số chuẩn
13
Sai số chuẩn (standard errors)
95%CI= Trung bình± 1,96*sai số chuẩn
Ví dụ: Khoảng tin cậy (CI)
Nghiên cứu về kiến thức SDT trên 150
người cho kết quả sau:
Điểm trung bình là 900 (sd=2.5)
Tỷ lệ có kiến thức tốt là 40%
Tính tốn khoảng tin cậy 95% của
Điểm kiến thức
Tỷ lệ có kiến thức tốt
Phiên giải kết quả???
14
Kiểm định giả thuyết
sử dụng trắc nghiệm (test) thống kê để đưa ra kết luận về
giả thuyết của nhà nghiên cứu là chấp nhận được hay không
Quần thể
Chọn mẫu
Ngoại suy
Trắc nghiệm thống kê
Mẫu NC
Kiểm định giả thuyết
Giả thuyết Ho: Không có sự khác biệt
Giả thuyết Ha: Có sự khác biệt
15
Ví dụ
Giả thuyết Ho:
Giả thuyết Ha:
Sai lầm
Thực tế
H0 đúng
H0 sai
Sai lầm II ()
Sai lầm I ()
Quyết định
Chấp nhận H0
Loại bỏ H0
16
Mức ý nghĩa thống kê
Loại bỏ sai lầm loại I
= 0.05
p = probability= Xác suất để giả thuyết Ho đúng
P<0.05
=
=
=
=
=
=
Xác suất để giả thuyết Ho đúng là < 5%
Ho xảy ra chỉ là may rủi
Bác bỏ Ho
Xác suất để giả thuyết Ha đúng là > 95%
Ha xảy ra là chắc chắn
Chấp nhận Ha
P>0.05
= ???
Độ mạnh
Loại bỏ sai lầm loại II
1- = 80%
Thường dùng trong tính tốn cỡ mẫu
17
Mức ý nghĩa
thống kê ()
z (1-/2)
.01 (99)
2.576
.02 (98)
2.326
.05 (95)
1.960
.10 (90)
1.645
Độ mạnh
(1-)
z (1-)
.80
0.842
.85
1.036
.90
1.282
.95
1.645
Thống kê
Quần thể
Chọn mẫu
Thống kê
suy luận
Trắc nghiệm thống kê
Mẫu
Thống kê mô tả
18
Lựa chọn trắc nghiệm thống kê
Mục tiêu
Xác định mối liên quan
Xác định sự khác biệt
So sánh điểm số thực hành
trước và sau can thiệp?
Điểm kiến thức liên quan đến
tuổi, trình độ, tuyến công tác?
Lựa chọn trắc nghiệm thống kê
MỤC TIÊU
BIẾN SỐ
Xác định sự khác biệt
1
Biến định lượng
2
3
Xác định liên quan
4
Biến định tính
19
1. Xác định sự khác biệt
biến định lượng
2
nhóm
1
nhóm
>2
nhóm
Ph bố
Chuẩn
Chuẩn &
K chuẩn
Ph bố
Chuẩn
Chuẩn &
K chuẩn
t test
Sign test
Wilcoxon
test
ttest đlập
ttest g.cặp
Đ.lập:
MannWhitney
test
Gh. cặp:
Sign test
Wilcoxon
test
Ph bố
Chuẩn
ANOVA
(ph.sai đ
nhất)
Chuẩn &
K chuẩn
KruskalWallis test
Kiểm định phân bố số liệu
20
Phân bố chuẩn
Xác định
sự khác
biệt
biến định
tính
1 NHĨM
Ztest
>1 NHĨM
Giá trị mong đợi >=5
Giá trị mong đợi <5
Khi bình phương
Fisher's exact test
21
Giá trị quan sát và mong đợi
Tốt
Không tốt
Tổng
Tỉnh
4
5
9
Huyện
3
3
6
Tổng
7
8
15
Giá trị mong đợi = (Tổng hàng * Tổng cột) / Tổng chung
Xác định mối liên quan
3. Biến định lượng:
Hệ số tương quan (r)
pearson
spearman
Hồi quy tuyến tính
4. Biến định tính
Tỷ suất chênh (OR), nguy cơ tương đối (RR)
Hồi quy logistic
22
Hệ số tương quan (r)
• Hệ số tương quan r
– Có giá trị từ -1 đến +1
• Khi HSTQ > 0 tương quan đồng biến
• Khi HSTQ < 0 tương quan nghịch biến
• Càng gần 1 tương quan càng chặt
– Quy ước:
•
•
•
•
<0,3:
>=0,3-0,5:
>=0,5-0,7:
>=0,7:
tương quan yếu
tương quan TB
tương quan chặt chẽ
tương quan rất chặt chẽ
Hệ số tương quan (r)
23
Tương quan của 2 biến định tính
Khi muốn tìm cường độ mối liên quan giữa hai
biến định tính=> có thể sử dụng:
– Tỷ suất chênh: OR
– Nguy cơ tương đối: RR
Tốt
Không tốt
Tổng
Tỉnh
4
5
9
Huyện
3
3
6
Tổng
7
8
15
OR và RR
>1
=1
<1
Yếu tố nguy cơ
Không liên quan
Yếu tố bảo vệ
24
TK mơ tả
(Đặc tính của
mẫu)
Định lượng
(Trung bình, trung vị,
mode, biên độ, độ lệch
chuẩn, phương sai)
Định tính
(Tần số, tỷ lệ %)
Định lượng
se= sd/sqrt(n)
Khoảng tin cậy
(Trung bình ± 1,96* SE)
Định tính
se=sqrt(p*(1-p)/n)
Phân tích
thống kê
Phân bố chuẩn
(ttest)
1 nhóm
Phân bố khơng chuẩn
(sign test, Wilcoxon test)
TK suy luận
( Ngoại suy từ
kết quả của
mẫu ra quần
thể)
Phân bố chuẩn
(ttest độc lập, ghép cặp)
2 nhóm
Phân bố khơng chuẩn
(Đ.lập: Mann-Whitney
test; Gh. cặp: Sign test,
Wilcoxon test )
Định lượng
Phân tích sự khác biệt
Định tính
(Khi bình phương, fisher
exact test)
Phân bố chuẩn phương
sai đồng nhất
(Anova test)
Trên 2 nhóm
Kiểm định giả thuyết (Trắc
nghiệm thống kê)
Phân bố chuẩn phương
sai khơng đồng nhất
(Kruskal-Wallis test)
Định lượng
Phân tích tương quan
Định tính
(OR, RR, hồi quy logistic)
Phân bố chuẩn
(Hệ số tương quan
pearrson, hồi quy tuyến
tính)
Phân bố khơng chuẩn
(Kruskal-Wallis test)
Phân bố khơng chuẩn
(Hệ số tương quan
spearman, hồi quy tuyến
tính chuyển dạng)
25