Đại cương về mục tiêu, biến số và phân tích số liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.85 MB, 27 trang )

1

Đại c#ơng về
Mục tiêu, Biến số và
Phân tích số liệu%
L!u Ngọc Hoạt
Vin YHDP và YTCC, ĐH Y Hà Nội
MT c th:
! Xỏc nh t l cao HA ca
ngi cao tui ti huyn A.
! Xỏc nh mt s yu t liờn
quan n tỡnh trng cao HA.
! ỏnh giỏ hiu qu ca mt s
gii phỏp can thip lm gim
t l tng huyt ỏp.

Tờn ti: Huyt ỏp ca ngi dõn ti
huyn A nm 2005 v mt s
yu t nh hng

MT chung: Xỏc nh t l cao HA ca ngi
cao tui ti huyn A nm 2005
v mt s yu t nh hng

Mi liờn quan gia tờn ti, mc tiờu chung
v mc tiờu c th
Mc tiờu 3
Mc tiờu 2
Mc tiờu 1
Mc tiờu chung
%

%
Tờn ti

Mc tiờu 3
Mc tiờu 2
Mc tiờu 1
Mc tiờu chung
Tờn ti

Cao HA ca ngi cao tui ti
huyn A nm 2005 v mt s yu
t nh hng
Xỏc nh t l cao HA ca ngi
cao tui ti huyn A nm 2005
v mt s yu t nh hng

! Xỏc nh t l cao HA ca

ngi cao tui ti huyn A.
! Xỏc nh mt s yu t liờn
quan n tỡnh trng cao HA.
! xut (v thm dũ) mt s
gii phỏp can thip lm gim
t l tng huyt ỏp.
Mc tiờu 3
Mc tiờu 2
Mc tiờu 1
Mc tiờu chung
Bin s 1
Bin s 2
Bin s 3
Bin s 4
Mi liờn quan gia mt s thnh phn ca NC
Bin s 1
Bin s 2
Bin s 3
Bin s 4
Bin s 1
Bin s 2
Bin s 3
Bin s 4
Tờn ti!
Định nghĩa Biến số%
Đặc tính của ng!ời, vật sự việc, hiện t!
ợng biến thiên theo các điều kiện
khác nhau
Do ng!ời nghiên cứu lựa chọn phù hợp
với từng mục tiêu nghiên cứu

Triển khai nghiên cứu chính là thu thập
số liệu cho các biến số này
Đối lập với biến số là các hằng số
2
Phân loại theo bản chất của biến số
Biến định l"ợng
Biến định tính
Biến liên tục
Biến rời rạc
Biến tỷ suất
Biến khoảng chia
Biến danh mục
Biến thứ hạng
Biến nhị phân
Bài tập 1: Phân loại các biến số
Định
tính
Định
l#ợng
Danh
mục
Thứ
hạng
Nhị
phân
Khoảng
chia
Tỷ
suất
Liên

tục
Rời
rạc
Tuổi
Hàm l"ợng đ"ờng
huyết
Độ cận, viễn của
mắt (đi ốp)
Số l"ợng hồng cầu
Nhiệt độ không khí
Giới
Dân tộc
Trình độ văn hoá
Số vi khuẩn/vi tr"
ờng
Bài tập 1: Phân loại các biến số
Định
tính
Định
l#ợng
Danh
mục
Thứ
hạng
Nhị
phân
Khoảng
chia
Tỷ
suất

Liên
tục
Rời
rạc
Tuổi X X X
Hàm l"ợng đ"ờng
huyết
X X X
Độ cận, viễn của
mắt (đi ốp)
X X X
Số l"ợng hồng cầu X X X
Nhiệt độ không khí X X X
Giới X X
Dân tộc X X
Trình độ văn hoá X X
Số vi khuẩn/vi tr"
ờng
X X X
Phân loại theo mối t!ơng quan giữa các
biến số
Biến độc lập
(phơi nhiễm)
Biến phụ
thuộc (bệnh)
Yếu tố nhiễu
" Nhiễu là yếu tố làm sai lệch ảnh h"ởng của phơi nhiễm
với bệnh (thay đổi độ lớn và ý nghĩa thống kê)
" Biến độc lập, phụ thuộc và nhiễu đ"ợc xác định bởi ng"
ời nghiên cứu và chỉ có ý nghĩa trong nghiên cứu đó.

3
Tiêu chuẩn của 1 yếu tố nhiễu%
# Phải là 1 yếu tố nguy cơ đối với bệnh
# Phải có liên quan đối với phơi nhiễm nh!
ng không lệ thuộc vào phơi nhiễm
# Không phải là yếu tố trung gian giữa phơi
nhiễm và bệnh
# Phải thực sự tác động lên mối t!ơng quan
giữa phơi nhiễm và bệnh (khẳng định khi
phân tích số liệu)
# Có thể đổi chỗ cho yếu tố phơi nhiễm tuỳ
theo mục đích ng!ời làm nghiên cứu
Tr#ờng hợp nào sau đây là nhiễu?%
E
E
E
D E
E
D
D
D
D
D
D
E
E
E D
D E
F F F
F F

F
F
F
F
F
Bài tập
Nếu muốn xác định các biến số cần và đủ cho
một nghiên cứu thì cần dựa vào cách nào d!ới
đây (chọn cách mà Anh/Chị cho là hợp lý nhất)?
A. Kinh nghiệm của các nghiên cứu t!õng tự đã
đ!ợc tác giả khác triển khai,
B. Cây vấn đề đ!ợc phát triển từ đề tài nghiên
cứu
C. Kế hoạch trình bày phần kết quả nghiên cứu
và bàn luận
D. Mục tiêu nghiên cứu
Phân biệt thống kê mô tả và
thống kê suy luận%
Thống kê mô tả:
là mô tả kết quả thu đ!ợc từ mẫu nghiên cứu
biểu thị độ lớn, sự phân bố của các tham số của
mẫu nghiên cứu nh! , độ lệch chuẩn, các tỷ lệ,
bảng, biểu, đồ thị sự phân bố theo các biến số
khác nhau nh! tuổi, giới, địa d!
Thống kê suy luận:
là quá trình ngoại suy kết quả nghiên cứu từ mẫu
ra quần thể nghiên cứu.
bao gồm 2 ph!ơng pháp: !ớc l!ợng và kiểm định
4
Quần thể đích%

Quần thể
nghiên cứu%
Mẫu%
Tham số quần thể%
(
à
,

, P )%
Mẫu xác suất%
- Ngẫu nhiên đơn !
- Ngẫu nhiên hệ thống!
- Mẫu phân tầng !
- Mẫu chùm !
- Mẫu nhiều bậc!
Mẫu không xác suất%
- Mẫu kinh nghiệm %
- Mẫu thuận tiện !
- Mẫu chỉ tiêu!
- Mẫu có mục đích.%
Chọn
mẫu%
Ước l#ợng%
điểm%
khoảng%
Kiểm định
giả thuyết%
Suy luận
thông kê
(Chỉ áp

dụng cho
mẫu xác
suất với
cỡ mẫu
đủ lớn)%
Kết luận ngoại suy!
Các test
thống kê
Giá trị p
Lựa chọn!
Mô tả các tham số mẫu%
(trình bày kết quả nghiên c&ú)%
Tham số mẫu%
( , s, p )!
X
Biến số!
Thống kê
mô tả%
Thống kê suy luận%
1. Thống kê mô tả%
Bài tập
Nu mt ngi nghiờn cu mun thu thp s liu
v huyt ỏp ti a ca cỏc i tng NC, cỏch thu
thp no di õy Anh/Ch cho l hp lý nht?
A. Phõn huyt ỏp thnh cỏc nhúm (vớ d < 90
mmHg; 90-120; 121-140 ) sau ú chn nhúm
thớch hp
B. Ghi y tr s huyt ỏp ti a ca tng i
tng.
C. Phõn i tng thnh hai loi cú v khụng cao

huyt ỏp ti a
D. Phõn thnh cỏc nhúm: huyt ỏp thp, bỡnh
thng, cao v rt cao
Bài tập
Nu mt ngi nghiờn cu mun thu thp s
liu v s iu thuc lỏ mt ngi hỳt trung
bỡnh/ngy, cỏch thu thp no di õy Anh/Ch
cho l hp lý nht?
A. Phõn thnh cỏc nhúm (vớ d < 5 iu; 5-10;
11-15; 16-20 ) sau ú chn nhúm thớch hp
B. Ghi chớnh xỏc s iu thuc hỳt trung bỡnh m
i tng ó tr li.
C. Phõn i tng thnh hai loi: hỳt trờn 1 bao
hoc di mt bao
D. Phõn thnh cỏc nhúm: hỳt nh, hỳt trung bỡnh,
hỳt nhiu, hỳt rt nhiu.
5
Ví dụ 1: Mô tả đặc điểm của cân nặng khi
đẻ của 500 trẻ mới sinh tại bệnh viện M:%
1. Khi cân nặng tính bằng gram (biến định l&ợng)!
$ Đo l!ờng độ tập trung của số liệu:
- Giá trị trung bình: với số liệu phân bố chuẩn
- Giá trị trung vị: với bộ số liệu phân bố không chuẩn
$ Đo l!ờng độ phân tán của bộ số liệu:
- Khoảng dao động (Max Min)
- Độ lệch chuẩn
2. Khi cân nặng tính theo mốc < hoặc 2500
gram (biến định tính)!
$ Tỷ lệ trẻ có cân nặng < 2500 gr
Ưu điểm của phân tích số liệu d#ới dạng

định l#ợng (ví dụ cân nặng khi đẻ của trẻ)%
BA
XX >>
P
A
= P
B
= 10%%
2500 gr%
50 trẻ 450 trẻ
B
2500 gr%
50 trẻ 450 trẻ
A
2500 gr%
50 trẻ 450 trẻ
A
Ưu điểm của phân tích số liệu d#ới dạng
định l#ợng (tiếp) (Huyt áp ti a)%
P
A
= P
B
= 60%%
120 mmHg%
300 ngi 200 ngi
A
120 mmHg%
300 ngi 200 ngi
B

BA
XX
s
B
>> s
A
%
Các nội dung chính của thống kê mô tả%
I. Tổng hợp các biến số%
Với các biến định tính:!
Tần số (frequency)!
Tỷ số (ratio)!
Tỷ lệ (proportion)!
Tỷ suất (rate)!
Với các biến định l&ợng: !
Đo l&ờng độ tập trung: giá trị trung bình,
trung vị, mốt!
Đo l&ờng độ phân tán: ph&ơng sai, độ lệch
chuẩn, %
6
Các nội dung chính của thống kê mô tả%
II. Trình bày số liệu bằng bảng: %
Bảng 1 chiều%
Bảng 2 chiều%
III. Trình bày số liệu bằng biểu và đồ thị %
Đồ thị cột: %
Cột rời, !
Cột chồng, !
Cột liên tục!
Đồ thị hình tròn%

Biểu đồ gấp khúc%
Biểu đồ đa giác%
Biểu đồ chấm (đám mây)%
Bản đồ%
1/ Tổng hợp số liệu với
các biến định tính
1.1. Tần số (frequency):%
Biểu thị số lần xuất hiện của 1 quan sát nào đó%
VD : Phân bố nhóm dân tộc trong số 22 ng#ời
nghiên cứu.
22%Tổng cộng%
6%Nùng%
12%Tày%
4%Kinh%
Tần số%Đếm số lần xuất hiện%
Giá trị biến%
1.2. Tỷ số (ratio):%
Là phân số mà mẫu số
không bao hàm tử số
% Tử số và mẫu số có thể khác nhau
về đơn vị đo l!ờng
% Hệ số k có thể là 1, 10, 100, 1000
% Ví dụ:
a%
x k%
b%
số học sinh nam

số học sinh nữ
số gi!ờng bệnh

dân số trong khu vực
7
1.3. Tỷ lệ (proportion):%
&Là 1 phân số mà mẫu số bao
hàm tử số, do vậy cả mẫu và
tử đều phải cùng đơn vị
a%
x k%
a + b%
% Hệ số k có thể là 1, 10, 100, 1000
% Khi k = 100, ta có tỷ lệ phần trăm (percentage)!
% Ví dụ:%
số học sinh nam
Tỷ lệ học sinh nam =
tổng số học sinh
số ng!ời mắc sốt rét
Tỷ lệ mắc sốt rét =
tổng số ng!ời đ!ợc khám
1.4. Tỷ suất (rate):%
Là 1 dạng đặc biệt của tỷ lệ khi nó đ!ợc đo l!
ờng trong một khoảng thời gian nhất định
Ví dụ:
số biến cố xẩy ra trong 1 khoảng thời gian
x k
dân số trung bình trong khoảng thời gian đó
% Hệ số k có thể là 1, 10, 100, 1000
% Ví dụ:%
số ng!ời bị sốt rét tại huyện A năm 2000
x 100

dân số trung bình của huyện A trong năm đó
2/ Tổng hợp số liệu với
các biến định l!ợng
2.1. Đo l#ờng độ tập trung:
Bài tập
Tham s no l thớch hp nht o
lng tp trung ca b s liu di
õy: 12, 15, 17, 20, 23, 24, 26, 28, 80
A. Trung v
B. Khong phn trm
C. Giỏ tr trung bỡnh
D. lch chun
8
Đ!ợc tính bằng tổng số các giá trị quan sát đ!
ợc chia cho số lần quan sát.
Giá trị trung bình chỉ tính đ!ợc với các số dạng
liệu số (biến định l!ợng)
Ví dụ:!
Chiều cao của 7 em gái đo đ!ợc nh! sau:
141, 141, 143, 144, 145, 146, 155 cm (tổng
cộng tất cả chiều cao là 1015 cm)
Vì vậy trung bình bằng 1015/7, tức là 145 cm.
n
X
n
XXX
X
n
i
i

n

=
=
+++
=
121

# Trung bình số học (trung bình cộng):
Là giá trị giữa của 1 bộ số liệu khi chúng đ!ợc sắp
xếp theo thứ tự tăng dần hoặc giảm dần.
Giá trị này chia sự phân bố của số liệu thành hai
phần bằng nhau
!
Ví dụ:!
ta có bộ số liệu: 47, 41, 44, 43, 42, 40, 72 kg.
để tính trung vị, tr!ớc hết sắp xếp số liệu theo thứ tự:
40, 41, 42, 43, 44, 47, 72 kg.
trung vị sẽ là giá trị của quan sát thứ (n+1)/2, tức là
(7+1)/2 =4, và giá trị thứ 4 = 43 kg là trung vị.
Với bộ số liệu: 40, 41, 42, 43, 44, 47, 49 và 72 thì trung
vị là giá trị trung bình cộng của giá trị thứ 4 và thứ 5 =
(43+44)/2 = 43,5
# Trung vị (giá trị trung tâm):
Là giá trị quan sát đ!ợc nhiều lần nhất trong bộ số liệu
Trong bộ số liệu d!ới đây:141, 141, 143, 144, 145, 146,
155 thì 141 đ!ợc coi là mốt vì quan sát đ!ợc nhiều lần
nhất.
Mốt ít có giá trị trong đo l!ờng độ tập trung của bộ số liệu
khi ở dạng định l!ợng, nh!ng có giá trị với bộ số liệu phân

nhóm, hoặc biến định tính
Ví dụ: Trong bảng d#ới, nhóm tuổi 36-45 là mốt
Nhóm
tuổi
Tần số Nhóm
tuổi
Tần số Nhóm tuổi Tần số
< 5 15 26-35 67 56-65 43
5-15 24 36-45 120 66-75 27
16-25 32 46-55 94 >75 12
# Mốt:
Phân biệt về giá trị trung bình, trung vị
và mốt:
Mốt = 10
Trung vị = 11
Trung bình = 11,3
Đo l"ờng (cm)
9
Ví dụ phân bố chuẩn%
Frequency
bwt
709% 4990%
0%
29%
Phân biệt về giá trị trung bình, trung vị
và mốt (tiếp):
Giá trị trung bình đ#ợc sử dụng th#ờng xuyên
hơn và có giá trị khi bộ số liệu là 1 phân bố
chuẩn.%
Khi bộ số liệu phân bố không chuẩn, trung vị có

ý nghĩa hơn:%
Ví dụ: !
Với bộ số liệu này: 40, 41, 42, 43, 44, 47, 72 thì giá
trị trung bình = 47, trong khi giá trị trung vị bằng 43.
Nếu ta thay giá trị 72 trong bộ số liệu trên = 51, giá
trị trung vị không đổi, nh!ng giá trị trung bình chỉ còn
là 44!
2/ Tổng hợp số liệu với các
biến định l!ợng (tiếp)
2.2. Đo l#ờng độ phân tán:
# Khoảng số liệu (range): %
Là hiệu giữa hai giá trị đo l!ờng cao nhất và thấp nhất
trong một bộ số liệu.
Khoảng số liệu (R) = X
max
X
min
Ví dụ: nếu cân nặng của 7 phụ nữ là 40, 41, 42, 43, 44,
47 và 72 kg, khoảng quan sát sẽ là 72 - 40 = 32 kg.%
1
)(
1
2
2

=

=
n

XXi
s
n
i
# Ph#ơng sai (variance)%
Là tổng bình ph!ơng các
khoảng cách giữa giá trị quan
sát so với giá trị trung bình chia
cho số các quan sát trừ đi 1.
# Độ lệch chuẩn (standard
deviation)%
2
ss =
10
# Ví dụ minh hoạ:
X
# Ví dụ minh hoạ (tiếp):
6
10
0
30

1 2 1 0 4
Bình ph!ơng khoảng chênh
lệch giữa giá trị quan sát so
với giá trị trung bình
1 2 -1 0 -2
Khoảng chênh lệch so với giá
trị trung bình
7 8 5 6 4

Tỷ lệ phụ nữ làm kinh tế giỏi
(Xi)
01 00 99 98 97
)( XXi
5,2
4
10
1
)(
1
2
2
==

=

=
n
XXi
s
n
i
X
2
)( XXi
58,15,2 == s
# Hệ số biến thiên (coeficient of variation)%
Là tỷ số giữa độ lệch chuẩn và trị tuyệt đối của giá trị trung
bình

Hệ số biến thiên đ!ợc biểu thị bằng tỷ lệ phần trăm (%) và
biểu thị mức độ biến thiên của độ lệch chuẩn so với giá trị
trung bình
Giúp cho việc so sánh mức độ phân tán của nhiều bộ số liệu
với nhau:
Ví dụ:!
CV của cân nặng nam =12/60 = 20%
CV của cân nặng nữ = 8/54 = 15%
Vậy bộ số liệu của cân nặng nam phân tán hơn
X
s
CV =
8 54 Cân nặng nữ thanh niên
12 60 Cân nặng nam thanh niên
s
X
Thống kê mô tả: Quan tâm đến mẫu NC
Tổng hợp số liệu:
tỷ lệ, tỷ số, tỷ suất
Độ tập trung, độ phân tán của bộ số liệu định l!ợng
Trình bày kết quả nghiên cứu:
Bảng
Biểu đồ, đồ thị
Thống kê suy luận: quan tâm đến quần thể
Ước l!ợng :
Điểm,
Khoảng
Kiểm định giả thuyết

Khác nhau
T!ơng quan
11
2. Thống kê suy luận %
2.1. Ước l#ợng điểm, khoảng%
Phân biệt #ớc l#ợng và kiểm định%
!ớc l!ợng:
ngoại suy từ tham số mẫu ra tham số quần thể:
từ trung bình của mẫu ( ) sang TB quần thể (à)
từ tỷ lệ của mẫu (p) sang tỷ lệ của quần thể (P)
từ OR, RR, r của mẫu ra quần thể.
Kiểm định giả thuyết:
so sánh 2 hoặc nhiều quần thể NC từ sự khác biệt
của 2 hoặc nhiều mẫu rút ra từ các quần thể đó.
kiểm định mối t!ơng quan của quần thể dựa theo
mối t!ơng quan thu đ!ợc từ mẫu
X
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh
tại huyện A: tham số mẫu và quần thể%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Mẫu%
500 trẻ%
12802954= sX
Tham số mẫu:
??=
à
Tham số QT:
!ớc l!ợng hay kiểm định?

Ví dụ: Cân nặng khi đẻ của trẻ mới sinh
tại huyện A: tham số mẫu và quần thể%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Mẫu%
500 trẻ%
Tỷ lệ trẻ (p) có cân nặng
< 2500 gram = 20%
!ớc l!ợng hay kiểm định?
Tỷ lệ trẻ (P) có cân nặng
< 2500 gram = ?
12
Ví dụ: Cân nặng khi đẻ của trẻ mới sinh
tại huyện A và huyện B%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Trẻ sơ sinh%
tại huyện B%
6000 trẻ%
Mẫu%
500 trẻ%
Mẫu B%
500 trẻ%
?
12802954
8862785
>
!ớc l!ợng hay kiểm định?

* Ước l#ợng điểm:%
X=
à
P = p!
+ Với biến định l!ợng: $
+ Với biến định tính: $
% Nh!ợc điểm của !ớc l!ợng điểm:
% Ví dụ điểm thi của 9 sinh viên
Sinh viên số 1 2 3 4 5 6 7 8 9
Điểm đạt đ!ợc 9 8 7 9 6 4 5 8 3
Nếu coi 9 sinh viên
này là 1 quần thể $
56,6
9
385469789
=
++++++++
=
à
Nếu chọn ngẫu nhiên1 mẫu có 2 SV, ta
sẽ có 36 cơ hội.
N!%
%
n!(N-n)!%
* Ước l#ợng điểm (tiếp)%
Mẫu
số:

Cặp sinh viên
số:

Điểm của từng
sinh viên

Điểm trung bình của 2
sinh viên

1

1, 2

9

8

8,5

2

1, 3

9

7

8,0

3

1, 4

9

9

9,0

4

1, 5

9

6

7,5

5

1, 6

9

4

6,5

6

1, 7

9

5

7,0

7

1, 8

9

8

8,5

8

1, 9

9

3

6,0

9

2, 3

8

7

7,5

10

2, 4

8

9

8,5

11

2, 5

8

6

7,0

12

2, 6

8

4

6,0

36

8,9

8

3

5,5

* Ước l#ợng điểm (tiếp)%
Tần số quan sát với các trung bình mẫu khác
nhau (phân bố mẫu):
TB mẫu 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0
Tần số 1 1 2 2 4 5 5 4 4 3 4 1
13
Ví dụ phân bố chuẩn%
Frequency
bwt
709% 4990%
0%
29%
* Ước l#ợng khoảng%

+ Với biến định l!ợng: $
+ Với biến định tính: $
+ Công thức tổng quát:
Tham số quần thể = tham số mẫu Z
/2
.SE
SE (Sai số chuẩn) = độ lệch chuẩn của các
trung bình mẫu
Ước l!ợng khoảng còn dùng với nhiều tham số
mẫu khác nh! OR, RR, r
n
s
ZX
2/

à
=
n
pp
ZpP
)1.(
2/

=

* Nguyên lý #ớc l#ợng khoảng và
khoảng tin cậy%
à
2.2. Kiểm định giả thuyết%
* So sánh sự khác nhau giữa 2 nhóm%

14
Ví dụ 2: So sánh cân nặng khi đẻ của trẻ
mới sinh tại huyện A so với huyện B:%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Trẻ sơ sinh%
tại huyện B%
6000 trẻ%
Mẫu A%
500 trẻ%
Mẫu B%
500 trẻ%
1. Khi cân nặng của trẻ d#ới dạng gram%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Trẻ sơ sinh%
tại huyện B%
5000 trẻ%
Mẫu A%
500 trẻ%
Mẫu B%
500 trẻ%
?
Test t!
12802954
8862785
>
2. Khi cân nặng của trẻ d#ới dạng

< hoặc 2500 gram%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Trẻ sơ sinh%
tại huyện B%
5000 trẻ%
Mẫu A%
500 trẻ%
Mẫu B%
500 trẻ%
>%
?
Test

2
hoặc
Fisher test!
p
A
= 25% p
B
= 22%
2.2. Kiểm định giả thuyết%
* So sánh sự khác nhau giữa > 2 nhóm%
15
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Trẻ sơ sinh%

tại huyện B%
5000 trẻ%
Mẫu A%
500 trẻ%
Mẫu B%
500 trẻ%
12802954
10242645
>
1. Với biến định l#ợng%
Trẻ sơ sinh%
tại huyện C%
5000 trẻ%
Mẫu C%
500 trẻ%
8862785
<
?
?
Test ANOVA%
Trẻ sơ sinh%
tại huyện A%
5000 trẻ%
Trẻ sơ sinh%
tại huyện B%
5000 trẻ%
Mẫu A%
500 trẻ%
Mẫu B%
500 trẻ%

>
2. Với biến định tính%
Trẻ sơ sinh%
tại huyện C%
5000 trẻ%
Mẫu C%
500 trẻ%
>
?
?
Test

2 %
p
A
= 25% p
B
= 21% p
c
= 16%
Không %
ghép cặp%
t test !
cho cặp%
test t-student
hoặc Z test%
Khi so sánh
trên 2 nhóm%
ANOVA%
(F test)%

Phân tích%
sự%
khác nhau
Biến định
tính%
Biến định
l#ợng%
Ghép cặp%
Không %
ghép cặp%
Với tất cả
các loại
nghiên cứu%
McNemars
test (
2
)%

2
hoặc Fisher
test %
Khi so sánh%
2 nhóm%
Ghép cặp%
Không %
ghép cặp%
Ghép cặp%
t test !
cho cặp%
Tổng hợp phân tích

sự khác nhau
Phõn b tựy ý

Tng s bnh nhõn
Can thip mi
Can thip c
(hoc dựng
Placebo)
T l khi

Ln iu tr th
nht
Can thip mi
Can thip c
(hoc dựng
Placebo)
Ln iu tr
th hai
Nhúm B
Nhúm B
Nhúm A

Nhúm A

T l khi

T l khi

T l khi

16
2.2. Kiểm định giả thuyết%
Kiểm định mối t#ơng quan giữa 2
biến nhị phân%
Kiểm định mối
quan hệ nhân quả
Phân tích Sự"
T#ơng quan"
Đo l#ờng độ
lớn của mối t#
ơng quan %
Biến nhị
phân%
Biến định
l#ợng%
NC ngang/ %
NC bệnh-chứng%
Tỷ suất
chênh (OR)%
NC thuần tập/%
NC Thử nghiệm%
Nguy cơ t#
ơng đối (RR)
và OR!
Với tất cả các loại
nghiên cứu%
Phân tích t#
ơng quan và
hồi quy%
Test ý nghĩa

TK của mối t#
ơng quan%
Biến nhị
phân%
Với tất cả các loại
nghiên cứu%

2
hoặc
2

của
McNemars%
Phân tích t#
ơng quan và
hồi quy%
%
Với tất cả các loại
nghiên cứu%
%
Biến định
l#ợng%
Môí liên quan giữa tuổi và huyết áp tối đa %
sbp
age
17 70
110
220
- Hệ số t!ơng quan r
- Ph!ơng trình hồi quy tuyến tính

Bảng lựa chọn test thống kê%
Biến độc
lập
Biến
Phụ thuộc
1 biến định tính >2 biến
định tính
1 định l"
ợng
1 định
tính, 1
định l"
ợng
Nhiều biến
định tính
và/hoặc
định l"ợng
Có 2
nhóm
Trên 2
nhóm
1 biến định l"
ợng
Test
t
Test
ANOVA
Factorial
design
(thừa số)

Hệ số t"
ơng quan
r
hoặc hồi
quy tuyến
tính
ANCOVA Phân tích
hồi quy đa
biến
1 biến nhị
phân
OR, RR,

2
hoặc
Fisher
test

2
hoặc
Fisher
test
Phân tích
tầng
Test
t
Factorial
design
(thừa số)
Hồi quy

logistics
1 biến định
tính

2
hoặc
Fisher
test

2
hoặc
Fisher
test
Phân tích
tầng
ANOVA Factorial
design
(thừa số)
17
Một số test th#ờng dùng%
' Test
t student:
' Test Khi bình ph!ơng
' Test ANOVA
' Hồi quy và hệ số t!ơng quan
' Test Khi bình ph!ơng của Mc. Nemar
' Test
t ghép cặp
' Một số test phi tham số khác nh! test
Mann-Whitney U test, Wilcoxon signed-

rank test
)(
2

Test t ghép cặp%
x
1
x
2
d = x
1
x
2

1,5 1,7 - 0,2
1,7 1,9 - 0.2
2,1 2,2 - 0,1
1,6 1,9 - 0,3
2,4 2,4 0
Tổng - 0,8
- 0,8/5 = - 0,16
d
Chức năng hô hấp của 5 bệnh nhân hen tr"
ớc và sau khi dùng thuốc!
( )
( )
.14,3
051,0
16,0
051,0

5
114,0
114,0
)}1/(])({[
2
=

==
===
=
=
d
d
d
d
SE
d
t
n
s
SE
s
ndds
Tra bảng t với độ tự do %
n - 1 = 4, ta có p < 0,04 %
ĐK: Phân bố của d phải chuẩn
Test của Mc. Nemar%
Tr!ớc điều trị
Tổng
Thấp BT

Sau điều
trị
Thấp
a b a + b
BT
c d c + d
Tổng
a + c b + d
2

;
c
b
OR =
Chức năng hô hấp của bệnh nhân hen tr"
ớc và sau khi dùng thuốc!
cb
cb
+

=
2
2
)(

Mann-Whitney U test%
Chỉ định: So sánh 2 nhóm độc lập khi số liệu là định
l!ợng hoặc thứ hạng, phân bố không chuẩn
Ví dụ: So sánh tác dụng điều trị đau đầu của Aspirin và
placebo thông qua việc tự cho điểm của bệnh nhân

Aspirin n=8 7,5 8,3 9,1 6,2 5,4 8,3 6,5 8,4
Placebo n=10 3,1 5,6 4,5 6,2 5,1 5,3 5,5 4,1 4,3 4,2
Xếp thứ tự các giá trị điểm trên không phân biệt nhóm
Quan sát 3,1 4,1 4,2 4,3 4,5 5,1 5,3
5,4
5,5
Thứ tự 1 2 3 4 5 6 7 8 9
Quan sát 5,6 6,2
6,2 6,5 7,5 8,3 8,3 8,4 9,1
Thứ tự 10 11,5 11,5 13 14 15,5 15,5 17 18
18
Mann-Whitney U test (tiếp)%
Tính tổng xếp hạng của nhóm điều trị (aspirin):
T = 8+11,5+13+14+15+16+17+18 = 112,5
Tính Z theo công thức:
Tra bảng Z ta đ!ợc p <0,003
]12/)1([
2/)1(
2121
211
++
++
=
nnnn
nnnT
Z
24,3
]12/)1108(108[
2/)1108(85,112
=

++
++
=
x
Z
Wilcoxon signed-rank test%
Chỉ định: So sánh 2 nhóm ghép cặp khi số liệu là
định l!ợng hoặc thứ hạng, phân bố không chuẩn
Ví dụ: So sánh ảnh h!ởng của số năm uống thuốc tránh thai
trên bệnh K vú trong 1 NC bệnh-chứng ghép cặp
Cặp 1 2 3 4 5 6 7 8 9 10
Ung th" 2,0 10,0 7,1 2,3 3,0 4,1 10,0 10,5 12,1 15,0
Chứng 1,5 9,1 8,1 1,5 3,1 5,2 1,0 9,6 7,6 9,0
Chênh lệch 0,5 0,9 -1,0 0,8 -0,1 -1,1 9,0 0,9 4,5 6,0
Bỏ dấu 0,5 0,9 1,0 0,8 0,1 1,1 9,0 0,9 4,5 6,0
Thứ tự 2 4,5 6 3 1 7 10 4,5 8 9
Thứ tự có dấu 2 4,5 -6 3 -1 -7 10 4,5 8 9
Wilcoxon signed-rank test (tiếp)%
Tính tổng thứ hạng mang dấu d!ơng T (bỏ
các thứ hạng mang dấu âm):
T = 2 + 4,5 + 3 + 10 + 4,5 + 8 + 9 = 41,0
áp dụng công thức:
Tra bảng Z ta có p = 0,16
]24/)12)(1([
4/)1(
++
+
=
nnn
nnT

Z
4,1
]24/)120)(110(10[
4/)110(1041
=
++
+
=Z
Phân tích hồi quy và t"
ơng quan trong NCKH
19
Các b#ớc xác định mối t#ơng
quan giữa 2 biến định l#ợng%
1. Chọn biến thích hợp để xác định mối
t"ơng quan:!
2. Biểu thị mối t"ơng quan giữa 2 biến
thích hợp bằng biểu đồ chấm:!
3. Viết ph"ơng trình hồi quy tuyến tính
nếu thích hợp!
4. Xác định hệ số t"ơng quan (r)!
1. Chọn biến thích hợp để xác định
mối t#ơng quan:%
* Ví dụ nào d!ới đây là thích hợp để xác định mối t!ơng
quan giữa 2 biến định l!ợng:
Hàm l"ợng chất độc trong máu và chất độc trong n"ớc
tiểu trên 1 nhóm đối t"ợng nghiên cứu!
Hàm l"ợng mỡ trong thức ăn và hàm l"ợng mỡ trong
máu của ng"ời ăn th"ờng ăn thức ăn đó,!
Số l"ợng hồng cầu trong máu và độ cao nơi ng"ời đó
sống so với mặt biển !

Chiều cao thanh niên giữa vùng thành thị và nông thôn!
Chiều cao của bố liên quan đến chiều cao của con !
2. Biểu thị mối t#ơng quan giữa 2 biến
thích hợp bằng biểu đồ chấm:%
Vẽ đồ thị
Quan sát đồ thị, mô tả mối t!ơng quan:
' Có t"ơng quan hay không?!
' T"ơng quan là tuyến tính hay không?!
' T"ơng quan tuyến tính có rõ ràng hay không? !
' T"ơng quan là thuận hay nghịch!
' Có thể viết ph"ơng trình hồi quy tuyến tính cho mối
t"ơng quan hay không?!
' Làm thế nào để cải thiện và xác định đúng mối t"
ơng quan giữa hai biến số này?!
Bằng biện pháp làm sạch số liệu?
Bằng cách tách chia nhỏ bộ số liệu?
gr sbp age:
sbp
age
17 70
110
220
20
gr sbp age, s([_n])
drop in 70
sbp
age
17 70
110
220

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23 24
25 26
27
28
29
30
31
32

33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62 63

64
65
66
67
68
69
70
sbp
age
17 70
110
185
- predict yhat
- gr sbp yhat age, c(.l)
age
sbp
Fitted values
17 70
110
185
3. Ph!ơng trình hồi quy tuyến tính
3.1. Viết ph#ơng trình: %
Dạng tổng quát: , 'y = a + bx '!
trong đó: ,!
X giá trị của biến độc lập !
Y giá trị của biến phụ thuộc ứng với giá trị X !
b hệ số hồi quy biểu thị độ dốc của đ#ờng hồi quy:%
a là số chặn đ#ợc tính bằng công thức: %
Giá trị a là bằng y khi x bằng 0 (zero). !

=

=
n
x
x
n
yx
yx
xx
yyxx
b
i
i
ii
ii
2
2
2
)(
))((
)(

))((
xbya =
21
3.2. Xem xét mối liên quan giữa Y và X
có ý nghĩa thống kê hay không?
Kiểm định với test t theo công thức: %
Tra bảng t với độ tự do = n - 2 để xác định t t#
ơng ứng với %
Kết luận dựa vào sự khác biệt giữa t tra từ
bảng và t tính từ công thức.%
2
222
)()2(
)()(
)(
XXn
XXbYY
b
bSE
b
t

==

3.3. Ước l!ợng hệ số hồi quy b từ
mẫu ra quần thể:
Hệ số hồi quy của quần thể đ#ợc ký hiệu là

%
Số chặn của quần thể đ#ợc ký hiệu là %
Công thức #ớc l#ợng khoảng cho hệ số hồi quy

của quần thể: %
%
* Chú ý: Hệ số hồi quy

và số chặn này khác
với và

trong xác định độ tin cậy%
2
222
2/
)()2(
)()(
XXn
XXbYY
tb

Viết ph!ơng trình hồi quy theo
STATA: Lệnh: reg sbp age %

Source | SS df MS Number of obs = 69

+ F( 1, 67) = 121.27
Model | 14951.2546 1 14951.2546 Prob > F = 0.0000
Residual | 8260.51351 67 123.291246 R-squared = 0.6441
+ Adj R-squared = 0.6388
Total | 23211.7681 68 341.349531 Root MSE = 11.104

sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
age | .9833276 .0892947 11.012 0.000 .8050947 - 1.161561
_cons | 103.3491 4.331896 23.858 0.000 94.70256 - 111.9956

Huyết áp tối đa = 103,35 + 0,98 tuổi%
Biến tuổi đóng góp 64% sự biến đổi của huyết áp tối đa %
* Điều kiện để có thể viết đ!ợc ph!ơng
trình hồi quy giữa 2 biến định l!ợng
Biểu đồ chấm thể hiện mối t#ơng quan tuyến tính rõ%
Có 1 mối quan hệ nhân quả giữa 2 biến%
Biến x đ#ợc lựa chọn bởi ng#ời nghiên cứu (không
ngẫu nhiên) trong khi biến y là ngẫu nhiên.%
Phân bố các giá trị của cả biến x và y phải chuẩn, %
Một giá trị của x th#ờng cho 1 tập hợp các giá trị của y
và chúng phải có các điều kiện sau:%
' Các tập hợp này phải đ&ợc phân bố chuẩn!
' Chúng có cùng giá trị ph&ơng sai!
' Giá trị trung bình của các tập hợp này phải nằm trên 1
đ&ờng thẳng (chính là đ&ờng hồi quy)!
Các giá trị y là độc lập với nhau, tức là không phụ
thuộc vào các giá trị khác nhau của x.%
22

4. Hệ số t!ơng quan (r)
Chỉ áp dụng với 2 biến định l&ợng có quan hệ
nhân quả, tuy nhiên không cần biết biến nào là
phụ thuộc hoặc độc lập!
!
4.1. Đo l#ờng độ lớn của t#ơng quan: %
Hệ số t#ơng quan %
Hoặc:

=
22
)()(
))((
YYXX
YYXX
r

=
2
2
2
2
)()(
))((

iiii
iiii
yynxxn
yxyxn
r
4.2. Một số đặc tính của hệ số t!
ơng quan (r):
Chỉ biểu thị mối t&ơng quan tuyến tính!
r dao động trong khoảng từ -1 đến +1. !
r càng gần 1 hoặc - 1 thì mối t&ơng quan giữa 2
biến càng lớn; !
r càng gần 0 (zero) thì t&ơng quan càng nhỏ. !
Khi r = 0, hai biến không có sự t&ơng quan
tuyến tính (nh&ng có thể có t&ơng quan dạng
khác).!
r là hệ số t&ơng quan xác định từ mẫu, trong khi
hệ số t&ơng quan của quần thể là rho (

). !
4.3. Kiểm định giả thuyết cho giá trị r:
Giả thuyết ,Ho: ,

= 0%
, , ,,Ha: ,

0%
Test thống kê:, %
Tra bảng t-student với độ tự do = n - 2 và t#
ơng ứng. %
Kết luận: Nếu t tính từ công thức > t tra từ bảng

( tức là p < ; Ho bị loại bỏ và mối t#ơng quan
giữa 2 biến có ý nghĩa thống kê và ng#ợc lại. ,%
2
2
1
2
)2(
)1(
)(
r
n
r
n
r
r
rSE
r
t

=

==
4.4. Hệ số t!ơng quan và hệ số xác định:
Tham số mẫu:,%
%
Tham số quần thể: ,%
%
ý nghĩa của hệ số xác định:%

2
rr =
2

=
r
2
= 0,25 r
2
= 0,15 r
2
= 0,50
Y Y
Y
X
X
X
23
5. VÝ dô vÒ mét sè bé sè liÖu kh«ng thÝch
hîp víi håi quy vµ t!¬ng quan: %
X1! Y1! X2! Y2! X3! Y3! X4! Y4!
10% 8.04% 10% 9.14% 10% 7.46% 8% 6.58%
8% 6.95% 8% 8.14% 8% 6.77% 8% 5.76%
13% 7.58% 13% 8.74% 13% 12.74% 8% 7.71%
9% 8.81% 9% 8.77% 9% 7.11% 8% 8.84%
11% 8.33% 11% 9.26% 11% 7.81% 8% 8.47%
14% 9.96% 14% 8.1% 14% 8.84% 8% 7.04%
6% 7.24% 6% 6.13% 6% 6.08% 8% 5.25%
4% 4.26% 4% 3.1% 4% 5.39% 19% 12.5%
12% 10.84% 12% 9.13% 12% 8.15% 8% 5.56%

7% 4.82% 7% 7.26% 7% 6.42% 8% 7.91%
5% 5.68% 5% 4.74% 5% 5.73% 8% 6.89%
- LÖnh: reg y1 x1

Source | SS df MS Number of obs = 11
+ F( 1, 9) = 17.99
Model | 27.5100011 1 27.5100011 Prob > F = 0.0022
Residual | 13.7626904 9 1.52918783 R-squared = 0.6665
+ Adj R-squared = 0.6295
Total | 41.2726916 10 4.12726916 Root MSE = 1.2366

y1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+
x1 | .5000909 .1179055 4.241 0.002 .2333701 - .7668117
_cons | 3.000091 1.124747 2.667 0.026 .4557369 - 5.544445

- LÖnh: reg y2 x2

Source | SS df MS Number of obs = 11
+ F( 1, 9) = 17.97
Model | 27.5000024 1 27.5000024 Prob > F = 0.0022
Residual | 13.776294 9 1.53069933 R-squared = 0.6662
+ Adj R-squared = 0.6292
Total | 41.2762964 10 4.12762964 Root MSE = 1.2372

y2 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
+

x2 | .5 .1179638 4.239 0.002 .2331475 - .7668526
_cons | 3.000909 1.125303 2.667 0.026 .4552978 - 5.54652

LÖnh reg Y1 X1
24
LÖnh reg Y2 X2
LÖnh reg Y3 X3
LÖnh reg Y4 X4
Ph©n biÖt sai sè ngÉu nhiªn vµ  
sai sè hÖ thèng%
oo
oo
oo
oo
oo
oo
oo
oo
o
oo
oooo
oooooooooo
oooooooooooooooooooooooo
oooooooooo
oooo
oo

Sai sè%
hÖ thèng%

May rñi%
80%
90%
mmHg%
A (®óng)%
%
B (sai)%
%
25
Sai số ngẫu nhiên và sai số hệ thống%
**
****
**
**
****
**
* *
* * *
* * * *
* * *
* *
* *
* * *
* * * *
* * *
* *
Khái niệm về nhiễu%
Mc l thuc Insulin
Tỡnh trng sng sút Khụng Cú
Sng 326 253

Cht 218 105
Tng cng 544 358
T l cht 40% 29%
Tng 1 < 40 tui
Mc l thuc Insulin
Tỡnh trng
sng sút
Khụng Cú
Sng 15 129
Cht 0 1
Tng cng 15 130
T l cht 0% 1%
Tng 1 40 tui
Mc l thuc Insulin
Tỡnh trng
sng sút
Khụng Cú
Sng 311 124
Cht 218 104
Tng cng 529 228
T l cht 41% 46%
Khái niệm về nhiễu và tác động t#ơng hỗ%
Loại nghiên cứu!
Giá trị chung và theo tầng!
Nhận xét!
Tầng 1! Tầng 2!
Chung 2
tầng (crude)!
1
2

3
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
1,02
1,74
0,96
1,86
3,00
0,45
4,00
1,00
1,83
Nhiễu và có tác
động t!ơng hỗ
giữa các tầng
4
5
6
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
4,00
1,00
1,83
4,00
1,00
1,83
4,00
1,00

1,83
Không nhiễu và
không có tác
động t!ơng hỗ
7
8
9
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
1,01
3,00
0,83
1,01
3,00
0,83
4,00
1,00
1,83
Nhiễu và không
có tác động t!
ơng hỗ
10
11
12
Thuần tập (RR)
Thuần tập (RR)
Bệnh chứng (OR)
1,07
3,00

0,36
9,40
0,33
6,00
4,00
1,00
1,83
Tác động t!ơng
hỗ rất lớn (làm
lu mờ nhiễu
Phơi nhiễm Bệnh
Tổng
Có Không
Có 200 800 1000
Không 50 950 1000
Tổng 250 1,750 2,000
Tầng 1: Có yếu tố nhiễu

Phơi
nhiễm
Bệnh Tổng
Có Không
Có 194 706 900
Không 21 79 100
Tổng 215 785 1000
Tầng 2: Không có YT nhiễu

Phơi
nhiễm
Bệnh Tổng

Có Không
Có 6 94 100
Không 29 871 900
Tổng 35 965 1000
RR hiệu chỉnh = 1.14 !
Ví dụ về việc phân tích tầng khử nhiễu

Đại cương về mục tiêu, biến số và phân tích số liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về