Tải bản đầy đủ (.pdf) (47 trang)

Bài giảng hồi quy SPSS

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (732.89 KB, 47 trang )

Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

HỒI QUY LOGISTICS
Mục tiêu:
Sau khi học xong bài này, học viên có khả năng:
1.
2.
3.
4.

Trình bày được nguyên lý của hồi quy logistic
Trình bày được các bước xây dựng mô hình hồi quy logistic
Kiểm soát được các vấn đề khi thực hiện hồi quy logistic
Thực hiện được phân tích trên SPSS và phiên giải kết quả

1.1 Giới thiệu
Nguy cơ và yếu tố nguy cơ
Trong dịch tễ học, chúng ta thường quan tâm đánh giá “cơ hội” một người bị phơi nhiễm
với một yếu tố nào đó sẽ dẫn đến bệnh. Dễ hiểu hơn, con số đo lường dịch tễ học cơ bản
nhất của việc đánh giá này chính là xác suất. Đó chính là xác suất một người sẽ bị bệnh
khi tiếp xúc với một phơi nhiễm cụ thể nào đó. Đo lường này gọi là nguy cơ.
Vậy, nguy cơ là xác suất mắc bệnh của một người khi tiếp xúc với một phơi nhiễm nào
đó. Yếu tố phơi nhiễm này được gọi là yếu tố nguy cơ.
Như vậy, giả sử chúng ta có n đối tượng có tiếp xúc với phơi nhiễm, trong đó, có e đối
tượng bị bệnh, chúng ta gọi nguy cơ bị bệnh khi tiếp xúc với phơi nhiễm này là r = e/n
Xác định yếu tố nguy cơ
Trong các nghiên cứu dịch tễ học, chúng ta thường quan tâm đến việc xác định một yếu
tố nguy cơ nào đó có liên quan đến một tình trạng sức khỏe quan tâm như bệnh tật hoặc
tử vong. Nếu chúng ta muốn phát triển mô hình thống kê để biểu diễn mối liên quan giữa
yếu tố nguy cơ và bệnh, thông thường chúng ta sẽ xem yếu tố nguy cơ là biến x và bệnh –
kết quả quan tâm – là biến y trong mô hình hồi quy. Khi đó, có thể hiểu nôm na rằng biến


x là nguyên nhân của biến y, biến kết quả. Trong rất nhiều trường hợp, kết quả quan tâm
là có bệnh hoặc không có bệnh, nói cách khác, chỉ có 2 giá trị. Biến y được gọi là biến
nhị phân. Xem xét ví dụ:
Yếu tố nguy cơ x có nhiều mức độ, x1, x2, …, xl.
Tương ứng với từng mức độ của yếu tố nguy cơ, có n1, n2, …, nl đối tượng phơi nhiễm.
Trong đó, tương tự có e1, e2, …, el đối tượng bị bệnh. Khi đó, chúng ta có tỷ lệ bị bệnh
của các đối tượng bị phơi nhiễm tương ứng từng mức độ yếu tố nguy cơ, tỷ lệ này còn
gọi là nguy cơ theo khái niệm được nêu ở trên.

1


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Bảng 1. Các mức độ của yếu tố nguy cơ và bệnh
Các mức độ của Số đối tượng bị Tổng số đối tượng
yếu tố nguy cơ
bệnh

Tỷ lệ bị bệnh

x1

e1

n1

R1 = e1/n1

x2


e2

n2

R2 = e2/n2









xl

el

n3

rl = el/nl

Ví dụ:
Bảng 2 là kết quả nghiên cứu về nguy cơ nhiễm Helicobacter pylori của McDonagh và
cộng sự (1997). Hình 1 mô tả sự thay đổi của tỷ lệ nhiễm theo từng mức độ khác nhau
của yếu tố nguy cơ. Nhìn chung, nguy cơ nhiễm H. pylori dường như gia tăng theo các
nhóm nguy cơ khác nhau. Chúng ta có thể nghĩ đến việc định lượng mối liên quan này
bằng mô hình hồi quy.
Bảng 2. Tỷ lệ nhiễm H. pylori theo các nhóm nghề nghiệp

Nghề nghiệp

Số lượng

Tỷ lệ bị nhiễm

(xếp nhóm)*

Số đối tượng bị Tổng số đối tượng
nhiễm H. pylori

H. pylori

I Trí thức – chuyên
gia

10

38

0.26

II Trí thức – trung
bình

40

86

0.46




36

57

0.63

IIIb Lao động tay
chân – có kỹ năng

226

300

0.75

IV Lao động tay
chân – trung bình

83

108

0.77

V Lao động tay chân
– không kỹ năng


60

73

0.82

IIIa Trí thức
chuyên môn

Ghi chú: * các khái niệm này được dịch ra từ nguyên bản tiếng Anh, tương ứng là: nonmanual, professional; non-manual, intermediate; non-manual, skilled; manual, skilled;
manual, partially skilled; manual, unskilled.

2


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Tỷ lệ nhiễm H. pylori

Hình 1. Tỷ lệ nhiễm H. pylori theo các nhóm nghề nghiệp

Hồi quy tuyến tính: vấn đề
Trong chương trước, chúng ta đã bàn luận về mô hình hồi quy tuyến tính (linear
regression ) trong việc xem xét mối quan hệ giữa biến phụ thuộc dạng liên tục và các biến
độc lập. Câu hỏi đặt ra là liệu mô hình hồi quy tuyến tính có phù hợp khi biến phụ thuộc
của chúng ta không phải là dạng biến liên tục. Hãy xem ví dụ về tỷ lệ tử vong theo tuổi
trong nghiên cứu của SHHS (Scottish Heart Health Study).
Bảng 0.1 Tỷ lệ tử vong theo tuổi
Tuổi


Số lượng
Tử vong

Tổng số đối tượng

Tỷ lệ
vong

40

1

251

0.4

41

12

317

3.8

42

13

309


4.2

43

6

285

2.1

44

10

236

4.2

45

8

254

3.1

46

10


277

3.6

47

12

278

4.3

48

10

285

3.5

49

14

276

5.1
3

tử



Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

50

15

274

5.5

51

14

296

4.7

52

19

305

6.2

53


36

341

10.6

54

26

305

8.5

55

21

276

7.6

56

28

325

8.6


57

41

302

13.6

58

38

260

14.6

59

49

302

16.2

Có thể nhận thấy rằng, nhìn chung, nguy cơ tử vong gia tăng theo tuổi mặc dù có một vài
nhóm tuổi có nguy cơ cao hơn hoặc thấp hơn.

Hình 0.1 Tỷ lệ tử vong theo tuổi
Mối liên quan giữa phơi nhiễm và kết quả có thể không phù hợp với liên quan tuyến tính.
Tỷ lệ (trong đó có nguy cơ – một dạng đặc biệt của tỷ lệ) có giá trị nằm trong khoảng

[0,1]. Như quan sát trong hình 3.1, khi các giá trị nằm trong khoảng này, chúng không
liên quan với nhau đúng theo mô hình tuyến tính. Điều này là do các giá trị có khuynh
hướng “chen chúc” nhau để nằm gọn trong khoảng giới hạn [0,1] này.

4


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Nếu sử dụng mô hình hồi quy tuyến tính, các giá trị ước lượng có thể nằm ra ngoài giá
trị ý nghĩa
Xem ví dụ ở bảng 3.1, mô hình hồi quy tuyến tính sẽ có dạng như sau:
Nguy cơ tử vong = -25.394 + 0.654 x tuổi
Theo tính toán, mô hình này có ý nghĩa thống kê và có thể giải thích được 78% sự thay
đổi của nguy cơ tử vong. Điều này có vẻ cho thấy việc sử dụng mô hình hồi quy tuyến
tính để giải thích mối liên quan là phù hợp. Tuy nhiên, giả định rằng chúng ta sẽ sử dụng
mô hình này để ước lượng nguy cơ tử vong của người 39 tuổi, nguy cơ này sẽ được tính
là:
Nguy cơ tử vong = -25.394 + 0.654 x 39 = -0.239
Như vậy, nguy cơ tính được có giá trị âm. Điều này là không hợp lý. Như vậy, mô hình
hồi quy tuyến tính không phù hợp trong việc mô tả mối liên quan giữa phơi nhiễm và
bệnh trong trường hợp này.
Sai số không có phân phối chuẩn
Mô hình hồi quy tuyến tính có dạng: y = α + βx + ε, trong đó ε là sai số. Một lưu ý trong
hồi quy tuyến tính là sai số phải có phân phối chuẩn. Tuy nhiên, biến y trong trường hợp
này (trường hợp biến kết quả là biến nhị phân) không có phân phối chuẩn mà là phân
phối nhị thức (binomial). Như vậy, giả định này cũng không phù hợp và mô hình hồi quy
tuyến tính không phải là phương pháp phù hợp để mô tả mối quan hệ giữa biến phụ thuộc
dạng phân loại và nhiều biến độc lập khác.
1.2 Nguyên lý và khái niệm cơ bản

Về mặt nguyên tắc, mô hình hồi quy logistic cũng có dạng tương tự mô hình hồi quy
tuyến tính, tuy nhiên, mô hình sử dụng phép biến đổi logit để khắc phục những điểm
chưa phù hợp nếu sử dụng mô hình hồi quy tuyến tính.
Khi biến đầu ra quan tâm có hai giá trị - ví dụ có hoặc không, mô hình hồi quy tuyến tính
không phù hợp vì khi đó, đo lường được sử dụng là tỷ lệ (hoặc nguy cơ).
Giả sử chúng ta phân tích mối liên quan giữa chủng ngừa vaccine A (phơi nhiễm) và
bệnh B thông qua xem xét tỷ lệ có chủng ngừa vaccine trong nhóm có bệnh và không có
bệnh. Một cách đơn giản, bảng 2 x 2 sẽ được xây dựng.

5


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Bảng 0.2 Minh họa bảng 2 x 2 mô tả mối liên quan giữa phơi nhiễm và bệnh
Bệnh

Phơi nhiễm

Tổng



Không

Có bệnh

a

b


a+b

Không bệnh

c

d

c+d

Tổng

a+c

b+d

N

Trong dịch tễ học, chúng ta có thể tính số chênh (odds) trong từng nhóm và từ đó tính tỷ
số số chênh (Odds ratio - OR). Thông thường, để tính nhanh, người ta tính OR bằng “tích
chéo”. Nghĩa là, khi odds của nhóm bệnh được tính là a/b và odds của nhóm chứng là c/d
thì tỷ số số chênh (OR) được tính:
Tỷ số số chênh (OR) = Odds của nhóm bệnh/ Odds của nhóm không bệnh
= (a/b)/(c/d) = ad/ bc
Tuy nhiên, odds cũng có thể được tính dựa trên tỷ lệ. Ví dụ odds của nhóm bệnh được
tính là tỷ lệ có chủng ngừa trong nhóm bệnh so với tỷ lệ không chủng ngừa trong nhóm
bệnh, tức là:
Odds của nhóm bệnh


= (a/a+b)/(b/a+b)

Gọi p là tỷ lệ có chủng ngừa trong nhóm bệnh, công thức trên trở thành
Odds = p/(1 – p)
Logit
Chúng ta có thể thấy rằng p có giá trị trong khoảng [0,1]. Với Odds = p/(1 - p), miền giá
trị của Odds nằm trong khoảng [0, +α). Khi đó:
ln(Odds) = ln[p/(1 - p)]
sẽ có miền giá trị là (-α,+α). Biến đổi ln(Odds) được gọi là logit. Nói cách khác,
logit=ln(Odds)
Với cách biến đổi này, chúng ta có thể áp dụng mô hình hồi quy tuyến tính như sau:
logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε
Phiên giải mô hình
Vì mô hình hồi quy tuyến tính như trên có giả định là ε tuân theo quy luật của phân phối
chuẩn giá trị kỳ vọng của logit cho bất kỳ giá trị nào của x sẽ là α + βx. Khi đó:
6


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Khi đó, Odds của x = 0 sẽ là:

và Odds của x = 1 sẽ là:

Vậy, OR được tính như sau :

Điều này có nghĩa là lũy thừa cơ số e của hệ số biến số độc lập x là OR.
Như vậy, bằng việc sử dụng biến đổi logit như trên, chúng ta có thể xây dựng được mô
hình hồi quy logistic – vẫn dựa trên nguyên lý của hồi quy tuyến tính – và tính toán được
OR – một đo lường dịch tễ quan trọng trong việc xác định mối liên quan giữa phơi nhiễm

và kết quả.
1.3 Xây dựng mô hình hồi quy logistic trong SPSS
Trong phần này, chúng ta sẽ sử dụng bộ số liệu Chilumba để minh họa xây dựng mô hình
hồi quy logistic trong SPSS. Bộ số liệu Chilumba.sav bao gồm số liệu của một nghiên
cứu bệnh chứng được tiến hành ở thành phố Chilumba nhằm tìm hiểu việc chủng ngừa
BCG có bảo vệ đối với bệnh phong hay không. Nghiên cứu này được tiến hành trên 1260
đối tượng bao gồm 252 trường hợp mắc bệnh phong và 1008 trường hợp chứng không
mắc bệnh phong.
Bảng 0.3 Bảng mã số liệu của bộ số liệu Chilumba
Tên biến

Giải thích

Mã giá trị của biến

maso

Mã cá nhân

Mã số cá nhân

benh

Loại đối tượng

1 = bệnh, 0 = không bệnh

nhtuoi

Nhóm tuổi


1 = 1/14 2=15/24 3 = 25/34 4 = 35-44 5 =
45+

gioi

Giới tính

0 = nam, 1= nữ

bcg

Tiêm BCG

0 = không, 1= có

hocvan

Học vấn (số năm đi
học)

1= không đi học; 2=1-3 năm 3=4-6 năm 4=
từ 7 năm trở lên

phongu

Tiếp xúc với phong u

0 = không 1= có
7



Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

(có nhiều vi khuẩn)
phongcu

Tiếp xúc với phong củ
(có ít vi khuẩn)

0 = không 1= có

Trong phần này, chúng ta sẽ xem xét làm thế nào xây dựng mô hình hồi quy logistic để
trả lời các câu hỏi nghiên cứu dịch tễ. Mô hình hồi quy này sử dụng cho biến kết quả là
biến nhị phân, do đó chúng ta sẽ lần lượt xem xét với các loại biến độc lập khác nhau: nhị
phân, thứ bậc, danh định, và định lượng.
1.3.1 Hồi quy logistic đơn biến
Một số nguyên lý chung
Tương tự trong phần phiên giải trên, mô hình hồi quy logistic đơn biến có dạng như sau:
y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε
Trong nghiên cứu, các giá trị của biến độc lập hoặc phụ thuộc được quy ước như sau:
x=

0

không phơi nhiễm

1

có phơi nhiễm


0

không bệnh

1

có bệnh


y=

Sử dụng biến đổi như trên khi x = 0 và x = 1, chúng ta tính được OR:

Nói cách khác, lũy thừa cơ số e của hệ số biến số độc lập x là OR. Độ lớn của OR cung
cấp thông tin về mức độ liên quan giữa biến số phơi nhiễm và bệnh.
OR > 1: phơi nhiễm là yếu tố nguy cơ
OR = 1: không có mối liên quan giữa phơi nhiễm và bệnh
OR < 1: phơi nhiễm là yếu tố bảo vệ
Tuy nhiên, OR có được từ mô hình hồi quy này là OR tính được của mẫu nghiên cứu,
chúng ta không biết được OR thật trong quần thể. Như vậy, chúng ta cần ước lượng OR
thật này để trả lời chính xác hơn có hay không có mối liên quan giữa phơi nhiễm và
bệnh.
Như vậy, câu hỏi đặt ra là mối liên quan được tìm thấy trong nghiên cứu có ý nghĩa thống
kê hay không. Nói một cách dễ hiểu, ý nghĩa thống kê trong ngữ cảnh này chính là OR
thật trong quần thể là như thế nào và liệu OR này có khác 1 hay không. Điều này đòi hỏi
8


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng


chúng ta phải tính toán sai số chuẩn (standard error - SE) cho OR và khoảng tin cậy của
OR. Vì OR là một tỷ số nên việc tính toán khoảng tin cậy phức tạp hơn thông qua
phương pháp gián tiếp. Một trong những phương pháp đó là phương pháp Woolf tiến
hành như sau:
Sử dụng lnOR
Sai số chuẩn của lnOR là

a

b

c

d

Theo quy luật của phân phối chuẩn, khoảng tin cậy của lnOR là
95% CI của lnOR: lnOR ± 1.96xSE
Sau khi đã tính được khoảng tin cậy của lnOR, chúng ta sẽ tính được khoảng tin
cậy của OR
95% CI của OR : elnOR ± 1.96xSE
Từ những biến đổi trên, có thể tính nhanh KTC 95% của OR là : OR
1.96SE

1.96SE và OR x

Trên thực tế, tất cả các tính toán này đều được các phần mềm phân tích thống kê hỗ trợ.
Chúng ta sẽ tham khảo cách phân tích trên SPSS ngay sau đây.
Ví dụ trong SPSS
Trong ví dụ nghiên cứu Chilumba, biến phụ thuộc quan tâm là biến bệnh – có bệnh hay

không có bệnh. Giả định chúng ta muốn xem mối liên quan giữa việc chủng ngừa vaccine
BCG và bệnh phong hay không, chỉ số thống kê quan trọng để trả lời câu hỏi này là OR.
Như đã phân tích ở trên, chúng ta có thể tính toán chỉ số này thông qua bảng 2 x 2, hoặc
bằng hồi quy logistic.
Thực hiện tính toán qua bảng 2 x 2 bằng cách sử dụng menu Analyze  Descriptive
Statistics  Crosstabs. Đưa biến phụ thuộc là bệnh vào Row và biến độc lập là chủng
ngừa vào Column. Lưu ý rằng đây không phải là nguyên tắc bắt buộc, chúng ta có thể
đưa các biến số vào hàng và cột tùy ý, tuy nhiên cần hiểu rõ chúng ta muốn tính toán theo
mẫu số nào để có các lựa chọn tỷ lệ chính xác.

9


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Chọn Cells. Vì đây là nghiên cứu bệnh chứng và chúng ta đang muốn xem xét tỷ lệ phơi
nhiễm trong nhóm bệnh và không bệnh nên chúng ta sẽ lấy phần trăm theo biến phụ
thuộc (ở Row).

Chọn tiếp Statistics và chọn Chi-square và Risk trong cửa sổ này

Kết quả như sau:

10


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng
1=benh, 0=khong * 0=khong 1=co Crosstabulation

1=benh, 0=khong


khong benh

benh

Total

0=khong 1=co
khong tiem
co tiem
534
474

Count
% within 1=benh,
0=khong
Count
% within 1=benh,
0=khong
Count
% within 1=benh,
0=khong

53.0%

47.0%

Total
1008
100.0%


210

42

252

83.3%

16.7%

100.0%

744

516

1260

59.0%

41.0%

100.0%

Chi-Square Tests

Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio

Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases

Value
76.830b
75.580
84.352

76.769

df
1
1
1

Asymp. Sig.
(2-sided)
.000
.000
.000

1

Exact Sig.
(2-sided)

Exact Sig.
(1-sided)


.000

.000

.000

1260

a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 103.
20.

Risk Estimate

Value
Odds Ratio for
1=benh, 0=khong
(khong benh / benh)
For cohort 0=khong
1=co = khong tiem
For cohort 0=khong
1=co = co tiem
N of Valid Cases

95% Confidence
Interval
Lower
Upper


.225

.158

.321

.636

.587

.689

2.821

2.124

3.747

1260

Kết quả là OR của chủng ngừa BCG là 0.225 (95%CI là 0.158 – 0.321), và giá trị kiểm
định Khi bình phương theo Likelihood Ratio là rất nhỏ (<0.001) chứng tỏ sự liên quan
giữa phơi nhiễm và bệnh trong nghiên cứu này có ý nghĩa thống kê. Nói cách khác,
chúng ta có 95% cơ sở để tin rằng chủng ngừa BCG là yếu tố bảo vệ đối với bệnh phong.
Thực hiện tính toán bằng hồi quy logistic như sau:
Sử dụng menu Analyze  Regression  Binary Logistic

11



Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Đưa biến bệnh vào ô Dependent (nghĩa là biến phụ thuộc) và biến chủng ngừa bcg vào ô
Covariates, giữ nguyên phương pháp xây dựng mô hình là Enter trong ô Method

Chọn Options để vào cửa sổ Logistic regression: Option. Chọn At last step ở khung
Display (lựa chọn này để tránh SPSS tạo ra nhiều kết quả không cần thiết). Chọn CI for
exp(B) để có khoảng tin cậy 95% của OR.

12


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Nhấp Continue và OK để hoàn tất. Kết quả như sau:
Case Processing Summary
Unweighted Cases
Selected Cases

a

Included in Analysis
Missing Cases
Total

Unselected Cases
Total

N
1260

0
1260
0
1260

Percent
100.0
.0
100.0
.0
100.0

a. If weight is in effect, see classification table for the total
number of cases.

Kết quả chỉ ra rằng có 1260 đối tượng trong nghiên cứu được đưa vào phân tích. Kết quả
trong phần Block 0 là mô hình chỉ có hằng số (chỉ có biến phụ thuộc). Với tỷ lệ không bị
bệnh trong nghiên cứu là 1008/1260 = 80% (tỷ lệ bị bệnh là 20%), khi không có thêm bất
kỳ thông tin gì khác, thì cách tốt nhất để tiên đoán với bất kỳ đối tượng nào, là đối tượng
đó không bị bệnh. Khi đó, chúng ta có khả năng đúng trong 80% trường hợp (overall
percentage).
Classification Tablea,b
Predicted

Step 0

Observed
1=benh, 0=khong

khong benh

benh

1=benh, 0=khong
khong benh
benh
1008
0
252
0

Overall Percentage
a. Constant is included in the model.
b. The cut value is .500

13

Percentage
Correct
100.0
.0
80.0


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Bảng Variables in the Equation cho chúng ta kết quả của mô hình khi chỉ có hằng số
(constant). Với B = -1.386, chúng ta có ln(odds) = - 1.386  Odds = exp[ln(odds)] =
exp(- 1.386) = 0.25. Điều này có nghĩa là số chênh ước tính (predicted odds) của
bệnh/không bệnh là 0.25. Kết quả này cũng đúng khi chúng ta tính toán trực tiếp với số
liệu quan sát (observed odds) là tỷ số giữa người có bệnh/người không bệnh = 252/1008

= 0.25.
Variables in the Equation

Step 0

Constant

B
-1.386

S.E.
.070

Wald
387.437

df
1

Sig.
.000

Exp(B)
.250

Tuy nhiên, mô hình chúng ta quan tâm là mô hình giữa 1 biến phụ thuộc và 1 biến độc
lập. Xem xét kết quả của Block 1. Kết quả Khi bình phương trong bảng Omnibus Test of
Model Coefficients có giá trị 84.352 và p < 0.001 (để ý rằng giá trị 84.352 này cũng
chính là giá trị kiểm định Khi bình phương theo phương pháp likelihood ratio ở trên bảng
2 x 2 được phân tích ở trên). Đây là kiểm định của giả thuyết Ho cho rằng “việc bổ sung

biến độc lập – chủng ngừa BCG vào mô hình không làm gia tăng khả năng ước
lượng/tiên đoán bệnh phong”, nói cách khác, việc đưa biến chủng ngừa vào mô hình là
không có ý nghĩa.
Omnibus Tests of Model Coefficients
Step 1

Step
Block
Model

Chi-square
84.352
84.352
84.352

df
1
1
1

Sig.
.000
.000
.000

Rõ ràng kết quả p < 0.001 ở trên cho thấy chúng ta không có cơ sở để chấp nhận giả
thuyết Ho này. Như vậy, sự có mặt của biến chủng ngừa BCG trong mô hình là có ý
nghĩa.
Trong bảng Model summary chúng ta có kết quả kiểm định -2log likelihood là 1176.663.
Đây là kiểm định nhằm xem xét mô hình này có thể tiên đoán/giải thích cho biến phụ

thuộc không tốt như thế nào. Giá trị -2log likelihood càng lớn thì mô hình càng tốt. Tuy
nhiên, bản thân giá trị này không quan trọng, chính hiệu số của nó giữa hai mô hình mới
có ý nghĩa. Chúng ta sẽ thảo luận về điều đó trong phần sau của bài này.
Giá trị R2 của Cox & Snell và Nagelkerke có thể được phiên giải như trong mô hình hồi
quy tuyến tính, tuy nhiên chúng ta không cần sử dụng các thông tin này.

14


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng
Model Summary
Step
1

-2 Log
Cox & Snell
likelihood
R Square
1176.663a
.065

Nagelkerke
R Square
.102

a. Estimation terminated at iteration number 5 because
parameter estimates changed by less than .001.

Bảng Variable in the Equation cho kết quả của mô hình:
Variables in the Equation


Step
a
1

bcg
Constant

B
-1.490
-.933

S.E.
.180
.081

Wald
68.221
131.286

df
1
1

Sig.
.000
.000

Exp(B)
.225

.393

95.0% C.I.for EXP(B)
Lower
Upper
.158
.321

a. Variable(s) entered on step 1: bcg.

Với kết quả trên, mô hình có dạng:
ln(odds) = - 0.933 – 1.49 x chủng ngừa BCG
Chúng ta có thể sử dụng mô hình này để ước lượng Odds của 1 đối tượng có chủng ngừa
BCG sẽ có tình trạng bệnh phong như thế nào.
Giả định một người không chủng ngừa BCG (x = 0), chúng ta có:
ln(Odds) = - 0.933 – 1.49 x chủng ngừa BCG = - 0.933 – 1.49 x 0 = - 0.933
Do đó, Odds = e-0.933 = 0.393. Điều này có nghĩa là người không chủng ngừa BCG có
0.393 khả năng bị mắc bệnh phong.
Tương tự với 1 người có chủng ngừa BCG (x = 1):
ln(Odds) = - 0.933 – 1.49 x chủng ngừa BCG = - 0.933 – 1.49 x 1 = - 2.423
Do đó, Odds = e-2.423 = 0.089. Điều này có nghĩa là người có chủng ngừa BCG chỉ có
0.089 khả năng mắc bệnh phong.
Từ hai kết quả trên, giá trị OR của chủng ngừa BCG là:
OR = Odds có chủng ngừa Odds không chủng ngừa = 0.089/0.393 = 0.225. Đây cũng
chính là kết quả Exp(B) trong bảng trên. Nói cách khác, chúng ta có thể tính toán để hiểu
và có thể sử dụng các thông tin Odds của từng nhóm tương ứng, hoặc chúng ta sử dụng
kết quả Exp(B) để trình bày giá trị OR và khoảng tin cậy 95% của nó. Kiểm định Wald
trong Variables in the equation là kiểm định cho biết ý nghĩa của từng biến số trong mô
hình – kiểm định hệ số hồi quy B.
Kiểm định hệ số hồi quy B

15


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Như đã phân tích ở trên, lũy thừa cơ số e của hệ số hồi quy là OR. Do đó, kiểm định
Wald sẽ kiểm định hệ số hồi quy B có khác 0 hay không (tức OR có thực sự khác 1 hay
không).
Kiểm định Wald – được gọi là kiểm định Khi bình phương Wald (Wald chi-square) với
giá trị kiểm định 2 = (B/se)2 với 1 bậc tự do để kiểm chứng khoảng tin cậy 95% của OR
có chứa giá trị 1 hay không (nếu khoảng tin cậy 95% chứa giá trị 1, hệ số B không có ý
nghĩa trong mô hình).
Cần lưu ý là kiểm định Wald mặc dù dễ tính toán nhưng ít tin cậy, đặc biệt khi cỡ mẫu
nhỏ.
Kết quả kiểm định trong ví dụ này cho thấy, mô hình với biến phụ thuộc là bệnh và biến
độc lập là chủng ngừa BCG có ý nghĩa (với mức ý nghĩa p<0.001). Nói cách khác, chủng
ngừa BCG có liên quan đến bệnh phong.
Bởi vì bệnh phong là bệnh hiếm nên OR là ước lượng xấp xỉ của nguy cơ tương đối. Như
vậy, người được tiêm chủng BCG có nguy cơ mắc bệnh phong chỉ vào khoảng 22,5% so
với người không tiêm BCG.
Ngoài ra, như đã bàn luận ở phần trên, chúng ta có Odds = p/(1 - p). Như vậy, p =
Odds/(1 + Odds). Nói cách khác, chúng ta có thể suy luận tỷ lệ từ giá trị Odds tính được.
-

-

Với Odds = 0.393 chúng ta có p = 0.393/1.393 = 0.282. Điều này cho thấy mô
hình giúp tiên đoán rằng có 28.2% người không chủng ngừa BCG sẽ mắc bệnh
phong.
Với Odds = 0.089 chúng ta có p = 0.089/1.089 = 0.082. Điều này cho thấy mô

hình giúp tiên đoán rằng chỉ có 8.2% người có chủng ngừa BCG sẽ mắc bệnh
phong.

Kết quả của hồi quy logistic có thể được sử dụng để phân nhóm các đối tượng có khả
năng bị bệnh hoặc không bị bệnh. Như đã tính toán ở trên, mô hình cho phép tiên đoán
rằng xác suất bị bệnh của người không chủng ngừa là 28.2% và của người có chủng ngừa
là 8.2%. Để có thể sử dụng các thông tin trên để phân nhóm đối tượng, chúng ta cần có 1
nguyên tắc. Nguyên tắc được sử dụng như sau: nếu xác suất của một sự kiện lớn hơn
hoặc bằng một giá trị quy ước nào đó, chúng ta có thể tiên đoán rằng sự kiện ấy sẽ xảy ra.
Trong SPSS, chương trình mặc định giá trị đó là 0.5 (hoặc 50% - giá trị cut value trong
bảng Classification table). Sử dụng mặc định này, chương trình sẽ xếp các đối tượng vào
nhóm bệnh nếu xác suất tiên đoán là ≥ 0.5.

16


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng
Classification Tablea
Predicted

Step 1

Observed
1=benh, 0=khong

khong benh
benh

1=benh, 0=khong
khong benh

benh
1008
0
252
0

Overall Percentage

Percentage
Correct
100.0
.0
80.0

a. The cut value is .500

Bảng trên cho kết quả rằng xác suất mắc bệnh tiên đoán là thấp, và tương tự kết luận
trong Block 0, khi không có thêm thông tin gì khác, cách tốt nhất để tiên đoán là đối
tượng không bị bệnh, và chúng ta có khả năng đúng trong 80% trường hợp. Lưu ý trên
thực tế phân tích và phiên giải kết quả, chúng ta không cần lý giải quá chi tiết các thông
tin này.
Yếu tố nguy cơ là biến thứ bậc
Giả định chúng ta muốn quan tâm mối liên quan giữa bệnh phong và tuổi. Trong bộ số
liệu này, biến tuổi được phân thành 5 nhóm 1 = 1/14 2=15/24 3 = 25/34 4 = 35-44 5 =
45+, như vậy, biến tuổi là biến thứ bậc.
Mô hình giả định biến độc lập có tính khuynh hướng
Bây giờ chúng ta xem xét mô hình hồi quy giữa biến phụ thuộc là bệnh phong và biến
độc lập là tuổi trong đó có giả định về tính khuynh hướng của OR. Điều này có nghĩa là
chúng ta giả định rằng sự khác biệt giữa các lớp tuổi kế cận nhau (thí dụ lớp tuổi 15/24 so
với lớp 1/15 và lớp tuổi 25/34 so với lớp 15/24) là giống nhau, do đó chỉ cần một tham số

(hay nói khác đi là có độ tự do =1).
Với giả định tính khuynh hướng, mô hình tổng quát có dạng:
y = logit = ln(Odds) = ln[p/(1 - p)] = α + βx + ε
Khi đó:

x=

0

khi nhóm tuổi là 1-14

1

khi nhóm tuổi là 15-24

2

khi nhóm tuổi là 25-34

3

khi nhóm tuổi là 35-44

4

khi nhóm tuổi là 45+

Vậy OR của nhóm tuổi 15-24 so với nhóm 1-14 là:
17



Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

OR

= Oddsx=1/Oddsx=0 = eα + β/eα = e β

OR của nhóm tuổi 25-24 so với 15-24 là:
OR

= Oddsx=2/Oddsx=1 = eα + 2β/eα + β = eβ

Tương tự, OR của nhóm tuổi 35-44 so với 25-34 và OR của nhóm tuổi 45+ so với 35-44
cũng là eβ. Đây là nguyên lý tính toán của mô hình giả định tính khuynh hướng.
Sử dụng menu Analyze  Regression  Binary Logistic. Đưa biến bệnh vào ô
Dependent, biến nhóm tuổi vào ô Covariates.

Chọn nút Options và chọn At last step và CI for exp(B) như phần trên. Ngoài ra, lưu ý
chọn kiểm định Hosmer-Lemeshow goodness-of-fit. Đây là kiểm định giả thuyết Ho rằng
có mối liên quan tuyến tính (hoặc khuynh hướng) giữa biến số độc lập và lnOdds, nói
cách khác, đây là kiểm định về ý nghĩa của mô hình.

Nhấp OK để hoàn tất.

18


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng
Omnibus Tests of Model Coefficients
Step 1


Step
Block
Model

Chi-square
65.206
65.206
65.206

df

Sig.
.000
.000
.000

1
1
1

Model Summary
Step
1

-2 Log
Cox & Snell
likelihood
R Square
1195.808a

.050

Nagelkerke
R Square
.080

a. Estimation terminated at iteration number 5 because
parameter estimates changed by less than .001.

Hosmer and Lemeshow Test
Step
1

Chi-square
5.157

df

Sig.
.161

3

Variables in the Equation

Step
a
1

nhtuoi

Constant

B
.380
-2.669

S.E.
.049
.194

Wald
59.253
189.407

df
1
1

Sig.
.000
.000

Exp(B)
1.463
.069

95.0% C.I.for EXP(B)
Lower
Upper
1.328

1.612

a. Variable(s) entered on step 1: nhtuoi.

Kết quả cho thấy, so với nhóm tuổi nhỏ hơn, nhóm tuổi lớn hơn kề bên sẽ bị nguy cơ bị
bệnh phong tăng gấp 1.463 lần. Kết quả kiểm định Wald cũng cho thấy OR có ý nghĩa
thống kê (p < 0.001). Lưu ý, kiểm định Hosmer-Lemeshow kiểm định ý nghĩa của mô
hình nên giả thuyết Ho của kiểm định này là “mô hình có ý nghĩa”. Do đó, khi p>0.05
(trong trường hợp này p = 0.161) chúng ta có thể chấp nhận giả thuyết này.
Như vậy, so với nhóm tuổi 1/14, nhóm tuổi 15/24 có nguy cơ mắc bệnh tăng gấp 1.463
lần. So với nhóm tuổi 15/24, nhóm tuổi 25/34 có nguy cơ tăng gấp 1.463 lần. Như vậy,
nguy cơ của nhóm tuổi 25/34 so với nhóm tuổi 1/14 là tăng gấp 1.4632 = 2.140

19


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Bảng 0.4 Nguy cơ mắc bệnh của các nhóm tuổi so với nhóm tuổi 1/14
Nhóm tuổi

Mô hình logistic (nhóm tuổi là biến thứ tự)
OR

ln(OR)

1/14

1


0

15/24

1.463

0.380

25/34

1.4632 = 2.140

0.380x2 = 0.760

35/44

1.4633 = 3.131

0.380x3 = 1.140

45+

1.4634 = 4.581

0.380x4 =1.520

Mô hình không giả định tính khuynh hướng
Bây giờ chúng ta sẽ thực hiện tính toán khi không sử dụng giả định tính khuynh hướng.
Nói cách khác, chúng ta sẽ cần 4 tham số để ước lượng của 4 lớp tuổi (15/24; 25/34;
35/44; 45+) so với lớp tuổi nền (1/14) và có độ tự do =4.

Với giả định tính khuynh hướng, mô hình tổng quát có dạng:
y = logit = ln(Odds) = ln[p/(1 - p)] = α + β1x1 + β2x2 + β3x3 + β4x4 + β5x5 + ε
Trong đó x1 … x5 lần lượt là các nhóm tuổi, chúng nhận giá trị:
xi =

0

không nằm trong nhóm tuổi i

1

nằm trong nhóm tuổi i

Như vậy, trên thực tế chúng ta cũng chỉ có 1 biến phụ thuộc là bệnh phong và biến độc
lập là nhóm tuổi, tuy nhiên theo mô hình trên, chúng ta có 5 biến số, như vậy chúng ta có
thêm 4 biến số - 4 biến số này được gọi là biến số giả (dummy variables).
Vẫn sử dụng menu Analyze  Regression  Binary Logistic, để xác định mối liên hệ
giữa nhóm tuổi và nguy cơ bị bệnh phong, đưa biến phụ thuộc – dependent - là bệnh (có
bệnh hay không) và biến độc lập – covariate - là nhóm tuổi. Lưu ý nhấn vào nút lệnh
Option để đánh dấu hộp kiểm CI for exp(B) (tính khoảng tin cậy của OR). Chọn tiếp nút
Categorical để mở cửa sổ Logistic regression: Define categorical variable (điều này có
nghĩa là chúng ta mặc định biến nhóm tuổi là biến định danh – không có khuynh
hướng/thứ bậc). Đưa biến nhóm tuổi vào ô Categorical covariates, trong mục Constract,
chọn Indicator và chọn nhóm so sánh (Reference category) là nhóm đầu tiên (first), có
nghĩa là nhóm tuổi 1/14 sẽ là nhóm nền để so sánh.

20


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng


Chọn Continue và OK để hoàn tất
Model Summary
Step
1

-2 Log
Cox & Snell
likelihood
R Square
1190.237a
.055

Nagelkerke
R Square
.086

a. Estimation terminated at iteration number 5 because
parameter estimates changed by less than .001.

Variables in the Equation

B
Step
a
1

nhtuoi
nhtuoi(1)
nhtuoi(2)

nhtuoi(3)
nhtuoi(4)
Constant

S.E.

.224
.103
1.002
1.404
-2.122

.271
.308
.251
.217
.187

Wald
66.632
.687
.112
15.877
41.971
128.612

df
4
1
1

1
1
1

Sig.
.000
.407
.737
.000
.000
.000

Exp(B)
1.252
1.109
2.723
4.073
.120

95.0% C.I.for EXP(B)
Lower
Upper
.736
.607
1.664
2.663

a. Variable(s) entered on step 1: nhtuoi.

Kết quả sử dụng hồi quy logistic không giả định tính khuynh hướng của OR, chúng ta có

được các OR như sau.
Bảng 0.5 OR của các nhóm tuổi khi không giả định tính khuynh hướng
Nhóm tuổi

B

OR=exp(B)

KTC 95%

15/24

0.224

1.736

0.736 – 2.128

24/34

0.103

1.109

0.607 – 2.026

35/44

1.002


2.723

1.664 – 4.458

45+

1.404

4.073

2.663 – 6.230

21

2.128
2.026
4.458
6.230


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Kết quả kiểm định Wald cho thấy, OR của nhóm tuổi 15/24 và nhóm tuổi 24/34 là không
có ý nghĩa thống kê (hay hệ số hồi quy B trong 2 nhóm này không có ý nghĩa). Điều này
cũng phù hợp với kết quả của KTC 95% của OR trong hai nhóm này có chứa 1.
Yếu tố nguy cơ là biến phân loại
Với biến độc lập là biến phân loại, các thao tác phân tích và phiên giải được thực hiện
tương tự như trên (khi giả định biến thứ bậc không có tính khuynh hướng).
Yếu tố nguy cơ là biến định lượng
Xem xét lại ví dụ tỷ lệ tử vong theo tuổi trong ví dụ ở bảng 3. Khi sử dụng tỷ lệ tử vong

để mô tả mối liên quan với tuổi như trong hình 2, mô hình hồi quy tuyến tính là không
phù hợp. Bảng 8 đã sử dụng biến đổi logit và hình 3 mô tả mối liên quan giữa logit và
tuổi. Mối liên quan này phù hợp với hồi quy tuyến tính hơn.
Bảng 0.6 Biến đổi logit
Tuổi

Số lượng
Tử vong

Tổng số đối tượng

Tỷ lệ
vong

40

1

251

0.4

-5.52

41

12

317


3.8

-3.23

42

13

309

4.2

-3.13

43

6

285

2.1

-3.84

44

10

236


4.2

-3.13

45

8

254

3.1

-3.44

46

10

277

3.6

-3.29

47

12

278


4.3

-3.1

48

10

285

3.5

-3.32

49

14

276

5.1

-2.92

50

15

274


5.5

-2.84

51

14

296

4.7

-3.01

52

19

305

6.2

-2.72

53

36

341


10.6

-2.13

54

26

305

8.5

-2.38

55

21

276

7.6

-2.5

56

28

325


8.6

-2.36

22

tử Logit


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

57

41

302

13.6

-1.85

58

38

260

14.6

-1.77


59

49

302

16.2

-1.64

Hình 0.2 Biểu đồ chấm điểm biểu diễn mối liên quan giữa tuổi và logit của tử vong
Hình minh họa trên cho thấy việc sử dụng biến đổi logit làm mô hình trở nên phù hợp
hơn khi các điểm liên kết với nhau có khuynh hướng trên 1 đường thẳng tuyến tính. Tuy
nhiên phiên giải kết quả vẫn dựa vào tỷ lệ vì logit được tính toán dựa trên định nghĩa của
Odd và tỷ lệ.
Xem xét ví dụ trong bộ số liệu nghiên cứu về bệnh mạch vành (bộ số liệu benhMV).
Hàm lượng Cholesterol trong máu được xem như là một yếu tố nguy cơ của bệnh này.
Sử dụng hồi quy logistic tương tự như các thao tác trên, trong đó biến phụ thuộc là bệnh
mạch vành, biến độc lập là Cholesterol máu. Lựa chọn Options để chọn CI for exp(B),
Hosmer-Lemeshow goodness-of-fit và At last step.
Model Summary
Step
1

-2 Log
Cox & Snell
likelihood
R Square
433.424a

.008

Nagelkerke
R Square
.016

a. Estimation terminated at iteration number 5 because
parameter estimates changed by less than .001.

23


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng
Hosmer and Lemeshow Test
Step
1

Chi-square
9.472

df

Sig.
.304

8

Variables in the Equation

Step

a
1

cholesterol
Constant

B
.007
-3.538

S.E.
.003
.687

Wald
5.225
26.531

df
1
1

Sig.
.022
.000

Exp(B)
1.007
.029


95.0% C.I.for EXP(B)
Lower
Upper
1.001
1.013

a. Variable(s) entered on step 1: cholesterol.

Mô hình hồi quy trong kết quả này có thể được trình bày như sau:
logit = - 3.538 + 0.007x
Để phiên giải, giả sử chúng ta phải trả lời câu hỏi sau: OR của người có cholesterol 210
so với 200 là như thế nào?
Từ mô hình trên, ta có được
Odd210 = e - 3.538 + 0.007x210
Odd200 = e - 3.538 + 0.007x200
Khi đó:
OR = e0.007(210-200) = exp(0.07) =1.072. Điều này có nghĩa là người có hàm
lượng cholesterol 210 có nguy cơ bị bệnh mạch vành cao hơn gấp 1.072 lần người có
cholesterol 200.
Trên thực tế, chúng ta phiên giải từ bảng kết quả như sau: với mỗi 1 mg% cholesterol cao
hơn, nguy cơ của bệnh mạch vành sẽ tăng lên 1.007 lần (OR=exp(B)). Như vậy, để trả lời
câu hỏi như trên “OR của người có cholesterol 210 so với 200 là như thế nào?”, chúng ta
có thể tính được OR sẽ là 1.00710 = 1.072. Kết quả này cũng tương tự tính toán trên.
Kết quả kiểm định Hosmer-Lemeshow cho biết mô hình là có ý nghĩa (p > 0.05). Kiểm
định Wald cũng cho kết quả ý nghĩa của OR tính toán được từ mô hình.
1.3.2 Hồi quy logistic đa biến
Mô hình hồi quy đơn biến nêu trên bao gồm 1 biến phụ thuộc và 1 biến độc lập. Cũng
giống như các mô hình hồi quy khác, hồi quy logistic có thể được sử dụng với nhiều biến
độc lập.
Mô hình đa biến có dạng:

logit = ln(p/1-p) = α + β1x1 + β2x2 + β3x3 + … + ε
trong đó x1, x2, …, xn là những biến độc lập
24


Bài giảng Dịch tễ-Thống kê nâng cao. BM Dịch tễ-Thống kê, ĐH Y tế Công Cộng

Trở lại ví dụ về chủng ngừa BCG và bệnh phong, giả sử chúng ta muốn đưa cả 2 biến số
độc lập là biến chủng ngừa BCG và tuổi để đánh giá nguy cơ của mỗi yếu tố đối với bệnh
phong, chúng ta sẽ phải thực hiện hồi quy đa biến – 2 biến độc lập.
Sử dụng menu Analyze  Regression  Binary Logistic. Đưa biến phụ thuộc là bệnh
vào ô Dependent, đưa cả 2 biến chủng ngừa BCG và nhóm tuổi vào ô covariates.

Chọn Options, trong cửa sổ này, tương tự như phần trên cũng chọn CI for exp(B), At last
step, và chọn thêm Hosmer – Lemeshow goodness-of-fit. Đây là test kiểm định tính phù
hợp/ý nghĩa của mô hình

Chọn Continue và OK để hoàn tất

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×