Tải bản đầy đủ (.pdf) (45 trang)

Tài liệu hướng dẫn thống kê y học sử dụng SPSS - HỒI QUI logistic CHO BIẾN SỐ NHỊ PHÂN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.75 MB, 45 trang )

Tài liệu hướng dẫn
thống kê y học sử dụng SPSS

SPSS
Hồi quy logistic cho biến số nhị phân

BS. Lê Đông Nhật Nam

1


Lời nói đầu
Có thể bạn không tin, nhưng số phận của mỗi người giống như một mô hình hồi quy…
Năm 1999 cũng như tất cả học sinh lớp 12 khác, tôi phải đối diện với một thử thách quan trọng là kì thi tuyển sinh vào đại học. Kết quả đậu
hay rớt thường phụ thuộc vào biến số 3 môn học ,tùy theo ngành nghề bạn chọn.
Vào thời gian đó Bộ Giáo Dục lại có quy định tuyển thẳng vào đại học những học sinh giỏi toàn diện trong năm lớp 12. Mùa hè năm 1998
khi nghe tin một nữ sinh hệ bán công (trình độ kém hơn nhiều so với hệ chính quy) được tuyển thẳng vào đại học, trong khi đàn anh đàn
chị lớp chuyên, trường chuyên thi rớt hàng loạt, tôi thực sự bị sốc. Sau nhiều đêm suy nghĩ tôi quyết định phải chọn con đường an toàn
nhất cho mình. Tôi xin ra khỏi lớp chuyên vào cuối hè và chuyển sang học một lớp trung bình. Trong 90 ngày sau đó tôi đã lập kế hoạch vừa
luyện thi khối A bên ngoài, vừa thỏa mãn giáo viên tất cả các môn học trong lớp , kể cả những môn mà tôi chán ghét nhất.
Tôi nhận ra tham vọng đưa quá nhiều tham số vào phương trình « tuyển thẳng đại học » của mình lại tạo ra áp lực còn cao hơn so với một
người chỉ luyện thi đơn giản. Nhiều lúc tôi gần như phát khùng khi phải theo dõi bảng điểm của mình mỗi ngày để mô phỏng bốn năm giả
thuyết khác nhau trước khi quyết định tập trung chữa cháy điểm số môn học A và hy sinh để cho 1 bài thi môn học B cháy rụi. Cuối cùng, tôi
cũng cân bằng được tất cả những biến số để cho ra kết quả tuyển thẳng, nhưng cái giá phải trả là ước mơ trở thành giáo viên môn Vật Lý
của tôi tan thành mây khói khi tôi phải chiều lòng gia đình chọn học Y khoa.
2 năm sau người ta hủy bỏ mô hình tuyển sinh này vì nó hoàn toàn sai lầm, nghiên cứu cho biết đa số học sinh được tuyển thẳng chỉ có kết
quả trung bình khá ở giảng đường. Mỗi năm họ lại thay đổi một mô hình mới, và học sinh chúng tôi buộc phải tự thích nghi với mô hình
này.
Trong tài liệu này chúng ta sẽ bàn về một vấn đề tương tự, khi phải dự báo liệu một biến cố sẽ xảy ra hay không, dựa trên quan sát về nhiều
yếu tố khác.
Phương pháp hồi quy logistic có nguyên tắc đơn giản, nhưng rất khó khi thực hiện cụ thể ; vì vậy ít tác giả ưa chuộng, áp dụng nó trong


nghiên cứu. Nhiều người trong chúng ta khi phải tính Odds-ratio cho yếu tố nguy cơ, đều dựa vào test χ2 cho từng biến số riêng lẻ. Khi đối
diện biến định lượng họ sẽ lái sang định tính để đi theo lối mòn bảng 2x2. Tôi hy vọng tài liệu hướng dẫn này sẽ hỗ trợ cho các bạn một
công cụ khác mạnh hơn và chính xác hơn.
Điều thú vị là khái niệm hồi quy logistic trong thống kê có vẻ kì lạ, nhưng trên lâm sàng các bác sĩ sử dụng hằng ngày quy trình này trong
đầu của mình mà không hay biết, khi phải dựa vào sinh lý bệnh, triệu chứng học,kết quả xét nghiệm để xác định chẩn đoán, dự báo tiên
lượng cho mỗi bệnh nhân. Làm hồi quy logistic chỉ đơn giản là vẽ lại quy trình này trên giấy. bằng con số
Tôi đã cố gắng đơn giản mọi thứ đến mức tối đa để bạn thấy thoải mái, dễ chịu nhất khi bắt tay vào thực hiện, vì tự mình làm luôn thú vị và
dễ hơn học lý thuyết.
Chúc các bạn thành công.


Quy ước trình bày
Trong tài liệu này chúng ta sẽ làm quen với 3 nhân vật

Bác sĩ Nguyễn Văn Thái
Bác sĩ Thái là một cao thủ thống kê y học trên giang hồ. Anh ta sẽ xuất hiện
trước mọi vấn đề khó khăn, nhằm đưa ra câu trả lời chính xác và ôn lại cho bạn
những kiến thức cơ bản cũng như chuyên sâu về lý thuyết thống kê. Tuy nhiên
BS Thái lại rất bận rộn nên không đủ thời gian đi vào cách thực hiện chi tiết.
Anh ta cũng hay trình bày lý thuyết thuần túy và sử dụng nhiều công thức toán
học nên không mấy gần gũi với sinh viên và gây không ít trở ngại cho các bạn
vốn dị ứng với thống kê …

Bác sĩ Lê Ngọc Khả Nhi
Khả Nhi là một nữ bác sĩ trẻ dễ thương và sử dụng thành thạo
SPSS. Như tên gọi của mình, BS Nhi có tính cách rất hồn nhiên và
sống ngây thơ như trẻ con, vì vậy cô luôn có khuynh hướng đơn
giản hóa tối đa mọi vấn đề. Cô ấy sẽ hướng dẫn các bạn sử dụng
SPSS từng bước cụ thể, chia sẻ những mẹo vặt, thủ thuật để giúp
các bạn đi đến kết quả nhanh và dễ dàng nhất.


Sinh viên Trần Quốc Bảo
Bảo là sinh viên y khoa năm thứ sáu và bắt đầu làm quen với nghiên cứu
khoa học. Đây là một cậu sinh viên rất tò mò và luôn đặt ra nhiều câu hỏi
liên quan đến thống kê. Mặc dù những đế tài do Bảo thực hiện rất đơn
giản, nhưng đồng hành với cậu ta, các bạn có cơ hội tích lũy cho mình
nhiều kinh nghiệm trong công việc phân tích số liệu và thiết kế nghiên
cứu.

3


1

1.1 Tình huống thí dụ
Xuất huyết não là một loại tai biến nguy hiểm vì tỉ lệ tử vong
rất cao nếu không được cấp cứu kịp thời.
Một bác sĩ thực hiện đề tài khảo sát nguy cơ tử vong ở bệnh
nhân xuất huyết não, đây là một nghiên cứu phức tạp với
hơn 20 biến số định tính và định lượng được thu thập trên
109 trường hợp xuất huyết não do nhiều nguyên nhân.
Câu hỏi nghiên cứu chính đặt ra là làm sao dựa vào các yếu tố
dịch tễ, triệu chứng lâm sàng cũng như bệnh lý nền để dự báo
biến cố tử vong trong thời gian nằm viện.

Biến số định lượng liên tục
Biến số định tính
(nhị phân)

Tuổi


Biến thứ hạng : Thể tích xuất
huyết
(1= ít ; 2= trung bình ; 3=Nhiều)

HA tâm thu
Giới tính
Cao huyết áp

HA tâm trương
Điểm Glasgow

Tiểu đường
Rối loạn đông máu

Bác sĩ này phải sử dụng phương pháp thống kê nào ?
Làm sao thực hiện trên SPSS ?

Thuốc lá
Rượu
Đau đầu
Buồn nôn, nôn
Co giật
Rối loạn tri giác
Vị trí hạch nền
Vị trí não thùy
Vị trí thân não
Vị trí đồi thị
Vị trí não thất
Vị trí tiểu não

Lệch đường giữa
Phẫu thuật

Phương pháp đầu tiên hiện ra trong đầu tôi lúc này, đó là Hồi quy logistic.
Đây là một mô hình hồi quy đặc biệt cho phép dự báo xác suất xảy ra một sự kiện nào đó, ví
dụ như tử vong dựa vào nhiều yếu tố dự báo. Phương pháp này còn cho phép ta đánh giá vai
trò, mức độ ảnh hưởng của từng yếu tố dự báo nhờ vào tỉ số Odds-ratio.
Tuy nhiên cần cảnh báo trước: Hồi quy logistic là một phương pháp rất khó !


1

1.2 Giới thiệu phương pháp
Thưa thầy, nếu đã biết hồi quy logistic phức tạp, tại sao ta không thể
dùng test χ2 hay test chính xác Fisher dựa vào bảng 2x2 để khảo sát
từng yếu tố nguy cơ ? Những phương pháp này dễ hơn và cũng tính
được Odd-ratios mà ?

Bảo thân mến, nếu ở đây em chỉ có toàn biến định tính, ta sẽ cân nhắc dùng test χ2 hay test
Fisher như em nói. Tuy nhiên ta lại có quá nhiều loại biến số, như định tính, định lượng liên tục
và thứ hạng; nên test χ2 hay test chính xác Fisher không còn hữu dụng nữa.
Ta không nên lạm dụng hồi quy Logistic chỉ để tính Odds-ratio cho từng biến số đơn lẻ. Mục
đích thực sự của mô hình hồi quy là để dự báo. Chỉ dùng công cụ phức tạp này cho những vấn
đề thực sự phức tạp, như thí dụ trên.

Công dụng chính của mô hình hồi quy là dùng để dự báo. Vì vậy việc tìm ra mô hình có ý nghĩa
thống kê, phù hợp với dữ kiện quan sát hiện tại thôi chưa đủ, nó còn phải dự báo chính xác
trong quần thể chung, tức có giá trị phổ quát. Mô hình hiệu quả phải cho phép dự báo đúng
cho bất kì trường hợp nào trong tương lai.


Mô hình
hồi quy logistic

Giá trị
X1,X2,X3

X1

X2

Giá trị Y
(0 hay 1)

X3

Dùng để phân loại

Bệnh nhân này
sẽ tử vong

Tuy nhiên, mô hình hồi quy logistic thường được các tác giả áp dụng với mục đích diễn dịch
hơn là quy nạp, ta ít khi dùng nó thuần túy để dự báo, mà để nhận diện vai trò của một yếu tố
X (nguy cơ) nào đó góp phần hình thành một sự kiện Y. Sự kiện được khảo sát thường có dạng
biến số nhị phân (có/không), ví dụ : chẩn đoán có bệnh, tiên lượng sự xuất hiện biến chứng, tử
vong…
Tài liệu này chỉ giới hạn ở việc áp dụng cho biến số nhị phân.
Dĩ nhiên mô hình logistic còn có thể áp dụng cho các biến số nhiều giá trị (ví dụ bảng xếp loại,
thang điểm).
Tại sao mô hình hồi quy logistic mạnh hơn test χ2 và test chính xác Fisher ?
1. Những test này chỉ cho phép khảo sát từng biến số riêng lẻ, và chỉ áp dụng

được cho biến số định tính, hoặc thứ hạng. Trong khi đó, hồi quy logistic
cho phép khảo sát cùng lúc nhiều biến số, bao gồm biến số định lượng liên
tục, thứ hạng, biến nhị phân, và nhất là sự tương tác giữa chúng với nhau.

Bệnh nhân X

Bệnh nhân X

Xác suất tử vong của
bệnh nhân là 80 %

Dùng để dự báo xác suất xảy ra 1 sự kiện

2. Mô hình hồi quy logistic đo lường được độ mạnh của liên hệ đã chuẩn hóa
giữa các yếu tố dự báo và 1 sự kiện, vai trò cụ thể của từng biến số, cho
phép diễn giải kết quả dưới dạng tỉ số nguy cơ (odds ratio). Chỉ có hồi quy
cho phép tính Odds-ratio cho 1 biến số định lượng liên tục
3. Test χ2 có nguy cơ sai lầm cao, khi 2 biến số đang được khảo sát chịu ảnh
hưởng của một biến số thứ 3, vì vậy 1 biến số riêng lẻ có vai trò quan trọng
nhưng lại có thể cho ra kết quả yếu đối với test χ2 , trong khi mô hình hồi
quy logistic đa biến cho phép ta vô hiệu hóa các yếu tố gây nhầm lẫn và tìm
lại được vai trò thực sự của biến số này.


1

1.2 Giới thiệu phương pháp

Như ta biết, mô hình hồi quy tổng quát có dạng:
Giá trị dự báo = hằng số +


tham số∗yếu tố dự báo + sai số

Nhưng chúng ta gặp trở ngại vì qui định giá trị dự báo phải có quan hệ tuyến tính với mỗi yếu tố dự báo, trong khi đó là điều
không thể xảy ra khi giá trị dự báo của ta chỉ có 2 giá trị (0 hoặc 1). Vì thế ta phải chuyển dạng giá trị dự báo Y qua thang đo
logarit (Ln(Y)), để nó có biến thiên liên tục. Như vậy mô hình hồi quy logistic cũng phải được biểu diễn dưới dạng logarit hóa.
Điểm thứ 2 cần lưu ý, đó là trong mô hình hồi quy logistic không phải ta dự báo cho bản thân giá trị của biến số Y (0 hay 1),
nhưng ta dự báo xác suất cho việc Y nhận giá trị 0 hoặc 1

𝑃 𝑌 =

1
1 + 𝑒 −(𝑏𝑜+𝑏1 𝑥1 +𝑏2 𝑥2 +𝑏3 𝑥3 +ε)

P(Y) là xác suất xảy ra sự kiện Y, P(Y) nhận giá trị từ 0-1
Y là giá trị dự báo và là biến nhị phân, chỉ nhận 1 trong 2 giá trị: =0 hay = 1.
e là cơ số của logarit tự nhiên, hay hàm Exponential
Bo là hằng số của phương trình hồi quy
X1,x2,X3 là những biến số dự báo, có thể là biến liên tục, nhị phân hay thứ hạng
b1,b2,b3 là những tham số tương ứng cho từng biến số dự báo
ε là sai số
Mô hình hồi quy logistic có thể mở rộng, gồm n biến số (bn.xn)

Bạn có thể nhận ra phần màu xanh chính là 1 phương trình hồi quy tuyến tính bình thường như ta vẫn biết.
Với 1 trường hợp (cá thể) cho trước, Yi có thể nhận 1 trong 2 giá trị : 0 (không xảy ra) và 1 (có xảy ra). Còn P(Yi) là 1 giá trị
nằm giữa 0 (tuyệt đối không thể) và 1 (chắc chắn xảy ra). P(Yi=1) là xác suất xảy ra sự kiện Y=1 cho cá thể i, Yi là giá trị thực
tế quan sát được ở cá thể i. Kết quả dự báo của mô hình logistic là 1 xác suất, vì vậy nó sẽ dao động từ 0-1. P(Y) càng thấp
(gần 0) thì càng có ít khả năng xảy ra sự kiện Y. Ngược lại P(Y) càng cao (gần 1) thì càng có nhiều khả năng xảy ra sự kiện Y.
Tham số b sẽ được xác định sao cho giá trị Y gần với giá trị quan sát nhất có thể.



1

1.2 Giới thiệu phương pháp

Phương pháp khảo
sát cho từng nhóm:

Kết quả dự báo
(outcome) là 1 biến số nhị phân

Y

Test χ2

Định tính nhị phân
hệ số tau của Kendall
So sánh phi tham số
Hệ số tương quan Spearman

Khảo sát cùng lúc bằng
Mô hình hồi quy logistic đa biến

Thứ hạng

Tập hợp các yếu tố
dự báo (predictors)

So sánh bằng Test t


Định lượng liên tục

Mô hình hồi quy logistic cho phép khảo sát cùng lúc nhiều biến số dự báo, nó có thể chứa tất cả 3 loại biến số : Định tính nhị phân, định
lượng liên tục hoặc thứ hạng

Hiện tượng A

Triệu chứng B
Tập hợp các yếu tố
dự báo (predictors)

Tuyển chọn yếu tố dự báo tối ưu cho từng nhóm
bằng phương pháp hồi quy thăm dò (Stepwise) dựa
vào phương pháp thăm dò tiến triển (forward) hoặc
thoái triển (Backward)

Đặc điểm C

(1)

(2)

Chỉ số D

(3)
Định tính nhị phân
Định lượng liên tục
Thứ hạng

(1) Có thể chuyển biến định lượng thành thứ hạng bằng cách đặt ra

nhiều ngưỡng giá trị
(2) Có thể chuyển biến định lượng thành biến định tính nhị phân bằng
cách ấn định 1 ngưỡng giá trị
(3) Có thể chuyển từ biến thứ hạng sang biến định tính nhị phân bằng
cách cắt nhỏ nó ra thành nhiều dummy variable (biến số giả)


2

1.1 Tạo bảng số liệu

Trong công đoạn đầu tiên, các bạn sẽ tạo bảng số liệu,
bao gồm khai báo biến số, dán nhãn ý nghĩa, quy định
giá trị mã hóa, sau đó nhập số liệu.
Trong thí dụ này, chúng ta có tới 26 biến số. Việc sắp
xếp, khai báo và lập quy tắc mã hóa giá trị cho chúng
rất quan trọng. Một bảng số liệu rõ ràng, trật tự và
đồng nhất sẽ giúp cho công đoạn thăm dò và xây dựng
mô hình dễ dàng hơn rất nhiều.
Về cấu trúc: các bạn nên phân bố các biến số độc lập
theo từng nhóm, ví dụ: Dịch tễ, triệu chứng thực thể,
dấu hiệu hình ảnh học, xét nghiệm sinh hóa… Mỗi
nhóm có thể chứa nhiều biến số. Cùng một đại lượng
có thể được khảo sát bằng nhiều loại biến số: Định
lượng, định tính, thứ hạng
Về quy tắc mã hóa: Các biến định tính nhị phân nên
được mã hóa theo cùng 1 quy tắc thống nhất, ví dụ:
0=Không, 1=Có. Lý tưởng nhất là luôn cho nhóm chứng
= 0, và nhóm cần quan tâm = 1. Ví dụ: Bình thường = 0;
Có triệu chứng = 1. Bạn sẽ thấy việc này ích lợi thế nào

khi xây dựng mô hình hồi quy.

Tuổi : định lượng liên tục
Yếu tố dịch tễ

Cao huyết áp: Định tính nhị phân
Mã hóa giá trị: 0= không /1= có
Điểm Glasgow: Định lượng liên tục

Dấu hiệu lâm sàng

Rối loạn tri giác: Định tính nhị phân
Mã hóa giá trị: 0= không /1= có

Tập hợp các yếu tố
dự báo (predictors)

Định tính nhị phân
Định lượng liên tục
Thứ hạng

Dấu hiệu hình ảnh học

Lệch đường giữa: Định tính nhị phân
Mã hóa giá trị: 0= không /1= có
Thể tích xuất huyết: Thứ hạng
Mã hóa: 1= Thấp/2= Trung bình/3= Cao

Vị trí xuất huyết: 4 biến số giả chỉ vị trí



2

1.1 Tạo bảng số liệu
Biến định tính nhị phân
Tử vong
Cao huyết áp
Tiểu đường
Rối loạn đông máu

Tất cả biến số định tính nhị phân được gán giá trị
theo cùng một quy tắc: 0= Không, 1 = Có

Thuốc lá
Rượu
Đau đầu
Buồn nôn, nôn
Co giật
Rối loạn tri giác
Vị trí hạch nền
Vị trí não thùy
Vị trí thân não
Vị trí đồi thị
Vị trí não thất
Vị trí tiểu não
Lệch đường giữa

Biến số thứ hạng được mã hóa theo thứ tự từ thấp tới cao :
1,2,3…


Sau khi khai báo xong biến số, bạn có thể nhập dữ liệu hay cắt dán từ bảng Excel qua SPSS. Trong hình là ví dụ cho 24 trường
hợp đầu tiên của bộ số liệu khảo sát hiện trạng xuất huyết não tại BV Chợ Rẫy.


2

1.1 Tạo bảng số liệu
1

Để chuyển 1 biến định lượng thành định tính, ta sử dụng chức
năng Transform trogn SPSS;
Chọn Transform > Recode into different variables
Hộp thoại Recode sẽ mở ra, cho phép bạn gán giá trị cho biến
mới

2

Trước hết, bạn kéo 1 biến số định lượng cần chuyển
dạng vào ô Numeric variables > Output variable

4

3

Thí dụ, ta muốn chuyển dạng biến số Tuổi thành 1 biến
định tính nhị phân tên là Tuoi cao
Sau đó ta nhấn Old and New variable để mở hộp thoại
gán giá trị

5


Trong thí dụ này, ta muốn đặt ra ngưỡng giá trị để chia
mẫu khảo sát thành 2 phân nhóm; Tuổi cao > 60 và < 60.

6

Đầu tiên, chọn Range, nhập giá trị, ví dụ : 60
Sau đó gán giá trị mới : 1
Nhấn Add để xác nhận quy tắc mã hóa này.
Sau đó lại chọn: All Other values, nhập giá trị =0 rồi nhấn
Add để xác nhận

7

Cuối cùng nhấn Continue

6
8
Trở ra hộp thoại Recode, ta nhấn Change để lưu biến số
tuoicao với giá trị mới
Sau đó nhấn OK để thi hành lệnh Recode

9

Ngay sau khi nhấn OK, ta sẽ thấy trong data
editor có một biến số mới : Tuoicao với giá
trị = 0 hay =1.
Bước còn lại chỉ là khai báo định dạng cho
biến số và quy định nhãn giá trị : 0=không, 1
=Có; để có thể sử dụng như biến định tính

nhị phân trong quá trình phân tích.

10


3

Quy trình phân tích hồi quy logistic

I. Xây dựng mô hình tối ưu

II. Kiểm tra các nguy cơ sai lầm

III. Áp dụng bootstrap

Quy trình phân tích hồi quy logistic gồm 4 công đoạn chính
I.

Xây dựng mô hình tối ưu

II.

Lặp lại phân tích một lần nữa cho mô hình tối ưu, kèm theo sao
lưu kết quả dự báo, để kiểm tra các giả định và nguy cơ sai lầm

III.

Lặp lại phân tích một lần nữa cho mô hình tối ưu, với phương
pháp bootstrap để xác nhận giá trị phổ quát của mô hình trong
quần thể chung


IV. Diễn giải kết quả sau cùng

IV. Diễn giải kết quả
Lõi cơ bản của mô hình
Các biến số mạnh nhất

I. Xây dựng mô hình tối ưu

Chọn lọc biến số

Xác định « lõi » cơ bản

Phân tích hồi quy logistic đơn biến
So sánh với mô hình M0
Sử dụng phương pháp Stepwise,
Thoái triển hoặc tiến triển
Chuyển dạng biến số (ví dụ: Định
lượng thành định tính)

Thăm dò từng nhóm biến số

Mô hình tối ưu

Loại bỏ dần những biến số không
quan trọng
Kiểm tra tương tác giữa các biến số

Các biến số phụ
cần kiểm tra


Các biến số bị loại
bỏ vì quá yếu

Bước I : Xây dựng mô hình tối ưu là công đoạn quan trọng nhất và cũng khó nhất. Từ tập hợp nhiều biến số ban đầu, ta phải chọn lọc
ra những biến số có liên hệ mạnh nhất với xác suất xảy ra sự kiện Y. Sau đó, ta phải thử tổ hợp giữa các biến số này để có một mô
hình dự báo tối ưu.
Tùy vào số lượng biến số và giả thuyết nghiên cứu, công đoạn này có thể đơn giản trong vài phút hoặc rất cực khổ (có thể kéo dài vài
ngày). Tìm ra mô hình tối ưu cũng giống như bạn đục đẽo một tảng đá cho tới khi tìm ra viên ngọc quý là phần thưởng cuối cùng cho
công sức mà bạn bỏ ra.
Tin vui, đó là SPSS là một công cụ khá mạnh và hiệu quả cho phân tích hồi quy logistic, nó cho phép thực hiện tự động nhiều quy trình
so sánh, thăm dò…
Tuy nhiên cũng có tin buồn, đó là khác với những lần trước, trong tài liệu về hồi quy logistic này ta không thể đi theo một quy trình cố
định; vì không có quy trình cụ thể nào. Mỗi hoàn cảnh sẽ dẫn đến một cách làm khác nhau.
Bạn phải mày mò tự tìm ra giải pháp cho vấn đề của chính bản thân bạn, và chỉ tin tưởng vào bản thân mình chứ không thể đặt niềm
tin vào máy tính hay bất cứ chuyên viên thống kê nào.
Khác với những phương pháp thống kê thông thường, trong việc xây dựng mô hình hồi quy logistic tối ưu thì kiến thức y học quan
trọng hơn kỹ năng về thống kê. Chỉ có bạn hiểu rõ lý thuyết sinh lý bệnh học của đề tài mình đang nghiên cứu, từ đó dùng trực giác
để lựa chọn những biến số độc lập tối ưu, nhận ra quan hệ tương tác và đưa ra tiêu chuẩn của riêng bạn.


3

3.1 Kích hoạt chức năng phân tích hồi quy logistic
1

2

Để kích hoạt phân tích hồi quy logistic cho biến số nhị phân, ta chọn
Analyze > Regression, Chọn: Binary logistic

Hộp thoại logistic Regression sẽ mở ra như bên dưới

3

Biến số phụ thuộc (giá trị cần dự báo: Y)

4

Danh sách tất cả
biến số hiện có

Các tùy chỉnh thống kê

Các biến số độc lập
(yếu tố dự báo)
Hộp thoại tùy chỉnh
phương pháp hồi
quy

Vì Phân tích hồi quy logistic không có quy trình nào cụ thể, nó có thể thiên biến vạn hóa tùy vào hoàn cảnh và mục đích, nên
Nhi sẽ không đi theo quy trình như những tài liệu trước. Trước hết, Nhi sẽ mô tả tính năng của giao diện SPSS, sau đó chính
bạn sẽ áp dụng những tính năng này tùy theo hoàn cảnh và nhu cầu riêng.
Trong hộp thoại Logistic regression, có 3 thành phần cần quan tâm:
- Ô Dependent: đây là nơi bạn sẽ khai báo biến số cần dự báo (Y), trong thí dụ này là Tử vong, đây bắt buộc phải là một
biến định tính nhị phân. Một khi biến số này được khai báo xong, bạn mới có thể đi tiếp những bước tiếp theo.
- Ô Covariates là nơi nhập những biến số độc lập (hay yếu tố dự báo: X), lúc này bạn không cần quan tâm lắm đến thứ tự
các Block cũng như Method, tất cả mọi thứ sẽ được giải thích rõ ràng trong những trang tiếp theo.
- Danh mục các tùy chỉnh thống kê: Bao gồm 3 mục chính là: chức năng sao lưu và kiểm tra (Save), Các tùy chỉnh phụ
(Option), Bootstrap (phương pháp chọn mẫu ngẫu nhiên lặp lại, để mở rộng giá trị phổ quát cho mô hình).



3

3.2 Đưa biến số vào mô hình

Đưa 1 biến số định lượng liên tục vào mô
hình:
Để đưa 1 biến số định lượng liên tục, chỉ cần
chọn biến số này từ danh sách rồi kéo vào ô
Covariates
Không cần phải khai báo gì thêm

1

Biến số này sẽ được phân tích trực tiếp dựa
vào giá trị tuyệt đối của nó.

2
3
1

Đưa 1 biến số định tính hoặc thứ hạng vào mô hình:
Để đưa 1 biến số định tính nhị phân hoặc thứ hạng vào mô hình, ta phải đi theo 2 bước:
1) Chọn biến số này từ danh sách rồi kéo vào ô Covariates
2) Nhấn Categorical để khai báo quy tắc mã hóa giá trị cho biến số định tính, hộp thoại
Define Categorical variables mở ra; trong hộp thoại này, ta sẽ làm 2 việc:
- Kéo biến định tính từ danh sách bên trái vào ô bên phải
- Phần Change contrast được kích hoạt: Ta sẽ xác định quy tắc mã hóa cho biến số định
tính nhờ vào 2 thông số: Loại tương phản, và vị trí của nhóm chứng
Sau khi khai báo xong, ta nhấn Change để xác nhận quy tắc mới

Bắt buộc phải đi theo các bước này trước khi tiến hành phân tích hồi quy.
Trong trường hợp đưa nhiều biến số định tính vào mô hình cùng lúc, bạn cần khai báo
cho tất cả, không để sót biến nào.

4

5


3

3.2 Đưa biến số vào mô hình

Khi nhấn vào « Indicator », ta sẽ thấy 1 danh sách các kiểu tương phản được mở ra như hình bên.
Nếu biến định tính chỉ gồm 2 giá trị (ví dụ có/không), ta dùng Indicator.
Các kiểu tương phản đơn giản (Simple), Difference, Helmert, Polynomial… chỉ áp dụng cho những biến số định
tính nhiều giá trị hoặc biến thứ hạng.

Giá trị làm nhóm chứng thường là « không » . Nếu ta mã hóa nó bằng 1 con số nhỏ
hơn giá trị « Có » , ta sẽ chọn: First
Ví dụ: 1=Không, 2=Có hoặc 0=Không/1=Có
Ngược lại, nếu ta mã hóa nó bằng con số lớn, ta sẽ chọn Last
Ví dụ: 1=Có,2=không
Trong trường hợp có nhiều giá trị, ta cũng căn cứ vào vị trí của giá trị làm chứng để
chọn First hay Last
Ví dụ: 1=Không có triệu chứng, 2=Nhẹ, 3=trung bình, 4= nặng, ta chọn First
Nếu ta chọn giá trị cao nhất làm nhóm chứng (ví dụ cho một yếu tố bảo vệ thay vì yếu
tố nguy cơ), ta có thể chọn last.

Việc chọn kiểu tương phản và vị trí của giá trị làm nhóm chứng rất quan trọng, nó sẽ quyết định giá trị (dấu) của hệ số b

trong phương trình hồi quy.
Tuy nhiên lựa chọn này chỉ thực sự quan trọng khi biến số định tính có nhiều hơn 2 giá trị (coi như biến thứ hạng). Với
biến nhị phân chỉ có 2 giá trị thì bạn có thể chọn First hay Last cũng không ảnh hưởng gì đến kết quả, chỉ lưu ý cách diễn
giải mà thôi.

Ví dụ:
Ta muốn đưa 2 biến số định tính là Tuổi cao > 80; Lệch
đường giữa vào mô hình,
Cả 2 biến đều là biến nhị phân và mã hóa theo quy tắc
0= không/1=có.
Nên ta khai báo như nhau cho cả 2
Tương phản = Indicator
Vị trí giá trị làm chứng = First

6

Sau khi khai báo, nhấn Continues để
trở lại hộp thoại Logistic regression

Biến « thể tích » là biến thứ hạng, và có 3 giá trị, ta cũng
có thể khai báo tương phản = indicator


3

3.2 Đưa biến số vào mô hình

Đưa yếu tố tương tác giữa 2 biến số vào
mô hình
Quan hệ tương tác giữa biến số X1 và X2 được

định nghĩa như 1 biến số mới X’ = X1*X2

3
1
2

Để làm việc này : Đầu tiên ta chọn cả 2 biến số
cần xét: ví dụ Lệch đường giữa và Thể tích xuất
huyết
Sau đó nhấn nút >a*b
Trong danh sách biến số của mô hình sẽ xuất
hiện biến số mới, là tương tác giữa 2 biến số
này : Lech duong giua*The tich

Lưu ý:
Muốn xét tương quan X1*X2 trong mô
hình logistic, cả 3 biến số phải cùng tồn tại
trong mô hình
X1, X2 và X1*X2
Không thể xét riêng X1*X2 mà không có X1
hoặc X2


3

3.2 Các quy trình phân tích tự động

Phương pháp cưỡng bức (Enter method)
Đây là cách làm khá thô bạo, ta sẽ đưa 1 loạt biến số vào cùng một lúc và ép buộc máy tính phải cho ra một
mô hình chứa tất cả những biến số này (mô hình bão hòa biến số).


SPSS

Biến số

Mô hình bão hòa

Tất cả biến số đưa vào đều được tận dụng để xuất ra mô hình

Trừ phi chúng ta đã chọn lọc được những biến số tốt (có ý nghĩa) trước khi đưa vào phân tích, nếu không trong đa số trường hợp
phương pháp cưỡng bức cho ra kết quả rất tồi tệ. Bạn sẽ có 1 mô hình nhưng hoàn toàn vô giá trị, vì những biến số xấu sẽ triệt
tiêu công dụng những biến số tốt, cuối cùng khả năng dự báo bị giảm sút và odds-ratio cũng bị sai sót.
Làm phương pháp cưỡng bức ngay từ đầu cũng giống như bạn nấu một món ăn bằng cách đổ tất cả nguyên liệu và gia vị vào nồi
cùng lúc mà không qua sơ chế. Kết quả sẽ rất tồi tệ.
Phương pháp cưỡng bức chỉ nên dùng ở công đoạn sau cùng, với danh sách biến số tối ưu, khi bạn đã chắc chắn về vai trò của
những biến số được đưa vào mô hình.

Đây là hậu quả của việc lạm dụng phương
pháp cưỡng bức với quá nhiều biến số.

Trong SPSS, phương pháp cưỡng bức được thực hiện bằng cách đưa hàng loạt biến số
vào chung 1 Block với Method là Enter.


3

3.2 Các quy trình phân tích tự động
Phương pháp Tiến triển
Khác với phương pháp cưỡng bức, thăm dò
theo thứ bậc được thực hiện qua nhiều bước

với 2 loại: Tiến triển hoặc Thoái triển.

SPSS
Danh sách biến số
M0

0

bo
So sánh (dựa vào LR hay Z):
M1 tốt hơn M0

Tiến triển

M1

M2

M3

M4

1

2

3

4


So sánh (dựa vào LR hay Z):
M2 tốt hơn M1
So sánh (dựa vào LR hay Z):
M3 tốt hơn M2
So sánh (dựa vào LR hay Z):
M4 kém hơn M3
Loại bỏ X4

M5

5

So sánh (dựa vào LR hay Z):
M5 tương đương với M3
Loại bỏ X5

M tối ưu

Mô hình tối ưu chỉ bao gồm X1,X2,X3 và bo

Ở phương pháp Tiến triển tự động, máy tính sẽ lần lượt đưa từng biến số vào mô hình trong mỗi bước, sau đó so sánh mô hình này với
mô hình cũ (trước khi đưa biến số vào). Nếu mô hình mới tốt hơn, biến số Xi sẽ được giữ lại và máy tiếp tục đưa biến số tiếp theo vào và
so sánh… Quy trình được lặp lại cho tới biến số cuối cùng, và mỗi khi kết quả so sánh cho thấy mô hình mới không tốt hơn (ngang bằng
hoặc kém hơn mô hình cũ), biến số vừa được đưa vào sẽ bị loại bỏ. Cuối cùng, máy cho ta mô hình tối ưu nhất chỉ chứa những biến số
thực sự có ý nghĩa quan trọng.
Tuy tốt hơn nhiều so với phương pháp cưỡng bức, phương pháp tiến triển vẫn có kẽ hở: Biến số đi trước nghiễm nhiên được chấp nhận,
ngay cả khi nó triệt tiêu biến số đi sau, do đó biến số đi sau có nguy cơ bị loại bỏ một cách oan uổng.
Phương pháp tiến triển chỉ có ích một khi ta đã có mô hình tốt với những biến số tốt, và ta muốn kiểm tra thêm vai trò của một biến số
lạ.



3

3.2 Các quy trình phân tích tự động
Phương pháp Thoái triển

SPSS
Danh sách biến số

M0

0

M1

1

bo

So sánh (dựa vào LR hay
Z): M1 tốt hơn M0

Thoái triển

So sánh (dựa vào LR hay
Z): M2 tốt hơn M1
M2

2


M3

3

M4

4

M5

M tối ưu

5

So sánh (dựa vào LR hay Z):
M3 tương đương với M2

So sánh (dựa vào LR hay Z):
M4 kém hơn M3
So sánh (dựa vào LR hay Z):
M5 kém hơn M4

Mô hình tối ưu chỉ bao gồm X1,X2,X3 và bo

Ở phương pháp thoái triển, máy tính cũng sẽ bắt đầu bằng mô hình tối giản (chỉ chứa hằng số bo, sau đó sẽ thăm dò qua nhiều
bước với quy trình ngược với phương pháp tiến triển, tức là ta bắt đầu bằng mô hình bão hòa (chứa tất cả các biến số), sau đó
máy sẽ lần lượt loại bỏ một biến số ở mỗi bước, mô hình sau khi tinh giản sẽ được so sánh với mô hình trước khi biến số đó bị
loại bỏ. Quy trình được tiếp tục cho đến khi tất cả các biến số đã được thăm dò. Nếu mô hình sau kém hơn mô hình trước,
biến số sẽ được giữ lại, nếu không nó sẽ bị loại bỏ thực sự. Kết quả cuối cùng là mô hình tối ưu, chứa ít biến số nhất và có độ
phú hợp (ý nghĩa) cao nhất.

Thoái triển là phương pháp hiệu quả và chính xác nhất trong 3 loại, ta thường dùng phương pháp thoái triển để thăm dò và lọc
bỏ những biến số xấu khỏi danh sách, hoặc để khảo sát sự tương tác, triệt tiêu lẫn nhau giữa 1 biến số mới và tập hợp biến số
cũ. Cách làm này còn giúp ta lựa chọn 1 biến số tối ưu trong số nhiều biến có vai trò tương tự nhau, giữa biến định tính và biến
định lượng mô tả cùng 1 hiện tượng, đại lượng (Ví dụ: Biến « Cao huyết áp » và biến « số đo Huyết áp » cùng khảo sát một vấn
đề. Phương pháp thoái triển sẽ loại bỏ giùm cho ta biến số kém hiệu quả hơn.


3

3.2 Các quy trình phân tích tự động

1

Trong SPSS, khi đưa 1 loạt biến số vào cùng 1 block, tức là ta muốn phân tích tự động
Ta có thể chọn phương pháp phân tích tự động bằng cách nhấn nút Method: Một danh
sách sẽ mở ra, cho phép ta chọn nhiều phương pháp

Method

Ý nghĩa

Enter

Phương pháp cưỡng bức

Foward Conditional

Phương pháp tiến triển, dựa theo điều kiện

Foward LR


Phương pháp tiến triển, với tiêu chuẩn so sánh dựa vào Likelihod ratio

Foward Wald

Phương pháp tiến triển , với tiêu chuẩn so sánh dựa vào test Z của Wald

Backward Conditional

Phương pháp thoái triển , dựa theo điều kiện

Backward LR

Phương pháp thoái triển với tiêu chuẩn so sánh dựa vào Likelihod ratio

Backward Wald

Phương pháp thoái triển với tiêu chuẩn so sánh dựa vào test Z của Wald


3

3.3 Quy trình phân tích thủ công

Nhấn Next để chuyển sang Block tiếp theo

Phương pháp thủ công có nghĩa là việc thăm dò hoàn toàn dựa vào hành vi chủ động của người sử dụng, bằng cách sử dụng nhiều Block, mỗi
Block là 1 bước thăm dò, SPSS chỉ thực hiện phân tích cho từng Block nhưng không đưa ra bất cứ quyết định gì liên quan tới kết quả. Chính
người sử dụng phải chủ động so sánh mô hình giữa các Block với nhau một cách thủ công.
Thêm 1 block mới (và thêm biến số mới) tương đương với phương pháp thăm dò tiến triển, nhưng quyết định về mô hình tối ưu hoàn toàn do

ta chủ động.
Xóa đi 1 block (rút bớt biến số khỏi mô hình) tương đương với phương pháp thăm dò thoái triển, nhưng quyết định về mô hình tối ưu hoàn
toàn do ta chủ động.
Lưu ý:
-Block 0 do SPSS tự động thực hiện cho tất cả mô hình, Block 0 chỉ có hằng số bo và mô hình M0 được sử dụng như tiêu chuẩn để so sánh với
những bước tiếp theo.
-SPSS chỉ cho phép thực hiện tối đa 9 Blocktrong một lần phân tích, tuy nhiên mỗi Block lại có thể chứa 1 hay nhiều biến số
- Phương pháp mặc định cho từng Block là Enter khi phân tích nhiều Bloc, tuy nhiên bạn có thể kết hợp thủ công và tự động, khi bạn quy định
cho SPSS làm Foward hay Backward riêng cho 1 block nào đó chứa nhiều biến số.

Lời khuyên của Nhi:
1) Phân tích thủ công đáng tin cậy hơn quy trình tự động do máy tính thực hiện
2) Phương pháp thoái triển đáng tin cậy hơn tiến triển
3) Tiêu chuẩn so sánh dùng Likelihood ratio đáng tin cậy hơn test Z của Wald
4) Mô hình tối ưu là mô hình cân bằng giữa sự phức tạp và chính xác, tức là nó nên chứa càng ít biến số càng tốt
nhưng đảm bảo khả năng dự báo chính xác cao nhất có thể.


3

3.4 Tùy chỉnh thống kê

Sau khi khai báo xong các biến số, ta
có thể nhấn nút Option để mở hộp
thoại tùy chỉnh thống kê

Hộp thoại Options cho phép thiết lập thêm một số test thống kê hỗ trợ cho việc so sánh, đánh giá chất lượng mô hình
Classification plot: biểu đồ phân loại, đây là 1 histogram của giá trị thực/giá trị dự báo của Y, giúp đánh giá nhanh chóng mức độ phù
hợp giữa mô hình và dữ liệu thực tế
Hosmer Lemeshow goodness: of fit : Cho phép đánh giá mức độ phù hợp giữa mô hình được chọn và dữ liệu

Casewise listing : Tạo bảng liệt kê các trường hợp, theo 2 tiêu chuẩn:
Outler ourtside 2SD: lọc ra những trường hợp có RSD > 2 SD.
Cách làm này giúp nhận diện nhanh những trường hợp cá biệt (nhưng cẩn thận, tiêu chuẩn này có thể bỏ sót, một cách làm khác tốt hơn
sẽ được giới thiệu vào phần cuối tài liệu trong bước kiểm tra mô hình).
All cases: hiển thị cho tất cả case:
Iteration history: cho ta biết giá trị của – 2LL ở từng bước, ta cần giá trị này nếu muốn tính hệ số R
CI95 for Exp (B) 95%: xác định khoảng tin cậy cho odd sratio, mặc định = 95%
Display at : Each step = Hiển thị kết quả sau mỗi bước (khi làm phân tích tự động); Last step= chỉ hiển thị kết quả cho mô hình tối ưu
Probability step wise: 0.05= entry, removal: 0.1: Ngưỡng ý nghĩa thống kê khi thực hiện so sánh tự động
Classification cut-off: 0.5
Maximum iteration: 20 Quy định số bước thăm dò tối đa (trong phương pháp tự động)
Include constant in model: Lựa chọn mô hình có hay không có hằng số bo


3

3.5 Chạy Bootstrap

Bootstrap: Đây là một phương pháp thống kê mới được phát triển khoảng 40 năm nay và bắt đầu được hỗ trợ từ phiên bản SPSS 20.
Nó không làm thay đổi kết quả của mô hình, nhưng cho phép xác định khoảng tin cậy và sai số của hệ số b để giúp ta hình dung về mức
độ phù hợp của mô hình trong một quần thể chung, chứ không chỉ giới hạn trong mẫu khảo sát. Một cách đơn giản, bạn có thể tưởng
tượng phân tích hồi quy sẽ được thực hiện cho một mẫu mô phỏng ngẫu nhiên gấp 1000 lần mẫu cơ bản hiện có. Thí dụ trong trường
hợp này ta sẽ có 109.000 người.
Ghi nhớ
1) Chỉ áp dụng boostrap cho mô hình sau cùng (tối ưu) bằng phương pháp Enter cho tất cả biến số dự báo
2) Với cỡ mẫu ban đầu lớn, mô hình phức tạp; bootstrap chạy rất chậm, có thể bạn phải chờ từ 15-45 phút để có kết quả. Hãy cân
nhắc trước khi chạy Bootstrap
3) Boostrap không dùng được cho stepwise (Forward hay Backward)
4) Một khi dùng Bootstrap, không thể save residual, và ngược lại
5) Lưu ý : Mỗi lần chạy bootstrap, sẽ cho ra giá trị p, CI95% khác nhau, thường p có bootstrap sẽ cao hơn p khi không dùng bootstrap.

Bạn đừng lo lắng vì điều này, đó là do chọn mẫu ngẫu nhiên.


Cách diễn giải kết quả hồi quy logistic

4

Case Processing Summary

1
Unweighted

Casesa

Selected Cases

Included in Analysis

N

Percent

109

100,0

0

,0


109

100,0

0

,0

109

100,0

Missing Cases
Total
Unselected Cases
Total

Bảng đầu tiên Case Processing Summary
Cho biến cỡ mẫu khảo sát n, tính theo giá trị của biến số cần dự báo (Tử
vong). Công dụng của bảng này để phát hiện trường hợp bị sót dữ liệu.

a. If weight is in effect, see classification table for the total number of
cases.

2

Dependent Variable Encoding
Original Value

Internal Value


Không

0



1

3

Bảng thứ 2 Dependent Variable Encoding
Xác nhận quy tắc mã hóa giá trị cho biến số định tính nhị phân cần dự báo, ở đây là Tử vong,
0=Không, 1=Có

Categorical Variables Codings

Bảng thứ 3: Categorical Variables Codings

Parameter
coding
Lệch đường giữa
Trên 80 tuổi

Frequency

(1)

Không


51

,000



58

1,000

Không

97

,000



12

1,000

Trình bày thông tin về biến số định tính có mặt trong mô hình.
Trong ví dụ này, mô hình chứa 2 biến số định tính là: Tuổi cao >80 và lệch
đường giữa. Cả 2 đều có quy tắc mã hóa là 0=không, 1= có.
Ngoài ra bảng còn cho biết tần số đối với mỗi loại giá trị. Tần số này có thể
giúp ta hình dung về mức độ tin cậy của từng biến số (nếu tần số <10 cho
một sự kiện nào đó thì kết quả có nguy cơ bị sai sót).

Block 0: Beginning Block

Block 0 tương ứng với mô hình chỉ chứa hằng số, không có bất cứ biến số nào cả. Hay nói cách khác, Block 0 đồng nghĩa với việc dự báo hoàn toàn
ngẫu nhiên không theo mô hình nào cả.

Classification Tablea,b

4

Predicted
Tử vong
Tử vong

Số trường hợp dự báo đúng = dương tính thật + âm tính thật (TN+TP)

Percentage

Không



Correct

Không

70

0

100,0




39

0

,0

Observed
Step 0

Trong bảng phân loại kết quả dự báo Block 0, ta chú ý vào ô cuối cùng của
cột Percentage correct, nó cho biết mô hình đang xét dự báo chính xác
trong bao nhiêu % trường hợp.

Overall Percentage

Trong ví dụ này, dự báo với mô hình không chứa biến số chỉ chính xác
trong 64,2%. Giá trị 64,2% này sẽ được dùng làm mốc để đánh giá mọi
mô hình sau đó, khả năng dự báo chỉ được xem là có cải thiện nếu cho ra
giá trị cao hơn 64,2%. Một mô hình cho ra giá trị < 64,2% thì không có gì
hay cả.

64,2

a. Constant is included in the model.
b. The cut value is ,500

5

Variables in the Equation

B

Step 0

Constant

-,585

S.E.
,200

Wald
8,569

df

Sig.
1

,003

Exp(B)
,557

Bảng variable cho Block 0 cho biết giá trị của hằng số bo = -0,585, có ý nghĩa thống kê
(p=0,003)


Cách diễn giải kết quả hồi quy logistic


4

Block 1: Method = Enter
Kể từ Block 1 trở đi, mô hình có chứa biến số dự báo. Trong ví dụ này, ta chạy phân tích cho mô hình gồm 4 biến số được cùng lúc đưa vào Block 1
theo phương pháp cưỡng bức là Điểm Glasgow, Tuổi cao >80, lệch đường giữa và huyết áp tâm trương

Model Summary

6
Step
1

Cox & Snell R

Nagelkerke R

-2 Log likelihood

Square

Square

52,879a

,559

,767

Bảng Model Summary trình bày kết quả đánh giá mức độ phù hợp dữ liệu
của mô hình: dựa vào tiêu chuẩn: -2 LL; Giá trị của hệ số R2 theo Cox-Snell

và Nagelkerke.
Thông thường ta quan tâm đến R2 của Nagelkerke.

a. Estimation terminated at iteration number 7 because
parameter estimates changed by less than ,001.

Diễn giải giá trị R2: Mô hình cho phép giải thích 76,7% sự thay đổi về phân
phối của biến cố tử vong trong mẫu khảo sát

Classification Tablea

7

Trong bảng phân loại kết quả dự báo Block 1, ta chú ý vào ô cuối cùng của
cột Percentage correct, nó cho biết mô hình đang xét dự báo chính xác
trong bao nhiêu % trường hợp.

Predicted
Tử vong
Không



Correct

Không

63

7


90,0



6

33

84,6

Observed
Step 1

Tử vong

Percentage

Overall Percentage

Trong ví dụ này, mô hình của Block 1 cho phép dự báo chính xác trong
88,1 % trường hợp (bao gồm 90% không có tử vong, và 84,6% có tử vong)
Giá trị này cao hơn giá trị 64,2 % của mô hình Block 0 chỉ chứa hằng số.
Ta có thể nói: Mô hình Block 1 tốt hơn mô hình Block 0 vì tăng khả năng
dự báo chính xác thêm 23,9%.

88,1

a. The cut value is ,500


Variables in the Equation

8

95% C.I.for EXP(B)

Step

1a

B

S.E.

Wald

df

Sig.

Exp(B)

Lower

Upper

Glasgow

-,604


,126

23,099

1

,000

,546

,427

,699

Tuoicao(1)

4,175

1,216

11,794

1

,001

65,011

6,002


704,136

Lech_duong_giua(1)

1,858

,797

5,439

1

,020

6,413

1,345

30,565

HAttruong

,040

,022

3,286

1


,070

1,041

,997

1,088

Constant

-,662

2,352

,079

1

,778

,516

Độ tự do
của Z

Ý nghĩa
thống kê
của Z

a. Variable(s) entered on step 1: Glasgow, Tuoicao, Lech_duong_giua, HAttruong.


Hệ số b

Sai số của b Trị số Z

Odds-ratio bà CI95% của
nó cho từng yếu tố dự báo

Đây là bảng kết quả quan trọng nhất, nó trình bày nội dung của mô hình hồi quy logistic, bao gồm những thông tin chính như sau:
Mỗi hàng tương ứng cho một biến số dự báo, bao gồm hằng số C, ở đây ta có mô hình gồm 4 biến số dự báo từ trên xuống: điểm Glasgow, Tuổi cao
>80, lệch đường giữa, Huyết áp tâm trương.
Những cột kết quả quan trọng nhất là : Hệ số B tương ứng mỗi biến số dự báo; Sig. cho biết ý nghĩa thống kê của kiểm định Wald cho mỗi biến số dự
báo; Exp(B) chính là odds-ratio cho từng yếu tố, kèm theo ngưỡng trên và dưới khoảng tin cậy 95% cho odds-ratio.
Cách diễn giải những thông số này sẽ được trình bày trong trang tiếp theo.


4

Cách diễn giải kết quả hồi quy logistic
Tỉ số nguy cơ (odds-ratio) cho từng yếu tố : Định nghĩa và cách diễn giải

Trên thực tế, người ta không thích diễn giải trực tiếp giá trị của hệ số b mà lại thích sử dụng giá trị Exp(b) với ý nghĩa như một tỉ số nguy cơ (Oddsratio) cho biến số mà đang xét. Như ta từng biết:
𝑶𝒅𝒅𝒔 =

𝑷(𝒙ả𝒚 𝒓𝒂 𝒔ự 𝒌𝒊ệ𝒏)
𝑷(𝒌𝒉ô𝒏𝒈 𝒙ả𝒚 𝒓𝒂 𝒔ự 𝒌𝒊ệ𝒏)

Odds-ratio = 𝑛𝑔𝑢𝑦 𝑐ơ 𝑥ả𝑦 𝑟𝑎 𝑠ự 𝑘𝑖ệ𝑛 𝑌 =
Trong mô hình hồi quy logistic ta lại có:


𝑷 𝒔ự 𝒌𝒊ệ𝒏 𝒙ả𝒚 𝒓𝒂 =
P(không xảy ra) = 1- P(xảy ra) hay P(Y=0) = 1- P(Y=1)

Như vậy: 𝒐𝒅𝒅𝒔 − 𝒓𝒂𝒕𝒊𝒐 =

𝑷(𝒀=𝟏)
𝑷(𝒀=𝟎)

=

𝑋á 𝑐 𝑠𝑢ấ𝑡 𝑌 𝑥ả𝑦 𝑟𝑎
𝑋á𝑐 𝑠𝑢ấ𝑡 𝑌 𝑘ℎô𝑛𝑔 𝑥ả𝑦 𝑟𝑎

𝟏
𝟏 + 𝒆(−𝒃𝒐+𝒃𝟏𝒙𝟏)

𝒐𝒅𝒅𝒔 𝒔𝒂𝒖 𝒌𝒉𝒊 𝑿 𝒕𝒉𝒂𝒚 đổ𝒊 𝟏 đơ𝒏 𝒗ị
𝑶𝒅𝒅𝒔 𝒃𝒂𝒏 đầ𝒖

Cách diễn giải Odd-ratio: Tỉ số này đo sự thay đổi của xác suất dự báo (nguy cơ xảy ra Y) khi thay đổi 1 đơn vị của biến số X. Nó có thể được
hiểu như: Mỗi đơn vị thay đổi của X tương ứng với nguy cơ (khả năng) xảy ra Y tăng/giảm Exp(b) lần.
Quy tắc thứ 1: ý nghĩa của Odds-ratio tùy thuộc vào dấu của hệ số b.
Cho 1 biến định lượng, nếu b<0; odds-ratio sẽ <1, tuy nhiên nó cần được hiểu là: X và xác suất Y=1 biến thiên ngược chiều nhau, X càng thấp thì
nguy cơ xảy ra Y càng cao (và hiểu ngầm ngược lại: X tăng thì Y ít có nguy cơ xảy ra hơn)
Quy tắc thứ 2: Khi hệ số b > 0: Ta chỉ cần so sánh Odds-ratio với giá trị =1
Odds-ratio = 1: Tỉ số nguy cơ không có ý nghĩa gì cả (biến số X không có ý nghĩa dự báo)
Odds-ratio > 1: X biến thiên cùng chiều với xác suất, X tăng làm tăng nguy cơ xảy ra Y
Odds-ratio < 1: X tăng làm giảm nguy cơ xảy ra Y và ngược lại
Quy tắc thứ 3: Biến định tính
Khi yếu tố dự báo X là 1 biến định tính, ý nghĩa của Odd-ratio càng dễ hiểu hơn nữa: khi có X (X=1) thì khả năng xảy ra Y thay đổi Exp(b) lần so với

khi không có X.
Quy tắc thứ 4: Chú ý khoảng tin cậy95%
Cho dù kiểm định Wald có ý nghĩa, nhưng nếu CI95% của Exp(B) có chứa giá trị 1, biến số X cũng không có ý nghĩa phổ quát, vì trong quần thể
chung sẽ có trường hợp Odss-ratio = 1. Cả 2 ngưỡng CI95% đều phải <1 hay > 1. Nên sử dụng CI95% tính bởi Bootstrap vì kết quả này chính xác
hơn.
Variables in the Equation
95% C.I.for EXP(B)

Step 1a

B

S.E.

Wald

df

Sig.

Exp(B)

Lower

Upper

Glasgow

-,604


,126

23,099

1

,000

,546

,427

,699

Tuoicao(1)

4,175

1,216

11,794

1

,001

65,011

6,002


704,136

Lech_duong_giua(1)

1,858

,797

5,439

1

,020

6,413

1,345

30,565

HAttruong

,040

,022

3,286

1


,070

1,041

,997

1,088

Constant

-,662

2,352

,079

1

,778

,516

a. Variable(s) entered on step 1: Glasgow, Tuoicao, Lech_duong_giua, HAttruong.

Trong ví dụ này, ta diễn giải Odds-ratio như sau:
Điểm Glasgow có hệ số b <0 , Exp(B) = 0,546; như vậy: Điểm Glasgow càng thấp thì nguy cơ tử vong càng cao, xác suất tử vong sẽ giảm 0,55 lần cho
mỗi điểm Glasgow cộng thêm.
Tuổi cao >80 là một yếu tố nguy cơ tử vong, bệnh nhân xuất huyết não >80 tuổi có nguy cơ tử vong cao hơn gấp 65 lần so với bệnh nhân < 80 tuổi.
Dấu hiệu lệch đường giữa là một yếu tố nguy cơ tử vong, bệnh nhân xuất huyết não có dấu hiệu lệch đường giữa tr’ên CT scan sẽ có nguy cơ tử vong
cao hơn gấp 6,4 lần so với bệnh nhân không có dấu hiệu này.

HA tâm trương không phải là một yếu tố dự báo có ý nghĩa, Odds-ratio của nó gần với 1, và CI95% cũng chứa giá trị 1. Mô hình dự báo này chưa phải là
tối ưu, HA tâm trương có thể được loại bỏ khỏi mô hình.


×