Tải bản đầy đủ (.pdf) (5 trang)

HỒI QUI LOGISTIC (Logistic Regression) potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (131.76 KB, 5 trang )

28
HỒI QUI LOGISTIC
(Logistic Regression)


I. GIỚI THIỆU
Hồi qui logistic là một kỹ thuật phân tích hồi qui trong đó biến số phụ thuộc
(Y) là một biến số nhị phân (dichotomous – binary variable), theo đó Y thường được
mã hoá là 1 và 0 (Y = 1, thành công; Y = 0, thất bại). Biến số độc lập trong hồi qui
logistic có thể là biến số rời hoặc liên tục, biến số đơn hoặc đa biến số.
Phần này chỉ trình bày những nguyên lý và hiểu biết cơ bản của hồi qui
logistic.
II. MÔ HÌNH HỒI QUI LOGISTIC
Phương trình hồi qui tuyến tính:


/ 0 1y x
X
  
 
/
y x

là số trung bình của tiểu dân số Y ở 1 X biết
trước
29

0

là hằng số chỉ nơi đường hồi qui cắt trục Y, và
ước


lượng giá trị trung bình của Y khi X = 0

1

là số ước lượng độ dốc, cho biết sự thay đổi
trung
bình của Y đi kèm với 1 sự thay đổi ở x.

0 1
 

biến thiên từ

đến



Khi Y là biến số nhị phân, phương trình trên không sử dụng được vì giá trị
mong đợi (số trung bình) của Y là xác suất để Y = 1 với giới hạn biến thiên là từ 0 đến
1.
Nếu đặt p = P(Y=1) thì tỉ số (p/1–p) có thể biến thiên trong khoảng 0 đến

.
Ngoài ra, logarithm tự nhiên (ln) của p/(1-p) có thể biến thiên trong khoảng

đến

. Như vậy:
Ln
1

p
p
 
 

 
=
0 1
X
 
 (1)
(1) được gọi là mô hình hồi qui logistic vì sự chuyển dạng của
/
y x

(hoặc p)
thành ln [p/(1–p)] được gọi là sự chuyển dạng logit (logit transformation).
30
(1) cũng được trình bày như sau:
p =
0 1
0 1
exp( )
1 exp( )
X
X
 
 

 

exp: nghịch đảo của ln
III. HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP NHỊ PHÂN

Sử dụng bảng 2x2 với số TKKĐ là Tỉ số chênh (Odds Ratio).



IV. HỒI QUI LOGISTIC VỚI BIẾN SỐ ĐỘC LẬP LIÊN TỤC
Thí dụ minh hoạ: Xác định mối tương quan giữa tuổi và nồng độ Cholesterol
toàn phần (TC) thực hiện trên cộng đồng người Mỹ gốc Mỹ La tinh (Hispanic
Americans), và dựa trên đó để tiên đoán khả năng của 1 người Hispanic American có
nồng TC ≥ 240 nếu biết trước tuổi của người đó.
Hispanic Americans với nồng độ TC ≥ 240 mg% phân bố theo Tuổi

Nhóm tuổi (năm) Số được khám (n
i
) Số có TC ≥ 240 (n
i1
)
31
25 – 34 522 41
35 – 44 330 51
45 – 54 344 81
55 – 64 219 81
65 – 74 114 50

Biến số độc lập là biến số liên tục (Tuổi). Do không có số liệu về tuổi của từng cá
nhân nên việc phân tích
Biến số phụ thuộc là biến số nhị phân (TC ≥ 240 và TC < 240).
Kết quả:


0
4,04

 


1
0,06



PT. Hồi qui:

4,04 0,06
i
y x
  

trong đó

1 2
ln( / )
i i i
y n n

n
i1
: số người trong nhóm tuổi thứ I có TC ≥
240

n
i1
+ n
i2
= n
i
Kiểm định giả thuyết H
0
:
1
0


cho kết quả p < 0,0001 (Chisquare test vói 1 df)
Kết luận: Phương trình hồi qui thích hợp để sử dụng.
32
Sử dụng hồi qui logistic để tiên đoán: tìm xác suất để 1 Hispanic American ở độ tuổi
29,5 có TC ≥ 240.

exp[ 4,04 (0,06)(29,5)]
0,087
1 exp[ 4,04 (0,06)(29,5)]
p
 
 
  

V. HỒI QUI LOGISTIC VỚI ĐA BIẾN SỐ ĐỘC LẬP RỜI
Mô hình hồi qui logistic (với 3 biến số độc lập rời – discrete independent variables)


exp[ ( )]
X
0 1 1 2 2 3 3
1
P
1 X X X
   

    




×