Tải bản đầy đủ (.pdf) (68 trang)

hồi quy logistic và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.81 MB, 68 trang )



TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN







LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC



HỒI QUY LOGISTIC VÀ ỨNG DỤNG




GIÁO VIÊN HƢỚNG DẪN SINH VIÊN THỰC HIỆN
Ths Trần Phƣớc Lộc Trần Thị Kim Ngân
Bộ môn Toán – khoa KHTN Ngành Toán ứng dụng K36









CẦN THƠ, 11/2013
i

LỜI CÁM ƠN


Luận văn tốt nghiệp là thành quả sự nổ lực của bản thân trong suốt
quá trình ở giảng đường đại học; sự dìu dắt, dạy dỗ, hướng dẫn tận tình của
các Thầy, Cô trong khoa Khoa học tự nhiên trường Đại học Cần Thơ và sự
ủng hộ, động viên của gia đình và bạn bè.
Trước tiên, tôi xin chân thành cám ơn các Thầy, Cô trong bộ môn
Toán khoa Khoa học tự nhiên đã nhiệt tình truyền dạy những kiến thức quý
báu cho tôi.
Tôi xin gửi lời cám ơn sâu sắc đến Ths Trần Phước Lộc – là giáo viên
hướng dẫn trực tiếp cho tôi trong suốt quá trình thực hiện luận văn và đồng
thời là cố vấn học tập dìu dắt và hướng dẫn phương pháp học tập cho tôi
trong thời gian qua.
Xin cám ơn tập thể lớp Toán ứng dụng K36 đã đồng hành, chia sẻ và
vượt qua khó khăn cùng tôi trong những năm qua.
Mặc dù tôi đã cố gắng và nổ lực hết khả năng để hoàn thành luận văn
nhưng không thể tránh khỏi những thiếu sót, tôi mong được sự cảm thông
và đóng góp ý kiến quý báu của quý Thầy, Cô và các bạn.

Cần Thơ, ngày 17 tháng 11 năm 2013
Sinh viên thực hiện


Trần Thị Kim Ngân
ii


DANH MỤC CÁC BẢNG

Bảng 2.1: Omnibus Tests of Model Coefficients 21
Bảng 2.2: Model Summary 21
Bảng 2.3: Contengency Table for Hosmer and Lemeshow 22
Bảng 2.4: Classification Table 22
Bảng 2.5: Variables in the Equation 22
Bảng 2.6: Omnibus Tests of Model Coefficients 27
Bảng 2.7: Model Summary 28
Bảng 2.8: Contengency Table for Hosmer and Lemeshow 28
Bảng 2.9: Classification Table 28
Bảng 2.10: Variables in the Equation 29
Bảng 3.1: Case Processing Summary 33
Bảng 3.2: Omnibus Tests of Model Coefficients 33
Bảng 3.3: Model Summary 34
Bảng 3.4: Contengency Table for Hosmer and Lemeshow 34
Bảng 3.5: Classification Table 34
Bảng 3.6: Variables in the Equation 35
Bảng 3.7: Tóm tắt ý nghĩa của hệ số hồi quy 36
Bảng 3.8: Case Processing Summary 38
Bảng 3.9: Omnibus Tests of Model Coefficients 38
Bảng 3.10: Model Summary 39
Bảng 3.11: Contengency Table for Hosmer and Lemeshow 39
Bảng 3.12: Classification Table 39
Bảng 3.13: Variables in the Equation 40
Bảng 3.14: Tóm tắt ý nghĩa của hệ số hồi quy 41
Bảng 3.15: Case Processing Summary 43
Bảng 3.16: Omnibus Tests of Model Coefficients 43
Bảng 3.17: Model Summary 44

Bảng 3.18: Contengency Table for Hosmer and Lemeshow 44
Bảng 3.19: Classification Table 44
Bảng 3.20: Variables in the Equation 45
Bảng 3.21: Tóm tắt ý nghĩa của hệ số hồi quy 47
iii

MỤC LỤC

PHẦN MỞ ĐẦU 1
CHƢƠNG 1: HỒI QUY LOGISTIC 2
1.1 GIỚI THIỆU 2
1.2 PHƢƠNG PHÁP ƢỚC LƢỢNG HỢP LÍ CỰC ĐẠI 2
1.2.1 Trường hợp một tham số

3
1.2.2 Trường hợp tham số vectơ
 
12
, , ,
m
   

4
1.3 SỐ CHÊNH (ODDS) VÀ TỶ SỐ ODDS 5
1.3.1 Định nghĩa 5
1.3.2 Ví dụ minh họa 6
1.4 HỒI QUY LOGISTIC ĐƠN BIẾN 7
1.4.1 Mô hình 7
1.4.2 Xây dựng đường hồi quy 8
1.4.3 Các đại lượng thống kê liên quan 11

1.4.4 Ý nghĩa của hệ số hồi quy Logistic đơn biến 13
1.5 HỒI QUY LOGISTIC ĐA BIẾN 13
1.5.1 Mô hình 13
1.5.2 Xây dựng đường hồi quy 14
1.5.3 Các đại lượng thống kê liên quan 15
1.5.4 Ý nghĩa của các hệ số hồi quy Logistic đa biến 16
CHƢƠNG 2: HỒI QUY LOGISTIC TRÊN PHẦN MỀM SPSS 18
2.1 GIỚI THIỆU 18
2.2 MÔ HÌNH HỒI QUY LOGISTIC ĐƠN BIẾN 18
2.2.1 Tiến hành phân tích 18
2.2.2 Đọc kết quả phân tích 21
2.3 MÔ HÌNH HỒI QUY LOGISTIC ĐA BIẾN 24
2.3.1 Tiến hành phân tích 24
2.3.2 Đọc kết quả phân tích 28
CHƢƠNG 3: ỨNG DỤNG CỦA MÔ HÌNH HỒI QUY LOGISTIC 31
3.1 GIỚI THIỆU 31
3.2 MỘT SỐ ỨNG DỤNG MÔ HÌNH HỒI QUY LOGISTIC 31
3.2.1 Ứng dụng trong y học 31
3.2.2 Ứng dụng trong xã hội 366
3.2.3 Ứng dụng trong giáo dục 411
KẾT LUẬN 48
TÀI LIỆU THAM KHẢO 49
iv

PHỤ LỤC 50
1. PHỤ LỤC 1 50
2. PHỤ LỤC 2 50
3. PHỤ LỤC 3 51
4. PHỤ LỤC 4 51
5. PHỤ LỤC 5 56

1

PHẦN MỞ ĐẦU

Trong xã hội ngày nay, thống kê ngày càng đóng vai trò quan trọng trong
trong nhiều lĩnh vực, giúp nghiên cứu các vấn đề kinh tế, xã hội và sinh học (y
tế, nông nghiệp, thủy sản…) thông qua việc thu thập, xử lý và phân tích dữ
liệu bằng các phần mềm thống kê. Hai vấn đề quan trọng của thống kê là: (1)
thống kê mô tả và (2) thống kê suy diễn (dự báo). Một trong những phương
pháp thống kê dự báo quan trọng đó là hồi quy, mô hình này thể hiện mối
quan hệ giữa biến phụ thuộc (Y) với một hay nhiều biến độc lập (X
i
) có thể là
dữ liệu định lượng hoặc định tính. Khi biến phụ thuộc (Y) là biến định tính
dạng nhị phân thì ta sử dụng mô hình hồi quy Logistic. Mô hình này là dạng
mở rộng của mô hình hồi quy tuyến tính và được xếp vào dạng mô hình hồi
quy phi tuyến.
Luận văn này trình bày chi tiết cơ sở lý thuyết, các bước thực hành và ví
dụ minh họa trên phần mềm SPSS mô hình hồi quy Logistic đơn biến và đa
biến. Trong đó đề cập đến vấn đề mã hóa các biến định tính, kiểm định sự phù
hợp của mô hình, cách đọc kết quả và thiết lập mô hình Logistic.
Luận văn bao gồm phần mở đầu, phần nội dung, phần kết luận và phụ
lục. Phần nội dung được chia thành 3 chương:
Chƣơng 1 (Hồi quy Logistic): Giới thiệu chi tiết về cơ sở lý thuyết,
phương pháp xây dựng, ý nghĩa các hệ số hồi quy của mô hình hồi quy
Logistic đơn biến và đa biến.
Chƣơng 2 (Hồi quy Logistic trên phần mềm SPSS): Giới thiệu cách xây
dựng mô hình hồi quy Logistic trên phần mềm SPSS và cách đọc kết quả từ
phần mềm.
Chƣơng 3 (Ứng dụng của mô hình hồi quy Logistic): Trình bày một số

ứng dụng thực tế của mô hình hồi quy Logistic trong lĩnh vực y học, xã hội và
giáo dục.

2

CHƢƠNG 1
HỒI QUY LOGISTIC



1.1 GIỚI THIỆU
Mô hình hồi quy Logistic là một trong những mô hình hồi quy phi
tuyến đây là mô hình mở rộng của hồi quy tuyến tính và bản chất của nó đó
là ln-tuyến tính. Trong đó, biến phụ thuộc Y là biến định tính có hai biểu
hiện, ví dụ: có - không; thành công - thất bại, mắc bệnh - không mắc
bệnh,…và các biến độc lập là định lượng hoặc định tính. Khi đó chúng ta
không thể dùng mô hình hồi quy tuyến tính hoặc phi tuyến thông thường để
dự báo được và lúc này mô hình hồi quy Logistic thường được áp dụng. Mô
hình này được sử dụng phổ biến trong việc dự báo thuộc lĩnh vực y học, xã
hội, kinh tế, sinh học,…
1.2 PHƢƠNG PHÁP ƢỚC LƢỢNG HỢP LÍ CỰC ĐẠI
 Định nghĩa 1:
Giả sử
12
( , , , )
n
X X X
là biến ngẫu nhiên độc lập có cùng hàm mật
độ xác suất
( , )

i
fX

trong đó


là tham số chưa biết. Lấy mẫu gồm n phần
tử
 
12
, , ,
n
X X X X
khi đó hàm mật độ xác suất đồng thời của n quan
sát là
 
   
12
1
| , , , | |
n
ni
i
L X f X X X f X
  



(1.1)
được gọi là hàm hợp lí của


.
 Định nghĩa 2:
Đại lượng
 
12
ˆ
, , ,
n
X X X

được gọi là ước lượng hợp lí cực đại của

nếu
 
 
 
ˆ
||L X X L X


với mọi

.
Hàm
 
|LX

có thể được chọn như là một tiêu chuẩn ước lượng tối
ưu của


. Phương pháp ước lượng làm cực đại hàm hợp lí được gọi là
phương pháp ước lượng hợp lí cực đại của tham số. Trong phương pháp
này giá trị tối ưu
ˆ

của

được chọn sao cho nó làm
 
|LX

đạt giá trị
lớn nhất.
3

Khi cực đại của một tổng thì đơn giản hơn cực đại của một tích. Vì
vậy thay cực đại của
 
|LX

thành
 
ln |LX



(nếu
ˆ


cực đại trong
 
ln |LX



thì nó cũng cực đại trong
 
|LX

).
1.2.1 Trƣờng hợp một tham số


Để tìm ước lượng hợp lí cực đại
ˆ

của hàm hợp lí
 
|LX

ta sử
dụng phương pháp tìm cực trị địa phương tại
ˆ


với điều kiện cần
 
|
0

LX





.
Ví dụ 1.1. Giả sử
12
( , , , )
n
X X X
là mẫu ngẫu nhiên độc lập từ phân
phối Poisson với tham số
0


. Tìm ước lượng hợp lí cực đại của

.
Giải
Ta có
 
~XP

nên hàm mật độ xác suất
 
!
i
X

i
e
fX
X




trong đó
1,in
.
Áp dụng công thức (1.1) ta được hàm hợp lí là
 
1
1
ln | ln ln
!!
ii
XX
n
n
i
i
ii
ee
LX
XX







   
   
   

   




 
11
ln( ) ln ln !
i
nn
X
i
ii
n e X




  



1

1
ln ln !
n
n
ii
i
i
X n X





  







 
1
ln |
1
n
i
i
LX
Xn




  

  



Cho
 
11
ln |
11
00
nn
ii
ii
LX
X n X
n




  

     




Ta được
 
2
22
1
ln |
1
0
n
i
i
LX
X



  

  


với mọi


1
1
ˆ
n
i

i
X
n




là cực đại của hàm
 
ln |LX




4

Vậy
1
1
ˆ
n
i
i
X
n




là ước lượng hợp lí cực đại của tham số


.
1.2.2 Trƣờng hợp tham số vectơ
 
12
, , ,
m
   


Đặt
 
 
ln |LX
U



  



. (
 
U

được gọi là hàm điểm)
Để tìm ước lượng hợp lí cực đại
ˆ


của hàm hợp lí
 
|LX

ta cho
 
0U


, khi đó ta được hệ phương trình

 
 
 
1
1
1
2
1
ln |
0
ln |
0
ln |
0
n
i
i
n
i

i
n
i
i
m
fx
fx
fx










































(1.2)
Công thức (1.2) là hệ phương trình gồm m phương trình, m ẩn số
i

,
1, .in
Giải hệ phương trình (1.2) ta tìm được
.
i



Ví dụ 1.2. Giả sử
12
( , , , )
n
X X X
là mẫu ngẫu nhiên từ phân phối
chuẩn
2
( , ).N

Tìm ước lượng hợp lí cực đại của
2
( , ).


Giải
Ta có
2
~ ( , )XN

nên hàm mật độ xác suất

 
2
2
2
2
2
1
( , , )

2
X
f X e








 
 
2
22
2
1
ln , , ln 2 ln
22
i
X
fX

   



    




 
2
2
ln , ,
i
fX
X











 
 
2
2
2 4 2
ln , ,
1
22
i
fX
X



  







5

Thay vào công thức (1.2) ta được hệ phương trình

 
 
 
2
2
1
1
2
2
42
2
1
1
ln , ,
0
0

1
ln , ,
0
0
22
n
n
i
i
i
i
n
n
i
i
i
i
X
fX
X
fX


















































   
11
22
11
1
0
1
0
nn
ii
ii
nn
ii
ii
X n X
n
X n X
n

   




  





    





Vậy
+ Ước lượng hợp lí cực đại của


là:
1
1
ˆ
.
n
i
i
X
n






+ Ước lượng hợp lí cực đại của
2


là:
 
2
1
1
ˆˆ
.
n
i
i
X
n





Trong đó
ˆ


là ước lượng không chệch của




2
ˆ


là ước lượng
chệch của
2
.


1.3 SỐ CHÊNH (ODDS) VÀ TỶ SỐ ODDS
1.3.1 Định nghĩa
a) Số chênh
Số chênh (odds) của biến cố A được định nghĩa là tỷ số giữa xác suất
để biến cố A xảy ra và xác suất để biến cố A không xảy ra.
Kí hiệu là:
 
odds A

Ta có:
 
 
 
1
pA
odds A
pA




(1.3)
b) Tỷ số odds
Tỷ số odds của hai biến cố A và B xảy ra là tỷ số của
 
odds A

 
odds B
.
Kí hiệu là:
 
,OR A B

Ta có:
 
 
 
 
 
 
 
1
,
1
odds A p A p B
OR A B
odds B p A p B


  


(1.4)
6

 Nhận xét: odds của một biến cố đã xảy ra là con số so sánh số lần xác
suất xảy ra và không xảy ra của một biến cố. Trong khi
 
,OR A B

con số so sánh số lần của
 
odds A

 
odds B
.
1.3.2 Ví dụ minh họa
Ví dụ 1.3. Có một nghiên cứu được làm thí nghiệm trên não của mèo.
Nhiều người yêu thích loài mèo phản đối việc nghiên cứu này, yêu cầu thí
nghiệm phải được dừng lại. Một trường đại học khảo sát 315 sinh viên được
số liệu như sau:

Giới tính
Nam
Nữ
Quyết định
Ngừng nghiên cứu
140

47
Tiếp tục nghiên cứu
60
68
Tìm odds của biến cố tiếp tục nghiên cứu của nam, nữ và tỷ số odds
của hai biến cố này.
Giải
Mã hóa biến giới tính như sau:
+ x = 1: nếu giới tính là nam
+ x = 0: nếu giới tính là nữ
Gọi A, B lần lượt là biến cố tiếp tục nghiên cứu của nam và nữ.
Xác suất để nam và nữ đồng ý tiếp tục nghiên cứu lần lượt là

 
60
0.3
200
pA  

 
68
0.5913
115
pB  

Ta có
 
 
 
0.3 0.3

0.4286
1 1 0.3 0.7
pA
odds A
pA
    


 
 
 
0.5913 0.5913
1.4468
1 1 0.5913 0.4087
pB
odds B
pB
    


7

Tỷ số odds của hai biến cố A và B là

 
 
 
0.4286
OR , 0.2962
1.4468

odds A
AB
odds B
  

1.4 HỒI QUY LOGISTIC ĐƠN BIẾN
1.4.1 Mô hình
Mô hình này nghiên cứu mối quan hệ giữa biến phụ thuộc (Y) với một
biến độc lập (X). Trong đó, Y là biến nhị phân nhận giá trị 0 hoặc 1, X là
biến định lượng hoặc định tính. Ở đây ta sẽ không phân tích mối quan hệ
giữa giá trị của biến Y với X mà chúng ta quan tâm đến việc phân tích mối
quan hệ giữa xác suất kết quả thành công (Y = 1) với biến X ảnh hưởng đến
kết quả này.
Hàm Logistic sẽ tìm mối quan hệ giữa odds của sự thành công (Y = 1)
với các giá trị của biến độc lập. Mối quan hệ này thông thường là quan hệ
tuyến tính.
Gọi
   
1|p X p Y X
là xác suất có điều kiện Y = 1 khi X xảy ra.
Giả sử
 
pX
có mối quan hệ với biến X, nhưng ta không thể tìm trực
tiếp mối quan hệ này vì
 
pX
chỉ nhận giá trị thuộc [0; 1] trong khi X nhận
giá trị bất kì. Ta thấy
 

 
 
 
ln ln
1
pX
odds p X
pX







có mối quan hệ với
 
pX
và có giá trị bất kì, vì thế ta có thể thay mối quan hệ giữa
 
pX
và X
bằng mối quan hệ giữa
 
 
ln
1
pX
pX





và X. Giả sử mối quan hệ này như
sau:

 
 
01
ln
1
pX
X
pX






(1.5)
Hay

 
 
01
1
X
pX
e

pX




(1.6)
Công thức (1.5) và (1.6) cho ta hai hình thức của mô hình hồi quy
Logistic đơn biến.
Trong đó
8


 
 
ln odds p X


hay
 
 
ln
1
pX
pX




được gọi là
 

logit pX

.

0


1

là hai hệ số hồi quy, với
0

là điểm chắn và
1

là độ dốc.
*Chú ý
i) Ta có
     
 
0 1 0 1 1
logit 1 logit 1p X p X X X
    
             
     
Vậy khi X tăng lên 1 đơn vị thì
 
logit pX

sẽ tăng lên

1
%

.
ii) Khi
0
XX
thì giá trị odds là:
 
0 1 0
0
|
X
odds p X X X e





.
Khi
0
1XX
thì giá trị odds là

 
 
0 1 0
1
0

|1
X
odds p X X X e



  


Khi đó tỷ số odds là
 
 
 
0 1 0
1
0 1 0
1
0
0
|1
OR
|
X
X
odds p X X X
e
e
e
odds p X X X









  




1.4.2 Xây dựng đƣờng hồi quy
Thông thường để ước lượng các hệ số trong các đường hồi quy ta
dùng phương pháp bình phương bé nhất. Tuy nhiên trong mô hình hồi quy
Logistic nó rất phức tạp, vì thế ta sử dụng phương pháp ước lượng hợp lí
cực đại.
Giả sử ta có n mẫu quan sát độc lập
 
,
ii
xp
,
1,in
, trong đó
 
ii
p x p
.
Giả sử phân phối có điều kiện cho

i
y
khi
i
x
xảy ra là phân phối Nhị
thức
 
1;
i
Bp
với
01
ln
1
i
i
p
x
p






.
Gọi
0
ˆ


,
1
ˆ

lần lượt là các ước lượng của
0


1

. Xây dựng đường
hồi quy như sau:

 
 
01
ˆˆ
ln
1
px
x
px






(1.7)

Từ công thức (1.7) ta có xác suất của sự thành công và thất bại được
xác định như sau:
9


01
01
ˆˆ
ˆˆ
1
x
x
e
p
e







01
ˆˆ
1
1
1
x
p
e





(1.8)
Thực hiện n lần quan sát ta có hàm hợp lí

   
1
01
1
,1
i
i
n
y
y
ii
i
L p p







01
0 1 0 1
ˆˆ

1
ˆ ˆ ˆ ˆ
1
1
11
i
i
i
ii
y
y
x
n
xx
i
e
ee

   





















 
 
01
1
01
ˆˆ
ˆˆ
1
n
ii
i
i
xy
n
x
e
e











01
11
01
ˆˆ
ˆˆ
1
nn
i i i
ii
i
y x y
n
x
e
e












Trong đó
i
y
bằng 1 nếu kết quả thành công và bằng 0 nếu kết quả thất
bại.
Ta có hàm điểm
 
01
ˆˆ
,U



 
 
 
 
 
01
01
0
01
1
01
01
1
ˆˆ
,

ˆˆ
ˆ
exp
1
ˆˆ
,
ˆˆ
ˆˆ
1 exp
,
ˆ
n
i
i
i
i
i
L
x
Uy
x
x
L


















  















 
 
1
1

n
ii
i
n
i i i
i
yp
x y p














Cho
 
01
ˆˆ
,0U


ta được hệ phương trình sau:

10


 
 
 
 
01
11
01
01
11
01
ˆˆ
exp
ˆˆ
1 exp
ˆˆ
exp
ˆˆ
1 exp
nn
i
i
ii
i
nn
i
i i i
ii

i
x
y
x
x
x y x
x















  















(1.9)
Giải hệ phương trình (1.9) để tìm một biểu thức giải tích cụ thể rất
phức tạp trong trường hợp tổng quát nên thường chỉ giải trong trường hợp
cụ thể. Tuy nhiên việc tính toán cũng không đơn giản, vì thế trong thực tế
người ta thường sử dụng đến sự hỗ trợ của các phần mềm thống kê như
SPSS, R,…
*Chú ý
Trong trường hợp nếu biến độc lập là biến nhị phân thì việc tìm các hệ
số hồi quy của mô hình rất đơn giản.
Gọi A là biến cố cần quan tâm. Chúng ta mã hoá biến độc lập theo hai
trường hợp:
0x 

1x 
. Khi đó ta có hệ phương trình

 
 
0
01
ˆ
ln | 0
ˆ

ln | 1
odds A x
odds A x



   
  

    



(1.10)
Giải hệ phương trình (1.10) chúng ta sẽ dễ dàng tìm được
0
ˆ


1
ˆ

.
Ví dụ 1.4: Phân tích ví dụ 1.3. Tìm mô hình hồi quy thể hiện sự quyết
định tiếp tục làm nghiên cứu trên não mèo theo giới tính.
Giải:
Chúng ta lập mô hình hồi quy Logistic để phân tích dữ liệu này.
Gọi biến y (tiếp tục nghiên cứu) là biến phụ thuộc và biến x (giới tính)
là biến độc lập. Chúng ta mã hoá các biến như sau:
Biến tiếp tục:

1y 
nếu quyết định tiếp tục nghiên cứu,
0y 
nếu
quyết định ngừng nghiên cứu.
Biến giới tính:
1x 
nếu là sinh viên nam,
0x 
nếu là sinh viên nữ.
Dạng tổng quát của mô hình hồi quy Logistic đơn biến là

 
01
ln ln
1
p
y odds y x
p


     





Ta tính odds cho giới tính nam và nữ.
11


 
0.3 0.3
1 0.4286
1 0.3 0.7
odds x    


 
0.5913 0.5913
0 1.4468
1 0.5913 0.4087
odds x    


Ta có biến độc lập là biến nhị phân nên ta áp dụng hệ phương trình
(1.10). Khi đó

   
   
0
01
ˆ
ln | 0 ln 0
ˆˆ
ln | 1 ln 1
odds y x odds x
odds y x odds x




       
    

        

   



 
 
0
01
ˆ
ln 0.4286 0.8472
ˆˆ
ln 1.4468 0.3694



  



  



Gọi
0

ˆ

,
1
ˆ

lần lượt là ước lượng hợp lí cực đại của
0


1

.
Để tìm các ước lượng
0
ˆ

,
1
ˆ

ta giải hệ phương trình trên. Từ đó suy
ra các hệ số của mô hình.
Giải hệ phương trình ta được

0
1
ˆ
0.8472
ˆ

1.2166










Vậy mô hình hồi quy Logistic là:
0.8472 1.2166yx  

1.4.3 Các đại lƣợng thống kê liên quan
Cho một mẫu gồm n đôi
   
 
1 1 2 2
, , , , , ,
nn
x y x y x y

Gọi
0
ˆ

,
1
ˆ


lần lượt là ước lượng hợp lí cực đại của
0


1


 
ˆ
px
là xác suất ước lượng của mô hình cho giá trị x, ta có
 
 
 
01
01
ˆˆ
exp
ˆ
ˆˆ
1 exp
x
px
x








 
ˆˆ
w1
i i i
pp
, trong đó:
 
ˆˆ
ii
p p x
,
1,in


12

1
w
1
w
w
n
ii
i
n
i
i
x

x





,
 
2
w
1
w
n
i i i
i
SS x x




Một số đại lượng thống kê liên quan
 Sai số chuẩn của
0
ˆ

,
1
ˆ

lần lượt là


 
2
w
0
w
1
1
ˆ
ˆ
w
n
i
i
x
se
SS






 
1
w
1
ˆ
ˆ
se

SS



 Khi
0
xx
thì:
 
0 0 1 0
ˆˆ
ˆ
logit p x x






 
 
 
0 1 0
0
0 1 0
ˆˆ
exp
ˆ
ˆˆ
1 exp

x
px
x





(1.11)
 Sai số chuẩn của
 
0
ˆ
logit px




 
 
     
22
2
0 0 0 0 1 0 1
ˆ ˆ ˆ ˆ
ˆ
logit 2 ,se p x se x Cov x se
   
   


  

   

 Sai số chuẩn của
 
0
ˆ
px


       
 
0 0 0 0
ˆ ˆ ˆ ˆ
1 logitse p x p x p x se p x
     

     

 Khoảng ước lượng cho
0
ˆ


1
ˆ

với độ tin cậy
1





   
0 0 0 0
11
22
ˆ ˆ ˆ ˆ
; u se u se

   


   


   

(1.12)

   
1 1 1 1
11
22
ˆ ˆ ˆ ˆ
; u se u se

   



   


   

(1.13)
Trong đó
1
2
u


là phân vị chuẩn xác suất
1
2


.
 Khoảng ước lượng cho
 
0
ˆ
px
với độ tin cậy
1






       
0 0 0 0
11
22
ˆˆ
; p x u se p x p x u se p x



   


   



13

 Khoảng ước lượng cho
 
0
ˆ
logit px


với độ tin cậy
1




   
 
   
 
0 0 0 0
11
22
ˆ ˆ ˆ ˆ
logit logit ; logit logitp x u se p x p x u se p x




       

       


1.4.4 Ý nghĩa của hệ số hồi quy Logistic đơn biến
Đặt
 
 
.
1
pX
Y
pX




Theo công thức (1.5) ta được mô hình hồi quy Logistic đơn biến

01
lnYX
  
  
(1.14)
Đạo hàm riêng theo biến X mô hình (1.14) ta được

1
lnY
X





Chúng ta có thể xấp xỉ như sau

1
YY
YY
XX





Với

X
thể hiện tốc độ tăng của X và
Y
Y

là tốc độ tăng của Y
Khi
1X
thì
1
Y
Y



(1.15)
Với biểu thức (1.15) chúng ta có thể giải thích ý nghĩa của
1

như
sau: khi X tăng lên 1 đơn vị (theo đơn vị tính của X) thì Y sẽ tăng lên (giảm
xuống)
1

đơn vị.

1.5 HỒI QUY LOGISTIC ĐA BIẾN
1.5.1 Mô hình
Xét biến phụ thuộc nhị phân Y và k biến độc lập
12

, , ,
k
X X X
, trong
đó Y chỉ nhận giá trị 0 và 1, còn
j
X

 
1,jk
ảnh hưởng đến giá trị của Y.
Gọi
12
( , , , )
k
X X X X
,
 
1,jk

Gọi
   
1|p X p Y X
là xác suất có điều kiện của
1Y 

khi X xảy
ra
14


Giả sử
 
pX
và X có mối liên hệ tuyến tính với nhau. Ta có mô hình
hồi quy Logistic đa biến sau:

 
 
0
1
ln
1
k
jj
j
pX
X
pX









(1.16)
Hay


 
 
0
1
1
k
jj
j
X
pX
e
pX






(1.17)
1.5.2 Xây dựng đƣờng hồi quy
Quan sát n mẫu độc lập.
Gọi
i
y
là giá trị của biến phụ thuộc Y,
12
, , ,
i i ki
x x x
,

1,in
là giá trị
của các biến độc lập
12
, , ,
k
X X X
.
Giả sử
12
, , ,
n
y y y
là những biến phụ thuộc và
 
1
i
p p y
.
Gọi
ˆ
j

,
1,jk
là những ước lượng của
j

.
Ta có:

0 ij
1
ˆˆ
ln
1
k
j
j
x
i
i
p
e
p










Ta được

0
1
0
1

ˆˆ
ˆˆ
1
k
jj
j
k
jj
j
x
i
x
e
p
e










(1.18)

0
1
ˆˆ

1
1
1
k
jj
j
i
x
p
e






(1.19)
Hàm hợp lí cho n quan sát độc lập trên là

 
0
1
00
11
1
ˆˆ
0
ˆ ˆ ˆ ˆ
1
1

ˆˆ
,
11
i
k
i
j ij
j
kk
j ij j ij
jj
y
y
x
n
j
xx
i
e
L
ee

   






























(1.20)
Trong đó,
{0;1}
i
y 
là kết quả thất bại và thành công.
15


Cực đại hoá hàm hợp lí
 
ˆˆ
,
oj
L

ta có hệ phương trình

 
 
 
0
1
ˆˆ
,
0
ˆ
ˆˆ
,
0
ˆ
ˆˆ
,
0
ˆ
oj
oj
oj
j

L
L
L






























(1.21)
Công thức (1.21) được chứng minh thành

11
0
1
0
1
11
0
1
1
ˆˆ
1 exp
ˆˆ
1 exp
ˆˆ
exp
nn
i
k
ii
j ij
j
k
j ij
nn
j

i i i
k
ii
j ij
j
y
x
x
x y x
x









































(1.22)
Trong đó
0
ˆ


ˆ
j

với

1,jk
lần lượt là ước lượng của
0


j

.
Hệ phương trình (1.22) được giải vô cùng phức tạp. Nhiều tài liệu đã
khẳng định không tìm được biểu thức cụ thể các hệ số của mô hình hồi quy
trong trường hợp này. Trong thực tế chúng ta tìm các hệ số này bằng các
phần mềm như SPSS, R,…
1.5.3 Các đại lƣợng thống kê liên quan
Quan sát n mẫu độc lập
12
, , ,
j j nj
x x x
,
1.jk

Gọi
0
ˆ

,
ˆ
j

lần lượt là ước lượng hợp lí cực đại của

0


j

,
1,jk

Gọi
 
ˆ
px
là xác suất ước lượng của mô hình cho các giá trị x, ta có

 
0 ij
1
0 ij
1
ˆˆ
exp
ˆ
ˆˆ
1 exp
k
j
j
i
k
j

j
x
px
x
















16


 
ˆˆ
w1
i i i
pp
, trong đó:
 

ˆˆ
ii
p p x
,
1,in

Ta có

ij
11
w
1
w
w
nk
i
ij
n
i
i
x
x











 


2
w
1
w
j
n
i ij ij
i
SS x x



,
1,jk


ww
1
j
k
j
SS SS





Một số đại lượng thống kê liên quan:
 Sai số chuẩn của
0
ˆ

,
ˆ
j

lần lượt là

 
2
w
0
w
1
1
ˆ
ˆ
w
n
i
i
x
se
SS







 
w
1
ˆ
ˆ
j
j
se
SS



 Ước lượng cho
0
ˆ

,
ˆ
j

với độ tin cậy
1





   
0 0 0 0
11
22
ˆ ˆ ˆ ˆ
; u se u se

   


   


   

(1.23)

   
11
22
ˆ ˆ ˆ ˆ
;
j j j j
u se u se

   


   



   

(1.24)
 Khi các
j
x
nhận các giá trị
0 j
x
tương ứng thì

 
00
1
0
00
1
ˆˆ
exp
ˆ
ˆˆ
1 exp
k
jj
j
k
jj
j
x

px
x















(1.25)
1.5.4 Ý nghĩa của các hệ số hồi quy Logistic đa biến
Đặt
 
 
1
pX
Y
pX



Theo công thức (1.16) ta được mô hình hồi quy Logistic đa biến

17


0
1
ln
k
jj
j
YX




(1.26)
Đạo hàm riêng theo biến
j
X
mô hình (1.26) ta được
ln
j
j
Y
X





Chúng ta có thể xấp xỉ như sau:

j
jj
YY
YY
XX





Với
j
X
thể hiện tốc độ tăng của
j
X

Y
Y

là tốc độ tăng của Y
Khi
1
j
X
thì
j
Y
Y




(1.27)
Với biểu thức (1.27) ta có thể giải thích ý nghĩa của
j

như sau: trong
điều kiện các yếu tố khác không đổi, khi
j
X
tăng lên 1 đơn vị (theo đơn vị
tính của
j
X
) thì Y sẽ tăng lên (giảm xuống)
j

đơn vị.

18

CHƢƠNG 2
HỒI QUY LOGISTIC TRÊN PHẦN MỀM SPSS



2.1 GIỚI THIỆU
SPSS là phần mềm thống kê được sử dụng rất phổ biến. Phần mềm
này rất tiện ích, nó giúp ta phân tích và tìm mô hình hồi quy rất nhanh
chóng và chính xác, thay cho việc tính các thuật toán thủ công mất nhiều

thời gian và khó tính toán.
Mô hình hồi quy Logistic được SPSS xử lý rất dễ dàng cho ta kết quả
cụ thể chỉ với những thủ tục rất đơn giản. Trong chương 2 sẽ giới thiệu cho
chúng ta các trình tự thực hành trên SPSS, cách đọc các bảng kết quả và
thành lập mô hình hồi quy Logistic.
2.2 Mô hình hồi quy Logistic đơn biến
Nghiên cứu mối tương quan giữa protein fibrinogen và Erythrocyte
sedimentation rate (ESR). ESR là tỷ suất mà các hồng huyết cầu
(erythrocytes) đọng lại trong huyết thanh. Bệnh nhân với ESR cao hơn 20
mm/giờ có nguy cơ cao bị bệnh thấp khớp và các bệnh viêm mãn tính.
Ngược lại, bệnh nhân với ESR thấp hơn được xem là “bình thường”. Khi
ESR tăng thì một số protein trong máu cũng tăng, một trong các protein đó
là fibrinogen. Một cuộc nghiên cứu đo lường ESR và fibrinogen ở 32 đối
tượng (Collett D, Jemain AA. Residuals, outliers and influential observation
in regression analysis. Sains Malaysias 1985; 4:493-511), các nhà nghiên
cứu phát hiện trong nhóm này có 6 đối tượng với ESR cao hơn 20 mm/giờ.
Tìm mô hình thể hiện mối quan hệ giữa protein fibrinogen và ESR. Số liệu
của 32 đối tượng được trình bày trong Phụ lục 1.
2.2.1 Tiến hành phân tích
a) Mã hóa dữ liệu
Nhập dữ liệu vào SPSS với PF là biến độc lập và ESR là biến phụ
thuộc.
Biến ESR được mã hóa dưới dạng nhị phân như sau:
0ESR 
nếu
ESR thấp hơn 20 và
1ESR 
nếu ESR cao hơn 20.
Vì biến ESR là dữ liệu nhị phân nên ta dùng mô hình hồi quy Logistic
đơn biến để thể hiện mối liên hệ giữa biến ESR và PF.


19



b) Trình tự thực hiện
Tại cửa sổ dữ liệu trên thanh menu chọn: Analyze > Regression >
Binary Logistic. Ta được hộp thoại Logistic regression.

20

Chọn biến phụ thuộc (ESR) đưa vào khung Dependent. Lưu ý chỉ
chọn biến có 2 biểu hiện, nếu biến chúng ta chọn không có 2 biểu hiện thì
thì thủ tục này không thực hiện được.
Chọn biến độc lập (PF) đưa vào khung Covariates.

Trong nút Method ta chọn các phương pháp đưa biến độc lập vào mô
hình. Do mô hình chúng ta đang phân tích là mô hình hồi quy Logistic đơn
biến chỉ với một biến độc lập nên ta không cần chọn các phương pháp đưa
biến độc lập vào mô hình.
Nhấp Options để mở hộp thoại Options. Trong hộp thoại này, ta chọn
Classification plots (đồ thị phân loại giá trị thực và giá trị dự đoán),
Hosmer-Lemeshow goodness of fit (Bảng giá trị ngẫu nhiên của giá trị
quan sát và kỳ vọng) và CI for EXP(B) (khoảng tin cậy của tỷ số odds)
trong phần Statistics and Plots. Sau đó nhấp Continue trở về hộp thoại ban
đầu.

×