ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - - - - - - - - - - - - - - - - -
NGUYỄN THỊ THUẦN
PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐIỀU
TRỊ VÔ SINH TẠI BỆNH VIÊN PHỤ SẢN
TRUNG ƯƠNG
LUẬN VĂN THẠC SỸ TOÁN HỌC
Chuyên ngành: LÍ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN
Mã số: 60460106
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. HỒ ĐĂNG PHÚC
HÀ NỘI - 2014
Mục lục
Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Chương 1.
Phương pháp hồi qui logistic . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1 Hàm logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Mô hình hồi qui logistic nhị phân . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Ước lượng các tham số trong mô hình . . . . . . . . . . . . . . . 9
1.2.2 Ước lượng sai số chuẩn của các hệ số hồi qui . . . . . . . . . . . 13
1.2.3 Kiểm tra sự phù hợp của mô hình . . . . . . . . . . . . . . . . . 14
1.2.4 Ý nghĩa các hệ số trong mô hình hồi qui logistic nhị phân . . . 16
1.2.5 Kiểm tra ảnh hưởng tương tác của các biến độc lập lên biến phụ
thuộc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3 Mô hình hồi qui logistic bội . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.1 Định nghĩa mô hình hồi qui logistic bội . . . . . . . . . . . . . . 24
1.3.2 Ước lượng các tham số trong mô hình hồi qui logistic bội . . . 26
Chương 2.
Mô tả số liệu và phần mềm sử dụng trong phân tích . . . . . . . . . . . 29
2.1 Nguồn gốc số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2 Mô tả số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1 Các biến độc lập . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2 Các biến phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3 Phần mềm phân tích SPSS . . . . . . . . . . . . . . . . . . . . . . . . . 43
Chương 3.
Phân tích kết quả điều trị vô sinh tại bệnh viện phụ sản trung ương . 45
1
3.1 Ảnh hưởng của các biến độc lập lên biến "hình thành noãn" . . . . . . 45
3.2 Ảnh hưởng của các biến độc lập lên biến "nhóm số noãn" . . . . . . . . 47
3.3 Ảnh hưởng của các biến độc lập lên biến "hình thành thai" . . . . . . . 51
3.4 Ảnh hưởng của các biến độc lập lên biến "sảy1" . . . . . . . . . . . . . 54
3.5 Ảnh hưởng của các biến độc lập lên biến "lưu" . . . . . . . . . . . . . . 56
3.6 Ảnh hưởng của các biến độc lập lên biến "sinh1" . . . . . . . . . . . . 58
Chương 4.
Bàn luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1 Bàn luận về yếu tố ảnh hưởng đến kết quả hình thành noãn . . . . . . 61
4.2 Bàn luận về yếu tố ảnh hưởng đến kết quả có thai . . . . . . . . . . . . 61
4.3 Bàn luận về yếu tố ảnh hưởng đến kết quả sảy thai sau thu tinh trong
ống nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4 Bàn luận về yếu tố ảnh hưởng đến kết quả sinh con sau thu tinh trong
ống nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.5 Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2
Lời cảm ơn
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. HỒ ĐĂNG PHÚC,
người thầy đã tận tình hướng dẫn để tôi có thể hoàn thành luận văn này.
Đồng thời tôi cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo
trong khoa Toán - Cơ - Tin học, Đại học Khoa học Tự Nhiên, Đại học Quốc gia Hà
Nội, và các thầy cô giảng dạy cao học ngành Toán học đã dạy bảo tôi tận tình trong
suốt quá trình học tập tại Trường.
Tôi cũng xin được gửi lời cảm ơn chân thành tới các bạn lớp cao học khóa 2012 -
2014 cùng những người thân trong gia đình tôi, những người đã luôn bên cạnh cổ vũ,
động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn thành luận văn.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Ban giám đốc, tập thể các y bác sĩ của
Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương đã nhiệt tình cung cấp
những dữ liệu chính xác quý báu giúp tôi thực hiện luận văn này.
Tuy đã có nhiều cố gắng trong quá trình thực hiện, song chắc chắn luận văn của
tôi không thể tránh khỏi những thiếu sót. Tôi rất mong nhận được những ý kiến đóng
góp quý báu của các thầy cô, các nhà nghiên cứu Xác suất Thống kê, các độc giả quan
tâm để luận văn của tôi được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
Tác giả
NGUYỄN THỊ THUẦN
3
Lời nói đầu
Vô sinh là vấn đề lớn về mặt xã hội, là một bệnh lý phức tạp, do nhiều nguyên
nhân. Theo báo cáo của Tổ chức Y tế Thế giới, có khoảng 8-12 % các cặp vợ chồng bị
vô sinh, còn theo thống kê của Bộ Y tế Việt Nam có khoảng 12-13 % các cặp vợ chồng
bị vô sinh. Trong đó, vô sinh nữ chiếm khoảng 40 %, vô sinh nam chiếm 23 %, do cả
hai vợ chồng chiếm 17 % và có khoảng 10 % là không rõ nguyên nhân.
Thụ tinh trong ống nghiệm (TTTON) là một phương pháp điều trị vô sinh tích cực
được phát triển nhanh chóng trong những năm gần đây. Từ sau sự ra đời của Louis
Brown - đứa trẻ TTTON đầu tiên - kĩ thuật này phát triển nhanh chóng ở nhiều nước
và không ngừng được hoàn thiện. Đơn vị đầu tiên ở Việt Nam áp dụng thành công
kĩ thuật TTTON là Bệnh viện Phụ Sản Từ Dũ (Thành phố Hồ Chí Minh) vào năm
1998. Tháng 10 năm 2000 Bệnh viện Phụ Sản Trung ương chính thức áp dụng kĩ thuật
TTTON và đến 26/6/2001 cháu bé đầu tiên ra đời. Hiện nay ở nước ta có 10 cơ sở
thực hiện kĩ thuật này và có khoảng 7.000 em bé TTTON ra đời.
Phương pháp TTTON đã mạng lại hi vọng cho nhiều cặp vợ chồng không có khả
năng sinh con tự nhiên. Vì vậy nghiên cứu dự đoán những yếu tố ảnh hưởng đến kết
quả TTTON để từ đó làm tăng hiệu quả điều trị vô sinh là việc làm cần thiết.
Sử dụng phương pháp thống kê để phân tích làm rõ những yếu tố ảnh hưởng đến
kết quả TTTON từ đó làm tăng hiệu quả điều trị vô sinh là mục tiêu của luận văn:
Phân tích thống kê hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung
ương.
Nội dung luận văn gồm có bốn chương:
Chương I trình bày về phương pháp phân tích hồi qui logistic, cơ sở lý thuyết của
luận văn này.
Chương II dành để mô tả những số liệu về thông tin của các bệnh nhân điều trị vô
4
MỤC LỤC
sinh tại Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009
đến tháng 12/2009 và giới thiệu về phần mềm SPSS - phần mềm phân tích được sử
dụng chủ yếu trong luận văn này.
Chương III là phần áp dụng phương pháp phân tích hồi qui logistic để phân tích
các yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm tại Trung tâm hỗ trợ
sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009 đến tháng 12/2009.
Chương IV bàn luận về các kết quả thu được trong chương III. Từ đó tìm ra các
yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm, làm cơ sở để nâng cao hiệu
quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương nói riêng cũng như các bệnh
viện điều trị vô sinh trên cả nước nói chung.
5 NGUYỄN THỊ THUẦN
Chương 1
Phương pháp hồi qui logistic
Phương pháp phân tích hồi qui là một phương pháp phân tích thống kê nghiên cứu
mối quan hệ phụ thuộc giữa biến phụ thuộc (hay còn gọi là biến đáp ứng, biến được
giải thích) với tập hợp các biến độc lập (các biến dùng để dự báo, biến giải thích).
Ngoài ra nó còn được sử dụng để đánh giá hiệu quả tác động của biến độc lập lên biến
phụ thuộc.
Có nhiều loại mô hình hồi qui như:
• Mô hình hồi qui tuyến tính;
• Mô hình hồi qui logistic;
• Mô hình hồi qui Poisson; v.v
Trong khuôn khổ luận văn này chúng ta nghiên cứu về mô hình hồi qui logistic.
Mô hình hồi qui logistic được sử dụng khi biến phụ thuộc Y nhận các giá trị có tính
chất phân loại. Ví dụ: sống hay chết, bị bệnh hay không bị bệnh, thành công hay thất
bại, Biến độc lập X có thể là biến định tính hoặc biến định lượng.
Phân loại mô hình hồi qui logistic: Có 2 loại mô hình hồi qui logistic là mô hình
hồi qui logistic nhị phân và mô hình hồi qui logistic bội.
a. Mô hình hồi qui logistic nhị phân: Được sử dụng khi biến phụ thuộc chỉ nhận hai
giá trị phân loại. Để thuận tiện hai giá trị phân loại này thường được mã hóa thành
hai số 0 và 1. Thông thường những trường hợp thành công được mã hóa bằng số 1 và
những trường hợp thất bại được mã hóa bằng số 0.
Ví dụ 1.0.1. Trong điều trị vô sinh, biến phụ thuộc Y biểu thị tình trạng bệnh nhân
có thai sau thụ tinh trong ống nghiệm hay không. Ta mã hóa Y bởi các giá trị
6
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
y = 1 nếu sau điều trị bệnh nhân có thai;
y = 0 nếu sau điều trị bệnh nhân không có thai.
b. Mô hình hồi qui logistic bội: Được sử dụng khi biến phụ thuộc nhận từ 3 giá trị
phân loại trở lên.
Ví dụ 1.0.2. Trong điều trị vô sinh biến phụ thuộc Y biểu thị số lượng noãn chọc hút
được sau điều trị . Mã hóa Y bởi các giá trị:
y = 1 nếu chọc hút được từ 1 đến 5 noãn
y = 3 nếu chọc hút được từ 6 đến 10 noãn
y = 2 nếu chọc hút được từ 11 noãn trở lên
Có nhiều mô hình toán học khác cũng có thể được sử dụng để dự đoán biến phân
loại Y nhưng đến nay mô hình hồi qui logistic là mô hình phổ biến nhất. Vì sao vậy?
Để giải thích về sự phổ biến của mô hình này chúng ta bắt đầu từ hàm logit.
1.1 Hàm logit
a. Hàm logit là hàm số có dạng:
F (z) =
e
z
1 + e
z
=
1
1 + e
−z
với z ∈ R
Nhận xét: Khi z → +∞ thì F (z) → 1. Khi z → −∞ thì F (z) → 0 . Từ đó ta
thấy với mọi giá trị của đối số z thì hàm logit F(z) luôn nhận giá trị từ 0 đến 1. Do
đó mô hình logistic luôn đảm bảo ước lượng xác suất nhận được là một số chỉ nhận
giá trị giữa 0 và 1. Vì vậy khi sử dụng mô hình logistic ta không bao giờ nhận được
ước lượng nguy cơ lớn hơn 1 hoặc nhỏ hơn 0. Điều này không phải luôn đúng với các
mô hình khác. Điều đó giải thích tại sao mô hình logistic là lựa chọn hàng đầu để ước
lượng xác suất.
b. Về đồ thị của hàm logit:
Nhìn vào đồ thị của hàm logit F (z) ta thấy, tại z = −∞ hàm F(z) nhận giá trị
bằng 0. Khi z bắt đầu tăng dần giá trị của hàm F (z) tăng dần nhưng vẫn gần điểm
0 trong một khoảng tương đối dài. Sau đó F (z) tăng đáng kể hướng tới 1. Cuối cùng
dừng lại ở 1 khi z → +∞. Kết quả là ta có một bức tranh hình chữ S.
7 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Hình 1.1: Đồ thị của hàm logit
Trong hàm logit, đối số z nhận giá trị tùy ý trên R. Điều đó gợi ý cho các nhà
nghiên cứu xem xét z là tổ hợp tuyến tính của các biến độc lập. Khi đó F (z) tượng
trưng cho ảnh hưởng của tổ hợp tuyến tính của các biến độc lập lên xác suất xuất hiện
một giá trị của biến phụ thuộc. Đồng thời giá trị của hàm logit chỉ giới hạn trong đoạn
[0; 1] ứng với miền giá trị của xác suất.
1.2 Mô hình hồi qui logistic nhị phân
Giả sử X
1
, X
2
, X
3
, X
4
, , X
k
là k biến độc lập dùng để dự báo. Kí hiệu vecto
X = (X
1
, X
2
, X
3
, X
4
, X
k
)
T
. Các biến X
i
có thể là biến định tính hoặc biến định
lượng. Biến phụ thuộc cần dự báo Y là biến nhị phân chỉ nhận một trong hai giá trị
được mã hóa thành hai số 0 hoặc 1.
Định nghĩa 1.2.1. Một mô hình gọi là mô hình logistic nhị phân nếu biểu thức xác
suất có dạng :
P (Y = 1 | X
1
, , X
k
) =
1
1 + e
−(α+
k
i=1
β
i
X
i
)
trong đó các tham số α, β
i
là các tham số chưa biết.
Chúng ta không thể tính toán được một cách chính xác các tham số α, β
i
mà chỉ
có thể dựa vào dữ liệu thu được từ X
s
và Y để ước lượng các tham số đó mà thôi. Ước
lượng của các tham số được kí hiệu là α,
β
i
.
8 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
1.2.1 Ước lượng các tham số trong mô hình
Có nhiều phương pháp để ước lượng tham số trong mô hình hồi qui logistic, ở đây
chúng ta trình bày phương pháp ước lượng hợp lý cực đại - phương pháp ước lượng
sao cho hàm hợp lý đạt giá trị lớn nhất.
Giả sử có n quan sát độc lập {(y
i
, x
i
)}
i∈{1,2, ,n}
∈ ({0, 1} × R
k+1
)
n
với y
i
là giá trị
của biến phụ thuộc Y và x
i
= (x
i1
, x
i2
, , x
ik
)
T
là giá trị của các biến độc lập tại quan
sát thứ i.
Hàm hợp lý là hàm của các tham số chưa biết trong mô hình kí hiệu là L(θ) với
θ = (α, β
1,
, β
2
, β
3
, , β
k
)
T
và được xác định bởi công thức:
L(θ) =P (Y
1
= y
1
, Y
2
= y
2
, , Y
n
= y
n
)
Hàm hợp lý L(θ) đạt giá trị cực đại khi và chỉ khi lnL(θ) đạt giá trị cực đại. Các
ước lượng hợp lý cực đại của các tham số α, β
j
được tìm bằng cách giải hệ phương
trình đạo hàm riêng
∂lnL(θ)
∂α
= 0
∂lnL(θ)
∂β
j
= 0
với j = 1, k
Theo định nghĩa 1.2.1 , tại quan sát thứ i xác suất có điều kiện để biến phụ thuộc
Y nhận giá trị bằng 1, theo các giá trị của biến độc lập X
j
là
P (Y
i
= 1 | X
1
= x
i1
, , X
k
= x
ik
) =
1
1 + e
−(α+
k
j=1
β
j
x
ij
)
=
e
α+
k
j=1
β
j
x
ij
1 + e
α+
k
j=1
β
j
x
ij
Như vậy xác suất có điều kiện để tại quan sát thứ i biến phụ thuộc Y nhận giá trị
bằng 0 theo các giá trị của biến độc lập X
j
là
9 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
P (Y
i
= 0 | X
1
= x
i1
, , X
k
= x
ik
) =1 − P(Y
i
= 1 | X
1
= x
i1
, , X
k
= x
ik
)
=1 −
1
1 + e
−(α+
k
j=1
β
j
x
ij
)
=
e
−(α+
k
j=1
β
j
x
ij
)
1 + e
−(α+
k
j=1
β
j
x
ij
)
Để thuận tiện ta kí hiệu P (Y
i
= 1 | X
1
= x
i1
, , X
k
= x
ik
) = π
i
. Khi đó P (Y
i
= 0 |
X
1
= x
i1
, , X
k
= x
ik
) = 1 − π
i
. Xác suất để biến phụ thuộc Y nhận giá trị bằng y tại
quan sát thứ i là
P (Y
i
= y
i
| X
1
= x
i1
, , X
k
= x
ik
) =π(x
i
)
y
i
[1 − π(x
i
)]
1−y
i
Các bước để ước lượng tham số trong mô hình hồi qui logistic bằng phương pháp
ước lượng hợp lí cực đại là:
Bước 1: Lập hàm hợp lý L(θ) và sử dụng giả thiết về tính độc lập của các quan sát ta
có
L(θ) =P (Y
1
= y
1
, Y
2
= y
2
, , Y
n
= y
n
)
=P (Y
1
= y
1
)P (Y
2
= y
2
) P (Y
n
= y
n
)
=
n
i=1
(π
i
)
y
i
[1 − π
i
]
1−y
i
=
n
i=1
(π
i
)
y
i
(1 − π
i
)
(1 − π
i
)
y
i
=
n
i=1
(
π
i
1 − π
i
)
y
i
(1 − π
i
) (1.2.1)
Vì P (Y
i
= 1 | X
1
= x
i1
, , X
k
= x
ik
) = π
i
nên
π
i
=
e
α+
k
j=1
β
j
x
ij
1 + e
−(α+
k
j=1
β
j
x
ij
)
và
1 − π
i
=
1
1 + e
α+
k
j=1
β
j
x
ij
10 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Do đó
π
i
1 − π
i
= e
α+
k
j=1
β
j
x
ij
(1.2.2)
Thay (1.2.2) vào (1.2.1) ta được :
L(θ) =
n
i=1
e
y
i
(α+
k
j=1
β
j
x
ij
)
(1 + e
α+
k
j=1
β
j
x
ij
)
−1
(1.2.3)
Bước 2: Lấy ln 2 vế của phương trình 1.2.3 ta được:
lnL(θ) =
n
i=1
[y
i
(α +
k
j=1
β
j
x
ij
) − ln(1 + e
α+
k
j=1
β
j
x
ij
)]
Bước 3: Lấy đạo hàm riêng của hàm lnL(θ) theo các biến α, β
j
ta được:
∂lnL(θ)
∂α
=y
1
− π
1
+ y
2
− π
2
+ + y
k
− π
k
=
n
i=1
[y
i
− π
i
]
∂lnL(θ)
∂β
j
=x
1j
(y
1
− π
1
) + x
2j
(y
2
− π
2
) + + x
kj
(y
k
− π
k
)
=
n
i=1
x
ij
[y
i
− π
i
]
với j = 1, k
Bước 4: Giải hệ phương trinh đạo hàm riêng :
n
i=1
[y
i
− π
i
] = 0
n
i=1
x
ij
[y
i
− π
i
] = 0
(1.2.4)
với j = 1, k
Nghiệm của hệ phương trình 1.2.4 chính là ước lượng hợp lý cực đại của các tham
số α, β
j
Chứng minh
Lấy đạo hàm riêng cấp 2 của hàm lnL(θ) theo các biến α, β
j
ta được:
∂
2
lnL(θ)
∂
2
α
= −
n
i=1
π
i
(1 − π
i
)
∂
2
lnL(θ)
∂α∂β
j
= −
n
i=1
π
i
(1 − π
i
)x
ij
∂
2
lnL(θ)
∂β
j
∂β
m
= −
n
i=1
x
ij
x
im
π
i
(1 − π
i
)
11 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
với j, m = 1, k
Đặt y = (y
1
, y
2
, , y
n
)
T
, π = (π
1
, π
2
, , π
n
)
T
là các ma trận cấp n × 1, X là ma trận
thiết kế cấp n × (k + 1) được xác định bởi công thức:
X =
1 x
11
x
12
. . . x
1k
1 x
21
x
22
. . . x
2k
. . . . . . . . . . . . . . .
1 x
n1
x
n2
. . . x
nk
V = (v
ij
) là ma trận đường chéo cấp n × n mà các phần tử trên đường chéo được xác
định bởi v
ii
= π
i
(1 − π
i
) với i = 1, n
V =
π
1
(1 − π
1
) 0 0 . . . 0
0 π
2
(1 − π
2
) 0 . . . 0
. . . . . . . . . . . . . . .
0 0 0 . . . π
n
(1 − π
n
)
Khi đó đạo hàm cấp 1, đạo hàm cấp 2 của hàm lnL(θ) theo các biến α, β
j
được viết
dưới dạng ma trận như sau:
l
(θ) = X
T
(y − π)
l
(θ) = −X
T
V X
Để chứng minh nghiệm của hệ phương trình đạo hàm riêng là ước lượng hợp lý cực
đại của các tham số α, β
j
ta chứng minh rằng đạo hàm cấp 2 của hàm lnL(θ) không
dương với mọi θ ∈ R
k+1
.
Thật vậy giả sử u là một phần tử bất kỳ thuôc R
k+1
. Biểu diễn u
T
l
(θ)u dưới dạng
ma trận ta được
u
T
l
(θ)u = −u
T
X
T
V Xu = −
n
i=1
(x
T
i
u)
2
V
Mà các phần tử nằm trên đường chéo chính của ma trận V là các số dương nên
u
T
l
(θ)u ≤ 0 với mọi u ∈ R
k+1
. Do vậy hàm lnL(θ) là một hàm lõm nên điểm cực trị
là điểm cực đại.
Ví dụ 1.2.1. Ước lượng các tham số trong mô hình hồi qui logistic nhị phân với biến
phụ thuộc là biến "hình thành thai" và 2 biến độc lập: "niêm mạc tử cung", "thời gian
12 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
vô sinh". Trong đó "niêm mạc tử cung" là biến nhị phân nhận một trong hai giá trị
được mã hóa bởi 0 và 1, "thời gian vô sinh" là biến liên tục.
Bảng 1.1:
ước lượng hệ số
β p-value Tỷ số chênh OR
nmtc .682 .008 1.978
thoigianvs 042 .011 .959
Constant -1.299 .000 .273
Từ bảng 1.1 ta thấy ước lượng hệ số của biến "niêm mạc tử cung" là 0.682, và của
biến "thời gian vô sinh" là - 0.042.
1.2.2 Ước lượng sai số chuẩn của các hệ số hồi qui
Ma trân hiệp phương sai S của các hệ số được xác định bởi công thức
S = (X
T
V X)
−1
trong đó ma trận X, V được xác định như trong mục 1.2.1. Khi đó ước lượng ma trân
hiệp phương sai
S tương ứng được xác định bởi công thức:
S = (X
T
V X)
−1
với
V xác định như sau:
V =
π
1
(1 − π
1
) 0 0 . . . 0
0 π
2
(1 − π
2
) 0 . . . 0
. . . . . . . . . . . . . . .
0 0 0 . . . π
n
(1 − π
n
)
Cách tính ước lượng sai số chuẩn: Ước lượng sai số chuẩn của các ước lượng hệ số
là căn bậc hai của các phần tử nằm trên đường chéo chính của ước lượng ma trận hiệp
phương sai.
13 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
1.2.3 Kiểm tra sự phù hợp của mô hình
Kiểm tra sự phù hợp của mô hình hồi qui logistic nhị phân chính là kiểm tra giả
thuyết
H : β
1
= β
2
= = β
k
= 0
Với đối thuyết
K : ∃j : β
j
= 0
Có hai phương pháp để kiểm tra sự phù hợp của mô hình hồi qui logistic nhị phân.
Đó là phương pháp kiểm tra tỷ số hợp lý và phương pháp dùng tiêu chuẩn Wald.
A. Phương pháp kiểm tra tỷ số hợp lý
Ta kí hiệu L
H
là giá trị cực đại của hàm hợp lý trong mô hình không có biến độc
lập, với giá trị ước lượng tương ứng là
L
H
. Tương tự L
K
là giá trị cực đại của hàm
hợp lý trong mô hình có k biến độc lập, với giá trị ước lượng tương ứng là
L
K
.
Tỷ số
L
H
/
L
K
được gọi là tỷ số hợp lý của mô hình hồi qui logistic. Khi đó đại
lượng thống kê
LR = − 2ln(
L
H
L
K
)
được dùng làm tiêu chuẩn để kiểm tra sự phù hợp của mô hình hồi qui logistic với bộ
số liệu đã thu thập được.
Định lý 1.2.1 (Định lý Hosmer - Lemeshow). Nếu giả thuyết H đúng thì đại lượng
thống kê LR có phân phối xấp xỉ phân phối Khi bình phương với k bậc tự do.
Định lý trên đã được chứng minh bằng phương pháp mô phỏng.
Các bước để kiểm tra giả thuyết:
Bước 1: Tính đại lượng thống kê LR. Đặt giá trị này là c.
Bước 2 : Gọi Z là biến ngẫu nhiên có phân phối Khi bình phương với k bậc tự do. Ta
đặt
α = P (Z > c)
Bước 3: So sánh α với mức ý nghĩa α
0
cho trước;
- Nếu α ≤ α
0
ta bác bỏ giả thuyết H (với mức ý nghĩa α
0
.100%)
14 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
- Nếu α > α
0
ta chấp nhận giả thuyết H ( với độ tin cậy (1 − α
0
).100%)
B. Kiểm định theo tiêu chuẩn Wald
Tiêu chuẩn thống kê Wald kí hiệu là W, được xác định bởi công thức:
W =
θ
T
(X
T
V X)
θ
trong đó
θ = (α,
β
1,
,
β
2
,
β
3
, ,
β
k
)
T
là ước lượng hợp lý cực đại của vecto hệ số, X là
ma trận thiết kế, V là ma trận đường chéo được xác định như trong mục 1.2.2
Định lý 1.2.2. Nếu giả thuyết H là đúng thì đại lượng thống kê W có phân phối xấp
xỉ phân phối Khi bình phương với k bậc tự do.
Từ đó ta có các bước kiểm tra giả thuyết theo tiêu chuẩn Wald là
Bước 1: Tính tiêu chuẩn thống kê W
Bước 2 : Gọi Z là biến ngẫu nhiên có phân phối Khi bình phương với k bậc tự do. Ta
đặt
α = P (Z > W ) (1.2.5)
Bước 3: So sánh α với mức ý nghĩa α
0
cho trước:
- Nếu α ≤ α
0
ta bác bỏ giả thuyết H (với độ tin cậy α
0
.100%).
- Nếu α > α
0
ta chấp nhận giả thuyết H (với độ tin cậy (1 − α
0
).100%)
Chú ý : Trong trường hợp mô hình chỉ có một biến độc lập thì tiểu chuẩn thống
kê Wald có thể tính theo công thức đơn giản sau :
W =
β
1
SE(
β
1
)
với
β
1
là ước lượng của tham số β
1
theo phương pháp ước lượng hợp lý cực đại, SE(
β
1
)
là sai số chuẩn của ước lượng
β
1
. Khi đó định lý 1.2.2 có thể phát biểu lại như sau:
Nếu giả thuyết H đúng thì đại lượng thống kê W có phân phối xấp xỉ phân phối chuẩn
N(0,1).
Các bước kiểm tra tiêu chuẩn Wald trong trường hợp mô hình chỉ có một biến độc
lập hoàn toàn tương tự như trường hợp tổng quát. Tuy nhiên trong Bước 2 ta dùng Z
là biến ngẫu nhiên có phân phối chuẩn N(0,1).
Nhận xét: Khi mô hình chỉ có một biến độc lập thì kiểm tra theo tiêu chuẩn Wald
đơn giản hơn theo tiêu chuẩn tỷ số hợp lý. Vì vậy mà tiêu chuẩn Wald được ưu tiên
15 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
sử dụng trong kiểm tra mô hình chỉ có một biến độc lập cũng như trong kiểm tra giả
thuyết bằng không của từng hệ số hồi qui.
1.2.4 Ý nghĩa các hệ số trong mô hình hồi qui logistic nhị
phân
a. Mô hình có biến độc lập nhị phân: Xét mô hình hồi qui logistic nhị phân
với một biến độc lập X:
P (Y = 1 | X) =
1
1 + e
−(α+βX)
trong đó X là biến nhị phân chỉ nhận một trong hai giá trị được mã hóa bởi hai số 0
và 1, giá trị mã hóa bởi 0 gọi là nhóm chứng và giá trị mã hóa bởi 1 gọi là nhóm thử.
Độ chênh (odds) giữa hai giá trị của biến phụ thuộc Y tại một giá trị của biến độc
lập X là tỷ số
P (Y = 1 | X = x)
P (Y = 0 | X = x)
(1.2.6)
Gọi odds
1
là độ chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X
nhận giá trị bằng 1;
odds
0
là độ chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X nhận
giá trị bằng 0.
Từ công thức 1.2.6 ta có
odds
1
=
P (Y = 1 | X = 1)
P (Y = 0 | X = 1)
=
1
1+e
−(α+β
)
1
1+e
α+β
=
1 + e
α+β
1 + e
−(α+β)
=e
α+β
(1.2.7)
16 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
odds
0
=
P (Y = 1 | X = 0)
P (Y = 0 | X = 0)
=
1
1+e
−α
1
1+e
α
=
1 + e
α
1 + e
−α
=e
α
(1.2.8)
Tỷ số chênh (odds ratio) kí hiệu là OR là tỷ số giữa hai độ chênh
OR =
odds
1
odds
0
(1.2.9)
Thay 1.2.7 và 1.2.8 vào 1.2.9 ta suy ra:
OR =
e
α+β
e
α
= e
β
(1.2.10)
Ý nghĩa của hệ số β: So sánh sự khác biệt về mức độ ảnh hưởng giữa nhóm thử và
nhóm chứng tác động lên xác suất biến phụ thuộc nhận giá trị bằng 1.
Ý nghĩa của tỷ số chênh OR: Theo công thức 1.2.10 thì OR = e
β
. Do đó tỷ số chênh
OR chính là exp của hệ số β. Như vậy ta có
- Nếu β = 0 ⇔ e
β
= 1 thì ta kết luận không có sự khác biệt giữa nhóm thử và
nhóm chứng tác động lên xác suất biến phụ thuộc nhận giá trị bằng 1;
- Nếu β > 0 ⇔ e
β
> 1 thì ta kết luận nhóm thử làm tăng xác suất biến phụ thuộc
nhận giá trị bằng 1 so nhóm chứng;
- Nếu β < 0 ⇔ e
β
< 1 thì ta kết luận nhóm thử làm giảm xác suất biến phụ thuộc
nhận giá trị bằng 1 so nhóm chứng.
Ước lượng khoảng tin cậy của hệ số β với độ tin cậy 100(1 − α)% là:
(
β − Z
1−
α
2
SE(
β);
β + Z
1−
α
2
SE(
β))
trong đó Z
1−
α
2
là phân vị của phân bố chuẩn tắc. Với mức ý nghĩa α cho trước khi tra
bảng có thể tìm được giá trị của Z
1−
α
2
.
Ước lượng khoảng tin cậy của tỷ số chênh với đội tin cậy 100(1 − α)% là:
(e
β−Z
1−
α
2
SE(
β)
; e
β+Z
1−
α
2
SE(
β)
)
17 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Ví dụ 1.2.2. Xét mô hình hồi qui logistic nhị phân với biến phụ thuộc là biến "hình
thành thai" và biến độc lập là biến "fshn3". Trong đó biến "fshn3" là biến nhị phân
được mã hóa như sau:
0: Nếu nồng độ FSH ngày thứ 3 của vòng kinh > 10 IU/L.
1: Nếu nồng độ FSH ngày thứ 3 của vòng kinh ≤ 10 IU/L.
Bảng 1.2: Ảnh hưởng của biến độc lập fshn3 lên biến phụ thuộc hình thành thai
B S.E Wald Sig Exp(B)
fshn3 .882 .279 9.967 .002 2.416
Constant -1.727 .271 40.528 .000 .178
Từ bảng 1.2 ta thấy ước lượng hệ số cho biến "fshn3" là 0.882 > 0 cho biết bệnh
nhân có nồng độ fsh ngày 3 bình thường (≤ 10 IU/L) làm tăng khả năng có thai so với
nhóm bệnh nhân có nồng độ fsh ngày 3 cao (> 10 IU/L). Tỷ số chênh OR là e
−0.194
= 2.416 cho biết bệnh nhân có nồng độ fsh3 bình thường có khả năng có thai cao gấp
2.4 lần so với bệnh nhân có nồng độ fsh3 không bình thường.
Ước lượng khoảng tin cậy cho β với độ tin cậy 95 % là: (0.334; 1.429).
Ước lượng khoảng tin cậy cho tỷ số chênh OR với độ tin cậy 95 % là: (1.397 ; 4.178).
b. Mô hình có biến độc lập nhận nhiều giá trị: Xét mô hình hồi qui logistic
nhị phân với một biến độc lập X nhân k giá trị phân loại (với k > 2).
P (Y = 1 | X) =
1
1 + e
−(α+βX)
(1.2.11)
Đối với mô hình này chúng ta phải chọn một trong số các giá trị phận loại của biến
độc lập làm giá trị đối chứng (thông thường các phần mềm tự động chọn giá trị đối
chứng là giá trị phân loại thứ k). Sau đó lập k − 1 biến nhị phân giả X
1
, X
2
, , X
k−1
để phân biệt giữa các giá trị phân loại khác nhau của biến độc lập.
Khi đó phương trình 1.2.11 tương đương với :
P (Y = 1 | X
1
, X
2
, , X
k−1
) =
1
1 + e
−(α+β
1
X
1
+β
2
X
2
+ +β
k−1
X
k−1
)
trong đó mã hóa X
1
, X
2
, , X
k−1
như sau:
18 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
X
1
=
1 Nếu biến độc lập X nhân giá trị phân loại thứ nhất
0 Trong các trường hợp còn lại .
X
2
=
1 Nếu biến độc lập X nhân giá trị phân loại thứ hai
0 Trong các trường hợp còn lại .
X
k−1
=
1 Nếu biến độc lập X nhân giá trị phân loại thứ k-1
0 Trong các trường hợp còn lại .
Nếu X
1
= 0, X
2
= 0, , X
k−1
= 0 tương ứng với trường hợp biến độc lập X nhận
giá trị phân loại thứ k.
Ta kí hiệu odds
i
là số chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập
X nhận giá trị phân loại thứ i (i =
1, k).
Theo định nghĩa về số chênh ta suy ra công thức tính như sau:
odds
i
=
P (Y = 1 | X
i
= 1, X
j
= 0∀j = i)
P (Y = 0 | X
i
= 1, X
j
= 0∀j = i)
=
1
1+e
−(α+β
i
)
1
1+e
α+β
i
=
1 + e
α+β
i
1 + e
−(α+β
i
)
=e
α+β
i
với i = 1, k − 1
Trong trường hợp biến độc lập X nhận giá trị phân loại thứ k thì
odds
k
=
P (Y = 1 | X
1
= 0, X
2
= 0, X
3
= 0, , X
k−1
= 0)
P (Y = 0 | X
1
= 0, X
2
= 0, X
3
= 0, , X
k−1
= 0)
=
1
1+e
−α
1
1+e
α
=
1 + e
α
1 + e
−α
=e
α
Công thức tính tỷ số chênh giữa giá trị phân loại thứ i và giá trị đối chứng: Kí hiệu
OR
i,k
là tỷ số chênh giữa giá trị phân loại thứ i và giá trị phân loại thứ k ( i = 1, k − 1).
19 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Từ đó suy ra
OR
i,k
=
odds
i
odds
k
=
e
α+β
i
e
α
= e
β
i
Công thức tính tỷ số chênh giữa 2 giá trị phân loại bất kỳ: Kí hiệu OR
i,j
là tỷ số chênh
giữa giá trị phân loại thứ i và giá trị phân loại thứ j (i, j = 1, k − 1)
OR
i,j
=
odds
i
odds
j
=
e
α+β
i
e
α+β
j
= e
β
i
−β
j
Ý nghĩa của hệ số β
i
với i = 1, k − 1: So sánh sự khác biệt về mức độ ảnh hưởng giữa
nhóm nhận giá trị phân loại thứ i so với nhóm đối chứng (nhóm nhận giá trị phân loại
thứ k) tác động lên xác suất biến phụ thuộc nhận giá trị bằng 1. Cụ thể như sau:
- Nếu β
i
= 0 ⇔ e
β
i
= 1 thì ta kết luận không có sự khác biệt giữa nhóm nhận giá
trị phân loại thứ i so với nhóm đối chứng tác động lên xác suất biến phụ thuộc nhận
giá trị bằng 1.
- Nếu β
i
> 0 ⇔ e
β
i
> 1 thì ta kết luận nhóm nhận giá trị phân loại thứ i làm tăng
xác suất biến phụ thuộc nhận giá trị bằng 1 so với nhóm đối chứng.
- Nếu β
i
< 0 ⇔ e
β
i
< 1 thì ta kết luận nhóm nhận giá trị phân loại thứ i làm giảm
xác suất biến phụ thuộc nhận giá trị bằng 1 so với nhóm đối chứng.
Ước lượng khoảng tin cậy cho hệ số β
i
với đội tin cậy 100(1 − α)% là :
(
β
i
− Z
1−
α
2
SE(
β
i
);
β
i
+ Z
1−
α
2
SE(
β
i
))
Ước lượng khoảng tin cậy của tỷ số chênh OR
i,k
với đội tin cậy 100(1 − α)% là :
(e
β
i
−Z
1−
α
2
SE(
β
i
)
; e
β
i
+Z
1−
α
2
SE(
β
i
)
) (1.2.12)
Ví dụ 1.2.3. Xét mô hình hồi qui logistic với biến phụ thuộc là biến "hình thành thai"
và biến độc lập là biến "nhóm tuổi". Biến độc lập "nhóm tuổi" là biến nhận 4 giá trị
nên được mã hóa thành 3 biến nhị phân, chọn biến "nhóm tuổi không quá 30" làm
nhóm đối chứng
Từ bảng 1.3 ta thấy:
+ Nhóm bệnh nhân từ 41 tuổi trở lên khả năng có thai chỉ bằng 19.7 % so với
nhóm bệnh nhân không quá 30 tuổi, và mức ảnh hưởng này có ý nghĩa thống kê (p -
giá trị là 0.000 < 0.05).
20 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Bảng 1.3: Ảnh hưởng của biến độc lập nhóm tuổi lên biến phụ thuộc hình thành thai
B S.E Wald Sig Exp(B)
nhomtuoitu41 -1.627 .412 15.569 .000 .197
nhomtuoitu36den40 259 .170 2.309 .129 .772
nhomtuoitu31den35 245 .155 2.505 .114 .783
Constant 676 .113 35.749 .000 .509
+ Nhóm bệnh nhân từ 36 đến 40 tuổi thì khả năng có thai bằng 77.2 % so với nhóm
bệnh nhân không quá 30 tuổi, tuy nhiên sự khác biệt này không có ý nghĩa thống kê
(p - giá trị là 0.129 >0.05).
+ Nhóm bệnh nhân từ 31 đến 35 tuổi thì khả năng có thai bằng 78.3 % so với nhóm
bệnh nhân không quá 30 tuổi, tuy nhiên sự khác biệt này không có ý nghĩa thống kê
(p - giá trị là 0.114 >0.05).
Ước lượng khoảng tin cậy cho tỷ số chênh OR của nhóm tuổi từ 41 trở lên so với
nhóm không quá 30 với độ tin cậy 95 % là: (0.088 ; 0.441).
Ước lượng khoảng tin cậy cho tỷ số chênh OR của nhóm tuổi từ 36 đến 40 so với
nhóm không quá 30 với độ tin cậy 95 % là: (0.553 ; 1.078).
Ước lượng khoảng tin cậy cho tỷ số chênh OR của nhóm tuổi từ 31 đến 35 so với
nhóm không quá 30 với độ tin cậy 95 % là: (0.578 ; 1.060).
c. Mô hình có biến độc lập liên tục: Xét mô hình hồi qui logistic nhị phân với
một biến độc lập X là biến liên tục.
P (Y = 1 | X) =
1
1 + e
−(α+βX)
(1.2.13)
Gọi odds
0
là số chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X
nhận giá trị bằng x. Từ đó ta có :
odds
0
=
P (Y = 1 | X = x)
P (Y = 0 | X = x)
=
1
1+e
−(α+βx)
e−(α+βx)
1+e
−(α+βx)
=
1 + e
−(α+βx)
[1 + e
−(α+βx)
]e
−(α+βx)
=
1
e
−(α+βx)
21 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Gọi odds
1
là số chênh giữa hai giá trị của biến phụ thuộc Y khi biến độc lập X
nhận giá trị bằng x + 1 (tăng 1 đơn vị). Từ đó ta có :
odds
1
=
P (Y = 1 | X = x + 1)
P (Y = 0 | X = x + 1)
=
1
1+e
−(α+βx+β)
e−(α+βx+β)
1+e
−(α+βx+β)
=
1 + e
−(α+βx+β)
[1 + e
−(α+βx+β)
]e
−(α+βx+β)
=
1
e
−(α+βx+β)
Công thức tính tỷ số chênh OR khi biến liên tục X thay đổi 1 đơn vị:
OR =
odds
1
odds
0
=
1
e
−(α+βx+β)
1
e
−(α+βx)
=
e
−(α+βx)
e
−(α+βx+β)
=e
β
Ý nghĩa của hệ số β: Cho biết sự thay đổi giá trị của biến độc lập (tăng hoặc giảm 1
đơn vị) ảnh hưởng như thế nào đến xác suất biến phụ thuộc nhận giá trị bằng 1.
- Nếu β = 0 ⇔ e
β
= 1 thì ta kết luận biến độc lập không có ảnh hưởng lên xác
suất biến phụ thuộc nhận giá trị bằng 1.
- Nếu β > 0 ⇔ e
β
> 1 thì ta kết luận khi biến biến độc lập tăng làm tăng xác suất
biến phụ thuộc nhận giá trị bằng 1.
- Nếu β < 0 ⇔ e
β
< 1 thì ta kết luận biến độc lập tăng làm giảm xác suất biến
phụ thuộc nhận giá trị bằng 1.
Nhận xét: Khi biến độc lập X nhận giá trị thay đổi 1 đơn vị (tăng hoặc giảm) thì
tỷ số chênh thay đổi e
β
đơn vị. Do đó trong trường hợp tổng quát khi biến độc lập X
nhận giá trị thay đổi c đơn vị thì tỷ số chênh OR nhận giá trị thay đổi e
cβ
đơn vị.
Ví dụ 1.2.4. Xét mô hình hồi qui logistic nhị phân với biến phụ thuộc là biến "hình
thành thai" và biến độc lập là biến "số chu kì ivf". Trong đó biến phụ thuộc là biến nhị
22 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
phân chỉ nhận một trong hai giá trị được mã hóa bằng 0 và 1, biến độc lập là biến liên
tuc.
Bảng 1.4: Ảnh hưởng của biến độc lập số chu kì ivf lên biến phụ thuộc hình thành thai
B S.E Wald Sig Exp(B)
sockivf 194 .084 5.301 .021 .823
Constant 631 .135 21.736 .000 .532
Từ bảng 1.4 ta thấy ước lượng hệ số của biến "số chu kì ivf" là - 0.194 < 0. Do đó
khi tăng số chu kì ivf làm giảm khả năng bệnh nhân có thai. Tỷ số chênh OR là e
−0.194
= 0.823 cho biết khi số chu kì ivf tăng thêm một lần thì khả năng có thai giảm đi 18
% và mức ảnh hưởng này có ý nghĩa thống kê.
Ước lượng khoảng tin cậy cho β với độ tin cậy 95 % là: (-0.359 ;-0.029).
Ước lượng khoảng tin cậy cho tỷ số chênh OR với độ tin cậy 95 % là: (0.698 ; 0.971).
1.2.5 Kiểm tra ảnh hưởng tương tác của các biến độc lập lên
biến phụ thuộc
Xét hai mô hình hồi qui logistic nhị phân sau:
Mô hình 1 là mô hình chỉ gồm hai biến độc lập X
1
, X
2
:
lnP
1
(X) = α + β
1
X
1
+ β
2
X
2
Mô hình 2 là mô hình gồm hai biến độc lập X
1
, X
2
và biến X
1
X
2
lnP
2
(X) = α + β
1
X
1
+ β
2
X
2
+ β
3
X
1
X
2
- Nếu hệ số hồi qui β
3
= 0 thì ta kết luận rằng không có sự tương tác giữa X
1
và X
2
tác động lên biến phụ thuộc Y .
- Nếu hệ số hồi qui β
3
= 0 thì ta kết luận rằng có sự tương tác giữa X
1
và X
2
tác động
lên biến phụ thuộc Y .
Để kiểm tra giả thuyết H : β
3
= 0 với đối thuyết K : β
3
= 0 ta sử dụng phương pháp
kiểm tra tỷ số hợp lý hoặc dùng tiêu chuẩn Wald.
23 NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Kí hiệu
L
1
,
L
2
là ước lượng của giá trị hàm hợp lý cực đại tương ứng của các mô hình
1, 2. Mô hình có nhiều tham số hơn gọi là mô hình đầy đủ, mô hình có ít tham số hơn
gọi là mô hình thu gọn. Do đó mô hình 2 gọi là mô hình đầy đủ, mô hình 1 gọi là mô
hình thu gọn. Hay mô hình 1 là trường hợp đặt biệt của mô hình 2. Đặt
LR = − 2Ln
L
1
− (−2Ln
L
2
)
= − 2Ln(
L
1
L
2
)
W =
β
3
SE
β
3
Chúng ta sử dụng các bước trong kiểm tra tỷ số hợp lý hoặc các bước trong kiểm tra
tiêu chuẩn Wald đã nêu trong mục 1.2.3 để rút ra kết luận về hệ số hồi qui β
3
.
1.3 Mô hình hồi qui logistic bội
Mô hình hồi qui logistic bội được sử dụng khi biến phụ thuộc Y nhận nhiều hơn
hai giá trị phân loại. Ta nghiên cứu trường hợp đơn giản nhất của mô hình hồi qui
logistic bội khi biến phụ thuộc Y có 3 giá trị phân loại được mã hóa bởi ba số 0, 1, 2.
Sau đó mô hình trên có thể mở rộng để nhận được mô hình mà biến phụ thuộc Y có
nhiều hơn 3 giá trị phân loại.
Đối với mô hình hồi qui logistic bội, một trong những giá trị phận loại được chọn
làm giá trị tham khảo. Mỗi giá trị phân loại khác của biến phụ thuộc Y được so sánh
với giá trị tham khảo đó. Việc lựa chọn giá trị nào làm giá trị tham khảo là tùy thuộc
vào ý đồ của nhà nghiên cứu. Việc thay đổi giá trị tham khảo không làm thay đổi hình
thức của mô hình mà chỉ làm thay đổi giá trị của các tham số và việc giải thích các
tham số ước lượng được.
1.3.1 Định nghĩa mô hình hồi qui logistic bội
Giả sử X
1
, X
2
, X
3
, X
4
, X
k
là k biến độc lập dùng để dự báo. Kí hiệu vecto X =
(X
1
, X
2
, X
3
, X
4
, X
k
)
T
. Các biến X
j
có thể là biến định tính hoặc biến định lượng.
Xét biến phụ thuộc Y là biến nhận ba giá trị phân loại được mã hóa bởi ba số 0, 1, 2.
24 NGUYỄN THỊ THUẦN