ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
------------------
NGUYỄN THỊ THUẦN
PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐIỀU
TRỊ VÔ SINH TẠI BỆNH VIÊN PHỤ SẢN
TRUNG ƯƠNG
LUẬN VĂN THẠC SỸ TOÁN HỌC
Chuyên ngành: LÍ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN
Mã số: 60460106
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. HỒ ĐĂNG PHÚC
HÀ NỘI - 2014
Mục lục
Lời nói đầu
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Phương pháp hồi qui logistic . . . . . . . . . . . . . . . . . . . . . . . . .
6
Chương 1.
1.1
Hàm logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2
Mô hình hồi qui logistic nhị phân . . . . . . . . . . . . . . . . . . . . .
8
1.2.1
Ước lượng các tham số trong mô hình . . . . . . . . . . . . . . .
9
1.2.2
Ước lượng sai số chuẩn của các hệ số hồi qui . . . . . . . . . . .
13
1.2.3
Kiểm tra sự phù hợp của mô hình . . . . . . . . . . . . . . . . .
14
1.2.4
Ý nghĩa các hệ số trong mô hình hồi qui logistic nhị phân
16
1.2.5
Kiểm tra ảnh hưởng tương tác của các biến độc lập lên biến phụ
1.3
. . .
thuộc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
Mô hình hồi qui logistic bội . . . . . . . . . . . . . . . . . . . . . . . .
24
1.3.1
Định nghĩa mô hình hồi qui logistic bội . . . . . . . . . . . . . .
24
1.3.2
Ước lượng các tham số trong mô hình hồi qui logistic bội
26
. . .
Chương 2.
Mô tả số liệu và phần mềm sử dụng trong phân tích . . . . . . . . . . . 29
2.1
Nguồn gốc số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.2
Mô tả số liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.2.1
Các biến độc lập . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.2.2
Các biến phụ thuộc . . . . . . . . . . . . . . . . . . . . . . . . .
40
Phần mềm phân tích SPSS . . . . . . . . . . . . . . . . . . . . . . . . .
43
2.3
Chương 3.
Phân tích kết quả điều trị vô sinh tại bệnh viện phụ sản trung ương . 45
1
3.1
Ảnh hưởng của các biến độc lập lên biến "hình thành noãn" . . . . . .
45
3.2
Ảnh hưởng của các biến độc lập lên biến "nhóm số noãn" . . . . . . . .
47
3.3
Ảnh hưởng của các biến độc lập lên biến "hình thành thai" . . . . . . .
51
3.4
Ảnh hưởng của các biến độc lập lên biến "sảy1" . . . . . . . . . . . . .
54
3.5
Ảnh hưởng của các biến độc lập lên biến "lưu" . . . . . . . . . . . . . .
56
3.6
Ảnh hưởng của các biến độc lập lên biến "sinh1" . . . . . . . . . . . .
58
Chương 4.
Bàn luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1
Bàn luận về yếu tố ảnh hưởng đến kết quả hình thành noãn . . . . . .
61
4.2
Bàn luận về yếu tố ảnh hưởng đến kết quả có thai . . . . . . . . . . . .
61
4.3
Bàn luận về yếu tố ảnh hưởng đến kết quả sảy thai sau thu tinh trong
ống nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4
4.5
62
Bàn luận về yếu tố ảnh hưởng đến kết quả sinh con sau thu tinh trong
ống nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
Kết luận chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2
Lời cảm ơn
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. HỒ ĐĂNG PHÚC,
người thầy đã tận tình hướng dẫn để tôi có thể hoàn thành luận văn này.
Đồng thời tôi cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo
trong khoa Toán - Cơ - Tin học, Đại học Khoa học Tự Nhiên, Đại học Quốc gia Hà
Nội, và các thầy cô giảng dạy cao học ngành Toán học đã dạy bảo tôi tận tình trong
suốt quá trình học tập tại Trường.
Tôi cũng xin được gửi lời cảm ơn chân thành tới các bạn lớp cao học khóa 2012 2014 cùng những người thân trong gia đình tôi, những người đã luôn bên cạnh cổ vũ,
động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn thành luận văn.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Ban giám đốc, tập thể các y bác sĩ của
Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương đã nhiệt tình cung cấp
những dữ liệu chính xác quý báu giúp tôi thực hiện luận văn này.
Tuy đã có nhiều cố gắng trong quá trình thực hiện, song chắc chắn luận văn của
tôi không thể tránh khỏi những thiếu sót. Tôi rất mong nhận được những ý kiến đóng
góp quý báu của các thầy cô, các nhà nghiên cứu Xác suất Thống kê, các độc giả quan
tâm để luận văn của tôi được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
Tác giả
NGUYỄN THỊ THUẦN
3
Lời nói đầu
Vô sinh là vấn đề lớn về mặt xã hội, là một bệnh lý phức tạp, do nhiều nguyên
nhân. Theo báo cáo của Tổ chức Y tế Thế giới, có khoảng 8-12 % các cặp vợ chồng bị
vô sinh, còn theo thống kê của Bộ Y tế Việt Nam có khoảng 12-13 % các cặp vợ chồng
bị vô sinh. Trong đó, vô sinh nữ chiếm khoảng 40 %, vô sinh nam chiếm 23 %, do cả
hai vợ chồng chiếm 17 % và có khoảng 10 % là không rõ nguyên nhân.
Thụ tinh trong ống nghiệm (TTTON) là một phương pháp điều trị vô sinh tích cực
được phát triển nhanh chóng trong những năm gần đây. Từ sau sự ra đời của Louis
Brown - đứa trẻ TTTON đầu tiên - kĩ thuật này phát triển nhanh chóng ở nhiều nước
và không ngừng được hoàn thiện. Đơn vị đầu tiên ở Việt Nam áp dụng thành công
kĩ thuật TTTON là Bệnh viện Phụ Sản Từ Dũ (Thành phố Hồ Chí Minh) vào năm
1998. Tháng 10 năm 2000 Bệnh viện Phụ Sản Trung ương chính thức áp dụng kĩ thuật
TTTON và đến 26/6/2001 cháu bé đầu tiên ra đời. Hiện nay ở nước ta có 10 cơ sở
thực hiện kĩ thuật này và có khoảng 7.000 em bé TTTON ra đời.
Phương pháp TTTON đã mạng lại hi vọng cho nhiều cặp vợ chồng không có khả
năng sinh con tự nhiên. Vì vậy nghiên cứu dự đoán những yếu tố ảnh hưởng đến kết
quả TTTON để từ đó làm tăng hiệu quả điều trị vô sinh là việc làm cần thiết.
Sử dụng phương pháp thống kê để phân tích làm rõ những yếu tố ảnh hưởng đến
kết quả TTTON từ đó làm tăng hiệu quả điều trị vô sinh là mục tiêu của luận văn:
Phân tích thống kê hiệu quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung
ương.
Nội dung luận văn gồm có bốn chương:
Chương I trình bày về phương pháp phân tích hồi qui logistic, cơ sở lý thuyết của
luận văn này.
Chương II dành để mô tả những số liệu về thông tin của các bệnh nhân điều trị vô
4
MỤC LỤC
sinh tại Trung tâm hỗ trợ sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009
đến tháng 12/2009 và giới thiệu về phần mềm SPSS - phần mềm phân tích được sử
dụng chủ yếu trong luận văn này.
Chương III là phần áp dụng phương pháp phân tích hồi qui logistic để phân tích
các yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm tại Trung tâm hỗ trợ
sinh sản - Bệnh viện Phụ Sản Trung ương từ tháng 1/2009 đến tháng 12/2009.
Chương IV bàn luận về các kết quả thu được trong chương III. Từ đó tìm ra các
yếu tố ảnh hưởng đến kết quả thụ tinh trong ống nghiệm, làm cơ sở để nâng cao hiệu
quả điều trị vô sinh tại Bệnh viện Phụ Sản Trung ương nói riêng cũng như các bệnh
viện điều trị vô sinh trên cả nước nói chung.
5
NGUYỄN THỊ THUẦN
Chương 1
Phương pháp hồi qui logistic
Phương pháp phân tích hồi qui là một phương pháp phân tích thống kê nghiên cứu
mối quan hệ phụ thuộc giữa biến phụ thuộc (hay còn gọi là biến đáp ứng, biến được
giải thích) với tập hợp các biến độc lập (các biến dùng để dự báo, biến giải thích).
Ngoài ra nó còn được sử dụng để đánh giá hiệu quả tác động của biến độc lập lên biến
phụ thuộc.
Có nhiều loại mô hình hồi qui như:
• Mô hình hồi qui tuyến tính;
• Mô hình hồi qui logistic;
• Mô hình hồi qui Poisson; v.v
Trong khuôn khổ luận văn này chúng ta nghiên cứu về mô hình hồi qui logistic.
Mô hình hồi qui logistic được sử dụng khi biến phụ thuộc Y nhận các giá trị có tính
chất phân loại. Ví dụ: sống hay chết, bị bệnh hay không bị bệnh, thành công hay thất
bại,... Biến độc lập X có thể là biến định tính hoặc biến định lượng.
Phân loại mô hình hồi qui logistic: Có 2 loại mô hình hồi qui logistic là mô hình
hồi qui logistic nhị phân và mô hình hồi qui logistic bội.
a. Mô hình hồi qui logistic nhị phân: Được sử dụng khi biến phụ thuộc chỉ nhận hai
giá trị phân loại. Để thuận tiện hai giá trị phân loại này thường được mã hóa thành
hai số 0 và 1. Thông thường những trường hợp thành công được mã hóa bằng số 1 và
những trường hợp thất bại được mã hóa bằng số 0.
Ví dụ 1.0.1. Trong điều trị vô sinh, biến phụ thuộc Y biểu thị tình trạng bệnh nhân
có thai sau thụ tinh trong ống nghiệm hay không. Ta mã hóa Y bởi các giá trị
6
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
y = 1 nếu sau điều trị bệnh nhân có thai;
y = 0 nếu sau điều trị bệnh nhân không có thai.
b. Mô hình hồi qui logistic bội: Được sử dụng khi biến phụ thuộc nhận từ 3 giá trị
phân loại trở lên.
Ví dụ 1.0.2. Trong điều trị vô sinh biến phụ thuộc Y biểu thị số lượng noãn chọc hút
được sau điều trị . Mã hóa Y bởi các giá trị:
y = 1 nếu chọc hút được từ 1 đến 5 noãn
y = 3 nếu chọc hút được từ 6 đến 10 noãn
y = 2 nếu chọc hút được từ 11 noãn trở lên
Có nhiều mô hình toán học khác cũng có thể được sử dụng để dự đoán biến phân
loại Y nhưng đến nay mô hình hồi qui logistic là mô hình phổ biến nhất. Vì sao vậy?
Để giải thích về sự phổ biến của mô hình này chúng ta bắt đầu từ hàm logit.
1.1
Hàm logit
a. Hàm logit là hàm số có dạng:
F (z) =
1
ez
=
z
1+e
1 + e−z
với z ∈ R
Nhận xét: Khi z → +∞ thì F (z) → 1. Khi z → −∞ thì F (z) → 0 . Từ đó ta
thấy với mọi giá trị của đối số z thì hàm logit F (z) luôn nhận giá trị từ 0 đến 1. Do
đó mô hình logistic luôn đảm bảo ước lượng xác suất nhận được là một số chỉ nhận
giá trị giữa 0 và 1. Vì vậy khi sử dụng mô hình logistic ta không bao giờ nhận được
ước lượng nguy cơ lớn hơn 1 hoặc nhỏ hơn 0. Điều này không phải luôn đúng với các
mô hình khác. Điều đó giải thích tại sao mô hình logistic là lựa chọn hàng đầu để ước
lượng xác suất.
b. Về đồ thị của hàm logit:
Nhìn vào đồ thị của hàm logit F (z) ta thấy, tại z = −∞ hàm F (z) nhận giá trị
bằng 0. Khi z bắt đầu tăng dần giá trị của hàm F (z) tăng dần nhưng vẫn gần điểm
0 trong một khoảng tương đối dài. Sau đó F (z) tăng đáng kể hướng tới 1. Cuối cùng
dừng lại ở 1 khi z → +∞. Kết quả là ta có một bức tranh hình chữ S.
7
NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
Hình 1.1: Đồ thị của hàm logit
Trong hàm logit, đối số z nhận giá trị tùy ý trên R. Điều đó gợi ý cho các nhà
nghiên cứu xem xét z là tổ hợp tuyến tính của các biến độc lập. Khi đó F (z) tượng
trưng cho ảnh hưởng của tổ hợp tuyến tính của các biến độc lập lên xác suất xuất hiện
một giá trị của biến phụ thuộc. Đồng thời giá trị của hàm logit chỉ giới hạn trong đoạn
[0; 1] ứng với miền giá trị của xác suất.
1.2
Mô hình hồi qui logistic nhị phân
Giả sử X1 , X2 , X3 , X4 , ..., Xk là k biến độc lập dùng để dự báo. Kí hiệu vecto
X = (X1 , X2 , X3 , X4 , ...Xk )T . Các biến Xi có thể là biến định tính hoặc biến định
lượng. Biến phụ thuộc cần dự báo Y là biến nhị phân chỉ nhận một trong hai giá trị
được mã hóa thành hai số 0 hoặc 1.
Định nghĩa 1.2.1. Một mô hình gọi là mô hình logistic nhị phân nếu biểu thức xác
suất có dạng :
1
P (Y = 1 | X1 , ..., Xk ) =
k
−(α+
1+e
βi Xi )
i=1
trong đó các tham số α, βi là các tham số chưa biết.
Chúng ta không thể tính toán được một cách chính xác các tham số α, βi mà chỉ
có thể dựa vào dữ liệu thu được từ Xs và Y để ước lượng các tham số đó mà thôi. Ước
lượng của các tham số được kí hiệu là α, βi .
8
NGUYỄN THỊ THUẦN
CHƯƠNG 1. PHƯƠNG PHÁP HỒI QUI LOGISTIC
1.2.1
Ước lượng các tham số trong mô hình
Có nhiều phương pháp để ước lượng tham số trong mô hình hồi qui logistic, ở đây
chúng ta trình bày phương pháp ước lượng hợp lý cực đại - phương pháp ước lượng
sao cho hàm hợp lý đạt giá trị lớn nhất.
Giả sử có n quan sát độc lập {(yi , xi )}i∈{1,2,...,n} ∈ ({0, 1} × Rk+1 )n với yi là giá trị
của biến phụ thuộc Y và xi = (xi1 , xi2 , .., xik )T là giá trị của các biến độc lập tại quan
sát thứ i.
Hàm hợp lý là hàm của các tham số chưa biết trong mô hình kí hiệu là L(θ) với
θ = (α, β1, , β2 , β3 , ..., βk )T và được xác định bởi công thức:
L(θ) =P (Y1 = y1 , Y2 = y2 , ..., Yn = yn )
Hàm hợp lý L(θ) đạt giá trị cực đại khi và chỉ khi lnL(θ) đạt giá trị cực đại. Các
ước lượng hợp lý cực đại của các tham số α, βj được tìm bằng cách giải hệ phương
trình đạo hàm riêng
∂lnL(θ)
∂α
∂lnL(θ)
∂βj
=0
=0
với j = 1, k
Theo định nghĩa 1.2.1 , tại quan sát thứ i xác suất có điều kiện để biến phụ thuộc
Y nhận giá trị bằng 1, theo các giá trị của biến độc lập Xj là
1
P (Yi = 1 | X1 = xi1 , ..., Xk = xik ) =
k
−(α+
1+e
βj xij )
j=1
k
α+
=
e
βj xij
j=1
k
α+
1+e
βj xij
j=1
Như vậy xác suất có điều kiện để tại quan sát thứ i biến phụ thuộc Y nhận giá trị
bằng 0 theo các giá trị của biến độc lập Xj là
9
NGUYỄN THỊ THUẦN
Tài liệu tham khảo
[1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống kê toán học, NXB
Đại học Quốc gia Hà Nội.
[2] Hồ Đăng Phúc (2005), Sử dụng phần mềm SPSS trong phân tích số liệu, Nhà xuất
bản Khoa học và Kỹ thuật Hà Nội.
[3] Nguyễn Cao Văn, Trần Thái Ninh (1999), Lý thuyết xác suất và thống kê toán,
Nhà xuất bản Khoa học và Kỹ thuật, Hà Nội.
[4] Nguyễn Văn Hữu, Nguyễn Hữu Dư, (2003),Phân tích thống kê và dự báo, NXB
Đại học Quốc gia Hà Nội.
[5] Nguyễn Viết Phú, Nguyễn Duy Tiến, (2004), Cơ sở lý thuyết xác suất, NXB Đại
học Quốc gia Hà Nội.
[6] Trang Website của Bệnh viên Phụ Sản Trung ương,
www.benhvienphusantrunguong.org.vn
[7] Agresti Alan (1996), An Introduction to Categorical Data Analysis, Inc.
[8] David G.Kleinbaum and Mitchel Klein(2010), Logistic Regression, Springer
[9] Eliason, S.R(1993),Maximum Likelihood Estimation: Logic and Practice, CA: Sage.
[10] Hosmer, D. Lemeshow, S (2000), Applied Logistic Regression (Second Edition),
Inc.
[11] Long, J. Scott (1997), Regression Models for Categorical and Limited Dependent
Variables, CA: Sage Publications.
64