Tải bản đầy đủ (.docx) (83 trang)

Luận văn thạc sĩ phương pháp phân tích sự kiện dùng đánh giá các biến động trong quá trình học tập của sinh viên trường đại học thủy lợi hà nội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (424.45 KB, 83 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
*******

BÙI THỊ HUỆ

PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ
CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA
SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2013

1


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
*******

BÙI THỊ HUỆ

PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ
CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA
SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI

Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC


NGƢỜI HƢỚNG DẪN KHOA
HỌC: TS. TRỊNH QUỐC ANH

Hà Nội - 2013
2


LỜI CẢM ƠN

Tôi xin bày tỏ lời cảm ơn chân thành, sâu sắc tới TS. Trịnh Quốc Anh –
người đã ln bên cạnh động viên, tận tình chỉ bảo, hướng dẫn và giúp đỡ tơi trong
q trình nghiên cứu và hồn thành bản luận văn này.
Tơi xin gửi lời cảm ơn đến các thầy cô trong Bộ môn xác suất cùng các thầy
cơ trong khoa Tốn – Cơ – Tin học, trường Đại học Khoa học tự nhiên, Đại học
Quốc gia Hà Nội đã cung cấp cho tôi vốn kiến thức chuyên ngành trong suốt thời
gian tôi học tại trường và đã giúp đỡ, tạo điều kiện để tơi hồn thành luận văn của
mình.
Tơi xin gửi lời cảm ơn tới các anh chị ở phịng Cơng tác sinh viên của trường
Đại Học Thủy Lợi đã cung cấp cho tôi số liệu về sinh viên trong trường và giúp tôi
hiểu rõ về số liệu.
Nhân dịp này, tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè - những người
đã luôn động viên, cổ vũ và tạo điều kiện để tơi hồn thành luận văn của mình.
Luận văn này đánh giá kết quả lao động trong quá trình học tập và nghiên
cứu của tơi. Tơi hi vọng nó thể hiện được phần nào tâm nguyện và mong ước mà tôi
muốn thực hiện. Vì thế, tơi mong nhận được sự ủng hộ và giúp đỡ nhiều hơn để
thực hiện hóa ý tưởng của mình.
Luận văn chỉ là một kết quả nghiên cứu nhỏ của tác giả nên chắc chắn còn
nhiều thiếu sót cần chỉnh sửa. Tác giả rất mong nhận được sự góp ý từ các thầy cơ
và bạn đọc. Mọi liên hệ gửi về hòm thư


3


MỤC LỤC

LỜI NĨI ĐẦU................................................................................................. 1
NộI DUNG........................................................................................................3
CHƢƠNG 1 : PHÂN TÍCH SỐNG SÓT..................................................... 3
1.1 Giới thiệu chung......................................................................................3
1.2 Kiểm duyệt và các loại kiểm duyệt........................................................ 4
1.3 Hàm sống sót và hàm nguy cơ................................................................5
1.3.1 Hàm sống sót......................................................................................5
1.3.2 Hàm nguy cơ......................................................................................6
1.3.3 Mơ hình tham số................................................................................8
1.3.4 Mơ hình phi tham số....................................................................... 11
1.3.5 So sánh mơ hình tham số và phi tham số......................................12
1.4 Kiểm định của các mơ hình..................................................................12
1.4.1 Ƣớc lƣợng Kaplan-Meier của hàm sống sót...............................12
1.4.2 Kiểm định Log-rank.......................................................................16
1.4.3 Giới thiệu sơ bộ về mơ hình Cox....................................................18

CHƢƠNG 2 : MƠ HÌNH NGUY CƠ THEO Tỷ Lệ................................. 21
2.1 Giới thiệu về mơ hình nguy cơ theo tỷ lệ.............................................21
2.1.1 Giới thiệu......................................................................................... 21
2.1.2 Tác giả mơ hình Cox.......................................................................21
2.1.3 Mơ hình Cox.................................................................................... 22
2.1.4 Hàm sống sót của Cox PHM.......................................................... 23
2.1.5 Ƣớc lƣợng các tham số của Cox PHM.........................................24
2.2 Hàm hợp lý từng phần..........................................................................24
2.2.1 Hàm hợp lý từng phần cho lần thất bại là duy nhất....................24

2.2.2 Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại..................25

4


2.3 Ƣớc lƣợng các tham số........................................................................27
2.4 Kiểm định giả thuyết cho PHM........................................................... 29

CHƢƠNG 3: THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN
TRƢờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƢƠNG PHÁP PHÂN
TÍCH SốNG SĨT.......................................................................................... 31
3.1 Giới thiệu............................................................................................... 31
3.2 Mơ tả số liệu...........................................................................................32
3.2.1 Các biến số trong mơ hình..............................................................32
3.2.2 Mã hóa số liệu..................................................................................37
3.3 Mơ hình của phân tích sống sót trong R............................................. 40
3.3.1 Giới thiệu về R.................................................................................40
3.3.2 Ƣớc lƣợng Kaplan-Meier trong R............................................... 41
3.3.3 Kiểm định Log-rank bằng R..........................................................53
3.3.4 Mơ hình Cox trong R......................................................................55

KẾT LUẬN.................................................................................................... 63
TÀI LIỆU THAM KHẢO............................................................................ 66

4


LỜI NÓI ĐẦU
Quản lý sinh viên là một một bài tốn quan trọng khơng thể thiếu trong mỗi
trường học ở nước ta. Mỗi trường đại học, cao đẳng hay học nghề đều có một bộ

phận thống kê số liệu về sinh viên bắt đầu từ khi các em nộp hồ sơ vào trường đến
khi các em chính thức trở thành sinh viên của trường và trong suốt quá trình các em
học tập trong trường tới khi các em nhận bằng tốt nghiệp của mình.Và ngày nay,
nhờ vào việc tin học hóa đã giúp cho cơng việc này trở nên dễ dàng, chính xác, có
tính chun nghiệp và mang tính bảo mật cao đối với mỗi người sử dụng khác nhau.
Tuy nhiên nhà trường mới chỉ quản lý sinh viên ở mặt nổi, ví dụ như: họ và tên, nơi
sinh, mã sinh viên, …những điều này mang tính hồ sơ. Cái sâu hơn mà chúng ta
quan tâm đó là dựa trên những thơng tin ban đầu này, liệu rằng ta có thể sử dụng các
phương pháp phân tích thống kê phù hợp kết hợp với các phần mềm toán học để
phân tích số liệu đó và đưa ra các kết quả như: hàng năm lượng sinh viên ở đâu vào
trường nhiều nhất?, sau một khóa học thì số sinh viên tốt nghiệp ra trường được bao
nhiêu phần trăm so với lượng sinh viên ban đầu vào trường? Nguyên nhân ảnh
hưởng tới số lượng sinh viên ra trường? Yếu tố nào quyết định nhiều tới lượng sinh
viên ra trường. Đó cũng chính là vấn đề mà trường Đại học Thủy Lợi đặt mục tiêu
và muốn giải quyết.
Để làm sáng tỏ điều đó, trong phạm vi của bản luận văn này, tôi đã thu thập
số liệu sinh viên trường Đại học Thủy Lợi Hà Nội do phịng Quản lý và Cơng tác
sinh viên cung cấp và sử dụng “phương pháp phân tích sự kiện dùng đánh giá các
biến động trong quá trình học tập của sinh viên trường Đại học Thủy Lợi Hà Nội”.
Luận văn trình bày bốn nội dung cơ bản:
1. Trình bày về phân tích sống sót, hàm sống sót, hàm nguy cơ và mối liên hệ giữa
chúng.
2. Xây dựng mô hình Cox
3. Sử dụng phần mềm R vào các mơ hình tham số, phi tham số của phân tích sống sót.
4. Phân tích số liệu về sinh viên trường Đại học Thủy Lợi Hà Nội.

6


Để thể hiện nội dung đó, luận văn được chia thành ba chương:

Chương 1 (Phân tích sống sót): Trong chương này, tác giả sẽ đưa ra những
vấn đề trong phân tích sống sót, cách ước lượng cho mơ hình tham số, phi tham số
của phân tích sống sót.
Chương 2 (Mơ hình Cox): Đối với chương này, tác giả trình bày mơ hình
Cox, tìm hệ số của mơ hình bằng phương pháp hợp lý từng phần và kiểm định lại
mơ hình.
Chương 3 (Thực nghiệm phân tích dữ liệu sinh viên trường Đại học Thủy
Lợi Hà Nội bằng phương pháp phân tích sống sót): Chương này, tác giả ứng dụng
các mơ hình tham số, phi tham số của phân tích sống sót dựa trên phần mềm thống
kê R vào số liệu sinh viên Đại học Thủy Lợi để đưa ra kết quả của bản luận văn.


NộI DUNG
CHƢƠNG 1. PHÂN TÍCH SốNG SĨT
1.1 Giới thiệu chung
Trong nghiên cứu khoa học, và đặc biệt là y học và kĩ thuật, các nhà nghiên
cứu muốn tìm hiểu ảnh hưởng đến các biến phụ thuộc mang tính thời gian. Ởđây
việc theo dõi hay mô tả các biến thứ bậc như sống hay chết, hay đánh giá ảnh hưởng
của một thuật điều trị hay một yếu tố nguy cơ tuy quan trọng và có ý nghĩa lâm sàn
nhất định nhưng cái quan trọng hơn là thời gian dẫn đến việc sự kiện xảy ra. Và thời
gian này giữa các bệnh nhân là khác nhau.
Mơ hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến sự kiện xảy ra và
các yếu tố nguy cơ là mơ hình có tên là “survival analysis” dịch là phân tích sống
sót (PTSS) hay phân tích sự kiện hay phân tích biến cố.
Ví dụ khi so sánh hai phương pháp điều trị của các bệnh có tần số tử vong cao
như bệnh AIDS, các bệnh ung thư... Nếu mơ hình phân tích như phân tích hồi qui
logistic, chỉ để ý đến biến kết cục (sống/chết hoặc khỏi bệnh/không khỏi bệnh) mà
không quan tâm đến yếu tố thời gian thì đơi khi khơng tìm thấy sự khác biệt giữa
hai phương pháp điều trị vì tỉ lệ tử vong gần như nhau, nhưng thời gian dẫn đến tử
vong ở hai nhóm có thể khác nhau. Một ví dụ khác, khi so sánh hai loại kháng sinh

điều trị bệnh thương hàn, tỉ lệ khỏi bệnh của hai loại kháng sinh có thể như nhau
nhưng thời gian cắt sốt của hai nhóm có thể khác nhau, vì vậy chúng ta phải sử
dụng mơ hình PTSS thì mới thấy sự khác biệt này. Như vậy mơ hình nghiên cứu
mơ tả kết cục là biến nhị phân (sống/chết-hết sốt/cịn sốt) tuy quan trọng nhưng
khơng chính xác.
Một ưu điểm của PTSS là xử lý được các trường hợp đối tượng nghiên cứu bỏ
cuộc giữa chừng (như mất dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc
hoặc tử vong do bệnh lý khác...). Trong mơ hình phân tích này các đối tượng còn
sống kể cả đối tượng bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra. Các
đối tượng tử vong hoặc hết sốt (ví dụ trong nghiên cứu bệnh thương hàn) được gọi


là events hoặc sự kiện đã kết thúc. Và sự phân bố thời gian sống sót được gọi là thời
gian thất bại hay thời gian sự kiện.
Phép ước tính thường được dùng để PTSS được gọi là ước lượng KaplanMeier (1958). Phép ước tính này giúp ta tính được xác suất sống sót tích lũy tại các
mốc thời gian khác nhau. Nếu muốn so sánh sự khác biệt giữa hai nhóm điều trị,
dùng kiểm định Log-rank, bằng cách so sánh hai hàm xác suất tích lũy của hai
nhóm. Và người ta sử dụng kiểm định Log-rank trong phân tích đơn biến, cịn phân
tích đa biến thì ta tiến hành bởi mơ hình Cox (1972) để hiệu chỉnh các yếu tố nhiễu
hoặc các hiệp biến.
Tóm lại, phân tích sống sót (Survival analysis) dựa vào sự khác biệt thời gian
sống sót giữa hai nhóm hoặc thời gian dẫn đến sự kiện xảy ra (chết, ung thư tái
phát, hết sốt...). Phân tích này xử lý được khi đối tượng bỏ cuộc hoặc mất dấu theo
dõi. Dùng kiểm định Log rank trong phân tích đơn biến và mơ hình Cox trong phân
tích đa biến (hiệu chỉnh các yếu tố nhiễu hoặc các hiệp biến).
1.2 Kiểm duyệt và các loại kiểm duyệt
Để hiểu về phân tích sống sót, trước hết ta cần hiểu về “kiểm duyệt”. Kiểm
duyệt xảy ra khi có một quan sát khơng đầy đủ do một số nguyên nhân ngẫu nhiên.
Nguyên nhân của việc dẫn đến kiểm duyệt phải độc lập với sự kiện quan tâm.
Có ba tình huống kiểm duyệt: là kiểm duyệt phải, kiểm duyệt trái và kiểm

duyệt trong khoảng. Trong đó kiểm duyệt phải là loại phổ biến nhất.
• Kiểm duyệt phải xuất hiện khi chúng ta không hề biết khi nào đối tượng sẽ chết mà
chỉ biết họ còn sống tại thời điểm chúng ta kết thúc nghiên cứu và thời gian sống
của họ được kéo dài hơn thời gian trong nghiên cứu. Thời gian như vậy được gọi là
thời gian kiểm duyệt. Thời gian kiểm duyệt chỉ ra cho ta thấy rằng thời gian quan
sát đã được cất trước khi sự kiện quan tâm xảy ra. Diều này có thể bị ảnh hưởng bởi
các đối tượng nghiên cứu là không hợp tác, từ chối để được ở lại hoc tập, chết vì
nguyên nhân khác độc lập với nguyên nhân quan tâm, hoặc mất liên lạc với họ ở
giữa đường khi đang quan sát.
Hầu hết các phần trong luận văn áp dụng kiểm duyệt phải.


• Kiểm duyệt trái ít xuất hiện hơn. Điều này xảy ra khi các sự kiện quan tâm đã xảy ra
vào thời điểm quan sát, nhưng người ta chưa biết chính xác khi nào. Ví dụ về kiểm
duyệt trái bao gồm:
- Nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS;
- Khởi đầu của một căn bệnh trước khi có triệu chứng như ung thư, và
- Thời gian mà thanh thiếu niên bắt đầu uống rượu, sau đó lãng qn.
• Kiểm duyệt trong khoảng là loại kiểm duyệt xuất hiện khi thời gian chính xác sự
kiện xảy ra là khơng biết chính xác, nhưng một khoảng thời gian ranh giới xảy ra sự
kiện thì được biết đến. Nếu khoảng thời gian rất ngắn, người ta thường bỏ qua hình
thức kiểm duyệt. Ví dụ về khoảng thời gian kiểm duyệt là nhiễm một căn bệnh lây
truyền qua đường tình dục như HIV / AIDS với kiểm tra thường xuyên (ví dụ như
hàng năm).
Phần này được trích dẫn trong [1], [7].
1.3 Hàm sống sót và hàm nguy cơ
Hầu hết trong phân tích thống kê, ta thường quan tâm tới hàm mật độ xác suất
và hàm phân phối tích lũy của biến ngẫu nhiên. Mặc dù chúng là quan trọng, nhưng
trong phân tích sự tồn tại ngồi hai hàm đó ra có hai hàm được nhấn mạnh hơn đó là
hàm sống sót và hàm nguy cơ.

1.3.1

Hàm sống sót

 Định nghĩa
Nếu 𝑇 là thời điểm thất bại, thì hàm sống sót 𝑇(𝑇) = 𝑇(𝑇 > 𝑇) là xác suất
mà đối tượng cịn sống sót đến thời điểm 𝑇. Nó được định nghĩa trên miền 𝑇 ∈ [0,
∞), và 𝑇(𝑇) ∈ [0,1].
 Tính chất
• 𝑇0=1
• lim𝑇→∞ 𝑇 𝑇 = 0
• 𝑇(𝑇𝑇 ) ≥

(𝑇𝑇 ) ⇔ 𝑇 ≤ 𝑇𝑇

• 𝑇 𝑇= 1 − 𝑇 𝑇 =


𝑇

𝑇(𝑇)𝑇𝑇

Trong đó 𝑇(𝑇) là hàm mật độ xác suất, 𝑇(𝑇) là hàm phân phối tích lũy.


 Ước lượng hàm sống sót
Chúng ta có thể ước lượng hàm sống sót qua dữ liệu quan sát. Và có hai
phương pháp chính có thể thực hiện điều đó.
• Tham số
Nếu bạn có một mơ hình tham số xác định đầy đủ cho � với các tham số �, thì

ước lượng � (� ) theo ước lượng 𝑇 . Tham số có thể được ước lượng bằng phương
pháp tiêu chuẩn, chẳng hạn như ước lượng hợp lý cực đại.
• Phi tham số
Nếu ta khơng thể giải thích cho một mơ hình tham số thì ta có thể sử dụng
phương pháp phi tham số, chẳng hạn như sử dụng ước lượng Kaplan-Meier để ước
lượng cho 𝑇(𝑇).
Ví dụ:
Nếu 𝑇~�� �, � (phân phối Weibull) với � 𝑇 = 𝑇𝑇𝑇�−1 exp −��

𝑇

khi đó



𝑇 𝑇 = ��� 𝑇−1 exp(−
− 𝑇 )��


Đặt � = �� � → �𝑇/𝑇𝑇 = 𝑇�𝑇 𝑇 −1 thì


𝑇 𝑇 =
−−
1.3.2 Hàm nguy cơ

𝑇−� �� =


−��

�� � = �



�� �

 Định nghĩa
Hàm nguy cơ 𝑇(� ) là xác suất mà đối tượng xảy ra sự kiện ngay tại thời điểm 𝑇


� 𝑇 = exp

− (�)��
0

Thật vậy
𝑇 𝑇 = lim p � ≤ � < 𝑇 + ∆� /� ≥
∆�→ 0
𝑇
∆�
= lim 1 p 𝑇 ∈ [𝑇, 𝑇 + ∆ /𝑇 ≥ 𝑇
∆�→ 0 ∆
= lim

1

∆→0 ∆

= lim


1

∆→0 ∆


𝑇( ≥ 𝑇 )
p 𝑇 ∈ [𝑇, 𝑇
+ ∆ /𝑇 ≥ 𝑇
𝑇( ≥ 𝑇 )

p 𝑇 < 𝑇 + ∆ − 𝑇(𝑇 <
𝑇)
𝑇( ≥ 𝑇 )


= − lim

1 (1 − S 𝑇 + ∆ ) − (1 − 𝑇 )
∆ �(� )
𝑇→

∆S
𝑇
𝑇
1
=𝑇

D
o
đ

ó


+
li
m
∆∆
�𝑇

∆𝑇

=−



S
(
��
t
)
𝑇
𝑇
(
𝑇
𝑇
)
𝑇
𝑇
𝑇
𝑇

(
𝑇
𝑇
)
/
𝑇
𝑇
𝑇
𝑇
𝑇
𝑇
(
𝑇
𝑇


)

0

𝑇 𝑇𝑇 𝑇
𝑇
=

𝑇𝑇



𝑇
𝑇

=

𝑇

1
− 𝑇 𝑇𝑇 =
𝑇𝑇 𝑇 = log
𝑇 𝑇𝑇𝑇− log 𝑇 0 = log 𝑇(𝑇)
0

0

𝑇


V

y
ta
c
ó
:

𝑇
𝑇

=
e
x
p


Lưu ý rằng nếu 𝑇 𝑇 = 𝑇 = 𝑇𝑇𝑇𝑇𝑇, ∀ ≥ 0 thì
𝑇 𝑇 = exp{−
−}.
Nếu 𝑇 ~ exp(𝑇)thì 𝑇 ≤ 𝑇 = 1 − exp
− → 𝑇 = exp − → 𝑇 =





=


𝑇
𝑇
(
𝑇
𝑇
)
𝑇
𝑇
𝑇
𝑇

Tính chất


𝑇
𝑇


e
x
p

0

𝑇.

𝑇
𝑇

0

𝑇

𝑇
𝑇

𝑇 𝑇 𝑇 𝑇𝑇
1
1
⇒ − 𝑇 𝑇 𝑇=
𝑇𝑇(𝑇)
𝑇𝑇
⇒ − 𝑇 𝑇𝑇 =
𝑇𝑇(𝑇)
𝑇𝑇
𝑇



𝑇
𝑇
(
𝑇
𝑇
)
𝑇
𝑇
𝑇
𝑇

0

𝑇(𝑇) ≥ 0∀ ≥ 0


𝑇 𝑇 𝑇𝑇 = ∞

Trong

𝑇 𝑇 𝑇𝑇 = 𝑇 < ∞ → ∞ = − >
tính chất
0, do 𝑇(𝑇) khơng là
hai,
xác suất nên 𝑇(𝑇) > 1


Hình ảnh của hàm nguy cơ
• 𝑇(𝑇)là hằng số



S(
t)

h(t
)

t

f(t
)

t

t

• 𝑇(� ) là hàm tăng

S(
t)

h(t
)

t

f(t
)


t

t

• 𝑇(𝑇) là hàm giảm

S(
t)

h(t
)

t
• 𝑇(𝑇) là hàm tăng và giảm

t

S(
t)

h(t
)

t
1.3.3

f(t
)

t


f(t
)

t

t

Mơ hình tham số

Các hàm thường gặp trong phân phối sống sót
Exponential

Gompertz

Weibull

log-logistic

�(�)

� exp(−�� )

�� ��− 1 exp(−��𝑇 )

�(𝑇)

1−
exp(−
−)


�� � exp 𝑇(1 − 𝑇 𝑇 )/
log 𝑇
1 − exp 𝑇(1 − 𝑇 𝑇 )/
log 𝑇

��� � −1 /(1 + 𝑇𝑇 �
)2
1 − 1/1 + 𝑇𝑇�

1 − exp(−��



)


�(𝑇)

exp(−�
�)

exp 𝑇(1 − 𝑇 � )/ log 𝑇

exp(−�
�� )

1/1 + 𝑇𝑇�

𝑇(𝑇)


𝑇

𝑇𝑇 𝑇

𝑇𝑇 𝑇𝑇−1

𝑇𝑇𝑇 𝑇 −1 /1 + 𝑇𝑇 𝑇


Các mơ hình quan trọng nhất và sử dụng rộng rãi trong phân tích sống sót
phân bao gồm phối mũ, phân phối Weibull, phân phối log-normal, log-logistic và
phân phối gamma.
Ta sẽ xem xét hai mơ hình là phân phối mũ và Weibull. Phân phối mũ là
phân phối đơn giản và dễ dàng để xử lý với hàm mật độ
𝑇 𝑇, 𝑇 = �� −��

(𝑇, 𝑇 > 0)

Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép
bao gồm nhiều loại hình dạng, với hàm mật độ:
𝑇
𝑇 −1
𝑇 𝑇
𝑇 𝑇, 𝑇 , 𝑇 = 𝑇
𝑇

𝑇




𝑇

𝑇, 𝑇, 𝑇 > 0 (1)

𝑇

Tham số 𝑇 là tỷ lệ thất bại trong độ tin cậy, với γ là ngưỡng tham số thì hàm mật
độ Weibull có dạng:
𝑇 𝑇, 𝑇, 𝑇, 𝑇 𝑇 𝑇 −
=
𝑇
𝑇

−𝑇

𝑇−
1


𝑇, 𝑇, 𝑇, 𝑇 > 0 (2)

𝑇
Theo cơng thức (1), cho 𝑇 = 1 thì hàm mật độ xác suất Weibull là hàm
𝑇

mật độ của phân phối mũ với 𝑇 = 1/𝑇 và ta không thể quan sát bất kỳ lần
thất bại nào trước khi thời gian ngưỡng (𝑇 < 𝑇) hoặc khơng có cá nhân nào
chết trước thời gian này. Nên phân phối Weibull hoàn toàn bao gồm các phân
phối mũ do đó ta sẽ thảo

luận về mơ hình Weibull. Phân phối Weibull được sử dụng rộng rãi trong độ tin cậy
và kỹ thuật y sinh vì nó phù hợp với dữ liệu và dễ xử lý.
• Với �là tham số hình dạng, coi � là thời gian thất bại thì phân phối Weibull đưa
ra đưa ra một phương pháp mà tỷ lệ thất bại là tỷ lệ thuận với thời gian 𝑇.
-

Nếu � > 1thì tỷ lệ thất bại tăng theo thời gian. Điều này khẳng định sẽ xảy
ra một q trình lão hóa hay có nhiều khả năng thất bại trong thời gian đó.

-

Nếu 𝑇 = 1: tỷ lệ thất bại không đổi theo thời gian. Điều đó cho thấy sự kiện
bên ngồi ngẫu nhiên đang gây ra tỷ lệ tử vong.

-

Nếu 𝑇 < 1: tỷ lệ thất bại giảm theo thời gian.

• Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑇 .
0 < 𝑇 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng.


𝑇 = 1: hàm mặt độ tiến về 0.


� > 1: hàm mật độ tiến đến 1/λ.
Ước lượng hợp lý cực đại (MLE) rất nổi tiếng, nhưng nó khơng được thể
hiện một cách rõ ràng trong dạng đóng. Theo đó, một số tính tốn lặp đi lặp lại
phương pháp được sử dụng. Menon(Menon (1963)) cung cấp một ước lượng đơn
giản của 1/ � ,là một ước tính phù hợp của 1 / �,với một sự thiên vị có xu

hướng
biến mất khikích thước mẫu tăng lên. Sau đó, Cohen (Cohen, 1965; Cohen và
Whitten, 1988) trình bày một biểu đồ thực tế hữu ích để có được một xấp xỉ tốt đầu
tiên cho các tham số hình dạng đang sử dụng mà các hệ số biến đổi Toshinari
Kamakura sự phân bố Weibull là một hàm của các tham số hình dạng 𝑇, tức là, nó
khơng phụ thuộc vào �.
Ví dụ 1
Cho 𝑇 � = ���� (𝑇 > 0, � > 0), có kiểm duyệt


� � = exp −��

��

��

0

= exp

𝑇
𝑇

(1 − 𝑇 𝑇𝑇 )
𝑇

� 𝑇 = 1 − exp (1 − 𝑇 𝑇𝑇 )

�� 𝑇
�𝑇 =

��𝑇
𝑇
𝑇𝑇
= − . −� . 𝑇 exp 1 − �𝑇𝑇
𝑇
𝑇
𝑇
= 𝑇𝑇 𝑇𝑇 exp 1 − 𝑇 𝑇𝑇
𝑇
=
𝑇(𝑇)�(𝑇)
như:

Vậy chứng tỏ hàm mật độ cho 𝑇 là tích của hàm nguy cơ và hàm sống sót,
��(𝑇

𝑇
=
𝑇𝑇 =
��
𝑇𝑇

1−

𝑇= −

𝑇
𝑇𝑇

𝑇 𝑇 = 𝑇 𝑇 𝑇(𝑇)


Cho các quan sát không bị kiểm duyệt, phân phối hợp lý của đối tượng � là


� 𝑇𝑇 = 𝑇(𝑇𝑇 )𝑇 (𝑇𝑇 ), điều này có thể được hiểu như xác suất mà không sự kiện nào
xảy ra cho đến thời điểm 𝑇𝑇 (𝑇(𝑇𝑇 )), số thất bại tức thời ở thời điểm 𝑇𝑇 (𝑇(𝑇𝑇 )). Tổng


hàm hợp lý cho các tham số � của mô hình cho � là � � 𝑇 =

𝑇�
=
1

𝑇(𝑇𝑇 ). Điều này

có thể được cực đại thơng qua tính tốn hoặc ước lượng để tìm MLE của � hoặc gắn
vào một phân phối quen thuộc.
Ví dụ 2
Cho 𝑇 � = ���� (𝑇 > 0, � > 0) và không kiểm duyệt


log � 𝑇 �, � =

log 𝑇 𝑇𝑇
𝑇=1
𝑇

= log 𝑇 𝑇𝑇 � 𝑇𝑇
𝑇 =1

𝑇

= (log 𝑇 � � + log � 𝑇𝑇 )
� =1


=
1.3.4

Mơ hình phi
tham số

𝑇=
1

𝑇
log 𝑇 + 𝑇𝑇� + (1
𝑇
−𝑇

�� �
)

Chúng ta giả định rằng các thiết lập dữ liệu quan sát bao gồm cái chết hoặc
thời gian chết 𝑇𝑇 và chỉ số kiểm duyệt 𝑇𝑇 , � = 1,2, … , 𝑇. δ là chỉ trường hợp đối
tượng chết và khơng cho kiểm duyệt. Chương trình kiểm duyệt là một khái niệm
quan trọng trong phân tích tồn tại mà ta có thể quan sát một phần thơng tin liên
quan đến biến ngẫu nhiên tồn tại. Điều này là do một số hạn chế như mất theo dõi,
chết, chấm dứt nghiên cứu, và những trường hợp khác. Phương pháp Kaplan-Meier
(Kaplan và Meier, 1958) hiện đang là tiêu chuẩn để ước tính hàm sống sót phi tham

số. Đối với trường hợp của một mẫu mà khơng có bất kỳ quan sát kiểm duyệt thì dự
tốn chính xác tương ứng vào nguồn gốc từ sự phân bố thực nghiệm. Các bộ dữ liệu
có thể được sắp xếp ở dạng bảng:
Bảng 1: Dữ liệu thời gian thất bại
Thời gian thất bại
𝑇1𝑇2 … 𝑇𝑇 …𝑇�
Số đối tượng thất bại
Số đối tượng có nguy cơ

𝑇 1𝑇2 … 𝑇𝑇 …
𝑇�
𝑇1𝑇2 … 𝑇𝑇 …
𝑇𝑇


Ở đây 𝑇1 ≤ 𝑇2 ≤ ⋯ ≤ 𝑇 � , ứng với mỗi 𝑇� , có 𝑇𝑇 là số “nguy cơ” hay số đối
tượng nghiên cứu ngay trước thời gian 𝑇𝑇 và 𝑇𝑇 là số ca tử vong ngay tại thời điểm
𝑇𝑇 . Theo kí hiệu này ước lượng Kaplan-Meier là:
�� − �𝑇

� � =
�� <𝑇

��

Hay ta nói ước tính Kaplan-Meier của �(𝑇) là 𝑇 𝑇 = 𝑇 𝑇 − � (𝑇 > 𝑇|𝑇 ≥ 𝑇)
Khi khơng có sự kiện xảy ra thì 𝑇 𝑇 > 𝑇 ≥ 𝑇 = 1
Khi có một hay nhiều sự kiện xảy ra thì
𝑇 𝑇 > 𝑇𝑇 ≥ 𝑇 =
1.3.5


𝑇(𝑇 −) −
𝑇(𝑇)
𝑇(𝑇−)

So sánh mơ hình tham số và phi tham số

Lợi ích của việc giả định một hình thức tham số cho hàm nguy cơ, hàm sống
sót hay hàm mật độ là 𝑇 (𝑇) và 𝑇 (𝑇) là cả hai đều quy định về 𝑇, ước tính trơn tru
của hai hàm có thể được nhận thấy được sức mạnh từ các lần thực nghiệm, và kiểm
tra những khác biệt về thông số mạnh mẽ hơn. Nhược điểm là nó rất dễ dàng để q
chắc chắn của mơ hình của bạn, để vẽ kết luận khơng phù hợp bằng cách bóp méo
các tín hiệu từ một số thời gian cho người khác.Thay thế cho các phương pháp mô
tả và thử nghiệm giả thuyết là sử dụng phương pháp phi tham số, nó rất phổ biến
trong phân tích tồn tại. Để khắc phục nhược điểm thì phương pháp bán tham số thực
hiện một số (kiểm chứng) giả định và cho phép mơ hình hóa các tác động của biến
số.
Phần này được trích dẫn trong [7].
1.4 Kiểm định của các mơ hình
1.4.1

Ƣớc lƣợng Kaplan-Meier của hàm sống sót

1.4.1.1 Giới thiệu
Ước lượng Kaplan-Meier của hàm sống cịn là một phương pháp thực nghiệm
hay phương pháp phi tham số của ước lượng 𝑇 (𝑇) từ không hay kiểm duyệt phải
dữ liệu. Nó rất phổ biến vì nó địi hỏi những giả định rất yếu và chưa sử dụng nội
dung



thông tin của dữ liệu quan sát đầy đủ và dữ liệu kiểm duyệt phải. Nó đến như tiêu
chuẩn trong hầu hết các phần mềm thống kê (như R) và cũng có thể tính bằng tay.
1.4.1.2 Tác giả Kaplan và Meier
Cả hai đều là sinh viên nổi tiếng John Tukey. Năm 1952, Paul Meier bắt đầu
Nghiên cứu thời gian mắc bệnh ung thư tại trường Đại học Johns Hopkins
Chicago, Hoa Kỳ. Edward Kaplan sau đó bắt đầu làm việc trên cuộc đời của ống
chân không trong bộ lặp của các loại cáp điện thoại tiểu đại dương tại phịng thí
nghiệm Bell. Họ độc lập gửi nghiên cứu của họ về thời gian tồn tại trên tạp chí của
Hiệp hội thống kê Mỹ, có biên tập viên khuyến khích họ gửi một giấy chung, mà họ
đã làm vào năm 1958: Kaplan, EL và P. Meier (1958). Ước lượng phi tham số từ
quan sát không đầy đủ. J. Am. Star. Assoc., 53:457-481. Google Scholar có 20.000
trích dẫn cho bài viết này.
1.4.1.3 Ƣớc lƣợng Kaplan-Meier
𝑇(𝑇) là xác suất mà một đối tượng từ một nhóm đối tượng cịn sống sót đến
thời điểm 𝑇. Số � là kích thước của mẫu của một nhóm đối tượng xét. Thời điểm
xảy ra sự kiện của 𝑇 thành viên trong nhóm là
𝑇1 ≤ �2 ≤ ⋯ ≤ 𝑇�
ứng với mỗi 𝑇𝑇 , có �𝑇 là số “nguy hiểm” hay số đối tượng nghiên cứu ngay trước
thời gian 𝑇𝑇 và 𝑇𝑇 là số ca tử vong ngay tại thời điểm 𝑇𝑇 .
Ví dụ, một tập dữ liệu nhỏ có thể bắt đầu với 10 trường hợp. Giả sử có1 chết
vào ngày thứ 3, đối tượng 2 và 3 chết vào ngày 11 và đối tượng 4 bị mất theo dõi
(kiểm duyệt) vào ngày 9. Dữ liệu lên đến 11 ngày sẽ được như sau.
𝑇

𝑇1

𝑇𝑇

𝑇𝑇


1

3

1

10

2

11

2

8

Ước lượng Kaplan-Meier là ước lượng phi tham số cực đại của 𝑇(𝑇)


𝑇𝑇 −

𝑇 𝑇 =
𝑇𝑇 <𝑇

𝑇

𝑇𝑇

Ví dụ:
Khoảng thời


Số phụ nữ lúc

Số phụ nữ

Xác suất

Xác suất

Xác suất

gian(tuần)

bắt đầu thời

ngưng sử

ngưng sử

cịn sử

tích lũy

điểm (𝑇 𝑇 )

dụng (𝑇 𝑇 )

dụng 𝑇(𝑇)

dụng (𝑇 𝑇 )


𝑇(𝑇)

0–9

18

0

0.0000

1.000

1.000

10 – 18

18

1

0.0555

0.9445

0.9445

19 – 29

15


1

0.0667

0.9333

0.8815

30 – 35

13

1

0.0769

0.9231

0.8137

36 – 58

12

1

0.0833

0.9167


0.7459

59 – 74

8

1

0.1250

0.8750

0.6526

75 – 92

7

1

0.1428

0.8572

0.5594

93 – 96

6


1

0.1667

0.8333

0.4662

97 – 106

5

1

0.2000

0.8000

0.3729

107 -

3

1

0.3333

0.6667


0.2486

Cột 1 là khoảng thời gian tính bằng tuần,
Cột 2 là số phụ nữ trong nghiên cứu bắt đầu một khoảng thời gian. Như trong
ví dụ, khoảng thời gian 0 – 9, tại thời điểm bắt đầu 0 có 18 phụ nữ, hay khoảng thời
gian 19 – 29, ngay tại thời điểm bắt đầu 19, ta có 15 phụ nữ…
Cột 3 là số phụ nữ ngưng sử dụng y cụ (hay biến cố xảy ra) trong một khoảng
thời gian. Chẳng hạn trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng (tại
tuần10)…
Cột 4 là xác suất nguy cơ trong một khoảng thời gian, 𝑇 𝑇 được ước tính
bằng cách lấy 𝑇𝑇 chia cho 𝑇𝑇 . Ví dụ trong khoảng thời gian 10 – 18 có 1 phụ nữ
ngưng sử dụng nên xác suất nguy cơ là 1/18=0.0555. Xác suất này được ước tính
cho từng khoảng thời gian.
Cột 5 là xác suất còn sử dụng cho một khoảng thời gian 𝑇𝑇 = 1 − (𝑇).


Cột 6 là xác suất tích lũy cịn sử dụng y cụ. Đây là cột số liệu quan trọng nhất
trong phân tích. Vì tính chất tích lũy cho nên cách ước tính được nhân từ hai hay
nhiều xác suất. Ví dụ trong khoảng thời gian 10 – 18, xác suất tích lũy được ước
tính bằng cách lấy xác suất cịn sử dụng trong thời gian 0 – 9 nhân với xác suất còn
sử sụng trong khoảng thời gian 10 – 18, tức là 1.000 x 0.9445=0.9445. Ý nghĩa của
ước tính này là xác suất còn sử dụng cho đến thời gian 9 tuần là 94.45%...
Dựa vào R, ta có biểu đồ đường cong sống sót sau:

1.
0
0.
8


c
su
ất
số
ng


0.
6
0.
4
0.
2
0.
0
0

20

40

60

80

100

thời gian (tuần)

Trong biểu đồ này, trục hoành là thời gian (đơn vị là tuần), trục tung là xác

suất tích lũy cịn sử dụng y cụ. Đường chính giữa là xác suất tích lũy 𝑇 (𝑇), hai
đường nét đứt là khoảng tin cậy 95% của 𝑇 (𝑇). Qua kết quả phân tích này ta thấy
xác suất sử dụng y cụ đến tuần 107 khoảng 25%.
1.4.1.4 Hạn chế của Kaplan-Meier


×