ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
*******
BÙI THỊ HUỆ
PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ
CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA
SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – 2013
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
*******
BÙI THỊ HUỆ
PHƢƠNG PHÁP PHÂN TÍCH SỰ KIỆN DÙNG ĐÁNH GIÁ
CÁC BIẾN ĐỘNG TRONG QUÁ TRÌNH HỌC TẬP CỦA
SINH VIÊN TRƢỜNG ĐẠI HỌC THỦY LỢI HÀ NỘI
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. TRỊNH QUỐC ANH
Hà Nội - 2013
2
LỜI CẢM ƠN
Tôi xin bày tỏ lời cảm ơn chân thành, sâu sắc tới TS. Trịnh Quốc Anh –
người đã ln bên cạnh động viên, tận tình chỉ bảo, hướng dẫn và giúp đỡ tơi trong
q trình nghiên cứu và hồn thành bản luận văn này.
Tơi xin gửi lời cảm ơn đến các thầy cô trong Bộ môn xác suất cùng các thầy
cơ trong khoa Tốn – Cơ – Tin học, trường Đại học Khoa học tự nhiên, Đại học
Quốc gia Hà Nội đã cung cấp cho tôi vốn kiến thức chuyên ngành trong suốt thời
gian tôi học tại trường và đã giúp đỡ, tạo điều kiện để tơi hồn thành luận văn của
mình.
Tơi xin gửi lời cảm ơn tới các anh chị ở phịng Cơng tác sinh viên của trường
Đại Học Thủy Lợi đã cung cấp cho tôi số liệu về sinh viên trong trường và giúp tôi
hiểu rõ về số liệu.
Nhân dịp này, tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè - những người
đã luôn động viên, cổ vũ và tạo điều kiện để tơi hồn thành luận văn của mình.
Luận văn này đánh giá kết quả lao động trong quá trình học tập và nghiên
cứu của tơi. Tơi hi vọng nó thể hiện được phần nào tâm nguyện và mong ước mà tôi
muốn thực hiện. Vì thế, tơi mong nhận được sự ủng hộ và giúp đỡ nhiều hơn để
thực hiện hóa ý tưởng của mình.
Luận văn chỉ là một kết quả nghiên cứu nhỏ của tác giả nên chắc chắn còn
nhiều thiếu sót cần chỉnh sửa. Tác giả rất mong nhận được sự góp ý từ các thầy cơ
và bạn đọc. Mọi liên hệ gửi về hòm thư
3
MỤC LỤC
LỜI NÓI ĐẦU ................................................................................................. 1
NộI DUNG ........................................................................................................ 3
CHƢƠNG 1 : PHÂN TÍCH SỐNG SĨT ...................................................... 3
1.1Giới thiệu chung ...................................................................................... 3
1.2Kiểm duyệt và các loại kiểm duyệt ........................................................ 4
1.3Hàm sống sót và hàm nguy cơ ............................................................... 5
1.3.1Hàm sống sót ..................................................................................... 5
1.3.2Hàm nguy cơ...................................................................................... 6
1.3.3Mơ hình tham số ............................................................................... 8
1.3.4Mơ hình phi tham số ....................................................................... 11
1.3.5So sánh mơ hình tham số và phi tham số ..................................... 12
1.4Kiểm định của các mô hình .................................................................. 12
1.4.1Ƣớc lƣợng Kaplan-Meier của hàm sống sót ................................. 12
1.4.2Kiểm định Log-rank ....................................................................... 16
1.4.3Giới thiệu sơ bộ về mô hình Cox ................................................... 18
CHƢƠNG 2 : MƠ HÌNH NGUY CƠ THEO Tỷ Lệ .................................. 21
2.1Giới thiệu về mơ hình nguy cơ theo tỷ lệ ............................................ 21
2.1.1Giới thiệu ......................................................................................... 21
2.1.2Tác giả mơ hình Cox ....................................................................... 21
2.1.3Mơ hình Cox .................................................................................... 22
2.1.4Hàm sống sót của Cox PHM .......................................................... 23
2.1.5Ƣớc lƣợng các tham số của Cox PHM .......................................... 24
2.2Hàm hợp lý từng phần .......................................................................... 24
2.2.1Hàm hợp lý từng phần cho lần thất bại là duy nhất ................... 24
2.2.2Hàm hợp lý từng phần cho lần thất bại lặp đi lặp lại ................. 25
4
2.3Ƣớc lƣợng các tham số ......................................................................... 27
2.4Kiểm định giả thuyết cho PHM ........................................................... 29
CHƢƠNG 3: THựC NGHIệM PHÂN TÍCH Dữ LIệU SINH VIÊN
TRƢờNG ĐạI HọC THủY LợI HÀ NộI BằNG PHƢƠNG PHÁP PHÂN
TÍCH SốNG SĨT .......................................................................................... 31
3.1Giới thiệu ............................................................................................... 31
3.2Mơ tả số liệu ........................................................................................... 32
3.2.1Các biến số trong mơ hình ............................................................. 32
3.2.2Mã hóa số liệu .................................................................................. 37
3.3Mơ hình của phân tích sống sót trong R ............................................. 40
3.3.1Giới thiệu về R................................................................................. 40
3.3.2Ƣớc lƣợng Kaplan-Meier trong R ................................................. 41
3.3.3Kiểm định Log-rank bằng R .......................................................... 53
3.3.4Mơ hình Cox trong R ...................................................................... 55
KẾT LUẬN .................................................................................................... 63
TÀI LIỆU THAM KHẢO ............................................................................ 66
5
LỜI NÓI ĐẦU
Quản lý sinh viên là một một bài tốn quan trọng khơng thể thiếu trong mỗi
trường học ở nước ta. Mỗi trường đại học, cao đẳng hay học nghề đều có một bộ
phận thống kê số liệu về sinh viên bắt đầu từ khi các em nộp hồ sơ vào trường đến
khi các em chính thức trở thành sinh viên của trường và trong suốt quá trình các em
học tập trong trường tới khi các em nhận bằng tốt nghiệp của mình.Và ngày nay,
nhờ vào việc tin học hóa đã giúp cho cơng việc này trở nên dễ dàng, chính xác, có
tính chun nghiệp và mang tính bảo mật cao đối với mỗi người sử dụng khác nhau.
Tuy nhiên nhà trường mới chỉ quản lý sinh viên ở mặt nổi, ví dụ như: họ và tên, nơi
sinh, mã sinh viên, …những điều này mang tính hồ sơ. Cái sâu hơn mà chúng ta
quan tâm đó là dựa trên những thơng tin ban đầu này, liệu rằng ta có thể sử dụng
các phương pháp phân tích thống kê phù hợp kết hợp với các phần mềm toán học để
phân tích số liệu đó và đưa ra các kết quả như: hàng năm lượng sinh viên ở đâu vào
trường nhiều nhất?, sau một khóa học thì số sinh viên tốt nghiệp ra trường được bao
nhiêu phần trăm so với lượng sinh viên ban đầu vào trường? Nguyên nhân ảnh
hưởng tới số lượng sinh viên ra trường? Yếu tố nào quyết định nhiều tới lượng sinh
viên ra trường. Đó cũng chính là vấn đề mà trường Đại học Thủy Lợi đặt mục tiêu
và muốn giải quyết.
Để làm sáng tỏ điều đó, trong phạm vi của bản luận văn này, tôi đã thu thập
số liệu sinh viên trường Đại học Thủy Lợi Hà Nội do phịng Quản lý và Cơng tác
sinh viên cung cấp và sử dụng “phương pháp phân tích sự kiện dùng đánh giá các
biến động trong quá trình học tập của sinh viên trường Đại học Thủy Lợi Hà Nội”.
Luận văn trình bày bốn nội dung cơ bản:
1. Trình bày về phân tích sống sót, hàm sống sót, hàm nguy cơ và mối liên
hệ giữa chúng.
2. Xây dựng mô hình Cox
3. Sử dụng phần mềm R vào các mơ hình tham số, phi tham số của phân tích
sống sót.
4. Phân tích số liệu về sinh viên trường Đại học Thủy Lợi Hà Nội.
1
Để thể hiện nội dung đó, luận văn được chia thành ba chương:
Chương 1 (Phân tích sống sót): Trong chương này, tác giả sẽ đưa ra những
vấn đề trong phân tích sống sót, cách ước lượng cho mơ hình tham số, phi tham số
của phân tích sống sót.
Chương 2 (Mơ hình Cox): Đối với chương này, tác giả trình bày mơ hình
Cox, tìm hệ số của mơ hình bằng phương pháp hợp lý từng phần và kiểm định lại
mơ hình.
Chương 3 (Thực nghiệm phân tích dữ liệu sinh viên trường Đại học Thủy
Lợi Hà Nội bằng phương pháp phân tích sống sót): Chương này, tác giả ứng dụng
các mơ hình tham số, phi tham số của phân tích sống sót dựa trên phần mềm thống
kê R vào số liệu sinh viên Đại học Thủy Lợi để đưa ra kết quả của bản luận văn.
2
NộI DUNG
CHƢƠNG 1. PHÂN TÍCH SốNG SĨT
1.1 Giới thiệu chung
Trong nghiên cứu khoa học, và đặc biệt là y học và kĩ thuật, các nhà nghiên
cứu muốn tìm hiểu ảnh hưởng đến các biến phụ thuộc mang tính thời gian. Ởđây
việc theo dõi hay mô tả các biến thứ bậc như sống hay chết, hay đánh giá ảnh hưởng
của một thuật điều trị hay một yếu tố nguy cơ tuy quan trọng và có ý nghĩa lâm sàn
nhất định nhưng cái quan trọng hơn là thời gian dẫn đến việc sự kiện xảy ra. Và thời
gian này giữa các bệnh nhân là khác nhau.
Mơ hình chính để thể hiện mối liên hệ giữa thời gian dẫn đến sự kiện xảy ra và
các yếu tố nguy cơ là mơ hình có tên là “survival analysis” dịch là phân tích sống
sót (PTSS) hay phân tích sự kiện hay phân tích biến cố.
Ví dụ khi so sánh hai phương pháp điều trị của các bệnh có tần số tử vong cao
như bệnh AIDS, các bệnh ung thư... Nếu mơ hình phân tích như phân tích hồi qui
logistic, chỉ để ý đến biến kết cục (sống/chết hoặc khỏi bệnh/không khỏi bệnh) mà
không quan tâm đến yếu tố thời gian thì đơi khi khơng tìm thấy sự khác biệt giữa
hai phương pháp điều trị vì tỉ lệ tử vong gần như nhau, nhưng thời gian dẫn đến tử
vong ở hai nhóm có thể khác nhau. Một ví dụ khác, khi so sánh hai loại kháng sinh
điều trị bệnh thương hàn, tỉ lệ khỏi bệnh của hai loại kháng sinh có thể như nhau
nhưng thời gian cắt sốt của hai nhóm có thể khác nhau, vì vậy chúng ta phải sử
dụng mơ hình PTSS thì mới thấy sự khác biệt này. Như vậy mơ hình nghiên cứu
mơ tả kết cục là biến nhị phân (sống/chết-hết sốt/cịn sốt) tuy quan trọng nhưng
khơng chính xác.
Một ưu điểm của PTSS là xử lý được các trường hợp đối tượng nghiên cứu bỏ
cuộc giữa chừng (như mất dấu theo dõi, ngưng điều trị do tác dụng phụ của thuốc
hoặc tử vong do bệnh lý khác...). Trong mơ hình phân tích này các đối tượng còn
sống kể cả đối tượng bỏ cuộc được gọi là censored hoặc sự kiện chưa xảy ra. Các
đối tượng tử vong hoặc hết sốt (ví dụ trong nghiên cứu bệnh thương hàn) được gọi
3
là events hoặc sự kiện đã kết thúc. Và sự phân bố thời gian sống sót được gọi là thời
gian thất bại hay thời gian sự kiện.
Phép ước tính thường được dùng để PTSS được gọi là ước lượng KaplanMeier (1958). Phép ước tính này giúp ta tính được xác suất sống sót tích lũy tại các
mốc thời gian khác nhau. Nếu muốn so sánh sự khác biệt giữa hai nhóm điều trị,
dùng kiểm định Log-rank, bằng cách so sánh hai hàm xác suất tích lũy của hai
nhóm. Và người ta sử dụng kiểm định Log-rank trong phân tích đơn biến, cịn phân
tích đa biến thì ta tiến hành bởi mơ hình Cox (1972) để hiệu chỉnh các yếu tố nhiễu
hoặc các hiệp biến.
Tóm lại, phân tích sống sót (Survival analysis) dựa vào sự khác biệt thời gian
sống sót giữa hai nhóm hoặc thời gian dẫn đến sự kiện xảy ra (chết, ung thư tái
phát, hết sốt...). Phân tích này xử lý được khi đối tượng bỏ cuộc hoặc mất dấu theo
dõi. Dùng kiểm định Log rank trong phân tích đơn biến và mơ hình Cox trong phân
tích đa biến (hiệu chỉnh các yếu tố nhiễu hoặc các hiệp biến).
1.2 Kiểm duyệt và các loại kiểm duyệt
Để hiểu về phân tích sống sót, trước hết ta cần hiểu về “kiểm duyệt”. Kiểm
duyệt xảy ra khi có một quan sát khơng đầy đủ do một số nguyên nhân ngẫu nhiên.
Nguyên nhân của việc dẫn đến kiểm duyệt phải độc lập với sự kiện quan tâm.
Có ba tình huống kiểm duyệt: là kiểm duyệt phải, kiểm duyệt trái và kiểm
duyệt trong khoảng. Trong đó kiểm duyệt phải là loại phổ biến nhất.
Kiểm duyệt phải xuất hiện khi chúng ta không hề biết khi nào đối tượng sẽ
chết mà chỉ biết họ còn sống tại thời điểm chúng ta kết thúc nghiên cứu và thời gian
sống của họ được kéo dài hơn thời gian trong nghiên cứu. Thời gian như vậy được
gọi là thời gian kiểm duyệt. Thời gian kiểm duyệt chỉ ra cho ta thấy rằng thời gian
quan sát đã được cất trước khi sự kiện quan tâm xảy ra. Diều này có thể bị ảnh
hưởng bởi các đối tượng nghiên cứu là không hợp tác, từ chối để được ở lại hoc tập,
chết vì nguyên nhân khác độc lập với nguyên nhân quan tâm, hoặc mất liên lạc với
họ ở giữa đường khi đang quan sát.
Hầu hết các phần trong luận văn áp dụng kiểm duyệt phải.
4
Kiểm duyệt trái ít xuất hiện hơn. Điều này xảy ra khi các sự kiện quan tâm
đã xảy ra vào thời điểm quan sát, nhưng người ta chưa biết chính xác khi nào. Ví dụ
về kiểm duyệt trái bao gồm:
- Nhiễm một căn bệnh lây truyền qua đường tình dục như HIV / AIDS;
- Khởi đầu của một căn bệnh trước khi có triệu chứng như ung thư, và
- Thời gian mà thanh thiếu niên bắt đầu uống rượu, sau đó lãng quên.
Kiểm duyệt trong khoảng là loại kiểm duyệt xuất hiện khi thời gian chính
xác sự kiện xảy ra là khơng biết chính xác, nhưng một khoảng thời gian ranh giới
xảy ra sự kiện thì được biết đến. Nếu khoảng thời gian rất ngắn, người ta thường bỏ
qua hình thức kiểm duyệt. Ví dụ về khoảng thời gian kiểm duyệt là nhiễm một căn
bệnh lây truyền qua đường tình dục như HIV / AIDS với kiểm tra thường xuyên (ví
dụ như hàng năm).
Phần này được trích dẫn trong [1], [7].
1.3 Hàm sống sót và hàm nguy cơ
Hầu hết trong phân tích thống kê, ta thường quan tâm tới hàm mật độ xác suất
và hàm phân phối tích lũy của biến ngẫu nhiên. Mặc dù chúng là quan trọng, nhưng
trong phân tích sự tồn tại ngồi hai hàm đó ra có hai hàm được nhấn mạnh hơn đó là
hàm sống sót và hàm nguy cơ.
1.3.1
Hàm sống sót
Định nghĩa
Nếu 𝑇 là thời điểm thất bại, thì hàm sống sót 𝑆(𝑡) = 𝑝(𝑇 > 𝑡) là xác suất mà
đối tượng cịn sống sót đến thời điểm 𝑡. Nó được định nghĩa trên miền 𝑡 ∈ [0, ∞),
và 𝑆(𝑡) ∈ [0,1].
Tính chất
𝑆 0 = 1
lim𝑡→∞ 𝑆 𝑡 = 0
𝑆(𝑡𝑎 ) ≥ 𝑆(𝑡𝑏 ) ⇔ 𝑡𝑎 ≤ 𝑡𝑏
𝑆 𝑡 = 1 − 𝐹 𝑡 =
∞
𝑡
𝑓(𝜏)𝑑𝜏
Trong đó 𝑓(𝑡) là hàm mật độ xác suất, 𝐹(𝑡) là hàm phân phối tích lũy.
5
Ước lượng hàm sống sót
Chúng ta có thể ước lượng hàm sống sót qua dữ liệu quan sát. Và có hai
phương pháp chính có thể thực hiện điều đó.
Tham số
Nếu bạn có một mơ hình tham số xác định đầy đủ cho 𝑇 với các tham số 𝜃, thì
ước lượng 𝑆 (𝑡) theo ước lượng 𝜃. Tham số có thể được ước lượng bằng phương
pháp tiêu chuẩn, chẳng hạn như ước lượng hợp lý cực đại.
Phi tham số
Nếu ta khơng thể giải thích cho một mơ hình tham số thì ta có thể sử dụng
phương pháp phi tham số, chẳng hạn như sử dụng ước lượng Kaplan-Meier để ước
lượng cho 𝑆(𝑡).
Ví dụ:
Nếu 𝑇~𝑊𝑒 𝑘, 𝜆 (phân phối Weibull) với 𝑓 𝑡 = 𝜆𝑘𝑡 𝑘−1 exp −𝜆𝑡 𝑘 khi đó
∞
𝜆𝑘𝜏 𝑘−1 exp(−𝜆𝜏 𝑘 )𝑑𝜏
𝑆 𝑡 =
𝑡
Đặt 𝑢 = 𝜆𝜏 𝑘 → 𝑑𝑢/𝑑𝜏 = 𝜆𝑘𝜏 𝑘−1 thì
∞
𝑒 −𝑢 𝑑𝑢 = −𝑒 −𝑢
𝑆 𝑡 =
1.3.2 Hàm nguy cơ
𝜆𝑡 𝑘
∞
−𝜆𝑡 𝑘
=
𝑒
𝜆𝑡𝑘
Định nghĩa
Hàm nguy cơ (𝑡) là xác suất mà đối tượng xảy ra sự kiện ngay tại thời điểm 𝑡
𝑡
𝑆 𝑡 = exp
−(𝜏)𝑑𝜏
0
Thật vậy
p 𝑡 ≤ 𝑇 < 𝑡 + ∆𝑡 /𝑇 ≥ 𝑡
∆𝑡→0
∆𝑡
1 p 𝑇 ∈ [𝑡, 𝑡 + ∆𝑡 /𝑇 ≥ 𝑡
= lim
∆𝑡→0 ∆𝑡
𝑝(𝑇 ≥ 𝑡)
𝑡 = lim
1 p 𝑇 ∈ [𝑡, 𝑡 + ∆𝑡 /𝑇 ≥ 𝑡
∆𝑡→0 ∆𝑡
𝑝(𝑇 ≥ 𝑡)
= lim
1 p 𝑇 < 𝑡 + ∆𝑡 − 𝑝(𝑇 < 𝑡)
∆𝑡→0 ∆𝑡
𝑝(𝑇 ≥ 𝑡)
= lim
6
1 (1 − S 𝑡 + ∆𝑡 ) − (1 − 𝑆 𝑡 )
∆𝑡→0 ∆𝑡
𝑆(𝑡)
= − lim
1 S 𝑡 + ∆𝑡 − S(t)
∆𝑡→0 ∆𝑡
𝑆(𝑡)
= − lim
=−
𝑑𝑆(𝑡)/𝑑𝑡
𝑆(𝑡)
Do đó
𝑑𝑆 𝑡
𝑡 =−
⇒ − 𝑡 𝑑𝑡 =
𝑡
𝑡
− 𝜏 𝑑𝜏 =
0
0
𝑑𝑡
𝑆 𝑡
⇒ − 𝑡 =
1 𝑑𝑆 𝑡
𝑆 𝑡 𝑑𝑡
1
1
𝑑𝑆(𝑡) ⇒ − 𝜏 𝑑𝜏 =
𝑑𝑆(𝜏)
𝑆 𝑡
𝑆 𝜏
1
𝑑𝑆 𝜏 = log 𝑆 𝑡 − log 𝑆 0 = log 𝑆(𝑡)
𝑆 𝜏
𝑡
⇒ 𝑆 𝑡 = exp
−(𝜏)𝑑𝜏
0
Vậy ta có:
𝑡
𝑆 𝑡 = exp
−(𝜏)𝑑𝜏
0
Lưu ý rằng nếu 𝑡 = = 𝑐𝑜𝑛𝑠𝑡, ∀ 𝑡 ≥ 0 thì 𝑆 𝑡 = exp{−𝑡}.
Nếu 𝑋 ~ exp(𝜆)thì 𝑝 𝑋 ≤ 𝑥 = 1 − exp −𝜆𝑥 → 𝑆 𝑡 = exp −𝜆𝑡 → 𝑡 =
𝜆.
Tính chất
(𝑡) ≥ 0∀𝑡 ≥ 0
∞
0
𝑡 𝑑𝑡 = ∞
Trong tính chất hai,
∞
0
𝑡 𝑑𝑡 = 𝐻 < ∞ → 𝑆 ∞ = 𝑒 −𝐻 > 0, do (𝑡) khơng là
xác suất nên (𝑡) > 1
Hình ảnh của hàm nguy cơ
(𝑡)là hằng số
7
f(t)
S(t)
h(t)
t
t
t
f(t)
h(t)
S(t)
(𝑡) là hàm tăng
t
t
t
f(t)
h(t)
S(t)
(𝑡) là hàm giảm
t
t
t
f(t)
h(t)
S(t)
(𝑡) là hàm tăng và giảm
t
t
t
1.3.3 Mơ hình tham số
Các hàm thường gặp trong phân phối sống sót
Exponential
Gompertz
Weibull
𝑓(𝑡)
𝜆 exp(−𝜆𝑡)
𝜆𝜅 𝑡 exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅
𝐹(𝑡)
1 − exp(−𝜆𝑡)
1 − exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅
1 − exp(−𝜆𝑡 𝜅 )
1 − 1/1 + 𝜆𝑡 𝜅
𝑆(𝑡)
exp(−𝜆𝑡)
exp 𝜆(1 − 𝜅 𝑡 )/ log 𝜅
exp(−𝜆𝑡 𝜅 )
1/1 + 𝜆𝑡 𝜅
(𝑡)
𝜆
𝜆𝜅 𝑡
𝜆𝜅𝑡 𝜅 −1
𝜆𝜅𝑡 𝜅−1 /1 + 𝜆𝑡 𝜅
8
log-logistic
𝜆𝜅𝑡 𝜅−1 exp(−𝜆𝑡 𝜅 ) 𝜆𝜅𝑡 𝑘−1 /(1 + 𝜆𝑡 𝜅 )2
Các mơ hình quan trọng nhất và sử dụng rộng rãi trong phân tích sống sót
phân bao gồm phối mũ, phân phối Weibull, phân phối log-normal, log-logistic và
phân phối gamma.
Ta sẽ xem xét hai mơ hình là phân phối mũ và Weibull. Phân phối mũ là
phân phối đơn giản và dễ dàng để xử lý với hàm mật độ
𝑓 𝑡, 𝜆 = 𝜆𝑒 −𝜆𝑡 (𝜆, 𝑡 > 0)
Còn phân phối Weibull là một sự tổng quát của phân phối mũ và cho phép
bao gồm nhiều loại hình dạng, với hàm mật độ:
𝑚 𝑡
𝑓 𝑡, 𝑚, 𝜂 =
𝜂 𝜂
𝑚 −1
𝑒
−
𝑡 𝑚
𝜂
𝑚, 𝑡, 𝜂 > 0 (1)
Tham số 𝜆 là tỷ lệ thất bại trong độ tin cậy, với γ là ngưỡng tham số thì hàm mật
độ Weibull có dạng:
𝑚 𝑡−𝛾
𝑓 𝑡, 𝑚, 𝜂, 𝛾 =
𝜂
𝜂
𝑚 −1
𝑒
−
𝑡−𝛾 𝑚
𝜂
𝑚, 𝑡, 𝜂, 𝛾 > 0 (2)
Theo cơng thức (1), cho 𝑚 = 1 thì hàm mật độ xác suất Weibull là hàm mật độ
của phân phối mũ với 𝜆 = 1/𝜂 và ta không thể quan sát bất kỳ lần thất bại nào
trước khi thời gian ngưỡng (𝑡 < 𝛾) hoặc khơng có cá nhân nào chết trước thời gian
này. Nên phân phối Weibull hồn tồn bao gồm các phân phối mũ do đó ta sẽ thảo
luận về mơ hình Weibull. Phân phối Weibull được sử dụng rộng rãi trong độ tin cậy
và kỹ thuật y sinh vì nó phù hợp với dữ liệu và dễ xử lý.
Với 𝑚là tham số hình dạng, coi 𝑡là thời gian thất bại thì phân phối Weibull đưa
ra đưa ra một phương pháp mà tỷ lệ thất bại là tỷ lệ thuận với thời gian 𝑡.
-
Nếu 𝑚 > 1thì tỷ lệ thất bại tăng theo thời gian. Điều này khẳng định sẽ xảy
ra một quá trình lão hóa hay có nhiều khả năng thất bại trong thời gian đó.
-
Nếu 𝑚 = 1: tỷ lệ thất bại khơng đổi theo thời gian. Điều đó cho thấy sự kiện
bên ngoài ngẫu nhiên đang gây ra tỷ lệ tử vong.
-
Nếu 𝑚 < 1: tỷ lệ thất bại giảm theo thời gian.
Và về hình dáng thì hàm mật độ Weibull thay đổi đáng kể với giá trị của𝑚.
0 < 𝑚 < 1: hàm mật độ giảm nghiêm ngặt, tiến ra vô cùng.
𝑚 = 1: hàm mặt độ tiến về 0.
9
𝑚 > 1: hàm mật độ tiến đến 1/λ.
Ước lượng hợp lý cực đại (MLE) rất nổi tiếng, nhưng nó khơng được thể
hiện một cách rõ ràng trong dạng đóng. Theo đó, một số tính tốn lặp đi lặp lại
phương pháp được sử dụng. Menon(Menon (1963)) cung cấp một ước lượng đơn
giản của 1/ 𝑚 ,là một ước tính phù hợp của 1 / 𝑚,với một sự thiên vị có xu hướng
biến mất khikích thước mẫu tăng lên. Sau đó, Cohen (Cohen, 1965; Cohen và
Whitten, 1988) trình bày một biểu đồ thực tế hữu ích để có được một xấp xỉ tốt đầu
tiên cho các tham số hình dạng đang sử dụng mà các hệ số biến đổi Toshinari
Kamakura sự phân bố Weibull là một hàm của các tham số hình dạng 𝑚, tức là, nó
khơng phụ thuộc vào 𝜂.
Ví dụ 1
Cho 𝑡 = 𝑎𝑒 𝑏𝑡 (𝑎 > 0, 𝑏 > 0), có kiểm duyệt
𝑡
𝑒 𝑏𝜏 𝑑𝜏
𝑆 𝑡 = exp −𝑎
0
𝑎
(1 − 𝑒 𝑏𝑡 )
𝑏
𝑎
𝐹 𝑡 = 1 − exp (1 − 𝑒 𝑏𝑡 )
𝑏
𝑑𝐹 𝑡
𝑓 𝑡 =
𝑑𝑡
𝑎
𝑎
= − . −𝑏 . 𝑒 𝑏𝑡 exp
1 − 𝑒 𝑏𝑡
𝑏
𝑏
𝑎
= 𝑎𝑒 𝑏𝑡 exp
1 − 𝑒 𝑏𝑡
𝑏
= exp
= (𝑡)𝑆(𝑡)
Vậy chứng tỏ hàm mật độ cho 𝑡 là tích của hàm nguy cơ và hàm sống sót,
như:
𝑓 𝑡 =
𝑑𝐹(𝑡)
𝑑
=
1−𝑆 𝑡
𝑑𝑡
𝑑𝑡
=−
𝑑
𝑆 𝑡 = 𝑡 𝑆(𝑡)
𝑑𝑡
Cho các quan sát không bị kiểm duyệt, phân phối hợp lý của đối tượng 𝑖 là
𝑓 𝑡𝑖 = (𝑡𝑖 )𝑆(𝑡𝑖 ), điều này có thể được hiểu như xác suất mà không sự kiện nào
xảy ra cho đến thời điểm 𝑡𝑖 (𝑆(𝑡𝑖 )), số thất bại tức thời ở thời điểm 𝑡𝑖 ((𝑡𝑖 )). Tổng
10
hàm hợp lý cho các tham số 𝜃 của mô hình cho 𝑇 là 𝑓 𝑡 𝜃 =
𝑛
𝑖=1 𝑓(𝑡𝑖 ).
Điều này
có thể được cực đại thơng qua tính tốn hoặc ước lượng để tìm MLE của 𝜃 hoặc gắn
vào một phân phối quen thuộc.
Ví dụ 2
Cho 𝑡 = 𝑎𝑒 𝑏𝑡 (𝑎 > 0, 𝑏 > 0) và không kiểm duyệt
𝑛
log 𝑓 𝑡 𝑎, 𝑏 =
log 𝑓 𝑡𝑖
𝑖=1
𝑛
=
log 𝑡𝑖 𝑆 𝑡𝑖
𝑖=1
𝑛
=
(log 𝑡𝑖 + log 𝑆 𝑡𝑖 )
𝑖=1
𝑛
=
𝑖=1
𝑎
log 𝑎 + 𝑏𝑡𝑖 + (1 − 𝑒 𝑏 𝑡 𝑖 )
𝑏
1.3.4 Mơ hình phi tham số
Chúng ta giả định rằng các thiết lập dữ liệu quan sát bao gồm cái chết hoặc
thời gian chết 𝑡𝑖 và chỉ số kiểm duyệt 𝛿𝑖 , 𝑖 = 1,2, … , 𝑛. δ là chỉ trường hợp đối
tượng chết và không cho kiểm duyệt. Chương trình kiểm duyệt là một khái niệm
quan trọng trong phân tích tồn tại mà ta có thể quan sát một phần thông tin liên
quan đến biến ngẫu nhiên tồn tại. Điều này là do một số hạn chế như mất theo dõi,
chết, chấm dứt nghiên cứu, và những trường hợp khác. Phương pháp Kaplan-Meier
(Kaplan và Meier, 1958) hiện đang là tiêu chuẩn để ước tính hàm sống sót phi tham
số. Đối với trường hợp của một mẫu mà khơng có bất kỳ quan sát kiểm duyệt thì dự
tốn chính xác tương ứng vào nguồn gốc từ sự phân bố thực nghiệm. Các bộ dữ liệu
có thể được sắp xếp ở dạng bảng:
Bảng 1: Dữ liệu thời gian thất bại
Thời gian thất bại
𝑡1 𝑡2 … 𝑡𝑖 …𝑡𝑘
Số đối tượng thất bại
𝑑1 𝑑2 … 𝑑𝑖 …𝑑𝑘
Số đối tượng có nguy cơ
𝑛1 𝑛2 … 𝑛𝑖 …𝑛𝑘
11
Ở đây 𝑡1 ≤ 𝑡2 ≤ ⋯ ≤ 𝑡𝑁 , ứng với mỗi 𝑡𝑖 , có 𝑛𝑖 là số “nguy cơ” hay số đối tượng
nghiên cứu ngay trước thời gian 𝑡𝑖 và 𝑑𝑖 là số ca tử vong ngay tại thời điểm 𝑡𝑖 . Theo
kí hiệu này ước lượng Kaplan-Meier là:
𝑆 𝑡 =
𝑡 𝑖 <𝑡
𝑛𝑖 − 𝑑 𝑖
𝑛𝑖
Hay ta nói ước tính Kaplan-Meier của 𝑆(𝑡) là 𝑆 𝑡 = 𝑆 𝑡 − 𝑝(𝑇 > 𝑡|𝑇 ≥ 𝑡)
Khi khơng có sự kiện xảy ra thì 𝑝 𝑇 > 𝑡 𝑇 ≥ 𝑡 = 1
Khi có một hay nhiều sự kiện xảy ra thì
𝑛(𝑡 − ) − 𝑑(𝑡)
𝑝 𝑇>𝑡𝑇≥𝑡 =
𝑛(𝑡 − )
1.3.5 So sánh mơ hình tham số và phi tham số
Lợi ích của việc giả định một hình thức tham số cho hàm nguy cơ, hàm sống
sót hay hàm mật độ là (𝑡) và 𝑆 (𝑡) là cả hai đều quy định về 𝜃, ước tính trơn tru
của hai hàm có thể được nhận thấy được sức mạnh từ các lần thực nghiệm, và kiểm
tra những khác biệt về thông số mạnh mẽ hơn. Nhược điểm là nó rất dễ dàng để q
chắc chắn của mơ hình của bạn, để vẽ kết luận khơng phù hợp bằng cách bóp méo
các tín hiệu từ một số thời gian cho người khác.Thay thế cho các phương pháp mô
tả và thử nghiệm giả thuyết là sử dụng phương pháp phi tham số, nó rất phổ biến
trong phân tích tồn tại. Để khắc phục nhược điểm thì phương pháp bán tham số thực
hiện một số (kiểm chứng) giả định và cho phép mơ hình hóa các tác động của biến
số.
Phần này được trích dẫn trong [7].
1.4 Kiểm định của các mơ hình
1.4.1 Ƣớc lƣợng Kaplan-Meier của hàm sống sót
1.4.1.1 Giới thiệu
Ước lượng Kaplan-Meier của hàm sống còn là một phương pháp thực nghiệm
hay phương pháp phi tham số của ước lượng 𝑆 (𝑡) từ khơng hay kiểm duyệt phải dữ
liệu. Nó rất phổ biến vì nó địi hỏi những giả định rất yếu và chưa sử dụng nội dung
12
thông tin của dữ liệu quan sát đầy đủ và dữ liệu kiểm duyệt phải. Nó đến như tiêu
chuẩn trong hầu hết các phần mềm thống kê (như R) và cũng có thể tính bằng tay.
1.4.1.2 Tác giả Kaplan và Meier
Cả hai đều là sinh viên nổi tiếng John Tukey. Năm 1952, Paul Meier bắt đầu
Nghiên cứu thời gian mắc bệnh ung thư tại trường Đại học Johns Hopkins
Chicago, Hoa Kỳ. Edward Kaplan sau đó bắt đầu làm việc trên cuộc đời của ống
chân không trong bộ lặp của các loại cáp điện thoại tiểu đại dương tại phịng thí
nghiệm Bell. Họ độc lập gửi nghiên cứu của họ về thời gian tồn tại trên tạp chí của
Hiệp hội thống kê Mỹ, có biên tập viên khuyến khích họ gửi một giấy chung, mà họ
đã làm vào năm 1958: Kaplan, EL và P. Meier (1958). Ước lượng phi tham số từ
quan sát không đầy đủ. J. Am. Star. Assoc., 53:457-481. Google Scholar có 20.000
trích dẫn cho bài viết này.
1.4.1.3Ƣớc lƣợng Kaplan-Meier
𝑆(𝑡) là xác suất mà một đối tượng từ một nhóm đối tượng cịn sống sót đến thời
điểm 𝑡. Số 𝑁 là kích thước của mẫu của một nhóm đối tượng xét. Thời điểm xảy ra
sự kiện của 𝑁 thành viên trong nhóm là
𝑡1 ≤ 𝑡2 ≤ ⋯ ≤ 𝑡𝑁
ứng với mỗi 𝑡𝑖 , có 𝑛𝑖 là số “nguy hiểm” hay số đối tượng nghiên cứu ngay trước
thời gian 𝑡𝑖 và 𝑑𝑖 là số ca tử vong ngay tại thời điểm 𝑡𝑖 .
Ví dụ, một tập dữ liệu nhỏ có thể bắt đầu với 10 trường hợp. Giả sử có1 chết
vào ngày thứ 3, đối tượng 2 và 3 chết vào ngày 11 và đối tượng 4 bị mất theo dõi
(kiểm duyệt) vào ngày 9. Dữ liệu lên đến 11 ngày sẽ được như sau.
𝑖
𝑡1
𝑑𝑖
𝑛𝑖
1
3
1
10
2
11
2
8
Ước lượng Kaplan-Meier là ước lượng phi tham số cực đại của 𝑆(𝑡)
13
𝑆 𝑡 =
𝑡 𝑖 <𝑡
𝑛𝑖 − 𝑑 𝑖
𝑛𝑖
Ví dụ:
Khoảng thời
Số phụ nữ lúc
Số phụ nữ
Xác suất
Xác suất
Xác suất
gian(tuần)
bắt đầu thời
ngưng sử
ngưng sử
cịn sử
tích lũy
điểm (𝑛𝑡 )
dụng (𝑑𝑡 )
dụng (𝑡)
dụng (𝑝𝑡 )
𝑆(𝑡)
0–9
18
0
0.0000
1.000
1.000
10 – 18
18
1
0.0555
0.9445
0.9445
19 – 29
15
1
0.0667
0.9333
0.8815
30 – 35
13
1
0.0769
0.9231
0.8137
36 – 58
12
1
0.0833
0.9167
0.7459
59 – 74
8
1
0.1250
0.8750
0.6526
75 – 92
7
1
0.1428
0.8572
0.5594
93 – 96
6
1
0.1667
0.8333
0.4662
97 – 106
5
1
0.2000
0.8000
0.3729
107 -
3
1
0.3333
0.6667
0.2486
Cột 1 là khoảng thời gian tính bằng tuần,
Cột 2 là số phụ nữ trong nghiên cứu bắt đầu một khoảng thời gian. Như trong
ví dụ, khoảng thời gian 0 – 9, tại thời điểm bắt đầu 0 có 18 phụ nữ, hay khoảng thời
gian 19 – 29, ngay tại thời điểm bắt đầu 19, ta có 15 phụ nữ…
Cột 3 là số phụ nữ ngưng sử dụng y cụ (hay biến cố xảy ra) trong một khoảng
thời gian. Chẳng hạn trong khoảng thời gian 10 – 18 có 1 phụ nữ ngưng sử dụng (tại
tuần10)…
Cột 4 là xác suất nguy cơ trong một khoảng thời gian, 𝑡 được ước tính
bằng cách lấy 𝑑𝑡 chia cho 𝑛𝑡 . Ví dụ trong khoảng thời gian 10 – 18 có 1 phụ nữ
ngưng sử dụng nên xác suất nguy cơ là 1/18=0.0555. Xác suất này được ước tính
cho từng khoảng thời gian.
Cột 5 là xác suất còn sử dụng cho một khoảng thời gian 𝑝𝑡 = 1 − (𝑡).
14
Cột 6 là xác suất tích lũy cịn sử dụng y cụ. Đây là cột số liệu quan trọng nhất
trong phân tích. Vì tính chất tích lũy cho nên cách ước tính được nhân từ hai hay
nhiều xác suất. Ví dụ trong khoảng thời gian 10 – 18, xác suất tích lũy được ước
tính bằng cách lấy xác suất cịn sử dụng trong thời gian 0 – 9 nhân với xác suất còn
sử sụng trong khoảng thời gian 10 – 18, tức là 1.000 x 0.9445=0.9445. Ý nghĩa của
ước tính này là xác suất còn sử dụng cho đến thời gian 9 tuần là 94.45%...
0.6
0.4
0.0
0.2
xác suất sống sót
0.8
1.0
Dựa vào R, ta có biểu đồ đường cong sống sót sau:
0
20
40
60
80
100
thời gian (tuần)
Trong biểu đồ này, trục hoành là thời gian (đơn vị là tuần), trục tung là xác
suất tích lũy cịn sử dụng y cụ. Đường chính giữa là xác suất tích lũy 𝑆(𝑡), hai
đường nét đứt là khoảng tin cậy 95% của 𝑆(𝑡). Qua kết quả phân tích này ta thấy
xác suất sử dụng y cụ đến tuần 107 khoảng 25%.
1.4.1.4 Hạn chế của Kaplan-Meier
15
Phân tích Kaplan-Meier chỉ áp dụng cho một nhóm đối tượng và mục đích
chính là ước lượng 𝑆(𝑡) cho từng khoảng thời gian. Nhưng trong thực tế, nhiều
nghiên cứu có mục đích so sánh 𝑆(𝑡) giữa hai hay nhiều nhóm khác nhau.
Nếu ta sử dụng phương pháp trên thì ta có thể phân tích đơn giản là ước lượng
𝑆(𝑡) cho từng nhóm trên từng khoảng thời gian rồi so sánh hai nhóm bằng kiểm
định thống kê thích hợp. Song, phương pháp phân tích này có nhược điểm là khơng
cung cấp cho chúng ta một bức tranh chung của tất cả các khoảng thời gian. Ngồi
ra cịn rắc rối nữa là so sánh giữa hai nhóm trong nhiều khoảng thời gian khác nhau
làm cho kết quả rất khó diễn dịch. Vậy để khắc phực nhược điểm của phương pháp
Kaplan-Meier, một phương pháp phân tích được phát triển có tên là Log-rank test
(kiểm định Log-rank).
1.4.2
Kiểm định Log-rank
1.4.2.1 Giới thiệu chung
Kiểm định Log-rank là một kiểm định giả thuyết để so sánh sự phân phối
sống sót của hai mẫu. Nó là một phương pháp phân tích phi tham số. Nó được sử
dụng rộng rãi trong các thử nghiệm lâm sàn để chứng minh hiệu quả của phương
pháp điều trị mới dựa trên việc đo thời gian đển khi xảy ra sự kiện (chẳng hạn như
thời gian điều trị ban đầu cho một cơn đau tim). Kiểm định này đôi khi được gọi là
kiểm định Mantel-Cox, được đặt tên sau khi Nathan Mantel và David Cox. Kiểm
định Log-rank cũng có thể được xem như là một thời gian phân tầng kiểm định
Cochran-Mantel-Haenszel . Kiểm định Log-rank lần đầu tiên được đề xuất
bởi Nathan Mantel và được đặt tên là kiểm định Log-rank bởi Richard và Julian
Peto .
Kiểm định thống kê Log-rank so sánh ước tính của các hàm nguy cơ của hai
nhóm tại mỗi sự kiện thời gian quan sát. Nó được xây dựng bằng cách tính tốn số
lượng quan sát và dự đốn các sự kiện trong mỗi nhóm tại mỗi sự kiện thời gian
quan sát và sau đó thêm để có được một bản tóm tắt tổng thể trên tất cả các điểm
thời gian, nơi có một sự kiện.
Phần này được trích dẫn trong [6].
16
1.4.2.2 Kiểm định Log-rank
Ta chia thời gian ra làm k khoảng 𝑡1 , 𝑡2 , … , 𝑡𝑘 , mà khoảng thời gian 𝑡𝑗 (𝑗 =
1, … , 𝑘) phản ánh thời điểm j khi một hay nhiều đối tượng của hai nhóm cộng lại.
Gọi 𝑛1𝑗 , 𝑛2𝑗 tương ứng là số đối tượng nguy cơ (chưa có một sự kiện hoặc
được kiểm duyệt) vào lúc bắt đầu của khoảng thời gian 𝑡𝑗 và 𝑛𝑗 = 𝑛1𝑗 + 𝑛2𝑗 là tổng
số đối tượng của hai nhóm lúc bắt đầu của khoảng thời gian 𝑡𝑗 .
Gọi 𝑜𝑖𝑗 (𝑖 = 1, 2) là số quan sát các sự kiện của nhóm i xảy ra trong khoảng
thời gian 𝑡𝑗 ; 𝑜𝑗 = 𝑜1𝑗 + 𝑜2𝑗 là sự kiện xảy ra trên cả hai nhóm sau thời gian 𝑡𝑗 .
Giả thiết hai nhóm có sự tồn tại như nhau và cùng nguy cơ. Với 𝑗 =
1, 2, … , 𝑘, ta có thể ước tính:
𝑒1𝑗 =
𝑜𝑗 𝑛1𝑗
𝑜𝑗 𝑛2𝑗
; 𝑒2𝑗 =
𝑛𝑗
𝑛𝑗
Trong đó 𝑒1𝑗 , 𝑒1𝑗 là xác suất trung bình.
Ngồi ra chúng ta có thể ước tính tổng số sự kiện xảy ra của nhóm một và hai
𝑘
𝑂1 =
𝑘
𝑜1𝑗 , 𝑂2 =
𝑗 =1
𝑜2𝑗
𝑗 =1
Tổng số sự kiện dự kiến xảy ra của từng nhóm là:
𝑘
𝐸1 =
𝑘
𝑒1𝑗 , 𝐸2 =
𝑗 =1
𝑒2𝑗
𝑗 =1
Khi đó kiểm định Log-rank được định nghĩa như sau:
(𝑂1 − 𝐸1 )2 (𝑂2 − 𝐸2 )2
2
𝜒 =
+
𝐸1
𝐸2
2
2
2
Nếu 𝜒 > 𝜒1 (𝛼) (trong đó 𝜒1 (𝛼) là trị số khi bình phương với mức ý nghĩa thống
kê 𝛼 = 0,05), từ đó chúng ta có thể kết luận độ khác biệt về 𝑆(𝑡) giữa hai nhóm.
1.4.2.3 Hạn chế của kiểm định Log-rank
Kiểm định log-rank là phương pháp cho phép chúng ta so sánh 𝑆(𝑡) giữa hai
hay nhiều nhóm. Nhưng trong thực tế, 𝑆(𝑡) hay hàm nguy cơ có thể khơng chỉ khác
nhau giữa các nhóm mà còn chịu sự chi phối của các yếu tố khác. Vấn đề đặt ra là
17
làm sao ước tính mức độ ảnh hưởng của các yếu tố nguy cơ đến (𝑡) và kết hợp các
biến cố liên tục vào phân tích sự tồn tại.
Kiểm tra log-rank không thể được sử dụng để khám phá (và điều chỉnh cho)
những tác động của các biến số, như tuổi tác và đối tượng, khu vực đến sự tồn tại từ
đó chúng ta dự đốn được và có những tác động kịp thời. Phương pháp hồi quy
được giới thiệu bởi Cox được sử dụng để điều tra một số biến tại một thời điểm. Nó
cịn được gọi là phân tích hồi quy nguy cơ theo tỷ lệ (proportional hazards
regression analysis).
Phần này được trích dẫn trong [1].
1.4.3
Giới thiệu sơ bộ về mơ hình Cox
Mơ hình Cox là một kỹ thuật thống kê để khám phá mối quan hệ giữa sự sống
cịn của đối tượng với một số biến giải thích. Mơ hình Cox cung cấp ước lượng hiệu
quả điều trị tỷ lệ sống sau khi điều chỉnh biến giải thích. Ngồi ra nó cịn cho phép
ta ước lượng nguy cơ, rủi ro của cái chết của một cá nhân và đưa ra triệu chứng của
họ. Phân tích hồi quy Cox sẽ mang lại một phương trình cho các nguy cơ như một
hàm của một số biến giải thích.
Giải thích mơ hình Cox liên quan tới việc kiểm tra các hệ số của mỗi biến giải
thích. Nếu các hệ số của biến giải thích dương cho ta biết nguy hiểm là cao hơn dẫn
đến triệu chứng là xấu đi. Ngược lại nếu các biến giải thích có hệ số âm cho ta biết
bệnh nhân đang tốt lên. Mơ hình Cox được dựa trên một mơ hình hóa cách tiếp cận
để phân tích dữ liệu tồn tại. Mục đích của mơ hình là tìm hiểu tác động của một số
biến đến sự sống cịn. Khi nó được sử dụng để phân tích sự sống còn của bệnh nhân
trong một thử nghiệm lâm sàng mơ hình cho phép chúng ta cơ lập những ảnh hưởng
của điều trị từ các tác động của các biến số khác. Mặt khác sử dụng mơ hình có thể
cải thiện dự đoán hiệu quả điều trị bằng cách thu hẹp khoảng tin cậy.
Với
𝑋1 , . . . , 𝑋 𝑘 là 𝑘
biến nguy cơ (hay biến giải thích),𝑋 =
𝑋1 , 𝑋2 , … , 𝑋𝑘 có thể liên tục hay khơng liên tục. Mơ hình Cox phát biểu rằng :
𝑡, 𝑋 = 0 𝑡 . exp
(𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘 )
(𝑡) là hàm nguy cơ tại thời điểm 𝑡, 0 (𝑡) là mối nguy cơ cơ bản tại thời
điểm 𝑡 (hay là hàm nguy cơ cơ bản tại thời điểm 𝑡) khi 𝑋1 = 𝑋2 = ⋯ = 𝑋𝑘 = 0, đại
18
diện về mối nguy cơ cho một đối tượng. Còn các hệ số 𝑏1 , … , 𝑏𝑘 là các hệ số ảnh
hưởng liên quan tới 𝑋𝑗 , được ước tính bằng Cox hồi quy, và có thể được hiểu một
cách tương tự như của nhiều hồi quy logistic. Ở đây mức độ ảnh hưởng của các yếu
tố nguy cơ X j thường được thể hiện bằng tỉ số nguy cơ (hazard radio) HR, hệ số
expβj chính là HR khi cho X j tăng một đơn vị.
(𝑡, 𝑋 ∗ )
𝐻𝑅 =
(𝑡, 𝑋)
𝑋 = 𝑋1 , 𝑋2 , … , 𝑋𝑘 ; 𝑋 ∗ = 𝑋1∗ , 𝑋2∗ , … , 𝑋𝑘∗
Nguy cơ của đối tượng chia cho nguy cơ của một đối tượng khác. Giả sử
(𝑡, 𝑋 ∗ ) > (𝑡, 𝑋), 𝑋 ∗ là nhóm có nguy cơ lớn hơn; 𝑋 là nhóm có nguy cơ nhỏ hơn.
(𝑡, 𝑋 ∗ ) 0 𝑡 . exp
(𝑏1 𝑋1∗ + 𝑏2 𝑋2∗ + ⋯ + 𝑏𝑘 𝑋𝑘∗ )
𝐻𝑅 =
=
(𝑡, 𝑋)
0 𝑡 . exp
(𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘 )
𝑘
𝑏𝑗 (𝑋𝑗∗ − 𝑋𝑗 ))
= exp
(
𝑗 =1
Giả sử yếu tố nguy cơ là phân đơi và được mã hóa 1 nếu có và 0 nếu vắng
mặt. Sau đó, hệ số (𝑏𝑖 ) có thể được giải thích như là nguy cơ tương đối tức thời của
một sự kiện, bất cứ lúc nào, cho một đối tượng với hiện tại yếu tố nguy cơ so với
một đối tượng với các yếu tố nguy cơ vắng mặt, cho cả đối tượng đều giống nhau
trên tất cả các biến số khác.
Giả sử yếu tố nguy cơ là liên tục, sau đó số lượng điểm kinh nghiệm (𝑏𝑖 ) là
nguy cơ tương đối tức thời của một sự kiện, bất cứ lúc nào, cho một cá nhân với sự
gia tăng của một trong các giá trị của biến so với đối tượng khác, cho cả đối tượng
giống nhau trên tất cả các biến số khác.
Hàm nguy cơ theo tỷ lệ có thể được coi là một tỷ lệ của các hàm nguy cơ, vì
vậy mơ hình nguy cơ hồi quy theo tỷ lệ nguy cơ có thể được coi như hàm nguy cơ
tương đối. Mặc dù khơng có mơ hình xác suất cụ thể được lựa chọn để đại diện cho
thời gian tồn tại, tỷ lệ thuận với nguy cơ suy thối khơng có một giả định quan
trọng: hàm nguy cơ cho bất kỳ đối tượng là một tỷ lệ cố định có tính chất nguy cơ
cho bất kỳ đối tượng khác. Tỉ lệ nguy cơ chỉ phụ thuộc trên các biến dự đoán và
19
khơng phụ thuộc vào thời gian. Giả định này có nghĩa là nếu một biến nguy cơ tăng
gấp đôi nguy cơ của sự kiện trên một ngày, nó cũng làm tăng gấp đôi nguy cơ của
sự kiện trên bất kỳ ngày nào khác.
Mơ hình nguy cơ theo tỷ lệ có thể được sử dụng cho các biến rời rạc hay liên
tục của các sự kiện thời gian và có thể kết hợp biến số phụ thuộc thời gian (biến số
có giá trị có thể thay đổi trong thời gian quan sát).
Mơ hình nguy cơ theo tỷ lệ là tương tự như một mơ hình hồi quy và cho phép
sự khác biệt giữa thời gian tồn tại của các nhóm cụ thể của bệnh nhân được thử
nghiệm trong khi cho phép các yếu tố khác. Trong mơ hình này, phản ứng (phụ
thuộc) biến là 'rủi ro'. Nguy cơ là xác suất tử vong (hoặc trải qua những sự kiện
trong câu hỏi) cho rằng bệnh nhân đã sống sót lên đến một điểm nhất định trong
thời gian, hoặc nguy cơ tử vong vào thời điểm đó. Và để hiểu rõ hơn về mơ hình
Cox ta sẽ tìm hiểu tiếp chương 2.
Phần này được trích dẫn trong [4], [7].
20