Tải bản đầy đủ (.pdf) (10 trang)

Dự đoán bệnh ung thư tiền liệt tuyến bằng cây quyết định (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (783.66 KB, 10 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

NGUYỄN MẠNH HÙNG

DỰ ĐOÁN BỆNH UNG THƯ TIỀN LIỆT TUYẾN
BẰNG CÂY QUYẾT ĐỊNH

Chuyên ngành: HỆ THỚNG THƠNG TIN
Mã số: 60.48.01.04

TĨM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2016


Luận văn được hồn thành tại:
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

Người hướng dẫn khoa học: TS.NGŨN DUY PHƯƠNG

Phản biện 1: …………………………………………………………
Phản biện 2: …………………………………………………………..

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học
viện Cơng nghệ Bưu chính Viễn thơng
Vào lúc:

....... giờ ....... ngày ....... tháng ....... .. năm ...............

Có thể tìm hiểu luận văn tại:


- Thư viện của Học viện Công nghệ Bưu chính Viễn thơng


1

MỞ ĐẦU
Trong thời buổi hiện đại với môi trường ô nhiễm cùng với chế độ sống, sinh hoạt của
con người thiếu khoa học thì căn bệnh ung thư càng ngày càng gia tăng. Theo Tiến sĩ
Roaslie David – trường đại học Manchester – Anh và Tiến sĩ Michael Zimmermann –
trường đại học Villanova trong nghiên cứu của mình đã khẳng định: cuộc sống xã hội thời
hiện đại đã góp phần đẩy mạnh sự hình thành của nhiều yếu tố gây ung thư. Theo dự báo
của các nhà khoa học Anh, thế kỷ 21, ung thư tiếp tục là căn bệnh có tỉ lệ tử vong cao trên
thế giới.
Việc phịng tránh và điều trị sớm sẽ góp phần đáng kể tỉ lệ tử vong do ung thư gây ra.
Việc phòng tránh ung thư cần nỗ lực chủ yếu từ yếu tố con người. Nhưng khi đã phát hiện
ra được ung thư thì phải có sự hỗ trợ tốt nhất từ bác sĩ cùng những cơng nghệ hỗ trợ từ máy
móc, cơng nghệ để loại bỏ được căn bệnh quái ác này. Trong quá trình kiểm tra, theo dõi thì
quyết định được đưa ra từ bác sĩ để áp dụng phương pháp điều trị có khả năng chữa trị cao
nhất địi hỏi kiến thức cũng như kinh nghiệm từ nhiều năm chữa bệnh cũng như học hỏi từ
nhiều người trong ngành. Với sự hỗ trợ của công nghệ, vấn đề xử lý các dữ liệu từ hàng
ngàn bệnh nhân cùng các kỹ thuật thống kê, phân tích, so sánh, khai phá dữ liệu sẽ giúp đỡ
rất nhiều để giúp bác sĩ đưa ra quyết định chữa bệnh phù hợp nhất.
Khai phá dữ liệu được coi là: “Một trong những phát triển mang tính cách mạng nhất
trong thập kỷ tới” theo tạp chí công nghệ trực tuyến ZDNet News (ngày 08 tháng 2 năm
2001). Một trong những yêu cầu có ý nghĩa to lớn được lựa chọn khai phá dữ liệu là trong
vấn đề y khoa.
Đề tài “KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH VÀ ÁP DỤNG VÀO
DỰ ĐOÁN VẤN ĐỀ UNG THƯ TIỀN LIỆT TUYẾN” thực hiện trong khuôn khổ luận văn
thạc sỹ ngành công nghệ thông tin được thực hiện nhằm sử dụng kỹ thuật khai phá dữ liệu
với phương pháp cây quyết định để áp dụng vào việc đưa ra quyết định phương pháp điều

trị của bác sĩ đối với bệnh nhân ung thư tiền liệt tuyến.
Mục tiêu luận văn
Nghiên cứu các phương pháp khai phá dữ liệu và tập trung vào phương pháp cây
quyết định cùng các thuật tốn sử dụng phương pháp cây quyết định. Mục đích của luận văn
giúp đưa ra quyết định cho việc chọn lựa phương pháp chữa bệnh đối với các bệnh nhân ung
thư tiền liệt tuyến. Giúp cho việc chữa trị đạt hiệu quả, có khả năng lành bệnh cao.
Đối tượng và phạm vi nghiên cứu


2

Đối tượng nghiên cứu:

-

Các phương pháp khai phá dữ liệu.


-

Dữ liệu của bệnh nhân ung thư tiền liệt tuyến. 


Phạm vi nghiên cứu:

-

Các kỹ thuật trong khai phá dữ liệu.


-

Các thuật toán trong phương pháp cây quyết định. 


Phương pháp nghiên cứu

Lý thuyết:

-

Tìm hiểu tổng quan về khai phá dữ liệu.


-

Tìm hiểu các kỹ thuật khai phá dữ liệu.


-

So sánh các kỹ thuật khai phá dữ liệu.


-

Tìm hiểu các thuật toán trong phương pháp cây quyết định.

Thực nghiệm:

-

Cài đặt phần mềm để áp dụng phương pháp cây quyết định.

-

Áp dụng phương pháp cây quyết định cho việc dự đoán.

-

Đánh giá kết quả đạt được.
Ngoài phần mở đầu và kết luận, luận văn được chia làm 3 chương, cụ thể nội dung


các chương như sau: 

Chương 1: Tổng quan về khai phá dữ liệu trong lĩnh vực y khoa. Những thành tựu đã đạt
được của khai phá dữ liệu trong lĩnh vực này.
Chương 2: Nghiên cứu, tìm hiểu các thuật tốn thường được sử dụng trong việc khai phá dữ
liệu. Biết được điểm mạnh, điểm yếu của mỗi thuật toán.
Chương 3: Tập trung nghiên cứu thuật toán Cây quyết định và áp dụng vào xử lý dữ liệu của
bệnh nhân ung thư tiền liệt tuyến.


3

CHƯƠNG 1 - GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu về khai phá dữ liệu
Quá trình phát hiện tri thức từ cơ sở dữ liệu
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài tốn, bước này sẽ
quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai
phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu.
Bước thứ hai là thu thập và xử lý thơ, cịn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu,
xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường
chiếm nhiều thời gian nhất trong tồn bộ qui trình phát hiện tri thức.
Q trình khai phá dữ liệu

1.2 Ứng dụng của khai phá dữ liệu
Ứng dụng trong phân tích dữ liệu tài chính (Financial Data Analysis)
Ứng dụng trong phân tích dữ liệu tài chính (Financial Data Analysis)
Ứng dụng trong cơng nghiệp viễn thơng (Telecommunication Industry)
Ứng dụng trong phân tích dữ liệu sinh học (Biological Data Analysis)
Ứng dụng trong phân tích dữ liệu sinh học (Biological Data Analysis)


1.3 Ứng dụng của khai phá dữ liệu trong y học
Gian lận trong bảo hiểm y tế:
Chẩn đoán ung thư:

1.4 Kết luận
Chẩn đoán y khoa được coi là một nhiệm vụ phức tạp nhưng có nhiều ý nghĩa. Nó u
cầu sự chính xác và hiệu quả. Quyết định lâm sàng được bác sĩ đưa ra dựa trên trực giác và
kinh nghiệm mà không phải thu từ một tập dữ liệu đầy đủ. Điều này dẫn đến những kết quả


4

sai sót hoặc thừa khơng mong muốn đồng thời đi cùng là chi phí chữa bệnh cao mà chất
lượng khơng được cao. Khai phá dữ liệu có tiềm năng để sinh ra môi trường tri thức cao
giúp cải thiện chất lượng của các quyết định lâm sàng. Công việc đề xuất có thể được tăng
cường và mở rộng trong việc tự động ra quyết định cho bác sĩ đối với bệnh nhân.
Để áp dụng khai phá dữ liệu trong y khoa gặp nhiều thách thức và cản trở. Tuy nhiên
đối với nhiều chương trình đã được áp dụng vào thực tế giúp thúc đẩy các tổ chức khác tăng
cường khai thác điểm mạnh của khai phá dữ liệu.


5

CHƯƠNG 2 – CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
2.1 Tìm hiểu về K-means
2.1.1 Giới thiệu về K-means
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Các thuật
tốn phân cụm (Clustering Algorithms) đều sinh ra các cụm. Tuy nhiên, khơng có tiêu chí
nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều này phụ thuộc
vào mục đích của phân cụm như: giảm bớt dữ liệu, cụm tự nhiên (natural clusters), cụm hữu

dụng (useful clusters), phát hiện phần không liên quan (outlier detection).
2.1.2 K-means trong thực tiễn
Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như:
-

Tiếp thị: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị,
phân loại và dự đoán hành vi khách hàng) sử dụng sản phẩm hay dịch vụ của công ty
để giúp công ty có chiến lược kinh doanh hiệu quả hơn.

-

Sinh học: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng.

-

Thư viện: Theo dõi độc giả, sách, dự đốn nhu cầu của độc giả.

-

Bảo hiểm, tài chính: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tài
chính, dự đốn xu hướng của khách hàng, phát hiện gian lận tài chính.

-

Internet: Phân loại tài liệu, phân loại người dùng web.

2.2 Tìm hiểu về EM (Expectation maximization)
2.2.1 Giới thiệu về EM
Phương pháp này hữu ích cho tác vụ gom nhóm và hình thành mơ hình qua các tham
số. Khi biết được các nhóm và tham số của mơ hình, ta có thể suy luận ra điểm dữ liệu mới

thuộc về nhóm nào.
EM cũng có một vài điểm hạn chế
-

Thứ nhất, EM chạy nhanh ở các vòng lặp ban đầu nhưng chậm hơn ở các vòng lặp
sau.

Thứ hai, EM khơng phải lúc nào cũng tìm được tham số tối ưu và bị mắc kẹt ở điểm tối ưu
cục bộ (local optima) thay vì tồn cục (global optima).


6

2.2.2 EM trong thực tiễn
EM được thường xuyên sử dụng cho phân cụm dữ liệu trong học máy và thị giác máy
tính. Trong xử lý ngơn ngữ tự nhiên, hai ví dụ nổi bật của thuật tốn là thuật tốn BaumWelch và thuật tốn trong-ngồi cho ngữ pháp trong ngữ cảnh thơng thường.
2.3 Tìm hiểu về Nạve Bayes
2.3.1 Giới thiệu về Nạve Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết
sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của
A nếu có B". Đại lượng này được gọi xác suất có điều kiện hay xác suất hậu nghiệm vì nó
được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.
2.3.2 Nạve Bayes trong thực tiễn
Dự đoán theo thời gian thực
Dự đoán nhiều lớp
2.4 Tìm hiểu về Cây quyết định
2.4.1 Giới thiệu về Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm vụ của khai phá
dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định cịn có thể chuyển sang dạng biểu diễn
tương đương dưới dạng tri thức là các luật If-Then.


2.4.2 Cây quyết định trong thực tiễn
-

Phát triển phần mềm: Cây hồi quy được sử dụng để ước lượng lực lượng cần sử dụng
để phát triển một mô đun.

-

Vật lý: Cây quyết định được sử dụng để phát hiện các hạt vật lý.

2.5 Kết luận chương
Ở chương hai của luận văn, học viên đã tìm hiểu được 4 thuật tốn. Những ưu điểm,
nhược điểm khi được áp dụng vào thực tiễn. Từ những tìm hiểu về những thuật tốn, học
viên tập trung hơn vào thuật toán Cây quyết định và muốn áp dụng thuật toán Cây quyết
định vào thực hiện trên dữ liệu bệnh nhân ung thư tiền liệt tuyến.


7

CHƯƠNG 3 – ÁP DỤNG CÂY QUYẾT ĐỊNH TRONG THỰC TIỄN
VỚI DỮ LIỆU BỆNH NHÂN UNG THƯ TIỀN LIỆT TUYẾN
3.1 Cài đặt phần mềm
3.2 Chuẩn bị dữ liệu bệnh nhân ung thư tiền liệt tuyến
Trong phạm vi của luận văn, dữ liệu được lấy từ phịng thí nghiệm của Stamey và đã được
chuẩn bị theo dạng text (prostate.csv).
Kết quả sinh thiết là biến n = 97 người đàn ông ở độ tuổi khác nhau. Thông tin bao
gồm
-


Điểm Gleason: là các điểm được gán bởi hai khối u phổ biến, biên độ từ 2 đến 10;
trong bộ dữ liệu này, biên độ từ 6 đến 9.

-

Kháng nguyên đặc hiệu của tiền liệt tuyến (PSA): kết quả từ phịng thí nghiệm

-

Capsular penetration (CP): phạm vi của ung thư trong chất lót tuyến

Lượng tăng sản tuyến tiền luyệt lành tính (bph): kích thước của tuyến tiền luyệt.
3.3 Áp dụng phương pháp cây quyết định
3.4 Kết quả thử nghiệm
Sau khi thực nghiệm với phương pháp cây quyết định trên tập dữ liệu bệnh nhân ung
thư tiền liệt tuyến, học viên đưa ra kết luận thuật toán cây quyết định đã hỗ trợ rất tốt việc
xử lý dữ liệu để phân chia các biểu diễn của khối u tương ứng với từng bệnh nhân vào các
vùng không gian để đưa ra quyết định xử lý cho từng bệnh nhân.
3.5 Kết luận chương
Ở chương ba của luận văn học viên đã áp dụng thuật toán cây quyết định vào xử lý dữ
liệu của bệnh nhân ung thư tiền liệt tuyến. Đồng thời đi sâu vào cách sử dụng thuật toán Cây
quyết định cho dữ liệu bệnh nhân.


8

KẾT LUẬN
Việc nghiên cứu các thuật toán để biết được điểm mạnh điểm yếu của mỗi thuật toán
trong việc khai phá dữ liệu và ứng dụng thực tế của những thuật toán. Luận văn tập trung
hơn vào thuật toán Cây quyết định và áp dụng vào dữ liệu cụ thể là dữ liệu bệnh nhân ung

thư tiền liệt tuyến. Sau luận văn thu được cách áp dụng thuật toán Cây quyết định vào xử lý
dữ liệu bệnh nhân.
Một số kết quả đạt được:
Nghiên cứu về các thuật toán K-means, EM, Naive Bayes, Cây quyết định để biết
được cơ chế hoạt động, ứng dụng và phương pháp sử dụng các thuật toán.
Cài đặt và sử dụng R, RStudio, R commander với dữ liệu prostate.csv. Đánh giá độ chính
xác của thuật tốn CART.
Sử dụng dữ liệu bệnh nhân ung thư tiền liệt tuyến và áp dụng thuật toán Cây quyết
định vào việc xử lý dữ liệu và dự đoán.
Một số hướng phát triển của đề tài:
Trong khuôn khổ của luận văn, do thời gian không cho phép nên chỉ dừng lại ở việc
áp dụng thuật toán Cây quyết định vào việc xử lý dữ liệu và cách sử dụng Cây quyết định.
Để tiếp tục cải thiện các hạn chế, trong tương lai luận văn sẽ có xác định hướng đi để tiếp
tục và nâng cao hiệu quả của việc nghiên cứu:
Tìm hiểu nhu cầu thực tế để từ đó cải tiến chương trình, cài đặt lại bài tốn theo các thuật
tốn đã nghiên cứu để làm việc tốt hơn với các cơ sở dữ liệu lớn và có thể có được sản phẩm
trên thị trường.
Phân tích và chuẩn bị dữ liệu từ các bệnh viện trong nước đối với các bệnh khác như
chứng đau nửa đầu, …
Tìm hiểu và sử dụng các thuật toán để so sánh hiệu quả cũng như độ chính xác của
các thuật tốn.



×