LỜI CẢM ƠN
Trước tiên tôi xin được gửi lời cảm ơn chân thành tới Ban Giám hiệu
nhà trường, Phòng sau đại học, các thầy cô giáo trong khoa Công nghệ thông
tin, trường đại học Lạc Hồng đã tạo điều kiện và môi trường học tốt nhất.
Các Giáo sư – Tiến sĩ đã tâm quyết không ngại đường xá xa, đến để truyền
đạt cho chúng tôi nguồn kiến thức vô cùng quý báu, cũng như cách học tập và
nghiên cứu khoa học.
Tôi xin chân thành cám ơn Ban Giám Đốc Bệnh viện Nhi Đồng –
Đồng Nai, TS.BS Nguyễn Trọng Nơi Phó Giám Đốc, BS.CKI Nguyễn Quang
Hinh Trưởng phòng Kế Hoạch Tổng Hợp, BS.CKI Nguyễn Văn Giai Trưởng
khoa Nhiễm, THs.BS Chu Văn Thiện trưởng khoa Hối sức tích cực chống độc
bệnh viện Nhi Đồng – Đồng Nai đã tư vấn và giúp đỡ tơi một cách chân
thành trong q trình thực hiện nghiên cứu khoa học.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới Thầy giáo PGS. TS
Đặng Trần Khánh. Thầy đã hướng dẫn và định hướng, giúp tôi hoàn thành
tốt đề tài nghiên cứu khoa học này.
Trong quá trình thực hiện luận văn, tơi đã nhận được sự giúp đỡ của
các chuyên gia bác sĩ tại bệnh viện Nhi Đồng – Đồng Nai, của các bạn bè
trong ngành Công nghệ thông tin, đặc biệt là sự nghiêm khắc giáo huấn của
thầy Đặng Trần Khánh. Mặc dù rất cố gắng nhưng khơng thể tránh khỏi
những thiếu sót trong lúc thực hiện, tơi rất mong đón nhận những đóng góp ý
kiến từ bạn bè, thầy cô và các chuyên gia.
Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tơi
hồn thành nghiên cứu khoa học này.
Tác giả
Trương Minh Văn
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân, được xuất
phát từ yêu cầu thực tế tại bệnh viện. Số liệu nghiên cứu có nguồn gốc rõ
ràng, trung thực, được thu thập từ những hồ sơ bệnh án, đang lưu trữ tại kho
lưu trữ hồ sơ bệnh án tại bệnh viện Nhi Đồng – Đồng Nai. Trong q trình
nghiên cứu, tơi được sự hỗ trợ của cấp lãnh đạo và dữ liệu thu thập trong quá
trình nghiên cứu được thực hiện đúng theo quy chế của bệnh viện.
Tác giả
Trương Minh Văn
MỤC LỤC
TRANG PHỤ BÌA
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH SÁCH BẢNG
DANH SÁCH HÌNH VẼ
LỜI MỞ ĐẦU .......................................................................................................... 1
CHƯƠNG I: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU ........................... 5
1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? ----------------------------------------------------- 5
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu-------------------------- 5
1.1.2 Một số định nghĩa về khai phá dữ liệu ------------------------------------------ 6
1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? ----------------------------------------- 8
1.2.1 Tại sao phải khai phá dữ liệu? --------------------------------------------------- 8
1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào? ---------------------- 10
1.2.3 Ứng dụng của khai phá dữ liệu ------------------------------------------------ 10
1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU ---------------- 11
1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá tri
thức --------------------------------------------------------------------------------------- 11
1.3.2 Một số phương pháp khai phá dữ liệu ---------------------------------------- 13
1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU ------------------------ 14
1.4.1 Mô tả (Descriptive) -------------------------------------------------------------- 14
1.4.2 Dự đoán (Predictive) ------------------------------------------------------------ 14
1.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG ----------- 15
1.5.1 Phân lớp dữ liệu ------------------------------------------------------------------ 15
1.5.2 Phân cụm dữ liệu ---------------------------------------------------------------- 15
1.5.3 Khai phá luật kết hợp ------------------------------------------------------------ 15
1.5.4 Hồi quy ---------------------------------------------------------------------------- 15
1.5.5 Giải thuật di truyền -------------------------------------------------------------- 16
1.5.6 Mạng nơ-ron (neural network) ------------------------------------------------- 16
1.5.7 Cây quyết định ------------------------------------------------------------------- 16
1.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM
PHÁ TRI THỨC ------------------------------------------------------------------------ 17
1.7 KẾT CHƯƠNG --------------------------------------------------------------------- 17
CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG
DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA ............................................. 19
2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU ---- 19
2.1.1 Khái niệm ------------------------------------------------------------------------- 19
2.1.2 Mục đích và phương pháp luận của canh tác dữ liệu ----------------------- 20
2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu ---- 21
2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu---------------- 25
2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu. --------- 27
2.1.6 Quy trình canh tác dữ liệu ------------------------------------------------------ 28
2.1.7 Phương pháp canh tác dữ liệu đánh giá đặc tính ---------------------------- 30
2.1.7.1 Đặc tính chung của dữ liệu.......................................................... 30
2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu ....... 30
2.2 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y
KHOA ------------------------------------------------------------------------------------- 31
2.2.1 Vai trò của diều dưỡng, bác sĩ trong canh tác dữ liệu y khoa ------------- 31
2.2.2 Tập dữ liệu y khoa --------------------------------------------------------------- 32
2.2.3 Phương pháp giải quyết --------------------------------------------------------- 32
2.2.3.1 Phương pháp giải quyết công việc 1 ............................................ 32
2.2.3.2 Phương pháp giải quyết công việc 2 ............................................ 33
2.2.3.3 Phương pháp giải quyết công việc 3 ............................................ 33
2.3 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU
BỆNH SỐT XUẤT HUYẾT ---------------------------------------------------------- 33
2.3 .1 Tập thuộc tính ban đầu --------------------------------------------------------- 33
2.3 .1.1 Thơng tin hành chính ................................................................. 33
2.3.1.2 Triệu chứng lâm sàng.................................................................. 34
2.3 .1.3 Cận lâm sàng ............................................................................. 34
2.3 .1.4 Tình trạng đến khám và nhập viện ............................................. 34
2.3.2 Phương pháp giải quyết --------------------------------------------------------- 34
2.3.2.1 Phương pháp giải quyết công việc 1 ............................................ 34
2.3.2.2 Phương pháp giải quyết công việc 2 ............................................ 35
2.3.2.3 Phương pháp giải quyết công việc 3 ............................................ 35
2.3.3 Tập thuộc tính sau khi canh tác dữ liệu --------------------------------------- 35
2.4 KẾT CHƯƠNG --------------------------------------------------------------------- 36
CHƯƠNGII: KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 37
3.1 CÂY QUYẾT ĐỊNH --------------------------------------------------------------- 37
3.1.1 Khái niệm ------------------------------------------------------------------------- 37
3.1.2 Biểu diễn cây quyết định ------------------------------------------------------- 38
3.1.3 Các bước chính xây dựng cây quyết định ------------------------------------ 39
3.1.4 Cây quyết định so với kỹ thuật khai phá khác ------------------------------- 40
3.1.4.1 Một số ưu điểm của cây quyết định ............................................. 40
3.1.4.2 Một số điểm yếu của cây quyết định ........................................... 42
3.2 MỘT SỐ THUẬT TOÁN KPDL BẰNG CÂY QUYẾT ĐỊNH ------------ 43
3.2.1 Thuật toán ID3 ------------------------------------------------------------------- 43
3.2.1.1 Lịch sử phát triển ........................................................................ 43
3.2.1.2 Mã giã giải thuật ID3 .................................................................. 44
3.2.1.4 Lựa chọn thuộc tính kiểm tra ...................................................... 44
3.2.1.5 Một vài ưu khuyết điểm của thuật toán ID3 ................................ 49
3.2.2 Thuật toán C4.5 ------------------------------------------------------------------ 49
3.2.2.1 Lịch sử phát triển ........................................................................ 49
3.2.2.2 Mã giã của thuật toán C4.5 ......................................................... 50
3.2.2.3 Một số cải tiến của thuật toán C4.5 ............................................. 52
3.2.3. Thuật toán SPRINT ------------------------------------------------------------- 54
3.2.3.1 Lịch sử phát triển ........................................................................ 54
3.2.3.2 Mã giã của thuật toán SPRINT.................................................... 55
3.2.3.3. SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập
dữ liệu “tốt nhất” .................................................................................... 56
3.3 KẾT CHƯƠNG --------------------------------------------------------------------- 57
CHƯƠNG IV: XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC
NGHIỆM ............................................................................................................. 60
4.1 MỤC TIÊU -------------------------------------------------------------------------- 60
4.2 ĐỐI TƯỢNG VÀ PHẠM VI ----------------------------------------------------- 60
4.3 PHƯƠNG PHÁP GIẢI QUYẾT ------------------------------------------------- 60
4.4 QUY TRÌNH XÂY DỰNG HỆ THỐNG --------------------------------------- 60
4.4.1 Tìm hiểu nghiệp vụ của bài tốn ----------------------------------------------- 60
4.4.2 Thu thập dữ liệu ------------------------------------------------------------------ 61
4.4.2.1 Nguyên tắc chọn lựa thuộc tính khai phá..................................... 61
4.4.2.2 Tiến hành thu thập dữ liệu........................................................... 61
4.4.2.3 Xử lý dữ liệu-chuyển đổi dữ liệu................................................. 62
4.4.3 Chọn lựa kỹ thuật khai phá ----------------------------------------------------- 63
4.4.4 Xây dựng chương trình --------------------------------------------------------- 63
4.4.4.1 Dữ liệu đầu vào........................................................................... 63
4.4.4.2 Mơ tả dữ liệu đầu vào ................................................................. 63
4.4.4.3 Dữ liệu đầu ra ............................................................................. 64
4.4.4.4 Sử dụng thuật toán cho bài toán .................................................. 64
4.4.4.5 Ngôn ngữ phát triển và cơ sở dữ liệu sử dụng ............................. 64
4.5 THỰC NGHIỆM ------------------------------------------------------------------- 64
4.5.1 Dữ liệu và chương trình thực nghiệm ----------------------------------------- 64
4.5.1.1 Dữ liệu thực nghiệm ................................................................... 64
4.5.1.2 Hướng dẫn sử dụng hệ thống ...................................................... 65
4.6 KẾT QUẢ THỰC NGHIỆM ----------------------------------------------------- 67
4.7 NHẬN XÉT KẾT QUẢ THỰC NGHIỆM ------------------------------------- 67
CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..................................... 69
5.1 KẾT LUẬN -------------------------------------------------------------------------- 69
5.1.1 Kết quả đạt được ----------------------------------------------------------------- 69
5.1.1.1 Lý thuyết .................................................................................... 69
5.1.1.2 Thực nghiệm ............................................................................... 70
5.1.2 Kết quả chưa đạt được ---------------------------------------------------------- 70
5.2 HƯỚNG PHÁT TRIỂN ----------------------------------------------------------- 71
5.2.1 Lý thuyết -------------------------------------------------------------------------- 71
5.2.2 Thực hành ------------------------------------------------------------------------- 71
TÀI LIỆU THAM KHẢO
PHỤ LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT
CLS
Cận lâm sàng.
CSDL
Cơ sở dữ liệu.
CTDL
Canh tác dữ liệu.
DL
Dữ liệu.
DM
Data Mining.
HSBA
Hồ sơ bệnh án.
ICD10
Danh mục bệnh quốc tế
KDD
Knowledge Discovery in Databaes.
KHTH
Kế Hoạch Tổng Hợp.
KPDL
Khai phá dữ liệu.
LS
Lâm sàng.
NSV
Nhiễm siêu vi.
NTV
Nhà tư vấn.
SXH
Sốt xuất huyết .
SXHD
Sốt xuất huyết Dengue.
SXHD-CB Sốt xuất huyết Dengue cảnh báo.
SXHD-VS Sốt xuất huyết Dengue vào sốc.
WHO
Tổ chức Y tế thế giới.
DANH SÁCH BẢNG
Bảng 2.1 So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu............ 19
Bảng 3.1 Tập dữ liệu huấn luyện cho khái niệm mục tiêu Play tennis .............. 45
Bảng 4.1 Bảng kết quả thực nghiệm của hệ thống............................................ 71
DANH SÁCH HÌNH VẼ
Hình 1.1 Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu ................. 5
Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu ...................................... 7
Hình 1.3 Chúng ta đang giàu dữ liệu nhưng nghèo tri thức .............................. 9
Hình 1.4 Biễu diễn chức năng chính của khai phá dữ liệu ........................ 14
Hình 2.1 Quá trình khám phá tri thức và khai phá dữ liệu ........................ 23
Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức ............. 24
Hình 2.3 So sánh khai phá dữ liệu có và khơng có canh tác dữ liệu ................. 26
Hình 3.1 Biễu diễn cây quyết định cơ bản ................................................... 37
Hình 3.2 Cây quyết định cho việc chơi Tennis ......................................... 38
Hình 3.3 Tạo Node gốc Outlook .................................................................. 48
Hình 3.4 Thuộc tính kiểm tra cho con kế node gốc .................................. 48
Hình 4.1 Đơn xin mượn hồ sơ bệnh án nghiên cứu khoa học................... 62
Hình 4.2 Giao diện chính hệ thống chương trình.................................... 65
Hình 4.3 Màn hình hiển thị dữ liệu tập huấn .......................................... 65
Hình 4.4 Hiển thị cây quyết định dạng treeview ..................................... 66
Hình 4.5 Màn hành giao diện chẩn đoán ................................................... 66
1
LỜI MỞ ĐẦU
1/Tính cấp thiết của đề tài
Tình hình bệnh sốt xuất huyết (SXH) trên thới giới
Tỉ lệ mắc bệnh SXH trên toàn thế giới đang gia tăng mạnh mẽ trong
những năm gần đây. Theo Tổ chức Y tế thế giới (WHO), trong vòng 10 năm
gần đây, bệnh sốt SXH hay còn gọi sốt Dengue (SD)/ sốt xuất huyết Dengue
(SXHD) trở nên trầm trọng, có trên 100 nước ở châu Phi, châu Mỹ, vùng
Ðông Ðịa Trung Hải, các nước Ðông Nam á và Tây Thái Bình Dương đều
báo cáo có bệnh này. Trong vòng 9 năm từ 1990 đến 1998, số trường hợp
trung bình hằng năm mắc SD/SXHD khoảng 514.139.000 người. Đơng Nam
Á và Tây Thái Bình Dương là khu vực chịu ảnh hưởng nặng nề nhất. Do sự
phát triển dân cư và đơ thị hóa tạo điều kiện cho muỗi Aedes aegypti[pl3], dịch
xuất hiện thường xuyên và tăng nhanh, đến nay, Sốt xuất huyết đã trở thành
bệnh lưu hành. Trong đó, Malaysia, Singapore, Đài Loan, Thái Lan và Việt
Nam có tỉ lệ tử vong trung bình khoảng 0,5%.
Tình hình bệnh sốt xuất huyết tại Việt Nam
Theo thống kê báo cáo của Bộ Y tế Việt Nam, tình hình bệnh sốt xuất huyết
diễn ra phức tạp, tỉ lệ mắc bệnh và tử vong còn rất cao[pl3]. Trong 6 tháng
đầu năm 2012 cả nước có 26.000 ca bị mắc bệnh SXH, số tử vong 30 ca
trong đó TPHCM 6 ca, bệnh viện Nhi Đồng – Đồng Nai 7 ca.[báo cáo giao
ban tại bệnh viện Nhi Đồng – Đồng Nai, tháng 7/2012]
Bệnh SD/SXHD trở thành một bệnh dịch lưu hành ở nước ta. Bệnh không
chỉ xuất hiện ở đô thị mà cả vùng nơng thơn, nơi có muỗi vectơ truyền bệnh.
Dịch lớn SD/SXHD bùng nổ theo chu kỳ khoảng 3-5 năm. Năm 1998, trên
toàn quốc bùng nổ vụ dịch lớn, số mắc bệnh và tử vong cao (mắc: 234.920
người, tử vong 377[2])
[pl3]
[pl3]
Tham khảo phụ lục 3
Tham khảo phụ lục 3
2
Bệnh SXHD là bệnh truyền nhiễm gây dịch do virus Dengue gây nên.
Virus Dengue có 4 týp huyết thanh là DEN -1, DEN -2, DEN -3, DEN -4.
Virus truyền từ người bệnh sang người lành do muỗi đốt. Muỗi Aedes aegypti
là côn trùng trung gian truyền bệnh chủ yếu. Đặc điểm của SXH D là sốt, xuất
huyết và thoát huyết tương, có thể dẫn đến sốc giảm thể tích tuần hồn và rối
loạn đơng máu, nếu khơng được chẩn đốn sớm và xử trí kịp thời dễ dẫn đến
tử vong .
Cơng việc chẩn đốn SXH tương đối dễ dàng nhờ phác đồ hướng dẫn
của Tổ chức Y tế thế giới (WHO) năm 1997 và phát đồ điều trị bệnh SXH của
Bộ Y tế Việt Nam [2], nhưng để dự đoán một bệnh nhân sốt xuất huyết Dengue
vào sốc (SXHD-VS) thì cịn nhiều khó khăn trong thực tế lâm sàng. Do đó
vẫn cịn bệnh nhân tử vong cao, cũng như chi phí điều trị cao cho những bệnh
nhân vào sốc, đây là bài toán nan giải cho Y tế cộng đồng nói chung và tại
bệnh viện Nhi Đồng – Đồng Nai nói riêng.
2/Tính thực tiễn của đề tài
Y học là mơn khoa học không ngừng phát triển. Tiếp cận và cập nhật hóa
thơng tin y học chứng cớ[pl1] và y học thực chứng[pl2] từ những cơ sở dữ liệu,
để nâng cao chất lượng chăm sóc sức khỏe cho nhân dân là điều không thể
thiếu trong thực hành lâm sàng. Với sự phát triển mạnh mẽ của ngành Công
Nghệ Thông Tin (CNTT), một trong những ngành mũi nhọn của nhiều quốc
gia trên thới giới. Sự phát triển vượt bậc đó là kết quả tất yếu của việc ứng
dụng của nó trong nhiều lĩnh vực khác nhau trong cuộc sống như: Giáo dục,
Y tế, Kinh tế, Khoa học, Xây dựng nó đã trở thành một phần không thể thiếu
được trong cuộc sống hàng ngày của con người. Trong kỷ nguyên bùng nổ
thông tin, việc áp dụng các phương pháp tìm kiếm thơng tin từ những nguồn
dữ liệu khác nhau là nhu cầu thiết thực cho toàn xã hội. Trong các phương
[pl1]
[pl2]
Tham khảo phụ lục 1
Tham khảo phụ lục 2
3
pháp tìm kiếm thơng tin đó, khai phá dữ liệu để tìm ra tri thức, phục vụ đời
sống xã hội là một phương pháp mới, đang được các nhà nghiên cứu khoa học
quan tâm. Tuy nhiên, khai phá dữ liệu trong lĩnh vực y khoa ở nước ta quả
thật còn rất ít, gặp nhiều khó khăn, do hiện nay nhiều bệnh viện ở nước ta
chưa có bệnh án điện tử. Việc khai phá trong lĩnh vực này thực sự mang lại
nhiều ý nghĩa cho y học chứng cớ và y học thực chứng, để hỗ trợ cho các bác
sĩ, chẩn đốn bệnh sớm và điều trị bệnh có hiệu quả, giảm bớt tử vong cũng
như chi phí điều trị, đây là một nhu cầu thiết thực trong các bệnh viện.
Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Khai phá dữ
liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa” để
nghiên cứu cho luận văn thạc sĩ của mình.
3/Mục đích và ý nghĩa nghiên cứu
- Giới thiệu về phương pháp khai phá dữ liệu có sử dụng tri thức chuyên gia
(lĩnh vực có liên quan) trong q trình chọn lựa thuộc tính nhằm các mục
đích sau:
- Giảm bớt thuộc tính nhiễu, dư thừa trong khai phá dữ liệu.
- Giảm bớt thời gian và chi phí khai phá dữ liệu, giúp các thuật tốn khai
phá dữ liệu chạy nhanh và chính xác hơn, từ đó các luật sinh ra trong q
trình khai phá cũng tốt hơn. Giá trị chẩn đoán từ các luật cũng có độ tin
cậy cao hơn.
- Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật tốn
C4.5, tạo ra các luật, thơng qua kiểm nghiệm thực tiễn, hỗ trợ bác sĩ chẩn
đoán và điều trị bệnh.
Với mục đích đặt ra cho đề tài nêu trên, việc nghiên cứu thực sự có ý
nghĩa rất to lớn cho nền y học, tạo ra các y học chứng cớ và y học thực chứng,
cải cách chẩn đoán, tạo cơng cụ hỗ trợ đắc lực trong q trình chẩn đoán bệnh
(trong luận văn này nghiên cứu hỗ trợ chẩn đoán bệnh SXH), nhằm giảm
thiểu tử vong và giảm chi phí điều trị cho bệnh nhân.
4
Kỳ vọng của đề tài là giải pháp hỗ trợ, mong được áp dụng tại bệnh
viện Nhi Đồng – Đồng Nai, cũng như những bệnh viện tuyến huyện, thiếu
chuyên gia bác sĩ giỏi, nhằm hướng cải cách chẩn đoán và điều trị bệnh nhân,
cụ thể là bệnh SXHD
4/Đối tượng và phạm vi nghiên cứu
Gồm các hồ sơ bệnh án lưu trữ bằng giấy, thuộc đối tượng trẻ em từ 0
tuổi đến 15 tuổi, được chẩn đoán SXH theo tiêu chuẩn WHO 1997 và Bộ Y
Tế Việt Nam[2], đã nhập viện và điều trị tại bệnh viện Nhi Đồng – Đồng Nai
từ năm 2009 đến năm 2012.
5/Phương pháp nghiên cứu
- Phương pháp nghiên cứu hồi cứu [5]
- Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác
sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ
liệu y khoa.
- Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật
toán C4.5.
6/Kết cấu luận văn
Luận văn gồm 5 chương: Ngoài phần mở đầu, tham khảo, phụ lục.
- Chương I: Cơ sở lý thuyết về khai phá dữ liệu.
- Chương II : Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong
khai phá dữ liệu y khoa.
- Chương III: Kỹ thuật khai phá dữ liệu bằng cây quyết định.
- Chương IV: Xây dựng hệ thống chương trình hỗ trợ chẩn đoán bệnh
SXH và thực nghiệm.
- Chương V: Kết luận và hướng phát triển.
5
Chương I
CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU
1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ?
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge Discovery in
Database-KDD) là một qui trình nhận biết các mẫu hoặc các mơ hình trong
dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.
Khai phá dữ liệu (Data Mining-DM)
[6]
là một khái niệm ra đời vào
những năm cuối của thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm
một loạt các kỹ thuật nhằm phát hiện ra các thơng tin có giá trị tiềm ẩn trong
các tập dữ liệu lớn. Thuật ngữ này thực sự là một cái tên nhầm lẫn. Hãy nhớ
rằng việc khai thác vàng từ đá hoặc cát được gọi là khai thác vàng chứ không
phải là khai thác đá, cát. Như vậy, khai phá dữ liệu (KPDL) nên được đặt tên
thích hợp hơn là “khai thác kiến thức từ dữ liệu”.Tuy nhiên, “khai phá dữ
liệu” vẫn được dùng cách phổ biến. Hình 1.1 minh họa đơn giản và trực quan
cho khái niệm này.
Hình 1-1: Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu
6
Khái niệm KDD và KPDL được các nhà khoa học xem là tương đương
nhau. Tuy nhưng, nếu phân chia một cách rành mạch và chi tiết thì KPDL là
một bước chính trong q trình KDD.
Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành
như: Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL,
thuật tốn, trí tuệ nhân tạo, tính tốn song song và hiệu năng cao. Các kỹ
thuật chính áp dụng trong khám phá tri thức phần lớn được thừa kế từ các
ngành này.
1.1.2 Một số định nghĩa về khai phá dữ liệu
Sau đây là một số định nghĩa khác nhau về KPDL:
Định nghĩa của Giáo sư Tom Mitchell: “Khai phá dữ liệu là việc sử dụng
dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định
trong tương lai.”
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp
được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối
quan hệ và các mẫu chưa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là q trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thơng tin chưa biết và bất ngờ trong
CSDL lớn”
Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát
biểu:”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các
cơ sở dữ liệu, là một q trình trích xuất những thơng tin ẩn, trước đây chưa
biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.”
Cịn các nhà Thống kê thì xem "Khai phá dữ liệu như là một q trình
phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát
hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa
các biến và sau đó sẽ hợp thức hố các kết quả tìm được bằng cách áp dụng
các mẫu đã phát hiện được cho tập con mới của dữ liệu".
7
Tuy nhiên trên thực tế, KPDL được xem là một bước thiết yếu trong
quá trình khám phá tri thức trong CSDL bao gồm các thụât toán KPDL
chuyên dùng, dưới một số quy định về hiệu quả tính tốn chấp nhận được, để
tìm ra các mẫu hoặc các mơ hình trong dữ liệu. Q trình này được mơ tả
trong hình 1.2 và bao gồm một chuỗi lặp đi lặp lại các bước sau [6]:
• Làm sạch dữ liệu (loại bỏ dữ liệu nhiễu và dữ liệu khơng phù hợp).
• Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể được kết hợp).
• Lựa chọn dữ liệu (nơi mà các dữ liệu liên quan đến cơng việc phân tích
được lấy từ cơ sở dữ liệu).
• Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi, hợp nhất thành các
hình thức thích hợp để khai thác bằng cách thực hiện các hoạt động tóm
tắt hoặc tập hợp).
• Khai phá dữ liệu (một q trình cần thiết mà các phương pháp thơng
minh được áp dụng để trích xuất mẫu dữ liệu).
• Đánh giá mẫu (xác định các mơ hình thực sự quan tâm đại diện cho
kiến thức dựa trên một vài đo lường lưu tâm).
• Biểu diễn tri thức (nơi kỹ thuật biểu diễn tri thức và sự hình dung được
sử dụng để trình bày các tri thức được khai thác đến người dùng).
Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu
8
1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU?
1.2.1 Tại sao phải khai phá dữ liệu?
Trong thời đại ngày nay, việc nắm bắt được thơng tin được coi là chìa
khóa của thành cơng. Ai thu thập, phân tích và hiểu được thông tin và hành
động được nhờ vào những thông tin đó là kẻ thắng cuộc. Chính vì vậy, việc
tạo ra thông tin và mức tiêu thụ thông tin ngày nay ngày càng gia tăng. Cùng
với sự phát triển vượt bậc của CNTT và việc ứng dụng CNTT trong nhiều
lĩnh vực khác nhau trong nhiều năm qua cũng đồng hành với lượng dữ liệu
lưu trữ ngày một nhiều lên. Những dữ liệu này thường ẩn chứa những giá trị
nhất định nào đó. Tuy nhiên, Trong thực tế thì chỉ có một ít dữ liệu là được
phân tích (cụ thể là hồ sơ bệnh án trong các bệnh viện), số còn lại họ khơng
biết sẽ phải làm gì, nhưng họ vẫn tiếp tục thu thập rất tốn kém, với ý nghĩ lo
sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến (có thể
chứng minh quan trọng trong tương lai). Tuy nhiên, thực tế đã chứng minh,
dữ liệu (DL) là một thứ gì đó vơ giá chỉ có con người chưa khám phá ra hết
những giá trị của nó. Sau đây là một số chuyên gia nhận định về giá trị DL
lưu trữ như sau:
Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998
“Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu
học, dữ liệu tài chính, và các dữ liệu tiếp thị. Con người khơng có đủ thời
gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn
tài nguyên quý giá.
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân
loại nó, tự động tóm tắt nó, tự động phát hiện và mơ tả các xu hướng trong
nó, và tự động chỉ dẫn các dị thường.
Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng
đồng nghiên cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm
thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh
9
vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những
tiến bộ phi thường trong vài thập kỷ gần đây”.
Kenneth Cukier:
“Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo
nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được:
nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …
Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các
nguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và
tạo ra lợi ích từ quản lý”.
Chính vì vậy, đúng như John Naisbett nhận định, hiện nay chúng ta
đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”.
Lượng DL khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị bởi
thông tin là yếu tố then chốt để phục vụ cho mọi nhu cầu thiết thực trong hoạt
động hàng ngày của chúng ta. Vậy chúng ta làm gì với một khối DL này.
Hình 1.3 thể hiện sự băng khoăn đó.
Hình 1.3. Chúng ta đang giàu dữ liệu nhưng nghèo tri thức [6]
“Necessity is the mother of invention” - Data Mining ra đời như một
hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa
về Data Mining đã được trình bày ở trên. Data Mining được xem như là một
10
công nghệ tri thức, giúp khai thác những thông tin hữu ích từ những kho DL,
được tích trữ trong suốt q trình hoạt động của một cơng ty, tổ chức nào đó.
1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào?
Khai phá dữ liệu được áp dụng trên nhiều loại DL khác nhau. Về nguyên
tắc, KPDL được áp dụng đối với bất kỳ loại DL lưu trữ nào, cũng như các DL
tạm thời[6]. Do đó, phạm vi DL của chúng ta sẽ bao gồm các CSDL quan
hệ(Relational Databases), kho dữ liệu (DataWarehouses), CSDL giao
dịch(Transactional Databases), hệ thống CSDL nâng cao(Advanced Data and
Information Systems), DL dòng (Stream data), World Wide Web …
Hệ thống CSDL nâng cao bao gồm các đối tượng CSDL quan hệ và
CSDL có tính định hướng theo ứng dụng cụ thể, chẳng hạn như CSDL đa
truyền thông, CSDL đa chiều, CSDL chuỗi thời gian, CSDL văn bản... Những
thách thức và kỹ thuật KPDL có thể khác nhau cho mỗi hệ thống lưu trữ.
1.2.3 Ứng dụng của khai phá dữ liệu
KPDL được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực
khác nhau. Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành
địi hỏi kỹ thuật cao như : Tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng
hóc trong các hệ thống sản xuất; Được ứng dụng cho việc quy hoạch và phát
triển các hệ thống quản lý và sản xuất trong thực tế như: Dự đoán tái sử dụng
điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng; Áp dụng cho các vấn
đề xã hội như: Phát hiện tội phạm, tăng cường an ninh, trong y khoa chẩn
đoán bệnh… Một số ứng dụng cụ thể như sau:
- KPDL được sử dụng để phân tích DL, hỗ trợ ra quyết định.
- Trong sinh học: nó dùng để tìm kiếm , so sánh các hệ gen và thông
tin di chuyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số
bệnh di chuyền
- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng
lâm sàng, chẩn đoán bệnh.