Tải bản đầy đủ (.doc) (113 trang)

Áp dụng khai thác tập phổ biến tối đại để phát triển hệ hỗ trợ quyết định chẩn đoán điều trị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.27 MB, 113 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

NGUYỄN VŨ MINH DUY

ÁP DỤNG KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI ĐỂ
PHÁT TRIỂN HỆ HỖ TRỢ QUYẾT ĐỊNH CHẨN
ĐOÁN ĐIỀU TRỊ

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã ngành: 60480201

TP. HỒ CHÍ MINH, tháng 3 năm 2017

i


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

NGUYỄN VŨ MINH DUY

ÁP DỤNG KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI ĐỂ
PHÁT TRIỂN HỆ HỖ TRỢ QUYẾT ĐỊNH CHẨN
ĐOÁN ĐIỀU TRỊ

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã ngành: 60480201


CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS QUẢN THÀNH THƠ
TP. HỒ CHÍ MINH, tháng 3 năm 2017

ii


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học : PGS.TS Quản Thành Thơ

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 23 tháng 4 năm 2017
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
S
C
T
h
T1 T

S.
2V
P
Phản
G
biện
3 S.
T
Phản

S.
biện
L
4T
S.
5L
T

S.
viên,
N nhận
T của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
Xác
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

TS.Vũ Thanh Hiền



TRƯỜNG ĐH CÔNG NGHỆ TP. HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
PHÒNG QLKH – ĐTSĐH

Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 25 tháng 03 năm 2017

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên:

Nguyễn Vũ Minh Duy


tháng, năm sinh: 05/08/1983
ngành:

Công nghê thông tin

Giới tính:

Nơi sinh:
MSHV:

Nam Ngày,

Đồng tháp Chuyên

1441860042

I- Tên đề tài:
Áp dụng khai thác tập phổ biến tối đại để phát triển hệ hỗ trợ quyết định chẩn
đoán điều trị.
II- Nhiệm vụ và nội dung:
Nghiên cứu cách thức sử dụng triệu chứng hỗ trợ cho bác sĩ ra quyết định chẩn
đoán bệnh. Nghiên cứu giải thuật tập phổ biến tối đại trong khai thác dữ liệu. Phát
triển hệ thống hỗ trợ ra quyết định chẩn đoán điều trị dựa trên thuật toán khai thác
tập phổ biến tối đại. Hiện thực hệ thống thành một phân hệ ứng dụng (mô đun) tích
hợp vào phần mềm quản lý khám bệnh, để hỗ trợ ra quyết định chẩn đoán điều trị
trong quá trình khám chữa bệnh của bác sĩ.
III- Ngày giao nhiệm vụ: 23/01/2016
IV- Ngày hoàn thành nhiệm vụ: 30/03/2017
V- Cán bộ hướng dẫn: PGS.TS Quản Thành Thơ

CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

PGS.TS Quản Thành Thơ

KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và sự hướng dẫn
khoa học của PGS.TS. Quản Thành Thơ. Các số liệu, kết quả nêu trong Luận văn là
trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)

Nguyễn Vũ Minh Duy


ii

LỜI CÁM ƠN
Lời đầu tiên, với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn đến các quý
Thầy, Cô giảng viên đặc biệt là PGS.TS Võ Đình Bảy, quý Thầy Cô ở Phòng Quản
Lý Khoa Học- Đào Tạo Sau Đại Học và bạn bè của trường Đại Học Công Nghệ
Hutech đã tận tình truyền đạt cho học viên những kiến thức quý báu trong suốt quá

trình học tập, nghiên cứu và rèn luyện để tôi hoàn thành tốt khóa học.
Tôi xin gửi lời cảm ơn chân thành đến TS. Bs Võ Thành Liêm giảng viên Khoa
Y học gia đình, trường Đại học y Phạm Ngọc Thạch và nhiều bác sĩ đồng nghiệp Y
khoa đã hướng dẫn tôi thêm kiến thức về chuyên ngành y trong việc chẩn đoán
khám chữa bệnh để hoàn thành kết quả nghiên cứu. Tôi xin chân thành cảm ơn Ông
Nguyễn Duy Nam Tổng Giám đốc Công ty Tin học PowerSoft (PowerSoft.vn) đã tạo
điều kiện và cho phép tôi tích hợp phân hệ ứng dụng vào phần mềm quản lý phòng
khám của công ty để đưa vào áp dụng thực tiễn.
Bên cạnh đó, tôi rất chân thành cảm ơn PGS.TS. Quản Thành Thơ người Thầy
đã đã tận tâm truyền đạt kiến thức, dành nhiều thời gian giảng dạy hướng dẫn tôi
trong quá trình nghiên cứu chuyên môn để hoàn thành Luận văn mình một cách tốt
nhất.
Cuối cùng, tôi xin gửi đến bạn bè, đồng nghiệp đã tạo điều kiện thuận lợi về
mọi mặt trong quá trình học tập và nghiên cứu của mình, sự thành công của Luận
văn tôi không thể không nhắc đến những người thân trong gia đình luôn luôn chia sẽ,
động viên, giúp tôi có động lực vượt qua những thời điểm khó khăn nhất.
TP. Hồ Chí Minh, ngày 30 tháng 03 năm
2017 (Họ và tên của tác giả Luận
văn)

Nguyễn Vũ Minh Duy


3

TÓM TẮT
Trong những vấn đề về khai thác dữ liệu hiện đang được nhiều nhà khoa học
quan tâm là tìm kiếm tập phổ biến, nhưng đối với nhiều loại cơ sở dữ liệu đặc thù có
ngưỡng phổ biến (minsupp) quá thấp thì có mật độ tập phổ biến quá nhiều hoặc
ngược lại ngưỡng phổ biến quá cao thì tập phổ biến quá ít hoặc gần như không có,

nên có rất nhiều phương pháp phân tích xem xét vấn đề trên, từ đó các thuật toán tìm
tập phổ biến tối đại đã được đề xuất. Hiện nay với nguồn dữ liệu triệu chứng bệnh có
mối quan hệ với bệnh lý của bệnh nhân càng phát triển lớn và nhanh,vì hàng năm
các bệnh viện phải tổ chức lưu trữ nguồn dữ liệu càng phát triển do số lượng bệnh
nhân càng đông hơn. Từ đó với nguồn cơ sở dữ liệu lớn như vậy có nhiều chiến
lược, phương pháp để xây dựng hệ hỗ trợ quyết định trong lịnh vực y tế. Vấn đề tìm
ra các triệu chứng bệnh phổ biến nhất liên quan đến nhiều mặt bệnh nhằm hỗ trợ bác
sĩ đưa ra quyết định chẩn đoán bệnh tốt hơn cho bệnh nhân, từ đó học viên đề xuất
áp dụng thuật toán tìm ra tập phổ biến tối đại vào bài toán đề tài. Học viên áp dụng
thuật toán MAFIA để áp dụng vào mục tiêu đề tài với kỹ thuật sắp xếp tăng dần theo
độ hỗ trợ (Dynamic Recording) và nhiều chiến lược tỉa nhánh như PEP,
FHUT,HUTMFI nhằm mục đích tìm ra tập phổ biến tối đại triệu chứng bệnh để áp
dụng vào hệ hỗ trợ ra quyết định chẩn đoán điều trị cung cấp cho bác sĩ ra quyết
định điều trị cho người bệnh.


4

ABSTRACT
Looking for frequent itemsets is currently interested by too many scientists, In
the issue of data mining is currently interested many scientists are seeking frequent
itemstes, but for many type-specific database with common threshold (minsupp) is
too low, the set density too much popular or vice versa common threshold set too
high, too little common or almost no, so there are many methods of analysis to
consider the issue, from which the search algorithm of maximal common practice
has proposed. Currently the data sources symptoms have a relationship with the
patient's pathology grow big and fast, because every year the hospital to organize
archive data sources grows as the number of patients from east than. From there to
the source database so big there are strategies and methods to build decision support
systems in the medical field. Problem finding out the most common symptoms

related to the disease to support many doctors make decisions to better diagnose
patients, from which students apply the algorithm proposed finding common
practice maximal in math topic. Students apply MAFIA algorithm to apply to the
target with the technical topics sorted in ascending order of magnitude supports
(Dynamic Recording) and pruning strategies such as PEP, FHUT, HUTMFI aims to
find common practice maximal symptoms for application in a decision support
system diagnosis and treatment give doctors treatment decisions for patients.


5

MỤC LỤC
DANH MỤC CÁC BẢNG ............................................................................................................... xi
MỞ ĐẦU ............................................................................................................................................ 1
1. Lý do chọn đề tài ....................................................................................................................... 1
2. Nội dung nghiên cứu ................................................................................................................. 3
3. Mục tiêu nghiên cứu .................................................................................................................. 3
4. Đối tượng nghiên cứu ................................................................................................................ 4
5. Phạm vi nghiên cứu ................................................................................................................... 4
6. Phương pháp nghiên cứu ........................................................................................................... 4
7. Cấu trúc luận văn ....................................................................................................................... 5
Chương 01: GIỚI THIỆU TỔNG QUAN............................................................................................
6
1.1 Các khái niệm và định nghĩa ................................................................................................... 6
1.2 Tổng quan khai thác tập phổ biến và luật kết hợp ................................................................. 10
1.3 Hệ chuyên gia trong lĩnh vực y tế .......................................................................................... 14
1.4 Kết luận chương 01................................................................................................................ 17
Chương 02: KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI .................................................................... 18
2.1 Tổng quát khai thác tập phổ biến tối đại................................................................................ 18
2.2 Thuật toán tìm kiếm theo chiều rộng Apriori. ....................................................................... 19

2.3 Thuật toán tìm kiếm theo chiều rộng Max-Miner.................................................................. 24
2.4 Thuật toán tìm kiếm theo chiều sâu GENMAX .................................................................... 27
2.5 Thuật toán tìm kiếm theo chiều sâu FPMAX ........................................................................ 31
2.6 Thuật toán tìm kiếm theo chiều sâu MAFIA ......................................................................... 36
2.7 Thuật toán mở rộng xMAFIA (Extention MAFIA):.............................................................. 51
2.8 Kết luận chương 02................................................................................................................ 55
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ..............................................................................
59
3.1 Môi trường thực nghiệm thuật toán ....................................................................................... 59
3.2 Kết quả thực nghiệm các giải thuật trên CSDL ..................................................................... 62
3.3 Mô đun hệ hỗ trợ ra quyết định chẩn đoán bệnh và CSDL ................................................... 65
3.3.1 Qui trình khám chữa bệnh cho bệnh nhân đến khám bệnh:................................................ 65
3.3.2 Mô đun độc lập hỗ trợ ra quyết định chẩn đoán bệnh: ....................................................... 70
3.3.3 Tích hợp mô đun hỗ trợ ra quyết định chẩn đoán bệnh vào phần mềm quản lý phòng khám:
..................................................................................................................................................... 77
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .........................................................................................
81


6

1 Kết luận..................................................................................................................................... 81
2 Nhận xét ưu điểm và hạn chế.................................................................................................... 82
TÀI LIỆU THAM KHẢO ................................................................................................................. 84


vii

DANH MỤC CÁC TỪ VIẾT TẮT
K

N
ý Nghĩa
ti g
hC A hĩ

S
sở

sở
Data
C
base
ơ
Giao
dịch
It TheTậ
e of itp
KnK
K owl
h
D edg
á
D
e
M mNg
i
ư
Độ
tin
M MinNg

i m ư


8

DANH MỤC CÁC HÌNH VÀ ĐỒ THỊ
hình 1.1 vị trí của kpdl ................................................................................................7
hình 1.2 kiến trúc của hệ thống kpdl ..........................................................................8
hình 1.3 dữ liệu triệu chứng được trích từ phác đồ điều trị và nguồn csdl khám bệnh
............................................................................................................................15
hình 1.4 dữ liệu triệu chứng và bệnh được mô hình lên dàn ....................................15
hình 2.1 mô hình các loại tập phổ biến .....................................................................18
hình 2.2 hình các bước chạy thuật toán apriori ........................................................21
hình 2.3 tìm kiếm trên cây của max-miner ...............................................................25
hình 2.4 các bước chạy thuật toán max-miner..........................................................25
hình 2.5 các bước chạy thuật toán genmax...............................................................28
hình 2.6 biểu diễn csdl dạng bitmap và biểu diễn trên dàn của fp-max ...................32
hình 2.7 tập csdl được biểu diễn theo fp- tree ..........................................................32
hình 2.8 hình minh họa việc xây dựng các mfi-tree cho các ví dụ về csdl ...............35
hình 2.9 hình minh họa giàn tập mục (the itemset lattice) ........................................37
hình 2.10 hình minh họa dàn thể hiện các tập phổ biến............................................37
hình 2.11 hình biểu diễn cách thức phối hợp các thuật toán của mafia [12] ............42
hình 2.12 hình biểu diễn sự tác động của chiến lược rẻ nhánh khi có dùng
reordering và không dùng reordering [12].........................................................43
hình 2.13 hình biểu diễn csdl dưới dạng bitmap theo chiều dọc ..............................44
hình

2.14

hình


biểu

..............................................46

diễn

các

bước

chạy

giải

thuật

dsf


9

hình

2.15

hình

biểu


diễn

các

bước

chạy

giải

thuật

pep

.............................................47 hình 2.16 hình biểu diễn các bước chạy giải thuật
fhut ............................................48 hình 2.17 hình biểu diễn các bước chạy giải thuật
hutmfi ........................................49 hình 2.18 hình biểu diễn các bước chạy giải thuật
mafia..........................................50 hình 2.19 hình nhận xét bước chạy giả thuật
mafia theo csdl bảng 2.5 ....................52 hình 2.20 hình nhận xét bước chạy giải
thuật xdfs ...................................................54
hình 2.21 hình các so sánh giải thuật khai thác tập mfi của tác giả g¨osta grahne và
jianfei zhu [10]
...................................................................................................57
hình 2.22 hình các so sánh phân loại theo csdl của các giải thuật do tác giả g¨osta
grahne và jianfei zhu thực hiện [10] ..................................................................57
hình 3.1 hình ví dụ cấu trúc csdl được tạo ra từ công cụ [16] [17]
...........................59 hình 3.2 hình kết quả thực nghiệm trên tập csdl bảng 2.5
minsupp 0.25 .................61 hình 3.4 hình kết quả chạy các giải thuật các csdl ở bảng
3.1 ..................................64 hình 3.5 hình ví dụ mô hình khám bệnh tại một bệnh
viện hoặc phòng khám .........65 hình 3.6 hình chụp mô tả csdl triệu chứng liên quan

mặt bệnh ................................68
hình 3.7 hình chụp mô tả csdl các giao dịch bác sĩ khi khám bệnh cho bệnh nhân có
các ghi nhận triệu chứng khi khám bệnh đã được mã hoá.................................69
hình 3.8 hình mô tả mô hình xử lý csdl bệnh và triệu chứng....................................71
hình 3.9 hình mô tả thao tác thực hiện trên giao diện website..................................72
hình 3.10 hình kết quả chạy cho ra các bộ mfi từng bệnh của 10 bộ csdl giao dịch
bệnh....................................................................................................................76


10

hình 3.11 hình mô tả mô hình hoạt động hệ hỗ trợ ra quyết định chẩn đoán bệnh tích
hợp phần mềm khám bệnh
.................................................................................78
hình 3.12 hình mô tả các chức năng cơ bản của phần mềm quản lý khám bệnh
powersoft tích hợp mô đun hỗ trợ quyết định chẩn đoán điều trị......................79
hình 3.13 hình mô tả mô đun hỗ trợ quyết định chẩn đoán điều trị ..........................80


11

DANH MỤC CÁC BẢNG
Bảng 2.1 CSDL giao dịch ví dụ thuật toán Apriori ..................................................................... 20
Bảng 2.2 CSDL giao dịch biểu diễn dạng nhị phân ví dụ thuật toán Apriori .............................. 21
Bảng 2.3 CSDL giao dịch ví dụ cho thuật toán GENMAX......................................................... 27
Bảng 2.4 CSDL giao dịch theo chiều dọc của thuật toán GENMAX .......................................... 30
Bảng 2.4 Bảng tính tập {i}-mẫu điều kiện với từng item phổ biến i ........................................... 34
Bảng 2.5 ví dụ một cơ sở dữ liệu Giao dịch id với các tập mục .................................................. 36
Bảng 3.1 mô tả CSDL chạy thực nghiệm .................................................................................... 60
Hình 3.3 Hình kết quả thời gian chạy các giải thuật CSDL07 với minsupp 0.7.......................... 61

Bảng 3.2 mô tả CSDL bệnh thu thập được từ phần mềm khám chữa bệnh để chạy thực nghiệm
mô đun hệ hỗ trợ ra quyết định khám bệnh. ................................................................................ 70


1

MỞ ĐẦU
1. Lý do chọn đề tài
Với sự phát triển vượt bậc và khả năng ứng dụng công nghệ thông tin đã đem
lại nhiều hiệu quả, trong đó lĩnh vực khai thác dữ liệu mang lại hiệu quả thiết thực
trong nhiều ngành nghề. Khai thác dữ liệu đã giúp người sử dụng thu được những tri
thức hữu ích từ những cơ sở dữ liệu, các kho dữ liệu khổng lồ, hoặc những công cụ
hỗ trợ được tạo ra cho người sử dụng ra quyết định từ nguồn dữ liệu được các
chuyên gia chuyên ngành xử lý.
Các cơ sở dữ liệu trong các đơn vị, các ngành kinh doanh, trong các lĩnh vực
chứa đựng nhiều thông tin giá trị, phong phú và đa dạng, từ đó cần phải có những
phương pháp nhanh, phù hợp, chính xác, hiệu quả để khai thác được những thông tin
bổ ích. Những “tri thức” trích xuất từ nguồn cơ sở dữ liệu trên sẽ là nguồn thông tin
hỗ trợ cho lãnh đạo, người ra quyết định trong việc lên kế hoạch hoạt động hoặc
trong việc ra chương trình sản xuất kinh doanh. Hoặc trong lĩnh vực cơ sở dữ liệu y
tế, sự kết hợp có ý nghĩa của các triệu chứng bệnh có thể cung cấp các thông tin hữu
ích cho các bác sĩ chẩn đoán để quyết định hướng điều trị sức khoẻ cho bệnh nhân.
Trong những vấn đề về khai thác dữ liệu hiện đang được nhiều quan tâm của
các nhà nghiên cứu là phát hiện tập phổ biến, nhưng đối với nhiều loại cơ sở dữ liệu
có ngưỡng phổ biến do người dùng xác định quá thấp thì có mật độ tập phổ biến quá
nhiều hoặc ngược lại ngưỡng phổ biến quá cao thì tập phổ biến quá ít hoặc không có
nên rất khó để phân tích xem xét, việc khám phá tập phổ biến tốt nhất, tập phổ biến
tối đại là vấn đề cần quan tâm.
Ngày nay, nhiều đơn vị y tế đã và đang ứng dụng công nghệ thông tin vào
công tác hỗ trợ chuyên môn, công tác quản lý bệnh viện, quản lý phòng khám ngày

càng phát triển kể cả trong nước và ngoài nước. Việc tận dùng tri thức từ CSDL
khám bệnh và nguồn tri thức chuyên môn có sự đánh giá và kiểm duyệt của các
chuyên gia y tế để các bác sĩ có thể đưa ra quyết định chẩn đoán điều trị cho bệnh
nhân đang là nhu


2

cầu của đơn vị y tế và cũng là bài toán của các nhà khoa học.
Nhiều nhà nghiên cứu đã phân tích dữ liệu y tế bằng cách sử dụng phương
pháp, kỹ thuật, công cụ khai thác dữ liệu cho việc tìm kiếm các tập phổ biến, tập
luật, các tập nguyên tắc quyết định. Tuy nhiên, những số lượng tập phổ biến, tập
luật sinh ra thường là lớn, các tập luật này chỉ dẫn ra quyết định trong những điều
kiện cụ thể của các tập dữ liệu mô tả, mà không chỉ ra mối quan hệ giữa các tập (các
khái niệm, thuộc tính đã chọn) và tầm quan trọng của các tập đã chọn trong việc suy
dẫn quyết định.
Trong khi quá trình bác sĩ chẩn đoán điều trị bệnh có độ phức tạp ở mức độ
khác nhau, mỗi bác sĩ cố gắng tiếp cận các khía cạnh khác nhau của thuộc tính sức
khoẻ trên từng bệnh nhân như: tầm quan trọng tương đối của các triệu chứng, biểu
hiện, dữ kiện sức khoẻ và mối quan hệ giữa các bệnh của bệnh nhân có biểu hiện, từ
đó bác sĩ có thể căn cứ các khía cạnh trên để đưa ra các quyết định điều trị.
Vì vậy việc khai thác các tính chất triệu chứng phù hợp, để khám phá mối quan
hệ giữa các triệu chứng của bệnh, các đặc điểm quan trọng nhất ảnh hưởng đến việc
ra quyết định, từ đó bác sĩ đề xuất hướng điều trị tốt hơn, có hiệu quả hơn. Do vậy,
cần phân tích tầm quan trọng từ nguồn tri thức của các chuyên gia y tế, nguồn tri
thức trích rà từ CSDL hỏi khám bệnh thực tế, việc nghiên cứu và áp dụng lĩnh vực
khai thác dữ liệu, khai thác tập phổ biến tối đại vào CSDL y tế cụ thể là bộ dữ liệu
các triệu chứng chẩn đoán bệnh, để tìm ra các triệu chứng phù hợp nhất để cung cấp
thông tin cho bác sĩ quyết định đang thực sự cần thiết hỗ trợ thêm cho sự ra quyết
định quả bác sĩ.

Hệ thống hệ hỗ trợ ra quyết định chẩn đoán gồm nhiều mô đun và nhiều giai
đoạn để thực hiện, tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp.
Nhưng cốt lõi hơn hết là việc xử lý dữ liệu hiệu quả. Vì vậy, tác giả ưu tiên tập trung
nghiên cứu các thuật toán tìm các triệu chứng có số lượng phổ biến tối đại từ CSDL
triệu chứng liên quan bệnh thu thập được từ đó bác sĩ sẽ được gợi ý các tìm ra tập
triệu chứng bệnh có liên quan nhiều mặt bệnh nhất, hỗ trợ khai thác bệnh chứng từ
bệnh nhân từ đó đưa ra những câu hỏi bệnh liên quan đến bệnh có thể xảy ra nhằm
mục


3

tiêu đưa ra chẩn đoán phù hợp để điều trị cho bệnh nhân.
2. Nội dung nghiên cứu
Nghiên cứu các thuật toán cơ bản về khai thác tập phổ biến tối đại trên cờ sở dữ
liệu giao dịch.
Xây dựng mô đun hệ thống hỗ trợ ra quyết định chẩn đoán điều trị dựa trên
CSDL triệu chứng liên quan bệnh, với cơ chế đưa ra các triệu chứng bệnh có liên
quan nhiều bệnh nhất để hỗ trợ bác sĩ có thể làm căn cứ ưu tiên để hỏi thăm bệnh các
triệu chứng liên quan bệnh, tránh hỏi quá nhiều câu hỏi triệu chứng làm giảm và ảnh
hưởng khả năng xác định triệu chứng liên quan bệnh.
Về mặt thực tiễn: ứng dụng xử lý tri thức từ phác đồ điều trị, cơ sở dữ liệu
triệu chứng liên quan bệnh và cung cấp các gợi ý để bác sĩ làm căn cứ ra quyết định
chẩn đoán điều trị cho bệnh nhân mang lại nhiều lợi ích cho bác sĩ, và là kết quả hữu
ích cho các sinh viên y khoa tham khảo thực tập.
3. Mục tiêu nghiên cứu
Mục tiêu tổng quát: Khảo sát các phương pháp và phân tích thuật toán.
Đánh giá thực nghiệm một số thuật toán khai thác tập phổ biến tối đại và đề xuất
thuật toán áp dụng phù hợp
Mục tiêu cụ thể: Đưa ra các bước thực nghiệm cần thiết để đánh giá khách

quan ưu điểm và khuyết điểm của các thuật toán tìm tập phổ biến tối đại. Đánh giá
thuật toán khai thác cải tiến. So sánh hiệu quả thuật toán của tác giả. Kiểm tra tính
đúng đắn của mã nguồn các thuật toán khai thác tập phổ biến tối đại so với mã giả
của các thuật toán đưa ra trong các bài báo. Qua đó, đảm bảo môi trường thực
nghiệm là hoàn toàn đáng tin cậy để so sánh và đánh giá với các kết quả sau này.
Phát triển mô đun hệ thống hỗ trợ ra quyết định chẩn đoán điều trị dựa trên
thuật toán khai thác tập phổ biến tối đại đã lựa chọn.
Hiện thực hệ thống thành hệ hỗ trợ ra quyết định chẩn đoán điều trị trong ứng


4

dụng quản lý khám chữa bệnh.
4. Đối tượng nghiên cứu
Thuật toán về khai thác tập phổ biến tối đại như: Apriori, Max-Miner,
GENMAX, FPMAX, MAFIA.
Dữ liệu mẫu thực nghiệm thuật toán như: />Dữ liệu triệu chứng: từ kho phác đồ điều trị Sở y tế TP.HCM
được công khai user: dulieupddt, password: 59ntmk , cơ
sở dữ liệu triệu chứng liên quan bệnh , Danh mục triệu
chứng ICPC2 quốc tế đã được Việt hoá từ Hội bác sĩ gia đình Việt Nam, dữ liệu
mẫu khám bệnh thực tế của các bệnh từ phần mềm.
Nghiên cứu ngôn ngữ C# tích hợp mô đun vào phần mềm quản lý khám
bệnh, ngôn ngữ Java thực nghiệm thuật toán.
5. Phạm vi nghiên cứu
Có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu
các thuật toán khai thác tập phổ biến tối đại trên dữ liệu không có biến động, dữ liệu
nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn và dữ liệu y tế, việc đánh
giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán. Việc xử lý dữ
liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán). Dữ liệu thực nghiệm
được lấy từ nguồn đáng tin cậy.

6. Phương pháp nghiên cứu
Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.


5

toán.

Tìm hiểu các thuật toán hiện có để đánh giá các ưu, nhược điểm của từng
thuật
Nghiêm cứu thuật toán phù hợp với mô hình ứng dụng phương pháp khắc


phục nhược điểm của thuật toán cũ
7. Cấu trúc luận văn
Luận văn gồm có phần mở đầu, kết luận và 03 chương, cụ thể như sau:
Chương 1: Giới thiệu tổng quan
Nghiên cứu, trình bày lý thuyết về khai thác dữ liệu,về luật kết hợp, trình bày
hướng tiếp cận bài toán của đề tài.
Chương 2: Giới thiệu các thuật toán khai thác tập phổ biến tối đại
Trình bày một số thuật toán cơ bản về khai thác tập phổ biến tối đại như: Apriori,
Max-Miner, GENMAX, FPMAX, MAFIA để đánh giá các thuật toán.
Đề xuất cách tiếp cận giải quyết bài toán dự trên thuật toán MAFIA có hiệu
chỉnh.
Chương 3: Cài đặt chương trình, thực nghiệm
Tiến hành chạy thử nghiệm bộ dữ liệu thực nghiệm. Từ đó hiển thị trực quan trên
biểu đồ kết quả thực nghiệm.
Tiến hành xây dựng bộ dữ liệu triệu chứng bệnh từ nguồn dữ liệu nêu trên, thử
nghiệm sử dụng công cụ cài đặt thuật toán xMAFIA có cải tiến.
Tiến hành xây dựng bộ chức năng hỗ trợ ra quyết định chẩn đoán bệnh từ nguồn

cơ sở dữ liệu triệu chứng cài đặt vào phần mềm quản lý phòng khám.


Chương 1: GIỚI THIỆU TỔNG QUAN
1.1 Các khái niệm và định nghĩa
Sự phát triển vượt bậc về ứng dụng công nghệ thông tin vào đời sống, các
doanh nghiệp, tổ chức đã sử dụng công nghệ thông tin vào công tác quản lý, điều
hành hoạt động nên khối lượng thông tin đã tăng trưởng khổng lồ. Từ các thập kỷ
gần đây các nhà nghiên cứu đã phát triển các công cụ, kỹ thuật, phần mềm mới để
hỗ trợ các tiến trình khám phá, phân tích tổng hợp các thông tin từ nguồn dữ liệu,
để tìm ra các thông tin về mặt thống kê, các thông tin về quy luật, thông tin tiềm ẩn
bên trong dữ liệu, thông tin có thể là cốt lỗi cần thiết có quá trình ra quyết định của
nhà quản lý hay nhà ra quyết định.
Khai phá dữ liệu (KPDL) [1] là một tiến trình khám phá tri thức tiềm ẩn trong
cơ sở dữ liệu (CSDL), là hàng loạt các tiến trình trích lọc, sản sinh những tri thức
hoặc những mẫu dữ liệu tìm ẩn có khả năng hữu ích từ các CSDL lớn hay đặc thù.
KPDL là tiến trình khái quát các sự kiện rời rạc trong CSDL thành các tri thức
mang tính rõ ràng hay khái quát hơn, có tính quy luật hỗ trợ hữu ích cho tiến trình
ra quyết định.
Có thể tạm chia KPDL thành 02 dạng chính:
KPDL theo hướng kiểm tra: là dạng người dùng đề xuất các giả định, hệ thống
kiểm tra tính đúng đắn của các giả định (như: truy vấn thông tin, báo cáo, phân tích
thống kê,...).
KPDL theo hướng khám phá: là dạng tìm kiếm, khám phá các tri thức tiềm ẩn
trong CSDL bằng cách xem xét các giả thiết có khả năng xảy ra phù hợp, hoặc do
không gian tìm kiếm quá lớn, nên nhiều heuristic đã được đề xuất nhằm nâng cao
hiệu năng của các giải thuật tìm kiếm trong dữ liệu.
Ngày nay nhu cầu trở nên cấp thiết hơn khi các nhà ra quyết định không bằng
lòng với dữ liệu đơn giản thu được từ các kỹ thuật trước đây, do đó từ các sự kiện



rời rạc trong lĩnh vực ứng dụng, phát sinh nhu cầu nắm bắt tri thức, các mối quan hệ
giữa chúng, xa hơn nữa là tìm ra các quy luật trong lĩnh vực chuyên sâu. KPDL ra
đời nhằm đáp ứng nhu cấu cấp thiết trên.

Hình 1.1 Vị trí của KPDL
Các kỹ thuật KPDL hiện nay được khái quát một số cách tiếp cận chính như:
o Khai thác tập phổ biến và luật kết hợp.
o Khai thác mẫu tuần tự/ theo thời gian.
o Phân lớp dữ liệu và dự báo.
o Khai thác cụm.
o Mô tả khái niệm....
Kiến trúc của hệ thống KPDL có thể có các thành phần chính sau:


Hình 1.2 Kiến trúc của hệ thống KPDL
KPDL là một xu hướng nghiên cứu gần như phổ biến hiện nay, thu hút nhà
nghiên cứu bởi vì các ứng dụng thực tế của nó trong nhiều lĩnh vực. Sau đây là một
số ứng dụng tiêu biểu:
Phân tích dữ liệu và hỗ trợ ra quyết định: Ứng dụng này là phổ biến trong
thương mại, tài chính và thị trường chứng khoán, …
Y tế: Tìm kiếm sự liên quan tiềm năng giữa các triệu chứng, chẩn đoán, và
phương pháp điều trị (dinh dưỡng, toa thuốc, bác sĩ phẫu thuật, …) hỗ trợ cho
bác sĩ ra quyết định hướng điều trị cho Bệnh nhân của mình.
Khai phá text và web: Tóm tắt tài liệu, khôi phục văn bản và tìm kiếm văn
bản, phân lớp văn bản và siêu văn bản.
Tin sinh học: Tìm kiếm và so sánh thông tin di truyền điển hình hoặc đặc biệt
như bộ gen và DNA, các mối quan hệ ngầm giữa một số gen và một số bệnh di
truyền, ….



×