Áp dụng khai thác tập phổ biến tối đại để phát triển hệ hỗ trợ quyết định chẩn đoán điều trị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.39 MB, 100 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

NGUYỄN VŨ MINH DUY

ÁP DỤNG KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI ĐỂ
PHÁT TRIỂN HỆ HỖ TRỢ QUYẾT ĐỊNH CHẨN
ĐOÁN ĐIỀU TRỊ

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã ngành: 60480201

TP. HỒ CHÍ MINH, tháng 3 năm 2017

i

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

NGUYỄN VŨ MINH DUY

ÁP DỤNG KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI ĐỂ
PHÁT TRIỂN HỆ HỖ TRỢ QUYẾT ĐỊNH CHẨN
ĐOÁN ĐIỀU TRỊ

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã ngành: 60480201

CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS QUẢN THÀNH THƠ
TP. HỒ CHÍ MINH, tháng 3 năm 2017

ii

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học : PGS.TS Quản Thành Thơ

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 23 tháng 4 năm 2017
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
STT

Họ và tên

Chức danh Hội đồng

1

TS.Vũ Thanh Hiền

Chủ tịch

2

PGS.TS. Võ Đình Bảy

Phản biện 1

3

TS. Lên Văn Quốc Anh

Phản biện 2

4

TS. Lê Thị Ngọc Thơ

5

TS. Nguyễn Thị Thúy Loan

Ủy viên
Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

TS.Vũ Thanh Hiền

TRƯỜNG ĐH CÔNG NGHỆ TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

PHÒNG QLKH – ĐTSĐH

Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 25 tháng 03 năm 2017

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên:

Nguyễn Vũ Minh Duy

Giới tính:

Nam

Ngày, tháng, năm sinh: 05/08/1983

Nơi sinh:

Đồng tháp

Chuyên ngành:

MSHV:

1441860042

Công nghê thông tin

I- Tên đề tài:

Áp dụng khai thác tập phổ biến tối đại để phát triển hệ hỗ trợ quyết định chẩn
đoán điều trị.
II- Nhiệm vụ và nội dung:
Nghiên cứu cách thức sử dụng triệu chứng hỗ trợ cho bác sĩ ra quyết định chẩn
đoán bệnh. Nghiên cứu giải thuật tập phổ biến tối đại trong khai thác dữ liệu. Phát
triển hệ thống hỗ trợ ra quyết định chẩn đoán điều trị dựa trên thuật toán khai thác tập
phổ biến tối đại. Hiện thực hệ thống thành một phân hệ ứng dụng (mô đun) tích hợp
vào phần mềm quản lý khám bệnh, để hỗ trợ ra quyết định chẩn đoán điều trị trong
quá trình khám chữa bệnh của bác sĩ.
III- Ngày giao nhiệm vụ: 23/01/2016
IV- Ngày hoàn thành nhiệm vụ: 30/03/2017
V- Cán bộ hướng dẫn: PGS.TS Quản Thành Thơ
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

PGS.TS Quản Thành Thơ

KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)

i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và sự hướng dẫn
khoa học của PGS.TS. Quản Thành Thơ. Các số liệu, kết quả nêu trong Luận văn là
trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện Luận văn

(Ký và ghi rõ họ tên)

Nguyễn Vũ Minh Duy

ii

LỜI CÁM ƠN
Lời đầu tiên, với lòng biết ơn sâu sắc, tôi xin chân thành cảm ơn đến các quý Thầy,
Cô giảng viên đặc biệt là PGS.TS Võ Đình Bảy, quý Thầy Cô ở Phòng Quản Lý Khoa
Học- Đào Tạo Sau Đại Học và bạn bè của trường Đại Học Công Nghệ Hutech đã tận
tình truyền đạt cho học viên những kiến thức quý báu trong suốt quá trình học tập, nghiên
cứu và rèn luyện để tôi hoàn thành tốt khóa học.
Tôi xin gửi lời cảm ơn chân thành đến TS. Bs Võ Thành Liêm giảng viên Khoa Y
học gia đình, trường Đại học y Phạm Ngọc Thạch và nhiều bác sĩ đồng nghiệp Y khoa
đã hướng dẫn tôi thêm kiến thức về chuyên ngành y trong việc chẩn đoán khám chữa
bệnh để hoàn thành kết quả nghiên cứu. Tôi xin chân thành cảm ơn Ông Nguyễn Duy
Nam Tổng Giám đốc Công ty Tin học PowerSoft (PowerSoft.vn) đã tạo điều kiện và cho
phép tôi tích hợp phân hệ ứng dụng vào phần mềm quản lý phòng khám của công ty
để đưa vào áp dụng thực tiễn.
Bên cạnh đó, tôi rất chân thành cảm ơn PGS.TS. Quản Thành Thơ người Thầy đã
đã tận tâm truyền đạt kiến thức, dành nhiều thời gian giảng dạy hướng dẫn tôi trong quá
trình nghiên cứu chuyên môn để hoàn thành Luận văn mình một cách tốt nhất.
Cuối cùng, tôi xin gửi đến bạn bè, đồng nghiệp đã tạo điều kiện thuận lợi về mọi
mặt trong quá trình học tập và nghiên cứu của mình, sự thành công của Luận văn tôi
không thể không nhắc đến những người thân trong gia đình luôn luôn chia sẽ, động viên,
giúp tôi có động lực vượt qua những thời điểm khó khăn nhất.
TP. Hồ Chí Minh, ngày 30 tháng 03 năm 2017
(Họ và tên của tác giả Luận văn)

Nguyễn Vũ Minh Duy

iii

TÓM TẮT
Trong những vấn đề về khai thác dữ liệu hiện đang được nhiều nhà khoa học quan
tâm là tìm kiếm tập phổ biến, nhưng đối với nhiều loại cơ sở dữ liệu đặc thù có ngưỡng
phổ biến (minsupp) quá thấp thì có mật độ tập phổ biến quá nhiều hoặc ngược lại ngưỡng
phổ biến quá cao thì tập phổ biến quá ít hoặc gần như không có, nên có rất nhiều phương
pháp phân tích xem xét vấn đề trên, từ đó các thuật toán tìm tập phổ biến tối đại đã được
đề xuất. Hiện nay với nguồn dữ liệu triệu chứng bệnh có mối quan hệ với bệnh lý của
bệnh nhân càng phát triển lớn và nhanh,vì hàng năm các bệnh viện phải tổ chức lưu trữ
nguồn dữ liệu càng phát triển do số lượng bệnh nhân càng đông hơn. Từ đó với nguồn
cơ sở dữ liệu lớn như vậy có nhiều chiến lược, phương pháp để xây dựng hệ hỗ trợ quyết
định trong lịnh vực y tế. Vấn đề tìm ra các triệu chứng bệnh phổ biến nhất liên quan đến
nhiều mặt bệnh nhằm hỗ trợ bác sĩ đưa ra quyết định chẩn đoán bệnh tốt hơn cho bệnh
nhân, từ đó học viên đề xuất áp dụng thuật toán tìm ra tập phổ biến tối đại vào bài toán
đề tài. Học viên áp dụng thuật toán MAFIA để áp dụng vào mục tiêu đề tài với kỹ thuật
sắp xếp tăng dần theo độ hỗ trợ (Dynamic Recording) và nhiều chiến lược tỉa nhánh như
PEP, FHUT,HUTMFI nhằm mục đích tìm ra tập phổ biến tối đại triệu chứng bệnh để áp
dụng vào hệ hỗ trợ ra quyết định chẩn đoán điều trị cung cấp cho bác sĩ ra quyết định
điều trị cho người bệnh.

iv

ABSTRACT
Looking for frequent itemsets is currently interested by too many scientists, In
the issue of data mining is currently interested many scientists are seeking frequent

itemstes, but for many type-specific database with common threshold (minsupp) is
too low, the set density too much popular or vice versa common threshold set too
high, too little common or almost no, so there are many methods of analysis to
consider the issue, from which the search algorithm of maximal common practice has
proposed. Currently the data sources symptoms have a relationship with the patient's
pathology grow big and fast, because every year the hospital to organize archive data
sources grows as the number of patients from east than. From there to the source
database so big there are strategies and methods to build decision support systems in
the medical field. Problem finding out the most common symptoms related to the
disease to support many doctors make decisions to better diagnose patients, from
which students apply the algorithm proposed finding common practice maximal in
math topic. Students apply MAFIA algorithm to apply to the target with the technical
topics sorted in ascending order of magnitude supports (Dynamic Recording) and
pruning strategies such as PEP, FHUT, HUTMFI aims to find common practice
maximal symptoms for application in a decision support system diagnosis and
treatment give doctors treatment decisions for patients.

v

MỤC LỤC
DANH MỤC CÁC BẢNG ............................................................................................................... xi
MỞ ĐẦU ............................................................................................................................................ 1
1. Lý do chọn đề tài ....................................................................................................................... 1
2. Nội dung nghiên cứu ................................................................................................................. 3
3. Mục tiêu nghiên cứu .................................................................................................................. 3
4. Đối tượng nghiên cứu ................................................................................................................ 4
5. Phạm vi nghiên cứu ................................................................................................................... 4
6. Phương pháp nghiên cứu ........................................................................................................... 4
7. Cấu trúc luận văn ....................................................................................................................... 5

Chương 01: GIỚI THIỆU TỔNG QUAN ............................................................................................ 6
1.1 Các khái niệm và định nghĩa ................................................................................................... 6
1.2 Tổng quan khai thác tập phổ biến và luật kết hợp ................................................................. 10
1.3 Hệ chuyên gia trong lĩnh vực y tế .......................................................................................... 14
1.4 Kết luận chương 01................................................................................................................ 17
Chương 02: KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI .................................................................... 18
2.1 Tổng quát khai thác tập phổ biến tối đại................................................................................ 18
2.2 Thuật toán tìm kiếm theo chiều rộng Apriori. ....................................................................... 19
2.3 Thuật toán tìm kiếm theo chiều rộng Max-Miner.................................................................. 24
2.4 Thuật toán tìm kiếm theo chiều sâu GENMAX .................................................................... 27
2.5 Thuật toán tìm kiếm theo chiều sâu FPMAX ........................................................................ 31
2.6 Thuật toán tìm kiếm theo chiều sâu MAFIA ......................................................................... 36
2.7 Thuật toán mở rộng xMAFIA (Extention MAFIA): .............................................................. 51
2.8 Kết luận chương 02................................................................................................................ 55
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ .............................................................................. 59
3.1 Môi trường thực nghiệm thuật toán ....................................................................................... 59
3.2 Kết quả thực nghiệm các giải thuật trên CSDL ..................................................................... 62
3.3 Mô đun hệ hỗ trợ ra quyết định chẩn đoán bệnh và CSDL ................................................... 65
3.3.1 Qui trình khám chữa bệnh cho bệnh nhân đến khám bệnh: ................................................ 65
3.3.2 Mô đun độc lập hỗ trợ ra quyết định chẩn đoán bệnh: ....................................................... 70
3.3.3 Tích hợp mô đun hỗ trợ ra quyết định chẩn đoán bệnh vào phần mềm quản lý phòng khám:
..................................................................................................................................................... 77
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................................................................... 81

vi

1 Kết luận..................................................................................................................................... 81
2 Nhận xét ưu điểm và hạn chế.................................................................................................... 82
TÀI LIỆU THAM KHẢO ................................................................................................................. 84

vii

DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu và

Nghĩa tiếng Anh

Nghĩa tiếng Việt

CSDL

Database

Cơ sở dữ liệu

DB

Database

Cơ sở dữ liệu

DBT

Database Transaction

Cơ sở dữ liệu giao dịch

GD

Transaction

Giao dịch

Itemset

The set of items

Tập thành phần

Knowledge Discovery in

Khám phá tri thức trong

Database - Data Mining

dữ liệu

Minsupp

Threshold

Ngưỡng hỗ trợ

Conf

Confidence

Độ tin cậy

Minconf

Minimum Confidence

Ngưỡng tin cậy

từ viết tắt

KDD

viii

DANH MỤC CÁC HÌNH VÀ ĐỒ THỊ
hình 1.1 vị trí của kpdl ................................................................................................7
hình 1.2 kiến trúc của hệ thống kpdl ..........................................................................8
hình 1.3 dữ liệu triệu chứng được trích từ phác đồ điều trị và nguồn csdl khám bệnh
............................................................................................................................15
hình 1.4 dữ liệu triệu chứng và bệnh được mô hình lên dàn ....................................15
hình 2.1 mô hình các loại tập phổ biến .....................................................................18
hình 2.2 hình các bước chạy thuật toán apriori ........................................................21
hình 2.3 tìm kiếm trên cây của max-miner ...............................................................25
hình 2.4 các bước chạy thuật toán max-miner ..........................................................25
hình 2.5 các bước chạy thuật toán genmax...............................................................28
hình 2.6 biểu diễn csdl dạng bitmap và biểu diễn trên dàn của fp-max ...................32
hình 2.7 tập csdl được biểu diễn theo fp- tree ..........................................................32
hình 2.8 hình minh họa việc xây dựng các mfi-tree cho các ví dụ về csdl ...............35
hình 2.9 hình minh họa giàn tập mục (the itemset lattice) ........................................37
hình 2.10 hình minh họa dàn thể hiện các tập phổ biến ............................................37

hình 2.11 hình biểu diễn cách thức phối hợp các thuật toán của mafia [12] ............42
hình 2.12 hình biểu diễn sự tác động của chiến lược rẻ nhánh khi có dùng
reordering và không dùng reordering [12].........................................................43
hình 2.13 hình biểu diễn csdl dưới dạng bitmap theo chiều dọc ..............................44
hình 2.14 hình biểu diễn các bước chạy giải thuật dsf ..............................................46

ix

hình 2.15 hình biểu diễn các bước chạy giải thuật pep .............................................47
hình 2.16 hình biểu diễn các bước chạy giải thuật fhut ............................................48
hình 2.17 hình biểu diễn các bước chạy giải thuật hutmfi ........................................49
hình 2.18 hình biểu diễn các bước chạy giải thuật mafia..........................................50
hình 2.19 hình nhận xét bước chạy giả thuật mafia theo csdl bảng 2.5 ....................52
hình 2.20 hình nhận xét bước chạy giải thuật xdfs ...................................................54
hình 2.21 hình các so sánh giải thuật khai thác tập mfi của tác giả g¨osta grahne và
jianfei zhu [10] ...................................................................................................57
hình 2.22 hình các so sánh phân loại theo csdl của các giải thuật do tác giả g¨osta
grahne và jianfei zhu thực hiện [10] ..................................................................57
hình 3.1 hình ví dụ cấu trúc csdl được tạo ra từ công cụ [16] [17] ...........................59
hình 3.2 hình kết quả thực nghiệm trên tập csdl bảng 2.5 minsupp 0.25 .................61
hình 3.4 hình kết quả chạy các giải thuật các csdl ở bảng 3.1 ..................................64
hình 3.5 hình ví dụ mô hình khám bệnh tại một bệnh viện hoặc phòng khám .........65
hình 3.6 hình chụp mô tả csdl triệu chứng liên quan mặt bệnh ................................68
hình 3.7 hình chụp mô tả csdl các giao dịch bác sĩ khi khám bệnh cho bệnh nhân có
các ghi nhận triệu chứng khi khám bệnh đã được mã hoá.................................69
hình 3.8 hình mô tả mô hình xử lý csdl bệnh và triệu chứng....................................71
hình 3.9 hình mô tả thao tác thực hiện trên giao diện website ..................................72
hình 3.10 hình kết quả chạy cho ra các bộ mfi từng bệnh của 10 bộ csdl giao dịch
bệnh ....................................................................................................................76

x

hình 3.11 hình mô tả mô hình hoạt động hệ hỗ trợ ra quyết định chẩn đoán bệnh tích
hợp phần mềm khám bệnh .................................................................................78
hình 3.12 hình mô tả các chức năng cơ bản của phần mềm quản lý khám bệnh
powersoft tích hợp mô đun hỗ trợ quyết định chẩn đoán điều trị ......................79
hình 3.13 hình mô tả mô đun hỗ trợ quyết định chẩn đoán điều trị ..........................80

xi

DANH MỤC CÁC BẢNG
Bảng 2.1 CSDL giao dịch ví dụ thuật toán Apriori ..................................................................... 20
Bảng 2.2 CSDL giao dịch biểu diễn dạng nhị phân ví dụ thuật toán Apriori .............................. 21
Bảng 2.3 CSDL giao dịch ví dụ cho thuật toán GENMAX ......................................................... 27
Bảng 2.4 CSDL giao dịch theo chiều dọc của thuật toán GENMAX .......................................... 30
Bảng 2.4 Bảng tính tập {i}-mẫu điều kiện với từng item phổ biến i ........................................... 34
Bảng 2.5 ví dụ một cơ sở dữ liệu Giao dịch id với các tập mục .................................................. 36
Bảng 3.1 mô tả CSDL chạy thực nghiệm .................................................................................... 60
Hình 3.3 Hình kết quả thời gian chạy các giải thuật CSDL07 với minsupp 0.7.......................... 61
Bảng 3.2 mô tả CSDL bệnh thu thập được từ phần mềm khám chữa bệnh để chạy thực nghiệm
mô đun hệ hỗ trợ ra quyết định khám bệnh. ................................................................................ 70

1

MỞ ĐẦU
1. Lý do chọn đề tài

Với sự phát triển vượt bậc và khả năng ứng dụng công nghệ thông tin đã đem
lại nhiều hiệu quả, trong đó lĩnh vực khai thác dữ liệu mang lại hiệu quả thiết thực
trong nhiều ngành nghề. Khai thác dữ liệu đã giúp người sử dụng thu được những tri
thức hữu ích từ những cơ sở dữ liệu, các kho dữ liệu khổng lồ, hoặc những công cụ
hỗ trợ được tạo ra cho người sử dụng ra quyết định từ nguồn dữ liệu được các chuyên
gia chuyên ngành xử lý.
Các cơ sở dữ liệu trong các đơn vị, các ngành kinh doanh, trong các lĩnh vực
chứa đựng nhiều thông tin giá trị, phong phú và đa dạng, từ đó cần phải có những
phương pháp nhanh, phù hợp, chính xác, hiệu quả để khai thác được những thông tin
bổ ích. Những “tri thức” trích xuất từ nguồn cơ sở dữ liệu trên sẽ là nguồn thông tin
hỗ trợ cho lãnh đạo, người ra quyết định trong việc lên kế hoạch hoạt động hoặc trong
việc ra chương trình sản xuất kinh doanh. Hoặc trong lĩnh vực cơ sở dữ liệu y tế, sự
kết hợp có ý nghĩa của các triệu chứng bệnh có thể cung cấp các thông tin hữu ích
cho các bác sĩ chẩn đoán để quyết định hướng điều trị sức khoẻ cho bệnh nhân.
Trong những vấn đề về khai thác dữ liệu hiện đang được nhiều quan tâm của
các nhà nghiên cứu là phát hiện tập phổ biến, nhưng đối với nhiều loại cơ sở dữ liệu
có ngưỡng phổ biến do người dùng xác định quá thấp thì có mật độ tập phổ biến quá
nhiều hoặc ngược lại ngưỡng phổ biến quá cao thì tập phổ biến quá ít hoặc không có
nên rất khó để phân tích xem xét, việc khám phá tập phổ biến tốt nhất, tập phổ biến
tối đại là vấn đề cần quan tâm.
Ngày nay, nhiều đơn vị y tế đã và đang ứng dụng công nghệ thông tin vào công
tác hỗ trợ chuyên môn, công tác quản lý bệnh viện, quản lý phòng khám ngày càng
phát triển kể cả trong nước và ngoài nước. Việc tận dùng tri thức từ CSDL khám bệnh
và nguồn tri thức chuyên môn có sự đánh giá và kiểm duyệt của các chuyên gia y tế
để các bác sĩ có thể đưa ra quyết định chẩn đoán điều trị cho bệnh nhân đang là nhu

2

cầu của đơn vị y tế và cũng là bài toán của các nhà khoa học.

Nhiều nhà nghiên cứu đã phân tích dữ liệu y tế bằng cách sử dụng phương pháp,
kỹ thuật, công cụ khai thác dữ liệu cho việc tìm kiếm các tập phổ biến, tập luật, các
tập nguyên tắc quyết định. Tuy nhiên, những số lượng tập phổ biến, tập luật sinh ra
thường là lớn, các tập luật này chỉ dẫn ra quyết định trong những điều kiện cụ thể của
các tập dữ liệu mô tả, mà không chỉ ra mối quan hệ giữa các tập (các khái niệm, thuộc
tính đã chọn) và tầm quan trọng của các tập đã chọn trong việc suy dẫn quyết định.
Trong khi quá trình bác sĩ chẩn đoán điều trị bệnh có độ phức tạp ở mức độ khác
nhau, mỗi bác sĩ cố gắng tiếp cận các khía cạnh khác nhau của thuộc tính sức khoẻ
trên từng bệnh nhân như: tầm quan trọng tương đối của các triệu chứng, biểu hiện,
dữ kiện sức khoẻ và mối quan hệ giữa các bệnh của bệnh nhân có biểu hiện, từ đó
bác sĩ có thể căn cứ các khía cạnh trên để đưa ra các quyết định điều trị.
Vì vậy việc khai thác các tính chất triệu chứng phù hợp, để khám phá mối quan
hệ giữa các triệu chứng của bệnh, các đặc điểm quan trọng nhất ảnh hưởng đến việc
ra quyết định, từ đó bác sĩ đề xuất hướng điều trị tốt hơn, có hiệu quả hơn. Do vậy,
cần phân tích tầm quan trọng từ nguồn tri thức của các chuyên gia y tế, nguồn tri thức
trích rà từ CSDL hỏi khám bệnh thực tế, việc nghiên cứu và áp dụng lĩnh vực khai
thác dữ liệu, khai thác tập phổ biến tối đại vào CSDL y tế cụ thể là bộ dữ liệu các
triệu chứng chẩn đoán bệnh, để tìm ra các triệu chứng phù hợp nhất để cung cấp thông
tin cho bác sĩ quyết định đang thực sự cần thiết hỗ trợ thêm cho sự ra quyết định quả
bác sĩ.
Hệ thống hệ hỗ trợ ra quyết định chẩn đoán gồm nhiều mô đun và nhiều giai đoạn
để thực hiện, tất cả các mô đun và các giai đoạn thực hiện đều khó và phức tạp. Nhưng
cốt lõi hơn hết là việc xử lý dữ liệu hiệu quả. Vì vậy, tác giả ưu tiên tập trung nghiên
cứu các thuật toán tìm các triệu chứng có số lượng phổ biến tối đại từ CSDL triệu
chứng liên quan bệnh thu thập được từ đó bác sĩ sẽ được gợi ý các tìm ra tập triệu
chứng bệnh có liên quan nhiều mặt bệnh nhất, hỗ trợ khai thác bệnh chứng từ bệnh
nhân từ đó đưa ra những câu hỏi bệnh liên quan đến bệnh có thể xảy ra nhằm mục

3

tiêu đưa ra chẩn đoán phù hợp để điều trị cho bệnh nhân.
2. Nội dung nghiên cứu
Nghiên cứu các thuật toán cơ bản về khai thác tập phổ biến tối đại trên cờ sở dữ
liệu giao dịch.
Xây dựng mô đun hệ thống hỗ trợ ra quyết định chẩn đoán điều trị dựa trên CSDL
triệu chứng liên quan bệnh, với cơ chế đưa ra các triệu chứng bệnh có liên quan nhiều
bệnh nhất để hỗ trợ bác sĩ có thể làm căn cứ ưu tiên để hỏi thăm bệnh các triệu chứng
liên quan bệnh, tránh hỏi quá nhiều câu hỏi triệu chứng làm giảm và ảnh hưởng khả năng
xác định triệu chứng liên quan bệnh.
Về mặt thực tiễn: ứng dụng xử lý tri thức từ phác đồ điều trị, cơ sở dữ liệu triệu
chứng liên quan bệnh và cung cấp các gợi ý để bác sĩ làm căn cứ ra quyết định chẩn đoán
điều trị cho bệnh nhân mang lại nhiều lợi ích cho bác sĩ, và là kết quả hữu ích cho các
sinh viên y khoa tham khảo thực tập.
3. Mục tiêu nghiên cứu
Mục tiêu tổng quát: Khảo sát các phương pháp và phân tích thuật toán. Đánh
giá thực nghiệm một số thuật toán khai thác tập phổ biến tối đại và đề xuất thuật toán
áp dụng phù hợp
Mục tiêu cụ thể: Đưa ra các bước thực nghiệm cần thiết để đánh giá khách quan
ưu điểm và khuyết điểm của các thuật toán tìm tập phổ biến tối đại. Đánh giá thuật
toán khai thác cải tiến. So sánh hiệu quả thuật toán của tác giả. Kiểm tra tính đúng
đắn của mã nguồn các thuật toán khai thác tập phổ biến tối đại so với mã giả của các
thuật toán đưa ra trong các bài báo. Qua đó, đảm bảo môi trường thực nghiệm là hoàn
toàn đáng tin cậy để so sánh và đánh giá với các kết quả sau này.
Phát triển mô đun hệ thống hỗ trợ ra quyết định chẩn đoán điều trị dựa trên thuật
toán khai thác tập phổ biến tối đại đã lựa chọn.
Hiện thực hệ thống thành hệ hỗ trợ ra quyết định chẩn đoán điều trị trong ứng

4

dụng quản lý khám chữa bệnh.
4. Đối tượng nghiên cứu
Thuật toán về khai thác tập phổ biến tối đại như: Apriori, Max-Miner,
GENMAX, FPMAX, MAFIA.
Dữ liệu mẫu thực nghiệm thuật toán như: />Dữ liệu triệu chứng: từ kho phác đồ điều trị Sở y tế TP.HCM
được công khai user: dulieupddt, password: 59ntmk , cơ
sở dữ liệu triệu chứng liên quan bệnh , Danh mục triệu
chứng ICPC2 quốc tế đã được Việt hoá từ Hội bác sĩ gia đình Việt Nam, dữ liệu mẫu
khám bệnh thực tế của các bệnh từ phần mềm.
Nghiên cứu ngôn ngữ C# tích hợp mô đun vào phần mềm quản lý khám bệnh,
ngôn ngữ Java thực nghiệm thuật toán.
5. Phạm vi nghiên cứu
Có nhiều khó khăn và hạn chế khách quan, nên giai đoạn này tác giả tìm hiểu
các thuật toán khai thác tập phổ biến tối đại trên dữ liệu không có biến động, dữ liệu
nghiên cứu được lấy từ nguồn dữ liệu nghiên cứu chuẩn và dữ liệu y tế, việc đánh
giá chỉ mới đánh giá dựa trên tốc độ xử lý dữ liệu của các thuật toán. Việc xử lý dữ
liệu theo hướng tập trung (chưa nghiên cứu hướng phân tán). Dữ liệu thực nghiệm
được lấy từ nguồn đáng tin cậy.
6. Phương pháp nghiên cứu
Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.
Tìm hiểu các thuật toán hiện có để đánh giá các ưu, nhược điểm của từng thuật
toán.
Nghiêm cứu thuật toán phù hợp với mô hình ứng dụng phương pháp khắc

5

phục nhược điểm của thuật toán cũ
7. Cấu trúc luận văn

Luận văn gồm có phần mở đầu, kết luận và 03 chương, cụ thể như sau:
Chương 1: Giới thiệu tổng quan
Nghiên cứu, trình bày lý thuyết về khai thác dữ liệu,về luật kết hợp, trình bày
hướng tiếp cận bài toán của đề tài.
Chương 2: Giới thiệu các thuật toán khai thác tập phổ biến tối đại
Trình bày một số thuật toán cơ bản về khai thác tập phổ biến tối đại như: Apriori,
Max-Miner, GENMAX, FPMAX, MAFIA để đánh giá các thuật toán.
Đề xuất cách tiếp cận giải quyết bài toán dự trên thuật toán MAFIA có hiệu chỉnh.
Chương 3: Cài đặt chương trình, thực nghiệm
Tiến hành chạy thử nghiệm bộ dữ liệu thực nghiệm. Từ đó hiển thị trực quan trên
biểu đồ kết quả thực nghiệm.
Tiến hành xây dựng bộ dữ liệu triệu chứng bệnh từ nguồn dữ liệu nêu trên, thử
nghiệm sử dụng công cụ cài đặt thuật toán xMAFIA có cải tiến.
Tiến hành xây dựng bộ chức năng hỗ trợ ra quyết định chẩn đoán bệnh từ nguồn
cơ sở dữ liệu triệu chứng cài đặt vào phần mềm quản lý phòng khám.

6

Chương 1: GIỚI THIỆU TỔNG QUAN
1.1 Các khái niệm và định nghĩa
Sự phát triển vượt bậc về ứng dụng công nghệ thông tin vào đời sống, các doanh
nghiệp, tổ chức đã sử dụng công nghệ thông tin vào công tác quản lý, điều hành hoạt
động nên khối lượng thông tin đã tăng trưởng khổng lồ. Từ các thập kỷ gần đây các
nhà nghiên cứu đã phát triển các công cụ, kỹ thuật, phần mềm mới để hỗ trợ các tiến
trình khám phá, phân tích tổng hợp các thông tin từ nguồn dữ liệu, để tìm ra các
thông tin về mặt thống kê, các thông tin về quy luật, thông tin tiềm ẩn bên trong dữ
liệu, thông tin có thể là cốt lỗi cần thiết có quá trình ra quyết định của nhà quản lý
hay nhà ra quyết định.
Khai phá dữ liệu (KPDL) [1] là một tiến trình khám phá tri thức tiềm ẩn trong

cơ sở dữ liệu (CSDL), là hàng loạt các tiến trình trích lọc, sản sinh những tri thức
hoặc những mẫu dữ liệu tìm ẩn có khả năng hữu ích từ các CSDL lớn hay đặc thù.
KPDL là tiến trình khái quát các sự kiện rời rạc trong CSDL thành các tri thức
mang tính rõ ràng hay khái quát hơn, có tính quy luật hỗ trợ hữu ích cho tiến trình ra
quyết định.
Có thể tạm chia KPDL thành 02 dạng chính:
KPDL theo hướng kiểm tra: là dạng người dùng đề xuất các giả định, hệ thống
kiểm tra tính đúng đắn của các giả định (như: truy vấn thông tin, báo cáo, phân tích
thống kê,...).
KPDL theo hướng khám phá: là dạng tìm kiếm, khám phá các tri thức tiềm ẩn
trong CSDL bằng cách xem xét các giả thiết có khả năng xảy ra phù hợp, hoặc do
không gian tìm kiếm quá lớn, nên nhiều heuristic đã được đề xuất nhằm nâng cao
hiệu năng của các giải thuật tìm kiếm trong dữ liệu.
Ngày nay nhu cầu trở nên cấp thiết hơn khi các nhà ra quyết định không bằng
lòng với dữ liệu đơn giản thu được từ các kỹ thuật trước đây, do đó từ các sự kiện

7

rời rạc trong lĩnh vực ứng dụng, phát sinh nhu cầu nắm bắt tri thức, các mối quan hệ
giữa chúng, xa hơn nữa là tìm ra các quy luật trong lĩnh vực chuyên sâu. KPDL ra
đời nhằm đáp ứng nhu cấu cấp thiết trên.

Hình 1.1 Vị trí của KPDL
Các kỹ thuật KPDL hiện nay được khái quát một số cách tiếp cận chính như:
o Khai thác tập phổ biến và luật kết hợp.
o Khai thác mẫu tuần tự/ theo thời gian.
o Phân lớp dữ liệu và dự báo.
o Khai thác cụm.
o Mô tả khái niệm....

Kiến trúc của hệ thống KPDL có thể có các thành phần chính sau:

8

Hình 1.2 Kiến trúc của hệ thống KPDL
KPDL là một xu hướng nghiên cứu gần như phổ biến hiện nay, thu hút nhà
nghiên cứu bởi vì các ứng dụng thực tế của nó trong nhiều lĩnh vực. Sau đây là một
số ứng dụng tiêu biểu:
Phân tích dữ liệu và hỗ trợ ra quyết định: Ứng dụng này là phổ biến trong
thương mại, tài chính và thị trường chứng khoán, …
Y tế: Tìm kiếm sự liên quan tiềm năng giữa các triệu chứng, chẩn đoán, và
phương pháp điều trị (dinh dưỡng, toa thuốc, bác sĩ phẫu thuật, …) hỗ trợ cho
bác sĩ ra quyết định hướng điều trị cho Bệnh nhân của mình.
Khai phá text và web: Tóm tắt tài liệu, khôi phục văn bản và tìm kiếm văn bản,
phân lớp văn bản và siêu văn bản.
Tin sinh học: Tìm kiếm và so sánh thông tin di truyền điển hình hoặc đặc biệt
như bộ gen và DNA, các mối quan hệ ngầm giữa một số gen và một số bệnh di
truyền, ….

9

Tài chính và thị trường chứng khoán: Kiểm tra dữ liệu để trích xuất thông tin
dự đoán cho giá của các loại cổ phiếu. - Những ứng dụng khác (Viễn thông,
bảo hiểm y tế, thiên văn học, chống khủng bố, thể thao, …).
Khái quát các kỹ thuật khai phá dữ liệu: [1]
Khai thác tập phổ biến và luật kết hợp: là tiến trình khám phá các tập giá trị
thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo
ra các luật kết hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng

thời các giá trị thuộc tính trong tập các đối tượng.
Một luật kết hợp X → Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện
đồng thời tập Y. Luật kết hợp giúp các nhà hoạch định hiểu rõ xu thế bán hàng, tâm
lý khách hàng, từ đó đƣa ra các chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, tồn
kho, …
Khai thác mẫu tuần tự: là tiến trình khám phá các mẫu tuần tự phổ biến phản
ánh mối quan hệ giữa các biến cố trong các CSDL hướng thời gian. Một luật mô tả
tuần tự có dạng tiêu biểu X → Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc
xuất hiện kế tiếp biến cố Y. Nhờ mẫu tuần tự, có thể khám phá các xu thế phát triển
hành vi của đối tượng.
Phân lớp dữ liệu: là tiến trình khám phá các luật phân loại hay đặc trưng cho các
tập dữ liệu đã được xếp lớp. Tập dữ liệu học bao gồm tập đối tượng đã được xác định
lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập
dữ liệu học. Các luật phân lớp được sử dụng để xây dựng các bộ phân lớp dữ liệu.
Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng, quy
luật phát triển. Áp dụng vào tiến trình phân lớp dữ liệu khách hàng trong CSDL có
thể xây dựng các luật phân lớp khách hàng.
Khai thác cụm: là tiến trình nhận diện các cụm tiềm ẩn trong tập các đối tượng
chƣa được xếp lớp. Tiến trình khai thác cụm dựa trên mức độ tương tự giữa các đối
tượng. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng

10

trong cùng một cụm là cực đại và mức độ tương tự giữa các đối tượng nằm trong các
cụm khác nhau là cực tiểu. Các cụm được đặc trưng bằng các tính chất chung của tất
cả các đối tượng gom cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát tổng kết nhanh
chóng nội dung của khối dữ liệu lớn.
Trong đó Khai thác tập phổ biến và luật kết hợp là một trong những phần của
quá trình KPDL, l à tiến trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến

trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết hợp giữa các
giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính
trong tập các đối tượng.
Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiện xuất hiện
phổ biến một các đồng thời. Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra
các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu
cho trước. Nói cách khác, thuật toán khai phá luật kết hợp cho phép tạo ra các luật
mô tả các sự kiện xảy ra đồng thời (một cách phổ biến) như thế nào. Các thuật toán
này trải qua 2 pha: pha đầu là đi tìm các sự kiện xảy ra phổ biến, pha hai là tìm luật.
Ta sẽ sơ lược lại tổng quan về lĩnh vực khai thác tập phổ biến và luật kết hợp [1]
1.2 Tổng quan khai thác tập phổ biến và luật kết hợp
Định nghĩa
Cho I={I1, I2, .., Im} là tập hợp của m tính chất riêng biệt. Giả sử D là CSDL,
với các bản ghi chứa một tập con T các tính chất (có thể coi như T ⊆ I), các bản ghi
đều có chỉ số riêng. Một luật kết hợp là một mệnh đề kéo theo có dạng X→Y, trong
đó X, Y ⊆ I, thỏa mãn điều kiện X∩Y=∅. Các tập hợp X và Y được gọi là các tập
hợp tính chất (itemset). Tập X gọi là nguyên nhân, tập Y gọi là hệ quả.
Kí hiệu I = {i1, i2, …, im} là tập các thuộc tính được gọi là các mục dữ liệu. D
là CSDL của tập các giao tác, mỗi giao tác T là một tập mục con của tập mục I, T 
I. Mỗi giao tác có một định danh duy nhất gọi là TID (Transaction Identification).
X={i1, i2,…,ik} I được gọi là một tập mục hay một tập k-mục nếu nó chứa k mục.

Áp dụng khai thác tập phổ biến tối đại để phát triển hệ hỗ trợ quyết định chẩn đoán điều trị

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về