Tải bản đầy đủ (.pdf) (96 trang)

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.48 MB, 96 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM

TRẦN VĂN ĐỒNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN
BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN
CHO TRẺ EM

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017


ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC SƢ PHẠM

TRẦN VĂN ĐỒNG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN
BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN
CHO TRẺ EM

Chuyên ngành
Mã số

: HỆ THỐNG THÔNG TIN
: 61.49.01.04


LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Ngƣời hƣớng dẫn khoa học: TS. NGUYỄN HOÀNG HẢI

Đà Nẵng - Năm 2017


LỜI CAM ĐOAN
Tôi xin cam đoan:
- Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của TS. Nguyễn Hoàng Hải.
- Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và
trung thực về tên tác giả, tên cơng trình, thời gian và địa điểm công bố.
- Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi
xin chịu hồn tồn trách nhiệm.
Tác giả luận văn

Trần Văn Đồng


MỤC LỤC

MỞ ĐẦU .......................................................................................................... 1
1. Lý do chọn đề tài ................................................................................. 1
2. Mục tiêu và nhiệm vụ nghiên cứu của đề tài ...................................... 2
3. Đối tƣợng và phạm vi nghiên cứu ...................................................... 3
4. Phƣơng pháp nghiên cứu .................................................................... 3
5. Kết quả dự kiến ................................................................................... 4
6. Ý nghĩa khoa học và thực tiễn của luận văn. ...................................... 4
7. Bố cục của luận văn ............................................................................ 5

CHƢƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ............................. 6
1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ................................................. 6
1.1.1 Sơ lƣợc về khai phá dữ liệu ........................................................... 6
1.1.2 Quy trình khai phá dữ liệu ............................................................. 7
1.1.3 Các kỹ thuật khai phá dữ liệu ........................................................ 9
1.1.4 Ứng dụng của khai phá dữ liệu .................................................... 10
1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU ........................................... 12
1.2.1 Phân lớp dữ liệu ........................................................................... 12
1.2.2 Quá trình phân lớp dữ liệu ........................................................... 12
1.2.3 Đánh giá độ chính xác của mơ hình phân lớn .............................. 15
1.3 KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH. ........ 16
1.3.1 Giới thiệu chung........................................................................... 16
1.3.2 Biểu diễn cây quyết định.............................................................. 17
1.3.3 Các bƣớc chính xây dựng cây quyết định. ................................... 17
1.3.4 Ƣu điểm và nhƣợc điểm của cây quyết định ............................... 18
1.4 THUẬT TOÁN ID3 .................................................................................. 19


1.4.1 Giới Thiệu .................................................................................... 19
1.4.2 Xây dựng giải thuật ...................................................................... 19
1.4.3 Ví dụ thuật tốn ID3 .................................................................... 21
1.4.4 Nhận xét về thuật tốn ................................................................. 26
1.5 THUẬT TỐN C4.5 ................................................................................ 26
1.5.1 Giới thiệu về thuật toán ................................................................ 26
1.5.2 Xây dựng giải thuật ...................................................................... 27
1.5.3 Ví dụ thuật tốn C4.5 ................................................................... 28
1.5.4 Nhận xét về thuật toán ................................................................. 32
KẾT LUẬN CHƢƠNG 1................................................................................ 36
CHƢƠNG 2. NGHIÊN CỨU VỀ BỆNH HEN PHẾ QUẢN VÀ VIÊM
PHẾ QUẢN .................................................................................................... 37

2.1 ĐẶC ĐIỂM HỆ HÔ HẤP Ở TRẺ EM ..................................................... 37
2.1.1 Đặc điểm giải phẩu ...................................................................... 37
2.1.2 Đặc điểm sinh lí ........................................................................... 41
2.2 KHÁI NIỆM BỆNH HEN PHẾ QUẢN VÀ VIÊM PHẾ QUẢN ............ 44
2.2.1 Khái niệm bệnh hen phế quản...................................................... 44
2.2.2 Khái niệm bệnh viêm phế quản ................................................... 45
2.3 BỆNH NGUYÊN – CƠ CHẾ SINH BỆNH HEN PHẾ QUẢN VÀ VIÊM
PHẾ QUẢN........................................................................................... 46
2.3.1 Nguyên nhân bệnh hen phế quản ................................................. 46
2.3.2 Nguyên nhân bệnh viêm phế quản ............................................... 49
2.3.3 Chẩn đoán bệnh............................................................................ 50
2.4 KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU ................................. 52
2.4.1 Khái niệm ..................................................................................... 52
2.4.2 Mục đích và phƣơng pháp luận của canh tác dữ liệu .................. 53
2.4.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu. 53


2.4.4 Lựa chọn và áp dụng phƣơng pháp CTDL. ................................. 54
2.4.5 Phƣơng pháp canh tác dữ liệu đánh giá đặc tính ......................... 54
2.5 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y
KHOA ................................................................................................... 55
2.5.1 Vai trò của điều dƣỡng, bác sĩ trong canh tác dữ liệu y khoa ..... 55
2.5.2 Ứng dụng canh tác dữ liệu trong khai phá dữ liệu bệnh HPQ và
VPQ ....................................................................................................... 56
KẾT LUẬN CHƢƠNG 2................................................................................ 59
CHƢƠNG 3 XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH HEN PHẾ
QUẢN VÀ VIÊM PHẾ QUẢN .................................................................... 60
3.1 DỮ LIỆU ................................................................................................... 60

3.1.1 Thu thập dữ liệu ........................................................................... 60

3.1.2 Xử lý dữ liệu-Chuyển đổi dữ liệu ................................................ 61
3.1.3 Chọn lựa thuật tốn và ngơn ngữ lập trình để tiến hành khai phá .. 62
3.2 XÂY DỰNG CHƢƠNG TRÌNH.............................................................. 62
3.2.1 Dữ liệu đầu vào ............................................................................ 62
3.2.2 Dữ liệu đầu ra ............................................................................... 62
3.2.3 Các chức năng chính của chƣơng trình. ....................................... 63
3.2.4 Phân tích u cầu của bài tốn ..................................................... 64
3.3 DEMO CHƢƠNG TRÌNH ....................................................................... 67
3.4 KẾT QUẢ ĐẠT ĐƢỢC ........................................................................... 70
3.5 SO SÁNH VỚI CÁC ĐỀ TÀI TƢƠNG TỰ ............................................ 73
KẾT LUẬN CHƢƠNG 3................................................................................ 75
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI .......................... 76
TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (Bản sao)


DANH MỤC CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT
Từ viết tắt

Ý nghĩa

CNTT

Công nghệ thông tin

CSDL

Cơ sở dữ liệu

CTDL


Canh tác dữ liệu

DT

Decision Tree (cây quyết định)

Gain

Information Gain (Gia lƣợng thông tin)

HPQ

Hen phế quản

HSBA

Hồ sơ bệnh án

KPDL

Khai phá dữ liệu

VPQ

Viêm phế quản


DANH MỤC CÁC BẢNG
Số hiệu

bảng

Tên bảng

Trang

1.1

Tập dữ liệu ví dụ thuật tốn ID3

21

1.2

Tập dữ liệu ví dụ thuật tốn C4.5

28

1.3

Giá trị gain cho thuộc tính độ ẩm

33

2.1

Chỉ số chức năng hô hấp (theo Barnett. H)

41


3.1

Cơ sở dữ liệu về chẩn đoán bệnh của 20 bệnh nhân

61


DANH MỤC CÁC HÌNH VẼ

Số hiệu

Tên hình

hình

Trang

1.1

Khai phá dữ liệu trong tập dữ liệu

6

1.2

Quy trình khám phá tri thức từ cơ sở dữ liệu

8

1.3


Xây dựng mơ hình phân lớp

13

1.4

Ƣớc lƣợng độ chính xác

14

1.5

Phân lớp dữ liệu mới

14

1.6

Ƣớc lƣợng độ chính xác của mơ hình bằng phƣơng pháp

15

holdout
1.7

Cây quyết định cho việc chơi Tennis

16


1.8

Cây quyết định chẩn đoán bệnh bằng thuật toán ID3

25

1.9

Cây quyết định chơi tennis thuật toán C4.5

32

2.1

Bệnh viêm phế quản

45

2.2

Yếu tố thuận lợi gây bệnh hen phế quản

48

3.1

Giấy giới thiệu mƣợn hồ sơ bệnh án nghiên cứu

60


3.2

Biểu đồ ca sử dụng của hệ thống

64

3.3.

Biểu đồ hoạt động của huấn luyện dữ liệu

65

3.4

Biểu đồ hoạt động của chẩn đoán bệnh

65

3.5

Biểu đồ tuần tự cho hoạt động đăng nhập

66

3.6

Biểu đồ tuần tự cho hoạt động huấn luyện dữ liệu.

66


3.7

Biểu đồ tuần tự cho hoạt động chẩn đốn bệnh.

67

3.8

Màn hình đăng nhập vào hệ thống

67

3.9

Màn hình lựa chọn chức năng

68

3.10

Màn hình huấn luyện dữ liệu

68


Số hiệu
hình

Tên hình


Trang

3.11

Màn hình huấn luyện dữ liệu với giải thuật C4.5

69

3.12

Màn hình chẩn đốn bệnh

69

3.13

Kết quả huấn luyện dữ liệu của hệ thống.

71

3.14

Kết quả chẩn đoán bệnh

73


1

MỞ ĐẦU

1. Lý do chọn đề tài
Nhiễm khuẩn hô hấp cấp là bệnh lý phổ biến ở trẻ em và gây tỉ lệ tử
vong cao nhất so với các bệnh khác. Các thơng báo chính tại hội nghị
quốc tế về chống nhiễm khuẩn hô hấp cấp cho biết hàng năm trên thế giới
có khoảng 4,3 triệu trẻ em dƣới 5 tuổi chết vì nhiễm khuẩn hơ hấp [6].
Mỗi năm một đứa trẻ bị 5 đến 8 lần nhiễm khuẩn hô hấp cấp làm ảnh
hƣởng đến ngày công lao động của bố mẹ, là gánh nặng đối với xã hội [2].
Do nhiễm khuẩn hơ hấp cấp có tầm quan trọng nhƣ vậy nên tổ chức y tế
thế giới và Unicef đã đƣa ra chƣơng trình phịng chống bệnh nhiễm khuẩn
hơ hấp cấp với mục tiêu cụ thể là làm giảm tỉ lệ tử vong do nhiễm khuẩn
hô hấp cấp ở trẻ dƣới 5 tuổi, cùng với mục tiêu lâu dài là làm giảm tỉ lệ
mắc bệnh và giảm tỉ lệ kháng kháng sinh.
Nhìn chung, tại các nƣớc đang phát triển, nhiễm khuẩn hô hấp cấp là
nguyên nhân mắc bệnh hàng đầu ở trẻ em dƣới 5 tuổi, là nguyên nhân đến
khám bệnh cũng nhƣ vào điều trị hàng đầu tại các tuyến y tế và cũng là
nguyên nhân tử vong làm trẻ chết nhiều nhất. Thật vậy, nguyên nhân ƣớc
tính của 12,8 triệu tử vong ở trẻ dƣới 5 tuổi, 1990: nhiễm khuẩn hô hấp
cấp 33,4 % (4,3 triệu), tiêu chảy 24,8% (3,2 triệu), nguyên nhân khác
41,8% (5,4 triệu) [7].
Hen phế quản là một trong những bệnh mãn tính thƣờng gặp ở trẻ em
và là một trong những nguyên nhân buộc trẻ phải nghỉ học nhiều ngày
(trung bình trẻ nghỉ học 5-7 ngày/năm do bị hen phế quản), tỷ lệ mắc bệnh
cũng nhƣ tử vong do hen phế quản ngày càng tăng. Tỉ lệ mắc bệnh từ 0,56% trƣớc đây, hiện nay tỉ lệ mắc trung bình tử 5-10%. Tỉ lệ tử vong trƣớc
đây là 1-2% hiện nay có thể cao hơn 2-3% [8].


2

Nƣớc ta đang trên đà phát triển và hội nhập. Hệ thống Y tế và Giáo
dục vẫn còn nhiều bất cập và hạn chế, đặc biệt là các cơ sở vùng sâu vùng

xa, chƣa có điều kiện tiếp cận với công nghệ hiện đại. Đội ngũ y bác sĩ
chƣa đủ để đáp ứng với tình trạng bệnh nhân ngày càng tăng cả về số
lƣợng và loại bệnh. Nhận thức của ngƣời dân về bệnh tật và cách sơ cứu
cũng mơ hồ. Nếu muốn đƣa bệnh nhân đến đƣợc các bệnh viện trung tâm
thì mất nhiều thời gian…Để khắc phục những khó khăn này, chúng ta cần
có cơng cụ gần gũi với thực tiễn, ngƣời dùng dễ sử dụng và linh hoạt để
có thể giúp bệnh nhân và y bác sĩ phát hiện bệnh và điều trị kịp thời.
Việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y tế cịn
hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thơng tin nhằm chẩn đốn
các biểu hiện lâm sàng. Trong đó, khai phá dữ liệu là một kỹ thuật thƣờng
đƣợc áp dụng để hỗ trợ đƣa ra các quyết định khá chính xác.
Chính vì vậy tơi đã chọn luận văn “Ứng dụng khai phá dữ liệu để
chẩn đoán bệnh hen phế quản và viêm phế quản cho trẻ em” làm đề tài
nghiên cứu luận văn của mình.
2. Mục tiêu và nhiệm vụ nghiên cứu của đề tài
 Mục tiêu
Mục tiêu của đề tài là xây dựng và áp dụng có hiệu quả việc trợ giúp
ra quyết định trong việc chẩn đoán bệnh hen phế quản và viêm phế quản
cho trẻ em từ 2 tháng tuổi đến 5 tuổi.
 Nhiệm vụ
 Nghiên cứu lý thuyết về thuật toán phân lớp và kỹ thuật cây quyết
định.
 Tìm hiểu về bệnh hen phế quản và viêm phế quản, tiến hành điều tra
thu thập dữ liệu về bệnh hen phế quản và viêm phế quản ở trẻ em từ 2 tháng
tuổi đến 5 tuổi.


3

 Đánh giá kết quả dự đốn của mơ hình và lựa chọn mơ hình tốt nhất

để chẩn đốn bệnh hen phế quản và viêm phế quản.
 Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen phế quản
và viêm phế quản dựa vào kỹ thuật cây quyết định.
3. Đối tƣợng và phạm vi nghiên cứu
 Đối tƣợng nghiên cứu.
 Dữ liệu nghiên cứu bao gồm các yếu tố liên quan đến biểu hiện và các
yếu tố lâm sàng của bệnh hen phế quản và viêm phế quản.
 Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và mơ-đun lập
trình trong khai phá dữ liệu.
 Phạm vi nghiên cứu.
 Dữ liệu thu thập gồm các hồ sơ bệnh án thuộc đối tƣợng trẻ em từ 2
tháng tuổi đến 5 tuổi, đƣợc chẩn đoán bệnh hen phế quản và viêm phế quản tại
khoa nhi-bệnh viện đa khoa tỉnh Khánh Hòa, phòng khám đa khoa trƣờng cao
đẳng y tế Khánh Hòa và một số phòng khám tƣ nhân trên địa bàn tỉnh Khánh
Hòa.
 Nghiên cứu ứng dụng về thuật toán phân lớp và kỹ thuật cây quyết
định.
 Xây dựng ứng dụng khai phá dữ liệu để chẩn đoán bệnh hen phế quản
và viêm phế quản cho trẻ em.
4. Phƣơng pháp nghiên cứu
 Phƣơng pháp nghiên cứu lý luận.
 Tìm tịi, đọc hiểu, phân tích thơng tin, dữ liệu từ các tài liệu, giáo
trình, sách liên quan đến khai phá dữ liệu.
 Nghiên cứu các kỹ thuật phân lớp bằng thuật toán cây quyết định, ứng
dụng các kỹ thuật đó để chuẩn đốn bệnh hen phế quản và viêm phế quản dựa
vào các thông tin đầu vào.


4


 Phƣơng pháp nghiên cứu thực tiễn.
 Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác sĩ,
y học chứng cớ và y học thực chứng trong quá trình khai phá dữ liệu y khoa.
 Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu để lựa
chọn kỹ thuật cho kết quả chính xác nhất.
 Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán và điều trị
bệnh.
5. Kết quả dự kiến
 Kết quả lý thuyết.
 Nắm đƣợc kỹ thuật khai phá dữ liệu bằng thuật toán phân lớp và kỹ
thuật cây quyết định.
 Ứng dụng kỹ thuật khai phá dữ liệu trên kết quả lâm sàng về bệnh hen
phế quản và viêm phế quản để đƣa ra chẩn đốn về khả năng mắc hay khơng
mắc hai chứng bệnh này.
 Kết quả thực tiễn.
 Xây dựng đƣợc mô hình chẩn đốn và tƣ vấn bệnh hen phế quản và
viêm phế quản dựa trên kỹ thuật khai phá dữ liệu.
 Xây dựng hệ thống hỗ trợ để chẩn đoán bệnh hen phế quản và viêm
phế quản cho trẻ em.
6. Ý nghĩa khoa học và thực tiễn của luận văn.
 Ý nghĩa khoa học.
 Thông qua đề tài sẽ hiểu sâu hơn về thuật toán phân lớp và kỹ thuật
cây quyết định.
 Góp phần chẩn đốn bệnh hen phế quản và viêm phế quản của trẻ em
dựa trên khai phá dữ liệu.
 Ý nghĩa thực tiễn.
Việc xây dựng ứng dụng chẩn đoán bệnh hen phế quản và viêm phế


5


quản sẽ hỗ trợ cho bác sĩ, cha mẹ các bé phát hiện đƣợc bệnh để có giải
pháp can thiệp kịp thời trong việc chăm sóc sức khoẻ cho trẻ.
7. Bố cục của luận văn
Dự kiến luận văn đƣợc trình bày bao gồm 3 chƣơng nhƣ sau:
Chƣơng 1: Trong chƣơng 1 sẽ trình bày tổng quan về khai phá dữ
liệu, phân lớp dữ liệu, quy trình khai phá dữ liệu, các kỹ thuật khai phá
bằng cây quyết định, trình bày chi tiết hai thuật toán là ID3 và C4.5
Chƣơng 2: Nghiên cứu và xử lý dữ liệu về bệnh hen phế quản và
viêm phế quản ở trẻ em. Chƣơng này trình bày nội dung sau: Đặc điểm hệ
hơ hấp của trẻ em, khái niệm về bệnh hen phế quản và viêm phế quản,
bệnh nguyên, cơ chế sinh bệnh, đặc điểm lâm sàng và chẩn đoán bệnh hen
phế quản, viêm phế quản cho trẻ em, trình bày về canh tác dữ liệu trong
khai phá dữ liệu và ứng dụng vào khai phá dữ liệu trong y khoa.
Chƣơng 3: Xây dựng hệ thống chẩn đoán bệnh hen phế quản và viêm
phế quản cho trẻ em.


6

CHƢƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1 Sơ lƣợc về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào những năm
cuối của thập niêm 80 của thế kỷ 20. KPDL đƣợc dùng để mô tả quá trình
phát hiện ra tri thức trong cơ sở dữ liệu (CSDL). Quá trình này kết xuất ra
các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các
hoạt động sản xuất,... KPDL làm giảm chi phí về thời gian so với phƣơng

pháp truyền thống trƣớc kia (ví dụ nhƣ phƣơng pháp thống kê). Hình 1.1
minh họa đơn giản và trực quan cho khái niệm này.

Hình 1.1 Khai phá dữ liệu trong tập dữ liệu
Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành
nhƣ: Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thơng tin, học máy,
CSDL, thuật tốn, trí tuệ nhân tạo, tính tốn song song và hiệu năng cao.
Các kỹ thuật chính áp dụng trong KPDL phần lớn đƣợc thừa kế từ các
ngành này.
Sau đây là một số định nghĩa mang tính mơ tả của nhiều tác giả về
KPDL:


7

Định nghĩa của Ferruzza: “KPDL là tập hợp các phương pháp được
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối
quan hệ và các mẫu chưa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “KPDL là q trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thơng tin chưa biết và bất ngờ trong
CSDL lớn”.
Định nghĩa của Fayyad: “KPDL thƣờng đƣợc xem là việc khám phá
tri thức trong các CSDL, là một q trình trích xuất những thơng tin tiềm
ẩn, trƣớc đây chƣa biết và có khả năng hữu ích, dƣới dạng các qui luật,
ràng buộc, qui tắc trong CSDL”.
Nhƣ vậy ta có thể tổng quát khái niệm KPDL là “quá trình khảo sát
và phân tích một lƣợng lớn các dữ liệu đƣợc lƣu trữ trong các CSDL, kho
dữ liệu… để từ đó trích xuất ra các thơng tin quan trọng, có giá trị tiềm ẩn
bên trong”.
1.1.2 Quy trình khai phá dữ liệu

Mục đích của KPDL là tìm ra các mẫu và các mơ hình đang tồn tại
trong các CSDL nhƣng vẫn còn bị che khuất bởi khối lƣợng dữ liệu lớn.
Về bản chất, nó là giai đoạn duy nhất tìm ra đƣợc thơng tin mới, thơng tin
tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán. Dự đoán
là thực hiện việc suy luận dựa trên dữ liệu để đƣa ra các dự báo nhằm
phân tích tập dữ liệu huấn luyện và tạo ra một mô hình cho phép dự đốn
các mẫu, các mơ hình mới chƣa biết. [5]
Quy trình KPDL bao gồm các bƣớc nhƣ trong hình sau:


8

Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu
Bƣớc 1. Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu khơng cần
thiết.
Bƣớc 2. Tích hợp dữ liệu: Quá trình hợp nhất dữ liệu thành những
kho dữ liệu sau khi đã làm sạch và tiền xử lý.
Bƣớc 3. Trích chọn dữ liệu: Trích chọn dữ liệu từ những kho dữ liệu và
sau đó chuyển đổi về dạng thích hợp cho q trình khai thác tri thức. Quá
trình này bao gồm cả việc xử lý với dữ liệu nhiễu, dữ liệu không đầy đủ.
Bƣớc 4. Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển sang các dạng
phù hợp cho quá trình xử lý.
Bƣớc 5. Khai phá dữ liệu: Là một trong các bƣớc quan trọng nhất,
trong đó sử dụng những phƣơng pháp thông minh để chắt lọc ra những
mẫu dữ liệu.
Bƣớc 6. Ƣớc lƣợng mẫu: Quá trình đánh giá các kết quả tìm đƣợc
thơng qua các độ đo nào đó.


9


Bƣớc 7. Biểu diễn tri thức: Quá trình này sử dụng các kỹ thuật để
biểu diễn và thể hiện trực quan cho ngƣời dùng.
1.1.3 Các kỹ thuật khai phá dữ liệu
Trong thực tế có nhiều kỹ thuật KPDL khác nhau nhằm thực hiện hai
chức năng mơ tả và dự đốn.
Một số kỹ thuật phổ biến thƣờng đƣợc sử dụng để KPDL hiện nay là:
 Phân lớp dữ liệu: Là tổ chức dữ liệu trong các lớp cho trƣớc, dùng các
nhãn lớp cho trƣớc tiến hành sắp xếp các đối tƣợng. Trong đó một tập huấn
luyện gồm các đối tƣợng đã đƣợc kết hợp với các nhãn đã biết. Những thuật
toán phân lớp sẽ đƣợc áp dụng cho tập các đối tƣợng cần phân loại để từ đó
mơ hình phân lớp chúng.
 Phân cụm dữ liệu: Mục tiêu của phân cụm dữ liệu là nhóm các đối
tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm, sao cho các đối tƣợng
thuộc cùng một cụm dữ liệu thì tƣơng đồng nhau.
 Cây quyết định: Là một công cụ mạnh và hiệu quả trong việc phân lớp
và dự báo. Các đối tƣợng dữ liệu đƣợc phân thành các lớp. Các giá trị của đối
tƣợng dữ liệu chƣa biết sẽ đƣợc dự đoán. Tri thức đƣợc rút ra trong kỹ thuật
này thƣờng đƣợc mô tả dƣới dạng tƣờng minh, đơn giản, trực quan, dễ hiểu
đối với ngƣời sử dụng (thông thƣờng ở dạng cây quyết định hoặc các tập
luật).
 Luật kết hợp: Là khám phá ra các luật kết hợp thể hiện mối liên kết
giữa các thuộc tính dữ liệu thƣờng xuất hiện với nhau trong các tập dữ liệu.
Luật kết hợp đƣợc ứng dụng nhiều trong lĩnh vực kinh doanh, tin-sinh, tài
chính, thị trƣờng chứng khoáng, y học….
 Hồi quy: Là một kỹ thuật phân tích dữ liệu dùng thống kê để xây dựng
các mơ hình dự báo cho các trƣờng dự báo có giá trị liên tục. Kỹ thuật tự động
xác định một cơng thức tốn học mà cực tiểu hóa một vào phép đo lỗi giữa cái



10

dự báo từ mơ hình hồi quy với dữ liệu thực.
 Mạng Nơron: Là một trong những kỹ thuật KPDL đƣợc ứng dụng phổ
biến. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả
năng huấn luyện trong kỹ thuật này dựa trên mơ hình thần kinh trung ƣơng
của con ngƣời.
Kết quả mà mạng nơron học đƣợc có khả năng tạo ra các mơ hình dự
báo, dự đốn với độ chính xác và độ tin cậy cao. Có khả năng phát hiện ra
đƣợc các xu hƣớng phức tạp mà kỹ thuật thơng thƣờng khác khó có thể
phát hiện ra. Tuy nhiên về phƣơng pháp mạng nơron rất phức tạp và quá
trình tiến hành gặp rất nhiều khó khăn địi hỏi mất nhiều thời gian, nhiều
lần kiểm tra thử nghiệm, nhiều dữ liệu.
1.1.4 Ứng dụng của khai phá dữ liệu
KPDL tuy là một hƣớng tiếp cận mới nhƣng đã thu hút đƣợc rất
nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những
ứng dụng thực tiễn của nó. Một số ứng dụng điển hình của KPDL:
 Kinh doanh thƣơng mại: Xác định thói quen mua hàng của khách hàng,
dự đoán chu kỳ kinh doanh sản phẩm.
 Ngân hàng: Dự đoán các dấu hiệu của một giao dịch trái luật, dự đoán
rủi ro của các khoản cho vay.
 Điều trị y học và chăm sóc y tế: Một số thơng tin về chẩn đốn bệnh
lƣu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu
chứng bệnh, chẩn đốn (chế độ dinh dƣỡng, tƣ vấn, thuốc...).
 Bảo hiểm: Loại khách hàng có rủi ro cao, gian lận. Liệu khách hàng có
thực hiện hết hợp đồng bảo hiểm, dự đốn đối tƣợng, vùng nào có khả năng
tham gia bảo hiểm.
 Sản xuất và chế biến: Quy trình, phƣơng pháp chế biến và xử lý sự cố.
 Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm
tắt văn bản,...



11

 Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và
một số bệnh di truyền,...
 Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, sự cố, chất lƣợng dịch vụ,...
1.1.5 Tổng quan ứng dụng khai phá dữ liệu vào hỗ trợ chẩn đốn
bệnh trong y tế
Ngành y tế và giáo dục ln là vấn đề sống còn của bất kỳ quốc gia
nào trên thế giới. Trong những năm gần đây, chính phủ Việt Nam đặc biệt
đầu tƣ cho hai ngành mũi nhọn này thơng qua các chính sách, nguồn vốn
dành cho trang bị hạ tầng và nghiên cứu khoa học. Trong lĩnh vực nghiên
cứu khoa học, càng ngày có nhiều cơng trình khoa học về y tế. Tuy nhiên
các nghiên cứu khoa học về ứng dụng công nghệ thông tin để giải quyết
các bài tốn về y tế là khơng nhiều.
Thời gian qua cũng có những đề tài ứng dụng KPDL để xây dựng
một hệ thống nhằm chẩn đốn bệnh nhƣ: Hồng Thị Thanh Hiền, ứng
dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm
cho học sinh phổ thông, Đại học Đà Nẵng. Trƣơng Minh Văn, ứng dụng
khai phá dữ liệu chẩn đoán bệnh sốt xuất huyết, Đại học Lạc Hồng.
Nguyễn Đức Phong, ứng dụng khai phá dữ liệu xây dựng hễ thống hỗ trợ
chẩn đoán bệnh tim mạch, Đại học Đà Nẵng. Mục tiêu của các đề tài trên
là nghiên cứu về KPDL và ứng dụng vào xây dựng hệ thống chẩn đoán
bệnh, và đã đạt đƣợc những kết quả khả quan.
Nghiên cứu thƣờng đƣợc tiến hành theo 4 bƣớc chính: Tìm hiểu
nghiệp vụ y tế liên quan đến bệnh hen phế quản và viêm phế quản; Thu
thập và tiền xử lý dữ liệu; Tìm hiểu bài toán phân lớp trong khai phá dữ

liệu, lựa chọn thuật toán phù hợp với yêu cầu bài toán đặt ra và dữ liệu thu


12

thập đƣợc; Hiện thực chƣơng trình máy tính và đánh giá ý nghĩa thực tiễn.
1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.1 Phân lớp dữ liệu
Phân lớp dữ liệu (classification) là gán các mẫu mới vào các lớp với
độ chính xác cao nhất để dự báo cho các bộ dữ liệu (mẫu) mới.
Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn phân
lớp cho mỗi mẫu dữ liệu. Đầu ra là mơ hình dự đốn (bộ phân lớp) dựa
trên tập huấn luyện và những nhãn phân lớp.
1.2.2 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bƣớc [5].
 Bƣớc thứ nhất: Xây dựng mơ hình.
Q trình học nhằm xây dựng một mơ hình mơ tả một tập các lớp dữ
liệu hay các khái niệm định trƣớc. Đầu vào của quá trình này là một tập
dữ liệu có cấu trúc đƣợc mơ tả bằng các thuộc tính và đƣợc tạo ra từ tập
các bộ giá trị của các thuộc tính đó. Mỗi bộ giá trị đƣợc gọi chung là một
phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example),
đối tƣợng (object), bản ghi (record) hay trƣờng hợp (case). Luận văn sử
dụng các thuật ngữ này với nghĩa tƣơng đƣơng. Trong tập dữ liệu này,
mỗi phần tử dữ liệu đƣợc giả sử thuộc về một lớp định trƣớc, lớp ở đây là
giá trị của một thuộc tính đƣợc chọn làm thuộc tính gán nhãn lớp hay
thuộc tính phân lớp (class label attribute). Đầu ra củla bƣớc này thƣờng là
các quy tắc phân lớp dƣới dạng luật dạng if-then, cây quyết định, cơng
thức logic, hay mạng nơron. Q trình này đƣợc mơ tả nhƣ trong hình vẽ:



13

Thuật tốn phân lớp
Dữ liệu
huấn
luyện
Bộ phân
(Mơlớp
hình)

IF KhoKhe = „Có‟ OR SoMui=‟Co‟
THEN Benh = „HPQ‟

Hình 1.3 Xây dựng mơ hình phân lớp
 Bƣớc thứ 2: Sử dụng mơ hình.
Bƣớc thứ hai dùng mơ hình đã xây dựng ở bƣớc thứ nhất để phân lớp
dữ liệu mới. Trƣớc tiên độ chính xác mang tính chất dự đốn của mơ hình
phân lớp vừa tạo ra đƣợc ƣớc lƣợng. Holdout là một kỹ thuật đơn giản để
ƣớc lƣợng độ chính xác đó. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra
với các mẫu đã đƣợc gán nhãn lớp. Các mẫu này đƣợc chọn ngẫu nhiên và
độc lập với các mẫu trong tập dữ liệu đào tạo. Độ chính xác của mơ hình
trên tập dữ liệu kiểm tra đã đƣa là tỉ lệ phần trăm các các mẫu trong tập dữ
liệu kiểm tra đƣợc mơ hình phân lớp đúng (so với thực tế). Nếu độ chính
xác của mơ hình đƣợc ƣớc lƣợng dựa trên tập dữ liệu đào tạo thì kết quả
thu đƣợc là rất khả quan vì mơ hình ln có xu hƣớng “quá vừa” dữ liệu.
Quá vừa dữ liệu là hiện tƣợng kết quả phân lớp trùng khít với dữ liệu thực
tế vì q trình xây dựng mơ hình phân lớp từ tập dữ liệu đào tạo có thể đã
kết hợp những đặc điểm riêng biệt của tập dữ liệu đó. Do vậy, cần sử dụng
một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo.



14

Hình 1.4 Ước lượng độ chính xác
Nếu độ chính xác của mơ hình là chấp nhận đƣợc, thì mơ hình đƣợc
sử dụng để phân lớp những dữ liệu tƣơng lai, hoặc những dữ liệu mà giá
trị của thuộc tính phân lớp là chƣa biết.

Hình1.5 Phân lớp dữ liệu mới
Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trị trung tâm,
quyết định tới sự thành cơng của mơ hình phân lớp. Do vậy chìa khóa của
vấn đề phân lớp dữ liệu là tìm ra đƣợc một thuật tốn phân lớp nhanh,
hiệu quả, có độ chính xác cao và có khả năng mở rộng đƣợc. Trong đó
khả năng mở rộng đƣợc của thuật toán đƣợc đặc biệt chú trọng và phát
triển.


15

1.2.3 Đánh giá độ chính xác của mơ hình phân lớn
Ƣớc lƣợng độ chính xác của bộ phân lớp là quan trọng vì nó cho
phép dự đốn đƣợc độ chính xác của các kết quả phân lớp những dữ liệu
tƣơng lai (chƣa biết). Độ chính xác cịn giúp so sánh các mơ hình phân lớp
khác nhau. Ở đây chỉ đề cập đến 2 phƣơng pháp đánh giá phổ biến là
holdout và kiểm tra chéo (k-fold cross-validation). Cả 2 kỹ thuật này đều
dựa trên các phân hoạch ngẫu nhiên tập dữ liệu ban đầu.
 Trong phƣơng pháp holdout, dữ liệu đƣa ra đƣợc phân chia ngẫu nhiên
thành 2 phần là: Tập dữ liệu đào tạo và tập dữ liệu kiểm tra. Thông thƣờng
2/3 dữ liệu cấp cho tập dữ liệu đào tạo, phần còn lại cho tập dữ liệu kiểm tra
Dữ liệu huấn luyện


Mơ hình phân lớp

Dữ liệu
Ƣớc tính chính xác

Dữ liệu kiểm tra

Hình 1.6 Ước lượng độ chính xác của mơ hình bằng phương pháp
holdout
 Trong phƣơng pháp k-fold cross validation tập dữ liệu ban đầu đƣợc
chia ngẫu nhiên thành k tập con (fold) có kích thƣớc xấp xỉ nhau S1, S2, …,
Sk. Quá trình học và test đƣợc thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ
liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu đào tạo. Có nghĩa là, đầu
tiên việc dạy đƣợc thực hiện trên các tập S2, S3 …, Sk, sau đó test trên tập S1;
tiếp tục q trình dạy đƣợc thực hiện trên tập S1, S3, S4,…, Sk, sau đó test trên
tập S2; và cứ thế tiếp tục. Độ chính xác là tồn bộ số phân lớp đúng từ k lần
lặp chia cho tổng số mẫu của tập dữ liệu ban đầu.


×