Tải bản đầy đủ (.pdf) (81 trang)

Luận văn thạc sĩ công nghệ thông tin khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (844.57 KB, 81 trang )





Trước tiên tôi xin được gửi lời cảm ơn chân thành tới Ban Giám hiệu
nhà trường, Phòng sau đại học, các thầy cô giáo trong khoa Công nghệ thông
tin, trường đại học Lạc Hồng đã tạo điều kiện và môi trường học tốt nhất.
Các Giáo sư – Tiến sĩ đã tâm quyết không ngại đường xá xa, đến để truyền
đạt cho chúng tôi nguồn kiến thức vô cùng quý báu, cũng như cách học tập và
nghiên cứu khoa học.
Tôi xin chân thành cám ơn Ban Giám Đốc Bệnh viện Nhi Đồng –
Đồng Nai, TS.BS Nguyễn Trọng Nơi Phó Giám Đốc, BS.CKI Nguyễn Quang
Hinh Trưởng phòng Kế Hoạch Tổng Hợp, BS.CKI Nguyễn Văn Giai Trưởng
khoa Nhiễm, THs.BS Chu Văn Thiện trưởng khoa Hối sức tích cực chống độc
bệnh viện Nhi Đồng – Đồng Nai đã tư vấn và giúp đỡ tôi một cách chân
thành trong quá trình thực hiện nghiên cứu khoa học.
Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới Thầy giáo PGS. TS
Đặng Trần Khánh. Thầy đã hướng dẫn và định hướng, giúp tôi hoàn thành
tốt đề tài nghiên cứu khoa học này.
Trong quá trình thực hiện luận văn, tôi đã nhận được sự giúp đỡ của
các chuyên gia bác sĩ tại bệnh viện Nhi Đồng – Đồng Nai, của các bạn bè
trong ngành Công nghệ thông tin, đặc biệt là sự nghiêm khắc giáo huấn của
thầy Đặng Trần Khánh. Mặc dù rất cố gắng nhưng không thể tránh khỏi
những thiếu sót trong lúc thực hiện, tôi rất mong đón nhận những đóng góp ý
kiến từ bạn bè, thầy cô và các chuyên gia.
Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tôi
hoàn thành nghiên cứu khoa học này.



Tác



gi


Trương Minh Văn

LỜI CẢM ƠN
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất
phát từ yêu cầu thực tế tại bệnh viện. Số liệu nghiên cứu có nguồn gốc rõ
ràng, trung thực, được thu thập từ những hồ sơ bệnh án, đang lưu trữ tại kho
lưu trữ hồ sơ bệnh án tại bệnh viện Nhi Đồng – Đồng Nai. Trong quá trình
nghiên cứu, tôi được sự hỗ trợ của cấp lãnh đạo và dữ liệu thu thập trong quá
trình nghiên cứu được thực hiện đúng theo quy chế của bệnh viện.
Tác giả

Trương Minh Văn



MỤC LỤC
TRANG PHỤ BÌA
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH SÁCH BẢNG

DANH SÁCH HÌNH VẼ


LỜI MỞ ĐẦU 1

CHƯƠNG I: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 5

1.1

KHAI

PHÁ

DỮ

LIỆU



GÌ? 5

1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu 5

1.1.2 Một số định nghĩa về khai phá dữ liệu 6

1.2

TẠI

SAO

PHẢI


KHAI

PHÁ

DỮ

LIỆU? 8

1.2.1 Tại sao phải khai phá dữ liệu? 8

1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào? 10

1.2.3 Ứng dụng của khai phá dữ liệu 10

1.3

QUY

TRÌNH



PHƯƠNG

PHÁP

KHAI

PHÁ


DỮ

LIỆU 11

1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá tri
thức 11

1.3.2 Một số phương pháp khai phá dữ liệu 13

1.4

CHỨC

NĂNG

CHÍNH

CỦA

KHAI

PHÁ

DỮ

LIỆU 14

1.4.1 Mô tả (Descriptive) 14

1.4.2 Dự đoán (Predictive) 14


1.5

MỘT

SỐ

KỸ

THUẬT

KHAI

PHÁ

DỮ

LIỆU

THÔNG

DỤNG 15

1.5.1 Phân lớp dữ liệu 15

1.5.2 Phân cụm dữ liệu 15

1.5.3 Khai phá luật kết hợp 15

1.5.4 Hồi quy 15


1.5.5 Giải thuật di truyền 16

1.5.6 Mạng nơ-ron (neural network) 16

1.5.7 Cây quyết định 16

1.6

MỘT

SỐ

THÁCH

THỨC

TRONG

KHAI

PHÁ

DỮ

LIỆU



KHÁM


PHÁ

TRI

THỨC 17

1.7

KẾT

CHƯƠNG 17

CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG
DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA 19

2.1

GIỚI

THIỆU

VỀ

KHAI

PHÁ

DỮ


LIỆU



CANH

TÁC

DỮ

LIỆU 19

2.1.1 Khái niệm 19

2.1.2 Mục đích và phương pháp luận của canh tác dữ liệu 20

2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu 21

2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu 25

2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu. 27

2.1.6 Quy trình canh tác dữ liệu 28

2.1.7 Phương pháp canh tác dữ liệu đánh giá đặc tính 30

2.1.7.1 Đặc tính chung của dữ liệu 30

2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu 30


2.2

ỨNG

DỤNG

CANH

TÁC

DỮ

LIỆU

TRONG

KHAI

PHÁ

DỮ

LIỆU

Y

KHOA 31

2.2.1 Vai trò của diều dưỡng, bác sĩ trong canh tác dữ liệu y khoa 31


2.2.2 Tập dữ liệu y khoa 32

2.2.3 Phương pháp giải quyết 32

2.2.3.1 Phương pháp giải quyết công việc 1 32

2.2.3.2 Phương pháp giải quyết công việc 2 33

2.2.3.3 Phương pháp giải quyết công việc 3 33

2.3

ỨNG

DỤNG

CANH

TÁC

DỮ

LIỆU

TRONG

KHAI

PHÁ


DỮ

LIỆU

BỆNH

SỐT

XUẤT

HUYẾT 33

2.3 .1 Tập thuộc tính ban đầu 33

2.3 .1.1 Thông tin hành chính 33

2.3.1.2 Triệu chứng lâm sàng 34

2.3 .1.3 Cận lâm sàng 34

2.3 .1.4 Tình trạng đến khám và nhập viện 34

2.3.2 Phương pháp giải quyết 34

2.3.2.1 Phương pháp giải quyết công việc 1 34

2.3.2.2 Phương pháp giải quyết công việc 2 35

2.3.2.3 Phương pháp giải quyết công việc 3 35


2.3.3 Tập thuộc tính sau khi canh tác dữ liệu 35

2.4

KẾT

CHƯƠNG 36

CHƯƠNGII: KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 37

3.1

CÂY

QUYẾT

ĐỊNH 37

3.1.1 Khái niệm 37

3.1.2 Biểu diễn cây quyết định 38

3.1.3 Các bước chính xây dựng cây quyết định 39

3.1.4 Cây quyết định so với kỹ thuật khai phá khác 40

3.1.4.1 Một số ưu điểm của cây quyết định 40

3.1.4.2 Một số điểm yếu của cây quyết định 42


3.2

MỘT

SỐ

THUẬT

TOÁN

KPDL

BẰNG

CÂY

QUYẾT

ĐỊNH 43

3.2.1 Thuật toán ID3 43

3.2.1.1 Lịch sử phát triển 43

3.2.1.2 Mã giã giải thuật ID3 44

3.2.1.4 Lựa chọn thuộc tính kiểm tra 44

3.2.1.5 Một vài ưu khuyết điểm của thuật toán ID3 49


3.2.2 Thuật toán C4.5 49

3.2.2.1 Lịch sử phát triển 49

3.2.2.2 Mã giã của thuật toán C4.5 50

3.2.2.3 Một số cải tiến của thuật toán C4.5 52

3.2.3. Thuật toán SPRINT 54

3.2.3.1 Lịch sử phát triển 54

3.2.3.2 Mã giã của thuật toán SPRINT 55

3.2.3.3. SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập
dữ liệu “tốt nhất” 56

3.3

KẾT

CHƯƠNG 57

CHƯƠNG IV: XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC
NGHIỆM 60

4.1

MỤC


TIÊU 60

4.2

ĐỐI

TƯỢNG



PHẠM

VI 60

4.3

PHƯƠNG

PHÁP

GIẢI

QUYẾT 60

4.4

QUY

TRÌNH


XÂY

DỰNG

HỆ

THỐNG 60

4.4.1 Tìm hiểu nghiệp vụ của bài toán 60

4.4.2 Thu thập dữ liệu 61

4.4.2.1 Nguyên tắc chọn lựa thuộc tính khai phá 61

4.4.2.2 Tiến hành thu thập dữ liệu 61

4.4.2.3 Xử lý dữ liệu-chuyển đổi dữ liệu 62

4.4.3 Chọn lựa kỹ thuật khai phá 63

4.4.4 Xây dựng chương trình 63

4.4.4.1 Dữ liệu đầu vào 63

4.4.4.2 Mô tả dữ liệu đầu vào 63

4.4.4.3 Dữ liệu đầu ra 64

4.4.4.4 Sử dụng thuật toán cho bài toán 64


4.4.4.5 Ngôn ngữ phát triển và cơ sở dữ liệu sử dụng 64

4.5

THỰC

NGHIỆM 64

4.5.1 Dữ liệu và chương trình thực nghiệm 64

4.5.1.1 Dữ liệu thực nghiệm 64

4.5.1.2 Hướng dẫn sử dụng hệ thống 65

4.6

KẾT

QUẢ

THỰC

NGHIỆM 67

4.7

NHẬN

XÉT


KẾT

QUẢ

THỰC

NGHIỆM 67

CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69

5.1

KẾT

LUẬN 69

5.1.1 Kết quả đạt được 69

5.1.1.1 Lý thuyết 69

5.1.1.2 Thực nghiệm 70

5.1.2 Kết quả chưa đạt được 70

5.2

HƯỚNG

PHÁT


TRIỂN 71

5.2.1 Lý thuyết 71

5.2.2 Thực hành 71

TÀI LIỆU THAM KHẢO
PHỤ LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT
CLS Cận lâm sàng.
CSDL Cơ sở dữ liệu.
CTDL Canh tác dữ liệu.
DL Dữ liệu.
DM Data Mining.
HSBA Hồ sơ bệnh án.
ICD10 Danh mục bệnh quốc tế
KDD Knowledge Discovery in Databaes.
KHTH Kế Hoạch Tổng Hợp.
KPDL Khai phá dữ liệu.
LS Lâm sàng.
NSV Nhiễm siêu vi.
NTV Nhà tư vấn.
SXH Sốt xuất huyết .
SXHD Sốt xuất huyết Dengue.
SXHD-CB Sốt xuất huyết Dengue cảnh báo.
SXHD-VS Sốt xuất huyết Dengue vào sốc.
WHO Tổ chức Y tế thế giới.
DANH SÁCH BẢNG

Bảng 2.1 So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu 19

Bảng 3.1 Tập dữ liệu huấn luyện cho khái niệm mục tiêu Play tennis 45
Bảng 4.1 Bảng kết quả thực nghiệm của hệ thống 71

DANH SÁCH HÌNH VẼ


Hình 1.1 Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu 5
Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu 7
Hình 1.3 Chúng ta đang giàu dữ liệu nhưng nghèo tri thức 9
Hình 1.4 Biễu diễn chức năng chính của khai phá dữ liệu
14
Hình 2.1 Quá trình khám phá tri thức và khai phá dữ liệu
23
Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức
24
Hình 2.3 So sánh khai phá dữ liệu có và không có canh tác dữ liệu 26
Hình 3.1 Biễu diễn cây quyết định cơ bản
37
Hình 3.2 Cây quyết định cho việc chơi Tennis
38
Hình 3.3 Tạo Node gốc Outlook
48
Hình 3.4 Thuộc tính kiểm tra cho con kế node gốc
48
Hình 4.1 Đơn xin mượn hồ sơ bệnh án nghiên cứu khoa học
62
Hình 4.2 Giao diện chính hệ thống chương trình 65

Hình 4.3 Màn hình hiển thị dữ liệu tập huấn 65


Hình 4.4 Hiển thị cây quyết định dạng treeview 66

Hình 4.5 Màn hành giao diện chẩn đoán
66
1
LỜI MỞ ĐẦU
1/Tính cấp thiết của đề tài
Tình hình bệnh sốt xuất huyết (SXH) trên thới giới
Tỉ lệ mắc bệnh SXH trên toàn thế giới đang gia tăng mạnh mẽ trong
những năm gần đây. Theo Tổ chức Y tế thế giới (WHO), trong vòng 10 năm
gần đây, bệnh sốt SXH hay còn gọi sốt Dengue (SD)/ sốt xuất huyết Dengue
(SXHD) trở nên trầm trọng, có trên 100 nước ở châu Phi, châu Mỹ, vùng
Ðông Ðịa Trung Hải, các nước Ðông Nam á và Tây Thái Bình Dương đều
báo cáo có bệnh này. Trong vòng 9 năm từ 1990 đến 1998, số trường hợp
trung bình hằng năm mắc SD/SXHD khoảng 514.139.000 người. Đông Nam
Á và Tây Thái Bình Dương là khu vực chịu ảnh hưởng nặng nề nhất. Do sự
phát triển dân cư và đô thị hóa tạo điều kiện cho muỗi Aedes aegypti
[pl3]
, dịch
xuất hiện thường xuyên và tăng nhanh, đến nay, Sốt xuất huyết đã trở thành
bệnh lưu hành. Trong đó, Malaysia, Singapore, Đài Loan, Thái Lan và Việt
Nam có tỉ lệ tử vong trung bình khoảng 0,5%.
Tình hình bệnh sốt xuất huyết tại Việt Nam
Theo thống kê báo cáo của Bộ Y tế Việt Nam, tình hình bệnh sốt xuất huyết
diễn ra phức tạp, tỉ lệ mắc bệnh và tử vong còn rất cao
[pl3]
. Trong 6 tháng
đầu năm 2012 cả nước có 26.000 ca bị mắc bệnh SXH, số tử vong 30 ca
trong đó TPHCM 6 ca, bệnh viện Nhi Đồng – Đồng Nai 7 ca.[báo cáo giao
ban tại bệnh viện Nhi Đồng – Đồng Nai, tháng 7/2012]

Bệnh SD/SXHD trở thành một bệnh dịch lưu hành ở nước ta. Bệnh không
chỉ xuất hiện ở đô thị mà cả vùng nông thôn, nơi có muỗi vectơ truyền bệnh.
Dịch lớn SD/SXHD bùng nổ theo chu kỳ khoảng 3-5 năm. Năm 1998, trên
toàn quốc bùng nổ vụ dịch lớn, số mắc bệnh và tử vong cao (mắc: 234.920
người, tử vong 377
[2]
)

[pl3]

Tham khảo phụ lục 3

[pl3]
Tham khảo phụ lục 3
2
Bệnh SXHD là bệnh truyền nhiễm gây dịch do virus Dengue gây nên.
Virus Dengue có 4 týp huyết thanh là DEN -1, DEN -2, DEN -3, DEN -4.
Virus truyền từ người bệnh sang người lành do muỗi đốt. Muỗi Aedes aegypti
là côn trùng trung gian truyền bệnh chủ yếu. Đặc điểm của SXH D là sốt, xuất
huyết và thoát huyết tương, có thể dẫn đến sốc giảm thể tích tuần hoàn và rối
loạn đông máu, nếu không được chẩn đoán sớm và xử trí kịp thời dễ dẫn đến
tử vong .
Công việc chẩn đoán SXH tương đối dễ dàng nhờ phác đồ hướng dẫn
của Tổ chức Y tế thế giới (WHO) năm 1997 và phát đồ điều trị bệnh SXH của
Bộ Y tế Việt Nam
[2],
nhưng để dự đoán một bệnh nhân sốt xuất huyết Dengue
vào sốc (SXHD-VS) thì còn nhiều khó khăn trong thực tế lâm sàng. Do đó
vẫn còn bệnh nhân tử vong cao, cũng như chi phí điều trị cao cho những bệnh
nhân vào sốc, đây là bài toán nan giải cho Y tế cộng đồng nói chung và tại

bệnh viện Nhi Đồng – Đồng Nai nói riêng.
2/Tính thực tiễn của đề tài
Y học là môn khoa học không ngừng phát triển. Tiếp cận và cập nhật hóa
thông tin y học chứng cớ
[pl1]
và y học thực chứng
[pl2]
từ những cơ sở dữ liệu,
để nâng cao chất lượng chăm sóc sức khỏe cho nhân dân là điều không thể
thiếu trong thực hành lâm sàng. Với sự phát triển mạnh mẽ của ngành Công
Nghệ Thông Tin (CNTT), một trong những ngành mũi nhọn của nhiều quốc
gia trên thới giới. Sự phát triển vượt bậc đó là kết quả tất yếu của việc ứng
dụng của nó trong nhiều lĩnh vực khác nhau trong cuộc sống như: Giáo dục,
Y tế, Kinh tế, Khoa học, Xây dựng nó đã trở thành một phần không thể thiếu
được trong cuộc sống hàng ngày của con người. Trong kỷ nguyên bùng nổ
thông tin, việc áp dụng các phương pháp tìm kiếm thông tin từ những nguồn
dữ liệu khác nhau là nhu cầu thiết thực cho toàn xã hội. Trong các phương

[pl1]
Tham khảo phụ lục 1
[pl2]

Tham khảo phụ lục 2

3
pháp tìm kiếm thông tin đó, khai phá dữ liệu để tìm ra tri thức, phục vụ đời
sống xã hội là một phương pháp mới, đang được các nhà nghiên cứu khoa học
quan tâm. Tuy nhiên, khai phá dữ liệu trong lĩnh vực y khoa ở nước ta quả
thật còn rất ít, gặp nhiều khó khăn, do hiện nay nhiều bệnh viện ở nước ta
chưa có bệnh án điện tử. Việc khai phá trong lĩnh vực này thực sự mang lại

nhiều ý nghĩa cho y học chứng cớ và y học thực chứng, để hỗ trợ cho các bác
sĩ, chẩn đoán bệnh sớm và điều trị bệnh có hiệu quả, giảm bớt tử vong cũng
như chi phí điều trị, đây là một nhu cầu thiết thực trong các bệnh viện.
Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Khai phá dữ
liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa” để
nghiên cứu cho luận văn thạc sĩ của mình.
3/Mục đích và ý nghĩa nghiên cứu
- Giới thiệu về phương pháp khai phá dữ liệu có sử dụng tri thức chuyên gia
(lĩnh vực có liên quan) trong quá trình chọn lựa thuộc tính nhằm các mục
đích sau:
- Giảm bớt thuộc tính nhiễu, dư thừa trong khai phá dữ liệu.
- Giảm bớt thời gian và chi phí khai phá dữ liệu, giúp các thuật toán khai
phá dữ liệu chạy nhanh và chính xác hơn, từ đó các luật sinh ra trong quá
trình khai phá cũng tốt hơn. Giá trị chẩn đoán từ các luật cũng có độ tin
cậy cao hơn.
- Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán
C4.5, tạo ra các luật, thông qua kiểm nghiệm thực tiễn, hỗ trợ bác sĩ chẩn
đoán và điều trị bệnh.
Với mục đích đặt ra cho đề tài nêu trên, việc nghiên cứu thực sự có ý
nghĩa rất to lớn cho nền y học, tạo ra các y học chứng cớ và y học thực chứng,
cải cách chẩn đoán, tạo công cụ hỗ trợ đắc lực trong quá trình chẩn đoán bệnh
(trong luận văn này nghiên cứu hỗ trợ chẩn đoán bệnh SXH), nhằm giảm
thiểu tử vong và giảm chi phí điều trị cho bệnh nhân.
4
Kỳ vọng của đề tài là giải pháp hỗ trợ, mong được áp dụng tại bệnh
viện Nhi Đồng – Đồng Nai, cũng như những bệnh viện tuyến huyện, thiếu
chuyên gia bác sĩ giỏi, nhằm hướng cải cách chẩn đoán và điều trị bệnh nhân,
cụ thể là bệnh SXHD
4/Đối tượng và phạm vi nghiên cứu
Gồm các hồ sơ bệnh án lưu trữ bằng giấy, thuộc đối tượng trẻ em từ 0

tuổi đến 15 tuổi, được chẩn đoán SXH theo tiêu chuẩn WHO 1997 và Bộ Y
Tế Việt Nam
[2]
, đã nhập viện và điều trị tại bệnh viện Nhi Đồng – Đồng Nai
từ năm 2009 đến năm 2012.
5/Phương pháp nghiên cứu
- Phương pháp nghiên cứu hồi cứu
[5]

- Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác
sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ
liệu y khoa.
- Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật
toán C4.5.
6/Kết cấu luận văn
Luận văn gồm 5 chương: Ngoài phần mở đầu, tham khảo, phụ lục.
- Chương I: Cơ sở lý thuyết về khai phá dữ liệu.
- Chương II : Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong
khai phá dữ liệu y khoa.
- Chương III: Kỹ thuật khai phá dữ liệu bằng cây quyết định.
- Chương IV: Xây dựng hệ thống chương trình hỗ trợ chẩn đoán bệnh
SXH và thực nghiệm.
- Chương V: Kết luận và hướng phát triển.
5
Chương I
CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU

1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ?
1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu
Khám phá tri thức trong các cơ sở dữ liệu (Knowledge Discovery in

Database-KDD) là một qui trình nhận biết các mẫu hoặc các mô hình trong
dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.
Khai phá dữ liệu (Data Mining-DM)
[6]
là một khái niệm ra đời vào
những năm cuối của thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm
một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong
các tập dữ liệu lớn. Thuật ngữ này thực sự là một cái tên nhầm lẫn. Hãy nhớ
rằng việc khai thác vàng từ đá hoặc cát được gọi là khai thác vàng chứ không
phải là khai thác đá, cát. Như vậy, khai phá dữ liệu (KPDL) nên được đặt tên
thích hợp hơn là “khai thác kiến thức từ dữ liệu”.Tuy nhiên, “khai phá dữ
liệu” vẫn được dùng cách phổ biến. Hình 1.1 minh họa đơn giản và trực quan
cho khái niệm này
.










Hình 1-1: Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu
6
Khái niệm KDD và KPDL được các nhà khoa học xem là tương đương
nhau. Tuy nhưng, nếu phân chia một cách rành mạch và chi tiết thì KPDL là
một bước chính trong quá trình KDD.
Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành

như: Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL,
thuật toán, trí tuệ nhân tạo, tính toán song song và hiệu năng cao. Các kỹ
thuật chính áp dụng trong khám phá tri thức phần lớn được thừa kế từ các
ngành này.
1.1.2 Một số định nghĩa về khai phá dữ liệu
Sau đây là một số định nghĩa khác nhau về KPDL:
Định nghĩa của Giáo sư Tom Mitchell: “Khai phá dữ liệu là việc sử dụng
dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định
trong tương lai.”
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp
được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối
quan hệ và các mẫu chưa biết bên trong dữ liệu”
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong
CSDL lớn”
Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát
biểu:”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các
cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa
biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.”
Còn các nhà Thống kê thì xem "Khai phá dữ liệu như là một quá trình
phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát
hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa
các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng
các mẫu đã phát hiện được cho tập con mới của dữ liệu".
7
Tuy nhiên trên thực tế, KPDL được xem là một bước thiết yếu trong
quá trình khám phá tri thức trong CSDL bao gồm các thụât toán KPDL
chuyên dùng, dưới một số quy định về hiệu quả tính toán chấp nhận được, để
tìm ra các mẫu hoặc các mô hình trong dữ liệu. Quá trình này được mô tả

trong hình 1.2 và bao gồm một chuỗi lặp đi lặp lại các bước sau
[6]
:
• Làm sạch dữ liệu (loại bỏ dữ liệu nhiễu và dữ liệu không phù hợp).
• Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể được kết hợp).
• Lựa chọn dữ liệu (nơi mà các dữ liệu liên quan đến công việc phân tích
được lấy từ cơ sở dữ liệu).
• Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi, hợp nhất thành các
hình thức thích hợp để khai thác bằng cách thực hiện các hoạt động tóm
tắt hoặc tập hợp).
• Khai phá dữ liệu (một quá trình cần thiết mà các phương pháp thông
minh được áp dụng để trích xuất mẫu dữ liệu).
• Đánh giá mẫu (xác định các mô hình thực sự quan tâm đại diện cho
kiến thức dựa trên một vài đo lường lưu tâm).
• Biểu diễn tri thức (nơi kỹ thuật biểu diễn tri thức và sự hình dung được
sử dụng để trình bày các tri thức được khai thác đến người dùng).

Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu
8
1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU?
1.2.1 Tại sao phải khai phá dữ liệu?
Trong thời đại ngày nay, việc nắm bắt được thông tin được coi là chìa
khóa của thành công. Ai thu thập, phân tích và hiểu được thông tin và hành
động được nhờ vào những thông tin đó là kẻ thắng cuộc. Chính vì vậy, việc
tạo ra thông tin và mức tiêu thụ thông tin ngày nay ngày càng gia tăng. Cùng
với sự phát triển vượt bậc của CNTT và việc ứng dụng CNTT trong nhiều
lĩnh vực khác nhau trong nhiều năm qua cũng đồng hành với lượng dữ liệu
lưu trữ ngày một nhiều lên. Những dữ liệu này thường ẩn chứa những giá trị
nhất định nào đó. Tuy nhiên, Trong thực tế thì chỉ có một ít dữ liệu là được
phân tích (cụ thể là hồ sơ bệnh án trong các bệnh viện), số còn lại họ không

biết sẽ phải làm gì, nhưng họ vẫn tiếp tục thu thập rất tốn kém, với ý nghĩ lo
sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến (có thể
chứng minh quan trọng trong tương lai). Tuy nhiên, thực tế đã chứng minh,
dữ liệu (DL) là một thứ gì đó vô giá chỉ có con người chưa khám phá ra hết
những giá trị của nó. Sau đây là một số chuyên gia nhận định về giá trị DL
lưu trữ như sau:
 Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998
“Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu
học, dữ liệu tài chính, và các dữ liệu tiếp thị. Con người không có đủ thời
gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn
tài nguyên quý giá.
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân
loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong
nó, và tự động chỉ dẫn các dị thường.
Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng
đồng nghiên cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm
thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh
9
vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những
tiến bộ phi thường trong vài thập kỷ gần đây”.
 Kenneth Cukier:
“Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo
nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được:
nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …
Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các
nguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và
tạo ra lợi ích từ quản lý”.
Chính vì vậy, đúng như John Naisbett nhận định, hiện nay chúng ta
đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”.
Lượng DL khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị bởi

thông tin là yếu tố then chốt để phục vụ cho mọi nhu cầu thiết thực trong hoạt
động hàng ngày của chúng ta. Vậy chúng ta làm gì với một khối DL này.
Hình 1.3 thể hiện sự băng khoăn đó.


“Necessity is the mother of invention” - Data Mining ra đời như một
hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa
về Data Mining đã được trình bày ở trên. Data Mining được xem như là một
Hình 1.3. Chúng ta đang giàu dữ liệu nhưng nghèo tri thức

[6]

10
công nghệ tri thức, giúp khai thác những thông tin hữu ích từ những kho DL,
được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó.
1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào?
Khai phá dữ liệu

được áp dụng trên nhiều loại DL khác nhau. Về nguyên
tắc, KPDL được áp dụng đối với bất kỳ loại DL lưu trữ nào, cũng như các DL
tạm thời
[6]
. Do đó, phạm vi DL của chúng ta sẽ bao gồm các CSDL quan
hệ(Relational Databases), kho dữ liệu (DataWarehouses), CSDL giao
dịch(Transactional Databases), hệ thống CSDL nâng cao(Advanced Data and
Information Systems), DL dòng (Stream data), World Wide Web …
Hệ thống CSDL nâng cao bao gồm các đối tượng CSDL quan hệ và
CSDL có tính định hướng theo ứng dụng cụ thể, chẳng hạn như CSDL đa
truyền thông, CSDL đa chiều, CSDL chuỗi thời gian, CSDL văn bản Những
thách thức và kỹ thuật KPDL có thể khác nhau cho mỗi hệ thống lưu trữ.

1.2.3 Ứng dụng của khai phá dữ liệu
KPDL được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực
khác nhau. Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành
đòi hỏi kỹ thuật cao như : Tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng
hóc trong các hệ thống sản xuất; Được ứng dụng cho việc quy hoạch và phát
triển các hệ thống quản lý và sản xuất trong thực tế như: Dự đoán tái sử dụng
điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng; Áp dụng cho các vấn
đề xã hội như: Phát hiện tội phạm, tăng cường an ninh, trong y khoa chẩn
đoán bệnh… Một số ứng dụng cụ thể như sau:
- KPDL được sử dụng để phân tích DL, hỗ trợ ra quyết định.
- Trong sinh học: nó dùng để tìm kiếm , so sánh các hệ gen và thông
tin di chuyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số
bệnh di chuyền
- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng
lâm sàng, chẩn đoán bệnh.
11
- Tài chính và thị trường chứng khoán: KPDL để phân tích tình hình
tài chính, phân tích đầu tư, phân tích cổ phiếu.
- KPDL web.
- Trong thông tin kỹ thuật: KPDL dùng để phân tích các sai hỏng,
điều khiển và lập lịch trình.
- Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng,
phân tích dữ liệu marketing, phân tích đầu tư, phát hiện các gian lận.
1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá
tri thức
quá trình KDD gồm các bước sau:
(1) Xác định chính xác vấn đề cần giải quyết sau đó tìm hiểu nghiệp vụ
và dữ liệu cho vấn đề cần giải quyết.
(2) Chuẩn bị dữ liệu, thu thập dữ liệu.

(3) Tiền xử lý dữ liệu.
(4) Lựa chọn chức năng KPDL
(5) Lựa chọn giải thuật KPDL phù hợp.
(6) Tiến hành KPDL
(7) Hậu xử lý và đánh giá mô hình
(8) Triển khai tri thức
Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa
trên phản hồi từ kết quả của các giai đoạn sau. Tham gia chính trong quá trình
KPDL là các nhà tư vấn (NTV) và nhà phát triển chuyên nghiệp trong lĩnh
vực KPDL.
(1) Xác định chính xác vấn đề cần giải quyết và tìm hiểu nghiệp vụ và
dữ liệu: Xác định chính xác vấn đề cần giải quyết (xác định và hình
thành bài toán của ứng dụng) sau đó nghiên cứu kiến thức về lĩnh vực
sẽ áp dụng, bao gồm các tri thức, cấu trúc về hệ thống và tri thức, các
12
nguồn DL hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực
tể DL. Xác định các nhiệm vụ cần phải hoàn thành. Bước này sẽ
quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn
các phương pháp KPDL thích hợp với mục đích ứng dụng và bản chất
của DL.
(2) Chuẩn bị dữ liệu và thu thập: Chuẩn bị và thu thập DL phù hợp với
mục đích đề ra.
(3) Tiền xử lý dữ liệu: Là thu thập và xử lý thô, hay còn được gọi là tiền
xử lý DL bước này gồm một số công việc sau:
- Làm sạch DL: Loại bỏ DL nhiễu, DL dư thừa không phù hợp.
- Làm giàu DL: Các DL bị thiếu/mất sẽ được thay thế bởi các giá trị
thích hợp.
- Làm giảm chiều: Các thuộc tính chứa ít thông tin sẽ được loại bỏ
bớt.
- Biến đổi DL và rút gọn DL nếu cần thiết: bước này thường chiếm

nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do
DL được lấy từ nhiều nguồn khác nhau, không đồng nhất, có thể gây
ra các nhầm lẫn. Sau bước này, DL sẽ nhất quán, đầy đủ, được rút
gọn và rời rạc hoá.
Mục đích của bước này là xử lý DL sao cho giải thuật khai phá hiểu
được.
(4) Lựa chọn chức năng khai phá dữ liệu: Tóm tắt hóa (summarization),
phân loại/phân lớp, hồi quy/dự đoán, kết hợp, phân cụm.
(5) Lựa chọn giải thuật khai phá dữ liệu: Trong giai đoạn này, chọn
thuật toán KPDL thích hợp cho ứng dụng. Đây là một công việc
không kém phần quan trọng. Một ứng dụng chạy tốt, kết quả chính
xác là nhờ thuật toán hiệu quả.
(6) Khai phá dữ liệu, rút ra các tri thức: Là KPDL hay nói cách khác là
trích ra các mẫu hoặc/và các mô hình ẩn dưới các DL. Giai đoạn này
13
rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và
mục đích của KPDL, dùng phương pháp khai phá nào? Thông
thường, các bài toán KPDL bao gồm: Các bài toán mang tính mô tả -
đưa ra tính chất chung nhất của DL, các bài toán dự báo bao gồm cả
việc phát hiện các suy diễn dựa trên dữ liệu hiện có. Tùy theo bài toán
xác định được mà ta lựa chọn các phương pháp KPDL cho phù hợp.
(7) Hậu xử lý và đánh giá mẫu mô hình: Hiển thị hóa, chuyển đổi, bỏ đi
các mẫu dư thừa. Trong bước này có thể tư vấn các chuyên gia để loại
bỏ những mô hình dư thừa, không hợp với ứng dụng là rất cần thiết.
(8) Triển khai tri thức là sử dụng các tri thức phát hiện được: Là hiểu
tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán.
Các quy trình trên có thể lặp đi lặp lại một số lần, kết quả thu được có
thể được lấy trung bình trên tất cả các lần thực hiện. Các kết quả của
quá trình phát hiện tri thức có thể được đưa và ứng dụng trong các
lĩnh vực khác nhau. Do các kết quả có thể là các dự đoán hoặc các mô

tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định
nhằm tự động hoá quá trình này.
1.3.2 Một số phương pháp khai phá dữ liệu
KPDL là lĩnh vực liên ngành mà con người luôn tìm cách đạt được mục
đích sử dụng thông tin của mình. Quá trình KPDL là quá trình phát hiện mẫu,
trong đó phương pháp KPDL để tìm kiếm các mẫu đáng quan tâm theo dạng
xác định. Có thể kể ra đây một vài phương pháp như:
- Phương pháp sinh cây quyết định và luật (đây là phương pháp được
sử dụng trong luận văn này sẽ được trình bày kỹ trong chương III).
- Sử dụng công cụ truy vấn.
- Dựa theo khoảng cách (K-láng giềng gần).
- Các mạng nơ-ron(neural network)
- Các mạng xác xuất Bayes.
- Các thuật toán di truyền.
14
- Luật suy diễn.
- Trực quan hóa dữ liệu.
- Phát hiện luật kết hợp, …
1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU
Khai phá dữ gồm hai chức năng chính sau đây: Mô tả và dự đoán
1.4.1 Mô tả (Descriptive)
Có nhiệm vụ mô tả các tính chất hoặc các đặc tính chung của DL trong
CSDL hiện có. Một số kỹ thuật khai phá trong nhóm này là: phân cụm dữ liệu
(Clustering), tổng hợp (Summarisation), trực quan hoá (Visualization), phân
tích sự phát triển và độ lệch (Evolution and deviation analyst)…
1.4.2 Dự đoán (Predictive)
Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên CSDL hiện
thời. Một số kỹ thuật khai phá trong nhóm này là: phân lớp (Classification),
hồi quy (Regression), cây quyết định (Decision tree), thống kê (statictics),
mạng nơron (neural network), luật kết hợp…



Hình 1.4: Biễu diễn chức năng chính của khai phá dữ liệu
15
1.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG
Trong thực tế có nhiều kỹ thuật KPDL khác nhau, nhằm thực hiện hai
chức năng chính: Mô tả và dự đoán. Một số kỹ thuật phổ biến thường được
sử dụng để KPDL hiện nay là:
1.5.1 Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ
liệu. Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân
lớp dữ liệu( mỗi mẫu 1 lớp). Mô hình được sử dụng để dự đoán nhãn lớp khi
mà độ chính xác của mô hình chấp nhận được.
1.5.2 Phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau
trong tập dữ liệu vào các cụm, sao cho các đối tượng thuộc cùng một lớp là
tương đồng.
1.5.3 Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ
giữa các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp
là tập luật kết hợp tìm được. Phương pháp khai phá luật kết hợp gồm có hai
bước:
Bước 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được xác
định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả
mãn độ hỗ trợ và độ tin cậy cực tiểu.
1.5.4 Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở
chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự
đoán các giá trị rời rạc.

×