Tải bản đầy đủ (.pdf) (96 trang)

Ứng dụng khai phá dữ liệu để xây dựng hệ thống chẩn đoán bệnh trầm cảm cho học sinh phổ thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 96 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

HOÀNG THỊ THANH HIỀN

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐỐN
BỆNH TRẦM CẢM CHO HỌC SINH PHỔ THƠNG

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

HOÀNG THỊ THANH HIỀN

ỨNG DỤNG KHAI PHÁ DỮ LIỆU
ĐỂ XÂY DỰNG HỆ THỐNG CHẨN ĐỐN
BỆNH TRẦM CẢM CHO HỌC SINH PHỔ THƠNG

Chun ngành : HỆ THỐNG THÔNG TIN
Mã số

: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH BÌNH



Đà Nẵng – Năm 2016


LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ cơng trình nào khác.
Tác giả

Hồng Thị Thanh Hiền


MỤC LỤC
MỞ ĐẦU .......................................................................................................... 1
1. Tính cấp thiết của đề tài ........................................................................ 1
2. Mục tiêu nghiên cứu và nhiệm vụ nghiên cứu ...................................... 2
3. Đối tượng và phạm vi nghiên cứu......................................................... 3
4. Phương pháp nghiên cứu ...................................................................... 3
5. Bố cục của luận văn .............................................................................. 4
CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ............................. 6
1.1. KHAI PHÁ DỮ LIỆU ................................................................................ 6
1.1.1. Định nghĩa ....................................................................................... 6
1.1.2. Quy trình KPDL .............................................................................. 7
1.1.3. Các kỹ thuật KPDL ......................................................................... 9
1.1.4. Những ứng dụng của KPDL ......................................................... 10
1.2. KPDL BẰNG KỸ THUẬT CÂY QUYẾT ĐỊNH .................................. 11
1.2.1. Giới thiệu ...................................................................................... 11
1.2.2. Cấu trúc DT ................................................................................... 13
1.2.3. Phương pháp xây dựng DT ........................................................... 13

1.2.4. Ưu điểm của DT ............................................................................ 14
1.2.5. Thuật toán ID3 .............................................................................. 15
1.2.6. Thuật toán C4.5 ............................................................................. 21
1.3. KPDL BẰNG KỸ THUẬT PHÂN CỤM ............................................... 30
1.3.1. Giới thiệu ...................................................................................... 30
1.3.2. Thuật toán K-Means...................................................................... 31
KẾT LUẬN CHƯƠNG 1................................................................................ 35
CHƯƠNG 2. NGHIÊN CỨU VÀ XỬ LÝ DỮ LIỆU VỀ BỆNH RỐI
LOẠN TRẦM CẢM ..................................................................................... 36
2.1. ĐẶC ĐIỂM TÂM SINH LÝ CỦA TUỔI VỊ THÀNH NIÊN ................ 36


2.2. KHÁI NIỆM VỀ BỆNH RỐI LOẠN TRẦM CẢM ............................... 37
2.3. THỰC TRẠNG BỆNH RỐI LOẠN TRẦM CẢM ................................. 38
2.4. ĐẶC ĐIỂM LÂM SÀNG CỦA BỆNH RỐI LOẠN TRẦM CẢM ........ 39
2.4.1. Đặc điểm lâm sàng chung ............................................................. 39
2.4.2. Đặc điểm rối loạn trầm cảm ở trẻ vị thành niên .......................... 41
2.5. CHẨN ĐOÁN BỆNH RỐI LOẠN TRẦM CẢM ................................... 43
2.6. CÁC YẾU TỐ LIÊN QUAN ĐẾN BỆNH RLTC ................................... 45
2.6.1. Yếu tố gia đình .............................................................................. 45
2.6.2. Yếu tố học đường .......................................................................... 45
2.6.3. Yếu tố xã hội ................................................................................. 45
2.7. THU THẬP VÀ XỬ LÝ DỮ LIỆU NGHIÊN CỨU BỆNH RLTC ....... 46
2.7.1. Thu thập dữ liệu ............................................................................ 46
2.7.2. Xử lý dữ liệu ................................................................................. 47
2.8. CÁC CÔNG CỤ XÂY DỰNG MÔ HÌNH KPDL .................................. 47
2.8.1. Hệ quản trị CSDL SQL Server 2014 ............................................ 47
2.8.2. Cơng cụ xây dựng mơ hình KPDL Business Intelligence ............ 48
2.9. KPDL VỚI MSSQL SERVER 2014 ANALYSIS SERVICES .............. 50
2.9.1. Giới thiệu ...................................................................................... 50

2.9.2. Môi trường phát triển ứng dụng .................................................... 51
2.9.3. Các thuật toán KPDL trong MSSQL Server 2014........................ 54
KẾT LUẬN CHƯƠNG 2................................................................................ 55
CHƯƠNG 3. XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH RỐI
LOẠN TRẦM CẢM DỰA TRÊN KHAI PHÁ DỮ LIỆU ........................ 56
3.1. XÂY DỰNG CSDL TRONG SQL SERVER ......................................... 56
3.1.1. Mô tả dữ liệu ................................................................................. 56
3.1.2. Bài toán chẩn đoán bệnh RLTC .................................................... 60
3.1.3. Lựa chọn giải thuật giải quyết bài toán. ........................................ 61


3.1.4. Xây dựng CSDL............................................................................ 62
3.2. ỨNG DỤNG KỸ THUẬT DT ĐỂ XÂY DỰNG MƠ HÌNH CHẨN
ĐỐN BỆNH RLTC ...................................................................................... 63
3.2.1. Dữ liệu u cầu cho việc xây dựng mơ hình DT .......................... 63
3.2.2. Những tham số được hỗ trợ trong thuật tốn DT ......................... 63
3.2.3. Xây dựng mơ hình KPDL và kết quả đạt được ............................ 64
3.2.4. Mức độ phụ thuộc của các dấu hiệu chẩn đoán bệnh RLTC ........ 69
3.2.5. Đánh giá mơ hình dự đốn ............................................................ 71
3.3. ỨNG DỤNG KỸ THUẬT PHÂN CỤM ĐỂ PHÂN TÍCH CÁC ĐẶC
TRƯNG CỦA BỆNH RLTC .......................................................................... 71
3.3.1. Dữ liệu yêu cầu cho việc xây dựng mơ hình phân cụm ................ 71
3.3.2. Xây dựng mơ hình phân cụm ........................................................ 72
3.3.3. Kết quả mơ hình phân cụm của bệnh RLTC. ............................... 73
3.4. XÂY DỰNG HỆ THỐNG CHẨN ĐOÁN BỆNH RỐI LOẠN TRẦM
CẢM ................................................................................................................ 76
KẾT LUẬN CHƯƠNG 3................................................................................ 79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI .......................... 80
TÀI LIỆU THAM KHẢO ............................................................................ 82
QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

PHỤ LỤC


DANH MỤC CÁC TỪ VIẾT TẮT
Ý nghĩa

Từ viết tắt
BN

Bệnh nhân

BI

Business Intelligence

CLS

Concept Learning System

CSDL

Cơ sở dữ liệu

DBMS

Database Management System (Hệ quản trị cơ sở dữ liệu)

DT

Decision Tree (Cây quyết định)


IG

Information Gain (Gia lượng thông tin)

KPDL

Khai phá dữ liệu

RLTC

Rối loạn trầm cảm

SSAS

Microsoft SQL Server 2012 Analysis Services

SQL

Structured Query Language


DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng

Trang


1.1.

Bảng dữ liệu chơi golf

17

1.2.

Ví dụ thuật tốn C4.5 dữ liệu chơi golf

25

1.3.

Ví dụ minh họa thuật tốn K-Means

32

2.1.

Các cơng cụ lập trình ứng dụng Data Mining

52

2.2.
3.1.
3.2.

Các thuật toán Data Mining trong MSSQL Server

2014
Cấu trúc dữ liệu chẩn đoán bệnh RLTC
Mức độ phụ thuộc của từng biểu hiện đối với bệnh
RLTC

54
56
70


DANH MỤC CÁC HÌNH VẼ
Số hiệu

Tên hình

hình

Trang

1.1.

Quy trình KPDL

8

1.2.

Biểu diễn DT cơ bản

12


1.3.

Cây quyết định chơi golf từ thuật toán ID3

20

1.4.

Cây quyết định chơi golf từ thuật toán C4.5

30

1.5.

Sơ đồ thuật tốn K-Means

32

1.6.

Khởi tạo trọng tâm

33

1.7.

Cập nhật vị trí trọng tâm

33


1.8.

Kết quả sau khi phân cụm

34

2.1.

Quy trình xây dựng mơ hình KPDL với BI

49

2.2.

Mơ hình kiến trúc của SSAS

51

3.1.

Khung nhìn các bảng dữ liệu

62

3.2.

Dữ liệu sử dụng cho Training và test mơ hình

62


3.3.

Thiết lập tham số mơ hình DT

65

3.4.

Cây quyết định chẩn đoán bệnh RLTC

66

3.5.

Các yếu tố ảnh hưởng đến bệnh RLTC

70

3.6.

Ma trận biểu diễn khả năng chẩn đốn mơ hình DT

71

3.7.

Mơ hình phân cụm của bệnh RLTC

72


3.8.

Ma trận biểu diễn kết quả mơ hình phân cụm

73

3.9.
3.10.

Những đặc trưng chi tiết của bệnh RLTC trong từng
cụm
Giao diện người dùng với hệ thống chẩn đốn bệnh
RLTC

73
76

3.11.

Giao diện thu thập thơng tin người bệnh

77

3.12.

Kết quả chẩn đốn bệnh từ mơ hình cây quyết định

78


3.13.

Kết quả mơ hình phân cụm

78


1

MỞ ĐẦU

1. Tính cấp thiết của đề tài
Hiện nay, trầm cảm là một bệnh diễn ra khá phổ biến và có tác động
phức tạp đến đời sống xã hội, nhất là đối với lứa tuổi thanh thiếu niên.
Nguyên nhân chủ yếu dẫn đến hiện tượng này chính là vấn đề về sức khoẻ
tâm thần. Theo ước tính của Tổ chức Y tế thế giới (WHO) trên 25% dân số
thế giới bị rối loạn tâm thần và hành vi tại một thời điểm nào đó trong cuộc
đời [19]. Hằng năm, bệnh trầm cảm cướp đi trung bình 850.000 mạng người.
Dự báo, đến năm 2020 trầm cảm là căn bệnh xếp hạng 2 trong số những căn
bệnh phổ biến toàn cầu với 121 triệu người mắc bệnh.
Ở Việt Nam, nghiên cứu của Lê Thị Kim Dung về một số yếu tố ảnh
hưởng đến sức khỏe tâm thần của học sinh ở một số trường trung học cơ sở
của một số thành phố ở Việt Nam cho thấy tỷ lệ học sinh có biểu hiện trầm
cảm là 8,4% [3]. Theo kết quả nghiên cứu của Nguyễn Thị Thuỳ Vân (2014)
luận văn thạc sĩ y tế cộng đồng trường Đại học y khoa Huế tỷ lệ mắc bệnh
trầm cảm ở học sinh phổ thông là 8,9% [10]
Sức khỏe tâm thần là một cấu phần quan trọng trong sức khỏe tổng thể
của trẻ. Đây là một vấn đề lớn cần được quan tâm, đặc biệt trong cơng tác
chăm sóc sức khoẻ ban đầu ở cộng đồng. Vấn đề sức khỏe tâm thần ở thời kỳ
vị thành niên có mối liên quan chặt chẽ với rất nhiều hành vi như: uống rượu,

hút thuốc, sử dụng ma túy, nguy cơ tự tử,… sẽ ảnh hưởng đến sức khỏe của
trẻ khi trưởng thành.
Ở tuổi vị thành niên, rối loạn trầm cảm thường biểu hiện là những thay
đổi về cảm xúc như: cảm thấy buồn, khóc, vơ vọng; khơng quan tâm đến
những hoạt động vui chơi, giải trí hay suy giảm các hoạt động học tập; ăn
không ngon miệng; hay thay đổi về giấc ngủ; hay có những khó chịu trong cơ


2
thể một cách mơ hồ; ngồi ra trẻ cịn nghĩ rằng khơng thể làm được việc gì
đúng, cảm thấy cuộc sống khơng có ý nghĩa hoặc vơ vọng [6].
Trầm cảm ảnh hưởng rất lớn đến năng lực học tập, giao tiếp; sự hình
thành phát triển các mối quan hệ xã hội, hồn thiện thể chất, tinh thần và tính
cách của trẻ. Nếu rối loạn trầm cảm không được quan tâm phòng ngừa và can
thiệp phù hợp sẽ tăng gánh nặng cho gia đình và xã hội. Do đó, u cầu cấp
thiết cần phải có hệ thống chẩn đốn sàng lọc lâm sàng để phát hiện sớm các
biểu hiện rối loạn trầm cảm ở học sinh phổ thông nhằm đưa ra các giải pháp
can thiệp kịp thời trong việc phát triển sức khỏe.
Hiện nay, việc ứng dụng Công nghệ thông tin (CNTT) vào lĩnh vực y tế
còn hạn chế, nhất là việc hỗ trợ tìm kiếm, khai thác thơng tin nhằm chẩn đốn
các biểu hiện lâm sàng. Trong đó, khai phá dữ liệu là một kỹ thuật thường
được áp dụng để hỗ trợ đưa ra các quyết định khá chính xác.
Xuất phát từ những thực tế trên, tôi đã chọn đề tài “Ứng dụng khai phá
dữ liệu để xây dựng hệ thống chẩn đốn bệnh trầm cảm cho học sinh phổ
thơng” để nghiên cứu luận văn thạc sĩ của mình.
2. Mục tiêu nghiên cứu và nhiệm vụ nghiên cứu
 Mục tiêu nghiên cứu
Nghiên cứu phương pháp khai phá dữ liệu và ứng dụng để xây dựng hệ
thống hỗ trợ chẩn đoán bệnh rối loạn trầm cảm.
 Nhiệm vụ nghiên cứu:

- Tìm hiểu về bệnh rối loạn trầm cảm, tiến hành điều tra thu thập dữ liệu
về bệnh rối loạn trầm cảm.
- Nghiên cứu lý thuyết về kỹ thuật phân lớp bằng thuật toán cây quyết
định và thuật toán phân cụm.
- Xây dựng mơ hình để chẩn đốn bệnh rối loại trầm cảm cho học sinh
dựa vào kỹ thuật cây quyết định.


3
- Ứng dụng công cụ hỗ trợ khai phá Business Intelligence để xây dựng
và kiểm tra các mơ hình.
- Đánh giá kết quả dự đốn của mơ hình và lựa chọn mơ hình tốt nhất để
chẩn đốn bệnh rối loạn trầm cảm.
- Ứng dụng kỹ thuật cây quyết định xây dựng hệ thống chẩn đoán bệnh
trầm cảm của học sinh.
- Ứng dụng kỹ thuật phân cụm để phân tích các đặc trưng của bệnh rối
loại trầm cảm.
3. Đối tượng và phạm vi nghiên cứu
 Đối tượng nghiên cứu
- Dữ liệu nghiên cứu bao gồm các đặc điểm cá nhân và một số yếu tố
liên quan đến biểu hiện rối loạn trầm cảm của học sinh.
- Các kỹ thuật khai phá dữ liệu, công cụ khai phá dữ liệu và mô-đun lập
trình trong khai phá dữ liệu.
 Phạm vi nghiên cứu
- Số liệu thu thập gồm các hồ sơ bệnh án thuộc đối tượng trẻ vị thành
niên từ 12 -18 tuổi, được chẩn đoán bệnh trầm cảm tại Khoa tâm thần - bệnh
viện đa khoa tỉnh Quảng Trị, phòng khám đa khoa trường Cao Đẳng Y tế
Quảng Trị và một số phòng khám tư nhân trên địa bàn tỉnh Quảng Trị.
- Các kỹ thuật: phân lớp bằng cây quyết định và kỹ thuật phân cụm.
- Công cụ hỗ trợ khai phá Business Intelligence và các mô-đun hỗ trợ.

- Xây dựng hệ thống chẩn đốn bệnh và tìm ra những đặc trưng của bệnh
rối loạn trầm cảm.
4. Phương pháp nghiên cứu
 Phương pháp nghiên cứu lý luận
- Thu thập, đọc hiểu thông tin từ các tài liệu, giáo trình liên quan đến
khai phá dữ liệu.


4
- Nghiên cứu các kỹ thuật phân lớp dữ liệu dựa vào cây quyết định, ứng
dụng các kỹ thuật đó để chuẩn đoán bệnh rối loạn trầm cảm dựa vào các
thơng tin đầu vào.
- Tìm hiểu các kỹ thuật phân cụm để phân tích những đặc trưng của bệnh
rối loạn trầm cảm.
 Phương pháp nghiên cứu thực tiễn
- Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác sĩ,
y học chứng cứ và y học thực chứng trong quá trình khai phá dữ liệu y khoa.
- Tiến hành so sánh kết quả của các kỹ thuật khai phá dữ liệu để lựa chọn
kỹ thuật cho kết quả chính xác nhất.
- Xây dựng hệ thống nhằm hỗ trợ bác sĩ trong việc chẩn đoán và điều trị
bệnh.
5. Bố cục của luận văn
Ngoài các phần như mở đầu, kết luận và hướng phát triển, đề tài gồm 3
chương:
Chương 1: Tổng quan về khai phá dữ liệu. Chương này tìm hiểu và trình
bày các nội dung: nghiên cứu tổng quan về khai phá dữ liệu; các kỹ thuật khai
phá dữ liệu bằng cây quyết định và kỹ thuật phân cụm.
Chương 2: Nghiên cứu và xử lý dữ liệu về bệnh rối loạn trầm cảm.
Chương này trình bày nội dung sau: tìm hiểu đặc điểm tâm lý của tuổi vị
thành niên, khái niệm về bệnh rối loạn trầm cảm, đặc điểm lâm sàng, các yếu

tố liên quan đến bệnh rối loại trầm cảm trên cơ sở đó thu thập và xử lý dữ liệu
nghiên cứu bệnh RLTC. Ngoài ra cịn trình bày các cơng cụ xây dựng mơ
hình khai phá dữ liệu.
Chương 3: Xây dựng hệ thống chẩn đoán bệnh trầm cảm dựa trên khai
phá dữ liệu. Chương này trình bày dữ liệu yêu cầu cho việc xây dựng mơ
hình, những tham số hỗ trợ cho các thuật tốn từ đó ứng dụng kỹ thuật cây


5
quyết định để chẩn đoán bệnh và kỹ thuật phân cụm để phân tích các đặc
trưng của bệnh rối loại trầm cảm cho học sinh. Đồng thời chương này xây
dựng chương trình cài đặt thử nghiệm việc chẩn đốn bệnh bằng kỹ thuật
quyết định và kỹ thuật phân cụm trên cơ sở dữ liệu bệnh RLTC.


6
CHƯƠNG 1

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. KHAI PHÁ DỮ LIỆU
1.1.1. Định nghĩa
Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào những năm cuối
của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các
thơng tin có giá trị tiềm ẩn trong các tập dữ liệu lớn được lưu trữ trong các cơ
sở dữ liệu. Về bản chất, KPDL liên quan đến việc phân tích các dữ liệu và sử
dụng các kỹ thuật để tìm ra các mẫu có tính chính quy trong tập dữ liệu. Ở
mức độ tổng quát, ta có thể coi mục đích chính của q trình KPDL là mơ tả
và dự đốn [5]. Dự đốn liên quan đến việc sử dụng các biến hoặc các trường
trong cơ sở dữ liệu để dự đoán những giá trị chưa biết hoặc những giá trị
trong tương lai của các biến quan tâm. Mơ tả hướng tới việc tìm ra các mẫu

mơ tả dữ liệu. Dự đốn và mơ tả có tầm quan trọng khác nhau đối với các
thuật toán KPDL.
Giáo sư Tom Mitchell đã đưa ra định nghĩa KPDL như sau: “KPDL là
việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những
quyết định trong tương lai”.
Định nghĩa của Ferruzza: “KPDL là tập hợp các phương pháp được
dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan
hệ và các mẫu chưa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “KPDL là quá trình trợ giúp quyết định, trong
đó chúng ta tìm kiếm các mẫu thơng tin chưa biết và bất ngờ trong cơ sở dữ
liệu (CSDL) lớn”.
Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu:
“KPDL thường được xem là việc khám phá tri thức trong các CSDL, là một


7
q trình trích xuất những thơng tin ẩn, trước đây chưa biết và có khả năng
hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong CSDL.”
Còn các nhà thống kê thì xem "KPDL như là một quá trình phân tích
được thiết kế thăm dị một lượng cực lớn các dữ liệu nhằm phát hiện ra các
mẫu thích hợp hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau
đó sẽ hợp thức hố các kết quả tìm được bằng cách áp dụng các mẫu đã phát
hiện được cho tập con mới của dữ liệu".
Nói tóm lại: KPDL là một quá trình phát hiện những tri thức mới từ
những dữ liệu đã thu thập được.
1.1.2. Quy trình KPDL
Mục đích của KPDL và phát hiện tri thức là tìm ra các mẫu và các mơ
hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi khối
dữ liệu lớn. Về bản chất, nó là giai đoạn duy nhất tìm ra được thơng tin mới,
thơng tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho mơ tả và dự đốn. Dự

đốn là thực hiện việc suy luận trên dữ liệu để đưa ra các dự báo nhằm phân
tích tập dữ liệu huấn luyện và tạo ra một mơ hình cho phép dự đốn các mẫu,
mơ hình mới chưa biết. [7]
Q trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác
vấn đề cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây
dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý
chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được. Về lý
thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá
trình rất khó khăn, gặp phải nhiều vướng mắc như: các dữ liệu phải được sao
ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý các tệp dữ liệu, phải
lặp đi lặp lại nhiều lần tồn bộ q trình (nếu mơ hình dữ liệu thay
đổi),…Bước tiếp theo là chọn thuật tốn khai phá dữ liệu thích hợp và thực
hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa dưới dạng biểu


8
diễn tương ứng với các ý nghĩa đó (thường thì được biểu diễn dưới dạng các
luật xếp loại, cây quyết định, phát sinh luật, biểu thức hồi quy,…).
Quy trình KPDL bao gồm các bước như trong hình sau:

Hình 1.1. Quy trình KPDL
Bước 1. Làm sạch dữ liệu (Data cleaning & preprocessing): Loại bỏ
nhiễu và các dữ liệu không cần thiết.
Bước 2. Tích hợp dữ liệu: (Data integration): q trình hợp nhất dữ liệu
thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch
và tiền xử lý (data cleaning & preprocessing).
Bước 3. Trích chọn dữ liệu (Data selection): trích chọn dữ liệu từ những
kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho q trình khai thác tri



9
thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ
liệu không đầy đủ (incomplete data), ...
Bước 4. Chuyển đổi dữ liệu (Data transformation): Các dữ liệu được
chuyển đổi sang các dạng phù hợp cho quá trình xử lý.
Bước 5. Khai phá dữ liệu (Data mining): Là một trong các buớc quan
trọng nhất, trong đó sử dụng những phương pháp thơng minh để chắt lọc ra
những mẫu dữ liệu.
Bước 6. Ước lượng mẫu (Knowledge evaluation): Q trình đánh giá các
kết quả tìm đuợc thơng qua các độ đo nào đó.
Bước 7. Biểu diễn tri thức (Knowledge presentation): Quá trình này sử
dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho nguời dùng.
1.1.3. Các kỹ thuật KPDL
- Cây quyết định (Decision Tree): Kỹ thuật cây quyết định là một công
cụ mạnh và hiệu quả trong việc phân lớp và dự báo. Các đối tượng dữ liệu
được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được
dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả
dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng.
- Phân lớp dữ liệu (Data Classification): Mục tiêu của phân lớp dữ liệu
đó là dự đốn nhãn lớp cho các mẫu dữ liệu. Q trình gồm hai bước: xây
dựng mơ hình, sử dụng mơ hình để phân lớp dữ liệu (mỗi mẫu 1 lớp). Mơ
hình được sử dụng để dự đốn nhãn lớp khi mà độ chính xác của mơ hình
chấp nhận được.
- Phân cụm dữ liệu (Data Clustering): Mục tiêu của phân cụm dữ liệu là
nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm, sao cho các
đối tượng thuộc cùng một lớp là tương đồng.
- Khai phá luật kết hợp (Association Rule): Mục tiêu của phương pháp
này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL.



10
Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được.
- Hồi quy (Regression): Phương pháp hồi quy tương tự như là phân lớp
dữ liệu. Nhưng khác ở chỗ nó dùng để dự đốn các giá trị liên tục còn phân
lớp dữ liệu dùng để dự đoán các giá trị rời rạc.
- Giải thuật di truyền (Genetic Algorithm): Là q trình mơ phỏng theo
tiến hố của tự nhiên. Ý tưởng chính của giải thuật là dựa vào quy luật di
truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học.
- Mạng Nơron (Neural Network): Đây là một trong những kỹ thuật
KPDL được ứng dụng phổ biến hiện nay. Kỹ thuật này phát triển dựa trên một
nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa
trên mơ hình thần kinh trung ương của con người.
1.1.4. Những ứng dụng của KPDL
Phát hiện tri thức và KPDL liên quan đến nhiều ngành, nhiều lĩnh vực
như: thống kê, trí tuệ nhân tạo, CSDL, thuật tốn, tính tốn song song và tốc
độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu… Đặc biệt
phát hiện tri thức và KPDL rất gần gũi với lĩnh vực thống kê, sử dụng các
phương pháp thống kê để mơ hình hóa dữ liệu và phát hiện các mẫu, các
luật… Ngân hàng dữ liệu và các cơng cụ phân tích trực tuyến OLAP cũng liên
quan chặt chẽ với phát hiện tri thức và KPDL.
Nói cách khác mục đích KPDL chính là tìm ra các mẫu và các mơ hình
đang tồn tại trong các CSDL nhưng vẫn cịn tiểm ẩn có trong CSDL. Ngày
nay KPDL có nhiều ứng dụng trong thực tế, một số ứng dụng điển hình của
KPDL có thể được áp dụng trong các lĩnh vực như:
- Tài chính và thị trường chứng khốn: Áp dụng vào việc phân tích các
thẻ tín dụng tiêu biểu của các khách hàng, phân tích tình hình tài chính và dự
báo giá của các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn,
giá cả, lãi suất, dữ liệu thẻ tín dụng và phát hiện gian lận…



11
- Marketing: các ứng dụng bao gồm việc phân tích hành vi của khách
hành dựa vào các hoá đơn mua hàng, xác định kế hoạch Marketing.
- Bảo hiểm: Áp dụng vào việc phân tích mức độ rủi ro xảy ra đối với
từng loại hàng hoá, dịch vụ hay chiến lược tìm kiếm khách ….
- Y học và chăm sóc y tế: ứng dụng vào việc tìm ra mẫu trong phim XQuang, phân tích dữ liệu thí nghiệm để tìm ra bệnh tật, phân tích mối liên hệ
giữa triệu chứng bệnh, chẩn đốn và phân tích ảnh hưởng của thuốc và hiệu
quả của việc điều trị và tối ưu hoá các quá trình xử lý trong một bệnh viện,
mối quan hệ giữa tình trạng bệnh nhân với chun mơn của bác sĩ…
- Text mining & Web mining: Phân lớp văn bản và các trang web. Tóm
tắt văn bản…
- Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, phát hiện gian lận, các ứng dụng quản lý và chăm sóc khách hàng,
phát hiện sự cố để đưa ra biện pháp phát triển chất lương dịch vụ…
Ngoài ra KPDL có nhiều ứng dụng khác có thể được áp dụng trong các
lĩnh vực như môi trường, xã hội học…
1.2. KPDL BẰNG KỸ THUẬT CÂY QUYẾT ĐỊNH
1.2.1. Giới thiệu
Trong lĩnh vực KPDL, cây quyết định (Decision Tree - DT) là một mơ
hình dự đốn thuộc lớp các bài tốn phân lớp dùng để xác định lớp của các
đối tượng cần dự đoán. DT dựa vào dãy các luật để dự đốn lớp các đối
tượng. DT có cấu trúc biểu diễn dạng cây. Trong đó, mỗi nút trong biểu diễn
một thuộc tính, mỗi nhánh biễu diễn giá trị có thể có của thuộc tính, mỗi lá
biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc.
Trong lĩnh vực học máy, DT là một kiểu mơ hình dự báo, nghĩa là một
ánh xạ từ các quan sát về một sự vật hay hiện tượng tới các kết luận về giá trị
mục tiêu của sự vật hiện tượng. Mỗi nút trong tương ứng với một biến; đường


12

nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá
đại diện cho giá trị dự đoán của biến phân loại; DT học để dự đoán giá trị của
các biến phân loại bằng cách dựa vào tập huấn luyện để chọn ra các nút gốc
để phân nhánh cây bằng cách tính độ lợi thơng tin, q trình này được lặp đi
lặp lại một cách đệ qui cho đến khi không thể tiếp tục thực hiện việc phân
tách cây được nữa. Kỹ thuật học máy dùng trong DT được gọi là học bằng
DT, hay chỉ gọi với tên ngắn gọn là DT. [11],[13]
Dữ liệu huấn luyện cho DT là tập các bản ghi có dạng
(x,y) = (x1, x2, x3,...,xk, y)
Trong đó: y được gọi là biến phân loại (hay còn gọi là biến mục tiêu hay
biến phụ thuộc) và x1, x2, x3,...,xk là các biến độc lập.
DT được chia làm 2 loại:
+ Cây truy hồi dùng để dự đoán giá trị của biến phân loại có kiểu dữ liệu
định lượng như dự đoán doanh thu, lợi nhuận, giá thành sản phẩm..
+ Cây phân lớp dùng để dự đoán giá trị của biến phân loại có kiểu định
danh như dự đốn khả năng mua hàng của khách hàng (có mua hoặc khơng
mua), khả năng bị bệnh của bệnh nhân (có bệnh hoặc khơng có bệnh), kết quả
học tập của nhận viên (xuất sắc, giỏi, khá, trung bình, yếu)...
Root
Branch
Leaf node

Internal node

Leaf node

Leaf node

Hình 1.2. Biểu diễn DT cơ bản



13
1.2.2. Cấu trúc DT
DT là một cấu túc được sử dụng để chia liên tiếp một tập bản ghi lớn
thành các tập con nhỏ hơn bằng cách áp dụng một chuỗi các luật đơn giản.
DT phân lớp các trường hợp cụ thể bằng cách sắp đặt chúng từ trên xuống và
bắt đầu từ nút gốc và đi xuống các nút lá.
- Mỗi nút trong biểu diễn một thuộc tính (biến độc lập).
- Mỗi nhánh từ một nút sẽ tương ứng với một giá trị có thể của thuộc
tính gắn với nút đó.
- Mỗi nút lá biểu diễn một phân lớp (biến phụ thuộc).
- DT được sử dụng trong phân lớp bằng cách duyệt từ nút gốc của cây
cho đến khi đụng đến nút lá, từ đó rút ra lớp của đối tượng cần xét.
- Một DT biểu diễn một phép tuyển của các kết hợp của các ràng buộc
đối với các giá trị thuộc tính.
- Mỗi đường đi từ nút gốc đến một lá sẽ tương ứng với một kết hợp của
các giá trị thuộc tính.
- DT chính là một phép tuyển của các kết hợp.
1.2.3. Phương pháp xây dựng DT
Có rất nhiều thuật tốn khác nhau để xây dựng DT như: CLS, ID3, C4.5,
SPRINT...nhưng nói chung q trình xây dựng DT bao gồm 2 giai đoạn: Tạo
cây và tỉa cây.
Tạo cây: Thực hiện chia một cách đệ quy tập mẫu dữ liệu huấn luyện
cho đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp.
Tỉa cây: Là việc làm dùng để tối ưu hoá cây, là xác định và xố những
nhánh mà có phần tử hỗn loạn hoặc những phần tử nằm ngồi (những phần tử
khơng thể phân vào một lớp nào đó).
Có rất nhiều biến đổi khác nhau về nịng cốt của thuật tốn DT, mặc dù
vậy chúng vẫn tuân theo các bước sau:



14
- Cây được thiết lập từ trên xuống dưới và theo cách thức chia để trị.
- Ở thời điểm bắt đầu, các mẫu huấn luyện nằm ở gốc của cây.
- Thuộc tính được phân loại (rời rạc hố các thuộc tính dạng phi số)
- Chọn một thuộc tính để phân chia thành các nhánh. Thuộc tính được
chọn dựa trên độ đo thống kê.
- Tiếp tục lặp lại việc xây dựng DT cho các nhánh.
Điều kiện để dừng việc phân chia:
- Tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá)
- Khơng cịn thuộc tính nào có thể dùng để phân chia mẫu nữa
- Khơng cịn lại mẫu nào tạo nút
1.2.4. Ưu điểm của DT
So với các phương pháp KPDL khác, DT có một số ưu điểm:
 DT dễ hiểu: có thể hiểu mơ hình DT sau khi được giải thích ngắn gọn
 Việc chuẩn bị dữ liệu cho một DT chỉ đòi hỏi dữ liệu được chuẩn hố
cơ bản hoặc đơi khi khơng cần thiết tiền xử lý dữ liệu khi tiến hành khai phá.
Trong khi đó, các kỹ thuật khác thường địi hỏi chuẩn hoá dữ liệu, cần tạo các
biến phụ và loại bỏ các giá trị rỗng.
 DT có thể xử lý cả dữ liệu có giá trị bằng số, liên tục và rời rạc. Các kỹ
thuật khác thường xuyên để phân tích các bộ dữ liệu chỉ gồm các thuộc tính
có giá trị hoặc liên tục (dạng số) hoặc rời rạc.
 Có thể thẩm định một mơ hình bằng các kiểm tra thống kê. Điều này
làm cho ta có thể tin tưởng vào mơ hình.
 DT có thể xử lý tốt một lượng dữ liệu lớn đưa ra kết quả trong thời
gian ngắn. Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn
trong một thời gian đủ ngắn cho phép các nhà chiến lược đưa ra quyết định
dựa trên phân tích của DT.



15
1.2.5. Thuật toán ID3
a.Giới thiệu
Thuật toán ID3 do Ross Quilan đề xuất [17]. Tư tưởng của thuật toán
ID3 là việc xây dựng DT được thực hiện đệ qui từ trên xuống và sử dụng độ
lợi thông tin làm độ đo để chọn nút gốc để phân tách cây. IG là tham số được
tính dựa trên Entropy. Nút được chọn làm nút gốc là khi nó có IG lớn nhất
hoặc code có Entropy nhỏ nhất. Cơng thức tính Entropy:
Entropy(S) = ∑𝐼∈𝐶 −𝑝(𝐼)𝑙𝑜𝑔2 𝑝(𝐼)

(1.1)

Trong đó: S: tập dữ liệu huấn luyện; p(I) là tỷ số giữ các mẫu thuộc về
lớp I trên tổng số các mẫu huấn luyện trong S; C là tập giá trị của thuộc tính
phân loại.
Các bước chính trong thuật tốn ID3:
1. Tính Entropy của tất cả các thuộc tính trong data set S
2. Chia tập S thành các tập con sử dụng thuộc tính có Entropy nhỏ nhất
(tương ứng với IG lớn nhất)
3. Tạo DT với node gốc là nút có IG lớn nhất
4. Thực hiện đệ qui trên các tập con sử dụng các thuộc tính cịn lại
b. Lựa chọn thuộc tính để kiểm tra
 Entropy
Entropy là một đại lượng toán học được sử dụng trong lĩnh vực lý thuyết
thông tin nhằm đo lượng tin ngẫu nhiên của một sự kiện hay của phân phối
ngẫu nhiên cho trước của một tập S. Entropy của một tập S được định nghĩa:
+ Trường hợp tổng quát, đối với tập con S có phân lớp thì có biểu thức:
Entropy(S)= -∑𝑙𝑖=1 𝑝𝑖 𝑙𝑜𝑔 𝑝𝑖
Trong đó pi là tần xuất tương đối của lớp i trong S.
+ Các trường hợp đặc biệt:


(1.2)


16
 Nếu tất cả các mẫu thành viên trong tập S đều thuộc cùng một lớp thì
Entropy(S)= 0.
 Nếu trong tập S có số mẫu phân bổ đều nhau vào các lớp thì
Entropy(S)=1
 Các trường hợp cịn lại 0 < Entropy(S)<1
Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp “Yes” (+),
“NO” (-). Ký hiệu P+ là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết
định là “Yes”, và P- là tỷ lệ các mẫu có giá trị của thuộc tính quyết định là
“No” trong tập S.
Entropy(S) = -P+𝑙𝑜𝑔2 𝑃+ − 𝑃− 𝑙𝑜𝑔2 𝑃−

(1.3)

 Gia lượng thông tin IG (Information Gain)
Gia lượng thông tin là tiêu chuẩn đánh giá khả năng của một thuộc tính
khi được dùng để phân lớp các mẫu dựa vào giá trị Entropy. Dựa vào tiêu
chuẩn này để chọn được thuộc tính có giá trị Entropy nhỏ nhất và dùng thuộc
tính này để phân chia tập mẫu.
Cho tập dữ liệu S gồm có n thuộc tính Ai (i=1,2..n) giá trị IG gọi tắt là
Gain của thuộc tính A trong tập S ký hiệu là Gain(A,S) được tính:
Gain(S,A) = Entropy(S) - ∑𝑣∈𝑉𝑉𝑎𝑙𝑢𝑠𝑒(𝐴)

|𝑆𝑣 |
|𝑆|


𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑣 )

(1.4)

Trong đó: v các giá trị của thuộc tính A; Sv bằng tập hợp con của tập S
mà có thuộc tính A mang giá trị v; |𝑆𝑣 | là số phần tử của tập Sv; |𝑆| là số phần
tử của tập S.
Trong công thức trên, thành phần thứ 2 thể hiện giá trị Entropy sau khi
tập S được phân chia bởi các giá trị của thuộc tính A.
c. Giải thuật ID3
Thuật tốn ID3 được trình bày như sau:
ID3(R,C,S)


×