Tải bản đầy đủ (.pdf) (66 trang)

Luận văn khai phá luật kết hợp mờ,ứng dụng kiểm chứng các loại thuốc trong đơn thuốc bệnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.3 MB, 66 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

NGÔ DUY TRUNG

KHAI PHÁ LUẬT KẾT HỢP MỜ,
ỨNG DỤNG KIỂM CHỨNG CÁC LOẠI THUỐC
TRONG ĐƠN THUỐC – BỆNH

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2

NGÔ DUY TRUNG

KHAI PHÁ LUẬT KẾT HỢP MỜ,
ỨNG DỤNG KIỂM CHỨNG CÁC LOẠI THUỐC
TRONG ĐƠN THUỐC – BỆNH
Chuyên ngành: Khoa học máy tính
Mã số: 8 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS. TS. Lê Huy Thập

HÀ NỘI, 2018



LỜI CÁM ƠN

Với sự biết ơn sâu sắc và lòng kính trọng, em xin chân thành cám ơn
PGS. TS. Lê Huy Thập, người đã tận tình hướng dẫn và giúp đỡ em trong
suốt quá trình hoàn thành luận văn.
Em xin chân thành cám ơn các thầy cô trong khoa Công nghệ thông tin,
phòng Sau đại học trường Đại học Sư phạm Hà Nội 2, các thầy cô đã trực tiếp
giảng dạy các học phần trong khóa học đã tạo điều kiện thuận lợi cho em
trong quá trình học tập và nghiên cứu tại trường.
Xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp đã quan tâm,
giúp đỡ em trong thời gian nghiên cứu và hoàn thành luận văn.
Trong quá trình nghiên cứu, luận văn không tránh khỏi những thiếu sót.
Rất mong nhận được sự góp ý của quý thầy cô và bạn bè đồng nghiệp quan
tâm đến luận văn này.
Hà Nội, tháng ... năm 2018
Tác giả

Ngô Duy Trung


LỜI CAM ĐOAN

Tôi xin cam đoan đây là kết quả nghiên cứu của tôi dưới sự hướng dẫn
khoa học của PGS. TS. Lê Huy Thập.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác.
Hà Nội, tháng ... năm 2018
Tác giả


Ngô Duy Trung


MỤC LỤC

LỜI MỞ ĐẦU ....................................................................................................... 1
1. Lý do chọn đề tài ................................................................................................ 1
2. Mục đích nghiên cứu (Các kết quả cần đạt được) ............................................. 1
3. Nhiệm vụ nghiên cứu ......................................................................................... 1
4. Đối tượng và phạm vi nghiên cứu...................................................................... 1
5. Phương pháp nghiên cứu.................................................................................... 2
6. Giả thuyết khoa học ........................................................................................... 2
7. Cấu trúc luận văn ............................................................................................... 2
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT.................................................................... 3
1.1. Lý thuyết tập mờ ............................................................................................. 3
1.1.1. Định nghĩa ............................................................................................. 3
1.1.2. Các phép toán trên tập mờ .................................................................... 3
1.2. Tổng quan kho dữ liệu và khai phá dữ liệu..................................................... 6
1.2.1. Tổng quan kho dữ liệu .......................................................................... 6
1.2.2. Tổng quan về khai phá dữ liệu ............................................................ 10
KẾT LUẬN CHƢƠNG 1 .................................................................................. 22
CHƢƠNG 2. PHÁT HIỆN LUẬT KẾT HỢP MỜ TRONG KHAI
PHÁ DỮ LIỆU.................................................................................................... 23
2.1. Giới thiệu hệ thống thông tin mờ .................................................................. 23
2.2. Phát hiện luật kết hợp mờ dựa trên hệ thống thông tin mờ........................... 25
2.2.1. Các véc tơ mờ và các phép toán.......................................................... 25
2.2.2. Thuật toán Apriori và Apriori - TID trong khai phá luật kết hợp
mờ ......................................................................................................................... 26
KẾT LUẬN CHƢƠNG 2 ................................................................................... 43



CHƢƠNG 3. LẬP TRÌNH TÌM LUẬT KHAI PHÁ MỜ KIỂM
CHỨNG ĐƠN THUỐC ..................................................................................... 44
3.1. Các phương pháp cho đơn thuốc theo bệnh. ................................................. 44
3.2. Lập trình demo .............................................................................................. 45
3.2.1. Giới thiệu bài toán ............................................................................... 45
3.2.2. Sơ đồ thuật toán................................................................................... 46
3.2.3. Các giao diện và kết quả của chương trình demo ............................... 46
KẾT LUẬN CHƢƠNG 3 ................................................................................... 54
KẾT LUẬN ......................................................................................................... 55
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ................................................ 56


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Ý nghĩa

Ký hiệu
CSDL

Cơ sở dữ liệu

D

Cơ sở dữ liệu giao dịch

DL

Dữ liệu


DM

Data mining (khai phá dữ liệu)

KDD

Knowledge discovery (phát hiện tri thức)

KPDL

Khai phá dữ liệu

DWT

Kỹ nghệ kho dữ liệu

DW

Kho dữ liệu

Θ

Độ hỗ trợ (support)

β

Độ tin cậy (confidence)




Phép giao



Phép hợp



Tập rỗng



Tập con

ϵ

Thuộc

Ck

Tập các k-itemset ứng viên

TID

Tập các giao dịch


DANH MỤC CÁC BẢNG

Bảng 2.1. Dữ liệu thuốc tương ứng với dj ....................................................... 30

Bảng 2.2. Dữ liệu bài thuốc tương ứng với oi ................................................. 30
Bảng 2.3. Dữ liệu của bảng Bài thuốc – Thuốc .............................................. 30
Bảng 2.4. Bảng hệ thông tin mờ ..................................................................... 31


DANH MỤC CÁC HÌNH VẼ

Hình 3.1. Giao diện chính của chương trình ........................................................ 47
Hình 3.2. Giao diện dữ liệu và kết quả demo ...................................................... 47
Hình 3.3. Cửa sổ nhập số lượng item................................................................... 48
Hình 3.4. Cửa sổ nhập số lượng object ................................................................ 48
Hình 3.5. Cửa sổ nhập độ hỗ trợ .......................................................................... 48
Hình 3.6. Cửa sổ nhập độ tin cậy ......................................................................... 49
Hình 3.7. Cửa sổ nhập dữ liệu vào cột 1 hàng 1 của bảng dữ liệu vào................ 49
Hình 3.8. Cửa sổ nhập dữ liệu vào cột 1 hàng 2 của bảng dữ liệu vào................ 49
Hình 3.9. Cửa sổ nhập dữ liệu vào cột 1 hàng 3 của bảng dữ liệu vào................ 50
Hình 3.10. Cửa sổ nhập dữ liệu vào cột 1 hàng 4 của bảng dữ liệu vào.............. 50
Hình 3.11: Giao diện kết quả với dữ liệu đầu vào 6 hàng, 6 cột ......................... 51
Hình 3.12: Giao diện kết quả với dữ liệu đầu vào 5 hàng, 6 cột ......................... 52
Hình 3.13: Giao diện kết quả với dữ liệu đầu vào 3 hàng, 4 cột ......................... 53


1

LỜI MỞ ĐẦU
1. Lý do chọn đề tài
Khai phá dữ liệu hiện nay đã trở thành một trong những lĩnh vực được
các nhà khoa học quan tâm nghiên cứu bởi tính ứng dụng cao trong thực tiễn
cuộc sống. Khai phá dữ liệu được ứng dụng rộng rãi trong nhiều lĩnh vực như:
Tài chính và thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học,

bưu chính viễn thông….với nhiều hướng tiếp cận như: Phân lớp/ Dự đoán,
Phân cụm, Luật kết hợp,….
Trong khi khám bệnh, bệnh nhân thường nhận được đơn thuốc – trong
trường hợp ngoại trú hoặc phác đồ điều trị - bệnh nhân nội trú …. Trong đơn
thuốc thường có sự kết hợp các loại thuốc để tăng dược tính hoặc nâng cao
hiệu năng điều trị. Vì vậy người ta muốn biết các loại thuốc trong đơn – hoặc
phác đồ điều trị có hợp lý hay không. Điều này cần đến sự hỗ trợ của hệ
chuyên gia và của khai phá dữ liệu, đặc biệt là khai phá luật kết hợp mờ.

2. Mục đích nghiên cứu (Các kết quả cần đạt đƣợc)
Khai phá luật mờ và các thuật toán liên quan như: Apriori, Apriori-TID.
Lập trình kiểm chứng các đơn thuốc theo luật kết hợp mờ.

3. Nhiệm vụ nghiên cứu
Khai phá luật kết hợp mờ. Các thuật toán Apriori, Apriori-TID trong
trường hợp mờ.
Ngôn ngữ lập trình.

4. Đối tƣợng và phạm vi nghiên cứu
Khai phá dữ liệu và ứng dụng.
Tìm hiếu về các loại đơn thuốc (bệnh).


2

5. Phƣơng pháp nghiên cứu
Dùng các kiến thức: Khai phá dữ liệu. Logic toán đã thu nhận được để
nghiên cứu phương pháp tìm luật kết hợp mờ trong khai phá dữ liệu trên. Ứng
dụng (dạng Demo) các kết quả nghiên cứu và việc kiểm chứng sự kết hợp các
loại thuốc trong đơn thuốc (bệnh).


6. Giả thuyết khoa học
Từ các kiến thức thu nhận được khi làm luận văn và kết quả demo để
hỗ trợ khi nâng cao và mở rộng đề tài.
7. Cấu trúc luận văn
Luận văn gồm phần mở đầu, phần nội dung gồm 3 chương và phần kết luận.
Phần nội dung gồm 3 chương:
Chương 1: Cơ sở lý thuyết.
Chương 2: Phát hiện luật kết hợp mờ trong khai phá dữ liệu.
Chương 3: Lập trình tìm luật khai phá mờ kiểm chứng đơn thuốc.


3

CHƢƠNG 1
CƠ SỞ LÝ THUYẾT

1.1. Lý thuyết tập mờ
1.1.1. Định nghĩa
Một tập mờ A trên một không gian nền X được định nghĩa như sau:
A = {(x, μA(x)) | x ∈ X}
Hàm thuộc µA(x) lượng hóa mức độ mà các phần tử x thuộc về tập
hợp X.
µA(x) = 0 nếu x  A
µA(x) = 1 nếu x  A
µA(x) = t  (0 , 1) thì x  A với mức t
Hàm liên thuộc µA(x) thỏa mãn các điều kiện sau:
µA(x)  [0,1]

x  X


1.1.2. Các phép toán trên tập mờ
1.1.2.1. So sánh các tập mờ
Định nghĩa 1.1:
Cho A và B là hai tập con mờ trên vũ trụ tham chiếu U với hai hàm
thuộc tương ứng là µA và µB, khi đó ta có:
Hai tập mờ A và B gọi là bằng nhau: ký hiệu A = B, nếu  u  U thì
µA(u) = µB(u) .
Tập mờ A chứa trong tập mờ B: ký hiệu A  B, nếu  u  U thì
µA(u)  µB(u).


4

1.1.2.2. Phép hợp và phép giao của các tập con mờ
Định nghĩa 1.2:
Hợp của hai tập mờ A và B trên U, ký hiệu A  B, là một tập mờ trên
U với hàm thuộc được ký hiệu µA  B(u) và xác định như sau:
 u  U, µA  B(u) = max{ µA(u), µB(u)}
Định nghĩa 1.3:
Giao của hai tập mờ A và B trên U, ký hiệu A  B, là một tập mờ trên
U với hàm thuộc được ký hiệu µA  B(u) và được xác định như sau:
 u  U, µA  B(u) = min{ µA(u), µB(u)}
Các tính chất
Giao hoán:
AB=BA
AB=BA
Kết hợp:
(A  B)  C = A  (B  C)
(A  B)  C = A  (B  C)

Phân bố:
A  (B  C) = (A  B)  (A  C)
A  (B  C) = (A  B)  (A  C)
1.1.2.3. Phần bù của một tập con mờ
Định nghĩa 1.4:
Phần bù của tập mờ A, ký hiệu là
thuộc được ký hiệu
 u U,
̅

̅

là một tập con mờ trên U với hàm

(u) và xác định như sau:

(u) = 1 - µA(u)


5

Một số tính chất của phép lấy phần bù các tập mờ:
A 

= , và

A 

=U


1.1.2.4. Tích Descartes của các tập con mờ
Định nghĩa 1.5:
Cho A và B là hai tập con mờ có các hàm thuộc µA và µB trên các vũ
trụ tham chiếu tương ứng U và V, khi đó tích Descartes của A và B là một tập
con mờ ký hiệu là A B trên vũ trụ tham chiếu U V, với hàm thuộc là µA 
B được xác định như sau:
(u,v)  UV, µAB (u,v) = min{ µA(u), µB( v)}
Định nghĩa 1.6:
Tích Descartes của k tập mờ A1, A2,...Ak trên các vũ trụ tham chiếu
U1,U2,..,Uk là một tập con mờ ký hiệu là A1  A2  ...  Ak trên vũ trụ tham chiếu
U1  U2 ...  Uk , với hàm thuộc là







được xác định như sau:

 u=(u1, u2,..uk,)  U1 U2 ... Uk ,






(u) = min{

(u1),


( u2),...,

( uk)}

Dựa trên các định nghĩa về tích Descartes của các tập con mờ, chúng ta
sẽ nghiên cứu các quan hệ mờ trong các phần sau.


6

1.2. Tổng quan kho dữ liệu và khai phá dữ liệu
1.2.1. Tổng quan kho dữ liệu
1.2.1.1. Định nghĩa kho dữ liệu
Định nghĩa 1.2. Kho dữ liệu:
Kho dữ liệu (Data Warehouse) là tuyển chọn các cơ sở dữ liệu tích
hợp, hướng theo các chủ đề nhất định, được thiết kế để hỗ trợ cho chức năng
trợ giúp quyết định, mà mỗi đơn vị dữ liệu liên quan đến một khoảng thời
gian cụ thể.
Kho dữ liệu thường có dung lượng rất lớn, thường là hàng Gigabytes
hay có khi tới hàng Terabytes.
Dòng dữ liệu trong một tổ chức (cơ quan, xí nghiệp, công ty, vv…) có
thể mô tả khái quát như sau (Xem hình 1.1):
Dữ liệu tác
nghiệp

HỆ THỐNG
DI SẢN
(có sẵn)


Kho dữ
liệu
Kho dữ liệu
cục bộ

Kho dữ liệu cá
nhân

Siêu dữ
liệu

Hình 1.1 Luồng dữ liệu trong một tổ chức
Dữ liệu cá nhân không thuộc phạm vi quản lý của hệ quản trị kho
dữ liệu. Nó chứa các thông tin được trích xuất ra từ các hệ thống dữ liệu tác
nghiệp, kho dữ liệu và từ những kho dữ liệu cục bộ của những chủ đề liên
quan bằng các phép gộp, tổng hợp hay xử lý theo một cách nào đó.


7

1.2.1.2. Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu nhằm đáp ứng các tiêu chuẩn cơ bản:
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.
Hỗ trợ để các nhân viên của tổ chức thực hiên tốt, hiệu quả công
việc của mình, như có những quyết định hợp lý, nhanh và bán được nhiều
hàng hơn, năng suất cao hơn, thu được lợi nhuận cao hơn ..v..v..
Giúp cho tổ chức xác định, quản lý và điều hành các dự án, các nghiệp
vụ một cách hiệu quả và chính xác.
Tích hơp dữ liệu và siêu dữ liệu từ nhiều nguồn khác nhau.
Muốn đạt được những yêu cầu trên thì DW phải:

Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh
lọc dữ liệu theo những hướng chủ đề nhất định.
Tổng hợp và kết nối dữ liệu.
Đồng bộ hoá các nguồn dữ liệu với DW.
Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là
các công cụ chuẩn để phục vụ cho DW.
Quản lí siêu dữ liệu (metadata).
Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức
theo các chủ đề.
1.2.1.3. Đặc tính của kho dữ liệu
Đặc điểm cơ bản của kho dữ liệu là một tập hợp dữ liệu có các đặc tính sau:
- Tính tích hợp
- Tính hướng chủ đề
- Tính ổn định


8

- Dữ liệu tổng hợp

Tính tích hợp
Tính tích hợp thể hiện ở chỗ: dữ liệu tập hợp trong kho dữ liệu được
thu thập từ nhiều nguồn được trộn ghép với nhau thành một thể thống nhất.
Tính hướng chủ đề
Dữ liệu trong kho dữ liệu được tổ chức theo chủ đề phục vụ cho tổ chức
dễ dàng xác định được các thông tin cần thiết trong từng hoạt động của mình.
Tính ổn định
Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra,
không thể được thay đổi bởi người dùng đầu cuối (terminal users). Nó chỉ
cho phép thực hiện 2 thao tác cơ bản là nạp dữ liệu vào kho và đọc từ kho.

Do vậy, dữ liệu không biến động.
Dữ liệu tổng hợp
Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong DW. Dữ liệu
tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau theo các chủ điểm
đã nêu ở trên, phương pháp này cũng đối diện với thách thức về mặt hiệu quả
và quy mô.
1.2.1.4. Phân biệt kho dữ liệu với các cơ sở dữ liệu tác nghiệp
Trên cơ sở các đặc trưng của DW, ta phân biệt DW với những hệ quản
trị CSDL tác nghiệp truyền thống:
Kho dữ liệu phải được xác định hướng theo chủ đề. Nó được thực hiện
theo ý đồ của người sử dụng đầu cuối. Trong khi đó các hệ CSDL tác nghiệp
dùng để phục vụ các mục đích áp dụng chung.


9

Những hệ CSDL thông thường không phải quản lý những lượng thông
tin lớn mà quản lý những lượng thông tin vừa và nhỏ. DW phải quản lý một
khối lượng lớn các thông tin được lưu trữ trên nhiều phương tiện lưu trữ và xử lý
khác nhau. Đó cũng là đặc thù của DW.
DW có thể ghép nối các phiên bản (version) khác nhau của các cấu trúc
CSDL. DW tổng hợp thông tin để thể hiện chúng dưới những hình thức dễ hiểu
đối với người sử dụng.
DW tích hợp và kết nối thông tin từ nhiều nguồn khác nhau trên nhiều
loại phương tiện lưu trữ và xử lý thông tin nhằm phục vụ cho các ứng dụng xử lý
tác nghiệp trực tuyến.
DW có thể lưu trữ các thông tin tổng hợp theo một chủ đề nghiệp vụ nào
đó sao cho tạo ra các thông tin phục vụ hiệu quả cho việc phân tích của người sử
dụng.
DW thông thường chứa các dữ liệu lịch sử kết nối nhiều năm trước của

các thông tin tác nghiệp được tổ chức lưu trữ có hiệu quả và có thể được hiệu
chỉnh lại dễ dàng. Dữ liệu trong CSDL tác nghiệp thường là mới, có tính thời sự
trong một khoảng thời gian ngắn.
Dữ liệu trong CSDL tác nghiệp được chắt lọc và tổng hợp lại để chuyển
sang môi trường DW. Rất nhiều dữ liệu khác không được chuyển về DW, chỉ
những dữ liệu cần thiết cho công tác quản lý hay trợ giúp quyết định mới được
chuyển sang DW.
Nói một cách tổng quát, DW làm nhiệm vụ phân phát dữ liệu cho nhiều
đối tượng (khách hàng), xử lý thông tin nhiều dạng như: CSDL, truy vấn dữ
liệu (SQL query), báo cáo (report)..v..v..


10

1.2.2. Tổng quan về khai phá dữ liệu
1.2.2.1. Một số định nghĩa về khai phá dữ liệu
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức
trong cơ sở dữ liệu. Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu
giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, … . (Xem
hình 1.2)
Dữ liệu thực
Mẫu ước lượng
Cơ sở tri thức
Công cụ khai phá DL
Kho dữ liệu

Cơ sở dữ liệu

Kho dữ liệu


Nơi chứa DL khác

Hình 1.2 Khai phá tri thức trong cơ sở dữ liệu
Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu đã được đưa ra:
Định nghĩa của Ferruzza: “khai phá dữ liệu là tập hợp các phương
pháp được dùng trong tiến trình khai phá tri thức để chỉ ra sự khác biệt các
mối quan hệ và các mẫu chưa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “khai phá dữ liệu là quá trình trợ giúp quyết
định, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong
cơ sở dữ liệu (CSDL) lớn”.


11

Định nghĩa của Fayyad: “khai phá dữ liệu là một quá trình không tầm
thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có
thể hiểu được”.
Quá trình khai phá dữ liệu trải qua ba bước:
Bước 1: Lọc dữ liệu hay gọi là tiền xử lý. Khi dữ liệu được thu thập từ
nhiều nguồn khác nhau nên có thể có những sự sai sót, dư thừa và trùng lặp.
Lọc dữ liệu là cắt bỏ những dư thừa để dữ liệu được định dạng thống nhất. Dữ
liệu sau khi lọc và chỉnh sửa sẽ nhỏ hơn, xử lý nhanh chóng hơn.
Bước 2: Khai phá dữ liệu là công việc chính, sử dụng các thuật toán
khác nhau để khai phá các kiến thức tiềm ẩn trong dữ liệu.
Bước 3: Hậu xử lý, là quá trình ước lượng kết quả khai phá theo yêu
cầu của người dùng. Nhiều kỹ thuật khai phá dữ liệu được ứng dụng cho một
nguồn dữ liệu, các kỹ thuật khác nhau cho các kết quả có thể khác nhau. Các
kết quả được ước lượng bởi những tiêu chí đánh giá nào đó, nếu cuối cùng kết
quả không thỏa mãn yêu cầu, chúng ta phải làm lại với kỹ thuật khác cho đến
khi có kết quả mong muốn.

1.2.2.2. Các mô hình khai phá dữ liệu
Có hai mô hình khai phá dữ liệu:
Mô hình khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất
hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kĩ thuật này
gồm có: phân cụm (clustering), tóm tắt (summarization), trực quan hóa
(visualization), phân tích sự phát triển và độ lệch (evolution and deviation
analysis), phát hiện luật kết hợp (association rules), ...
Mô hình khai phá dữ liệu suy diễn: có nhiệm vụ đưa ra các dự đoán
dựa vào các suy diễn trên dữ liệu hiện thời. Các kĩ thuật này gồm có:
phân lớp (classification), hồi quy (regression), ...


12

1.2.2.3.Nhiệm vụ chính trong khai phá dữ liệu
a) Phân lớp (phân loại - classification)
Là việc xác định một ánh xạ để ánh xạ các mẫu dữ liệu thỏa mãn ràng
buộc nào đó vào cùng một lớp, do đó dữ liệu sẽ được phân thành các lớp có thể
giao nhau hoặc không.
Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc
tính dự báo và thuộc tính phân lớp. Như thế quá trình phân lớp có thể sử dụng
mối quan hệ này để dự báo cho các mục mới. Các kiến thức được phát hiện biểu
diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của một mục
thoả mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”.
b) Hồi qui (regression)
Là việc dùng một hàm dự báo để từ các mẫu dữ liệu đã có hàm dự báo sẽ
cho một giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp.
c) Phân nhóm (clustering)
Là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ
liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ

liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá
dữ liệu có nhiệm vụ phân nhóm như phát hiện tập các khách hàng có phản ứng
giống nhau trong CSDL tiếp thị, xác định các quang phổ từ các phương pháp
đo tia hồng ngoại, …
d) Tổng hợp (summarization)
Là công việc liên quan đến các phương pháp tìm kiếm một mô tả tập con
dữ liệu. Kỹ thuật tổng hợp thường áp dụng trong việc phân tích dữ liệu có tính
thăm dò và báo cáo tự động.


13

Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp. Mô tả
loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu
hết các mục của một lớp. Các mô tả đặc trưng thể hiện theo luật có dạng sau:
“Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả các
thuộc tính đã nêu trong kết luận”. Lưu ý rằng luật dạng này có các khác biệt
so với luật phân lớp. Luật phát hiện đặc trưng cho lớp chỉ sản sinh khi các
mục đã thuộc về lớp đó.
e) Mô hình hoá sự phụ thuộc (dependency modeling)
Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc
tính theo hai mức:
1/ Mức cấu trúc của mô hình mô tả (thường dưới dạng đồ thị). Trong đó,
các biến phụ thuộc bộ phận vào các biến khác.
2/ Mức định lượng mô hình mô tả mức độ phụ thuộc. Những phụ thuộc
này thường được biểu thị dưới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì
kết luận đúng). Về nguyên tắc, cả tiền đề và kết luận đều có thể là sự kết hợp
logic của các giá trị thuộc tính. Trên thực tế, tiền đề thường là nhóm các giá trị
thuộc tính và kết luận chỉ là một thuộc tính. Hơn nữa hệ thống có thể phát
hiện các luật phân lớp trong đó tất cả các luật cần phải có cùng một thuộc tính do

người dùng chỉ ra trong kết luận.
Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy Bayes.
Đó là đồ thị có hướng, không chu trình. Các nút biểu diễn thuộc tính và trọng
số của liên kết phụ thuộc giữa các nút đó.
f) Phát hiện sự biến đổi và độ lệch (change and deviation dectection)
Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi có nghĩa dưới
dạng độ đo đã biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội
dung của tập con dữ liệu thực và nội dung mong đợi.


14

1.2.2.4. Các thành phần của giải thuật khai phá dữ liệu
Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đó giải
thuật khai phá dữ liệu tìm kiếm mẫu đáng quan tâm theo dạng xác định các
luật, cây phân lớp, hồi quy, phân nhóm, … Giải thuật khai phá dữ liệu gồm 3
thành phần chính:
Biểu diễn mô hình: Mô hình được biểu diễn theo một ngôn ngữ nào đó để
miêu tả các mẫu có thể khai thác được. Mô tả mô hình rõ ràng thì học máy sẽ tạo
ra mẫu có mô hình chính xác cho dữ liệu. Tuy nhiên, nếu mô hình quá lớn thì
khả năng dự đoán của học máy sẽ bị hạn chế. Như thế sẽ làm cho việc tìm kiếm
phức tạp hơn cũng như hiểu được mô hình là không đơn giản hoặc sẽ không thể
có các mẫu tạo ra được một mô hình chính xác cho dữ liệu.
Kiểm định mô hình (model evaluation): Là việc đánh giá, ước lượng các
mô hình chi tiết, chuẩn trong quá trình xử lý và phát hiện tri thức với sự ước
lượng có dự báo chính xác hay không và có thoả mãn cơ sở logic hay không?
Ước lượng phải được đánh giá chéo (cross validation) với việc mô tả đặc điểm
bao gồm dự báo chính xác, tính mới lạ, tính hữu ích, tính hiểu được phù hợp với
các mô hình. Hai phương pháp logic và thống kê chuẩn có thể sử dụng trong mô
hình kiểm định.

Phương pháp tìm kiếm: Bao gồm hai thành phần : tìm kiếm tham số và
tìm kiếm mô hình.
Tìm kiếm tham số. Giải thuật cần tìm kiếm các tham số để tối ưu hóa các
tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và với một mô tả mô
hình đã định.
Tìm kiếm mô hình xảy ra giống như một vòng lặp qua phương pháp tìm
kiếm tham số: Mô tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi


15

một mô tả mô hình, phương pháp tìm kiếm tham số được áp dụng để đánh giá
chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường sử dụng các kỹ
thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có thể thường
ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản theo mẫu đóng
(closed form) không dễ đạt được.
1.2.2.5. Các phương pháp khai phá dữ liệu
a) Phương pháp suy diễn / quy nạp
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các
thông tin trong CSDL. Phương pháp suy diễn dựa trên các sự kiện chính xác để
suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử
dụng phương pháp này thường là các luật suy diễn.
Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được
sinh ra từ CSDL. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ
không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp
này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng
trong CSDL.
b) Phương pháp K-láng giềng gần
Sự miêu tả các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều
chiều là rất có ích đối với việc phân tích dữ liệu. Việc dùng các miêu tả này, nội

dung của vùng lân cận được xác định, trong đó các bản ghi gần nhau trong
không gian được xem xét thuộc về lân cận của nhau. Khái niệm này được dùng
trong khoa học kỹ thuật với tên gọi K-láng giềng gần, trong đó K là số láng
giềng được sử dụng.
Kỹ thuật K-láng giềng gần là một phương pháp tìm kiếm đơn giản, nhưng
nó có một số mặt hạn chế giới là hạn phạm vi ứng dụng của nó, đó là thuật toán
này có độ phức tạp tính toán là luỹ thừa bậc 2 theo số bản ghi của tập dữ liệu.


16

c) Phương pháp sử dụng cây quyết định và luật
Cây quyết định là một phương pháp mô tả tri thức dạng đơn giản
nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của
cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể
của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng phân lớp
theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của các thuộc
tính của đối tượng tới lá.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả
các mẫu dữ liệu. Sau đó, các mẫu sẽ được phân chia một cách đệ quy dựa vào
việc lựa chọn các thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành
lá, ngược lại ta sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm
cơ sở để phân chia các mẫu ra các lớp. Theo từng giá trị của thuộc tính vừa chọn,
ta tạo ra các nhánh tương ứng và phân chia các mẫu vào các nhánh đã tạo. Lặp
lại quá trình trên cho tới khi tạo ra được cây quyết định, tất cả các nút triển khai
thành lá và được gán nhãn.
d) Phương pháp phát hiện luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần
dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết
hợp tìm được.

Cho một lược đồ R = {A1, …, Ap} với các thuộc tính A1, …, Apvới miền
giá trị D(Ai), và một quan hệ r trên R. Một luật kết hợp trên r được mô tả dưới
dạng X  B với X  R và B  R\X.
Cho W  R, đặt s(W, r) là tần số xuất hiện của W trong r được tính bằng
tỷ lệ của các hàng trong r có giá trị 1 tại mỗi cột thuộc W. Tần số xuất hiện của
luật X  B trong r được định nghĩa là s(X  B, r) còn gọi là độ hỗ trợ của luật,


×