Tải bản đầy đủ (.pdf) (109 trang)

(Luận văn thạc sĩ) một số vấn đề về khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
K H O A C Ồ N G

N G H Ệ

NGUYỀN HUY ĐỨC

MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ DỮ LIỆU
*



CHUYÊN NGÀNH; CÔNG NGHỆ THÔNG TIN
MA SỐ: 01.01.10

LUẬN VĂN THẠC s ĩ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS» TS VŨ ĐỨC THI

HÀ NỘI - Năm 2003


1

MỤC LỤC
Lời in ở d ầ u ..........................................................................................................................................3
C h ư ơ n g 1: T ổ n g q u a n về cơ

sở


d ữ liệu và k h a i p h á d ữ liệu......................................... 6

/ . / . T ổ chức và khai thác cơ sở d ữ liệu truyền ỉhống.............................................................6
1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL.................................... 7
1.3. Quá trình p h á t hiện tri thức..................................................................................................11
1.3.1. Pháỉ hiện tri thức................................................................................................. 1 1
1.3.2. Các giai đoạn của quá trình phát hiện tri thức...........................................12
1.4. Khai phá d ữ li ệ u ..................................................................................................................14
1.4.1 K iến trúc của hệ thống khai phá dữ l i ệ u ..........................................................15
1.4.2. Quá trình khai phá dữ iiệu .............................................................................. 16
1.4.3. Nhiệm vụ chính của khai phá dữ l i ệ u ......................................................... í 7
1.4.4. Các thành phẩn của giải thuật khai phá dữ l i ệ u ...........................................19
1.4.5. Mội số phương pháp khai thác dữ liệu phổ b i ế n .........................................20
1.4.6. Lựa chọn phương p h á p ........................................................................................24
1.4.7. Có phải tất cả cấc mẫu lìm được đều đáng quan t â m ? ...........................25
C h ư ơ n g 2: K h a i p h á lu ậ t kết hợp Iro n g cơ sở tia iiộu l ớ n .......................................27
2,1, ¡Mật kết h ợ p ............................................................................................................................27
2.1.1 Phân tích sự bán hàng của siêu thị - một ví dụ về dộng cơ thúc dẩy khai
phá luật kết h ọ p ..............................................................................................................................27
2.1.2. Các khái niệm cơ s ở ..............................................................................................28
2.1.3 Một s ố lính chất của tập m ục phổ biến và luật kếl h ợ p ......................... 32
2.2 Khai p h á luật kết hợp boolean dơn chiều ỉừ C S D L tác vụ.......................................35
2.2.1 Thuật tốn Apriori: tìm tập mục phổ biến sử dụng sinh các ứng cừ.... 35
2.2.2 Nồng cao hiệu quả của Thuật tốn Apriori....................................................42
2.2.3 Sinh các luật kồì hợp từ ỉập mục phổ biên.......................................................46
2 3:K hư i phá lập m ục p h ổ biến không sinh các ứng cử...................................................... 49
2.4. C ơ .sở iỷ ỉhuyâì của luật kết hợp.........................................................................................59


2.5. Khai phá luật kết hợp ảịnh lượng .............................................................................................63


2.6 Khai phá ỉnậi kết hợp da mức......................................................................................... 66
2.6.1: Luật kết hợp đa mức........................................................................................ 66
2.6.2: Các cách tiếp cận khai phá luật kết hợp đa mức....................................... 68
Chưong 3: Khai phá luật kết hợp đ ó n g .......................................................................... 73

3.1: Tập mục phổ biến dóng........ ......................................................................................... 73
3.2: Sình lu ậ t................................................................................................................................... 79
3.3: Thuật toán CHARM.......................................................................................................80
Chương 4ĩ Thử nghiệm khai phấ luật kết h ợ p ............................................................ 86

4.1: Mô tảđữỉiệu................................................................................................................... 86
4,2: Xây dựng chương trình....................................................................................................87
4.3: Kết q u ả th ử nghiệm ...............................................................................................................90

Kết kuân
của luân
v ả o ........................................................................................................93
>
>
Tài iiệu tham k h ả o .............................................................................................................. 94


3

LỜ I M Ở ĐẨ U

Sự phát triển mạnh mẽ của công nghệ phần cứng đã tạo nên các máy tính có
bộ xử lý tốc độ cao, bộ nhớ dung ỉưọmg lớ» và cùng với điều đó là sự phát triển
không ngừng của các hệ thống viễn thông. Các hệ thống Ihơng tin phục vụ việc ụr

(lộng hố trong các lĩnh vực kinh doanh cũng như quản !ỷ đã được triển khai với lốc
độ íãng trưởng virợi bậc. Diều dó dã tạo ra những dòng dữ liệu khổng lồ, trớ Iliành
hiện tượng “bùng lỉố thông tin”. Nhiều hệ quàn trị cơ sở dữ iiệu mạnh với các cõng
cụ phong phú và thuận úện đã giúp con người khai thác có hiệu quả nguồn lài
nguyên Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai ihác các cơ
sớ ciữ liệu (CSDL) phục vụ các yêu cầu trợ giúp qưyết định ngày càng có ý nghĩa
quan trọng và là nhu cầu lo lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý.
Dữ liệu được Ihu thập và lưu trữ ngày càng nhiều nhuìig người ta quyết đình trong
qn ỉý, kinh doanh lại cần những thơng tin bố ích, những "tri thức'' rút ra từ những
nguổn cỉù' liệu dó hơn là chính những dữ liệu dó cho việc ra quyẽì định của mình.
Các nhu cầu đó đã được biết tiến tờ lâu nhưng mới thực sự bùng nổ lìr thập
»íèu 90 của ihế kì 20, Do đó, những nám gổn dây đã phát triếci mạnh mẽ một loại

các

lình vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin (data

warechouse, information wareliouse), các hệ trợ giúp quyết định, các phương pháp
phát hiện tri thức và khai phá dữ lìồu (data mining). Trong đó, khai phá dữ liệu và
phát hiện tri Ihức đã trở Ihành một lĩnh vực nghiên cứu sôi đông, thu hút sự quan
tàm cúa rất nhiều người Ixên khấp các lĩnh vực khác nhau như các hệ cơ sở dữ liệu,
thống kê, chiếi xuất thơng tin, nhận dạng, học máy, trí tuệ nhân tạo v.v...
Các kho dữ liệu có Ihc giúp khai thác thông tin bằng các .công cụ truy vấn và
báo cáo cũng như được sử dụng để hỗ trợ việc phân tích trực tuyến, kiểm dịnli các
giả thuyết. Tuy nhiên, chỉ có kho dữ liệu thì chưa (hể có được tri thức, nếu dữ liệu
dược phân tích một cách thơng minh thì chúng sẽ là nguồn tài ngun vỏ cùng quí
giá. Từ những khối lượng khổng ỉổ dữ liệu có sẵn, tìm ra những Ihơng tin tiềm ẩn có
giá trị, chưa đưọc phót hiện, những xu hướng phát trịểu và »hững yểu lố íác dộng tơn



4

ehüiig là một diều hết sức cần thiết. Tiến hành cơng việc như vậy chính là thực hiện
q trình phíH hiện tri thức trong cơ

sở dữ liệu

( Knowledge Discovery in Database -

K D D ).
Được nói đến lần đẩu vào cuối những năm 1980 [3] , phát hiện tri thức trong
các CSDL là quá trình phát hiện tri thức tiềm ẩn, không biết trước và liềm năng cỏ
lợi từ (iữ liệu trong các CSDL lớn. Phát hiện tri thức là một sự tiếp thu, sử dụng và
phái triển các thành tựu của nhiều lĩnh vực nghiên cứu trước đó như: iý Ihuỵết nhộn
dạng, hê chuyên gia, trí tuệ nhân tạo, thơng kê,...
Q trình phát hiện iri ihức gdm nhiều giai đoạn, trong đó giai (Jüan khai pliầ
dử liệu ( data mining hay viết tắỉ là DM) là giai doạn chủ yếu nhất cùa nó.
Giai đoạn khai phá dữ liệu được thực hiện sau các khâu tình lọc và tiền xử lý
dữ liệu, nhằm tìm ra các mẫu, các xu hướng có ý nghĩa (ừ các tập dữ liệu. Chỉ

có các

mầu, các xu hướng được xem là đáng quan tâm (xét theo một phương diện nào dó)
mới được coi là tri thức, và tri thức là có ích khí nó có thể gìiip đạt được mục đích
của hệ thống hoặc người dùng. Các kỹ thuật khai phá dữ liệu được chia thành ba
mảng cơ bân: phan lóp/phân cụm dữ liệu, các luật kết hợp và khai phá chuỗi.
Khai phá luật kết hợp từ những CSDL lớn lần đầu xuất hiện vào năm 1993 và
hiện tại đã và đang được nghiên cứu, phát triển rất mạnh, trở rhành một khuynh
hưởng quan trọng của khai phá dữ liệu. Khai phá luật kết hợp được nghiên cứu và

phát triển mạnh vì các iuật tìm được bộc lộ nhiổu mẫu có ích .
Dựa trên mộl số báo cáo khoa học trong một số hội nghị quốc tể và một số
bài báo dược công bố trẽn các tạp chí chuyên ngành hoặc phổ biến {rèn Internet,
íuận ván này

sẽ trình

bày một số vấn đề về phái hiện tri thức, khai phá dữ liệu và

trình bày rơ vấn để khai phá luật kết h ợ p .
Nội dung của luân văn gồm có bốn chương và phần phụ lục.
Chương 1: Tổng quan về cơ

sở dữ liệu

và khai phá dữ liệu: nhằm tổng quan

lioá về các giai đoạn của quá trình phát hiện tri thức, các vấn đề chúlil của íỊ trình
khai phá dữ liệu, các phương pháp , các kỹ thuật khai phá dữ liệu.
Chương 2: Khai phá luật kết hợp trong CSDL lớn. Chương này trình bày chi
liếi các vâ'n đề chính yếu của khai phá ỉuật kếi họp: bài tốn xuất phát, mơ hình lùnii


5

thức, một số thuật lốrt điển hình giải quyết vấn dề, phân lích độ phức tạp cùa bài
tốn, nêu một số cách ùếp cận trong khai phá luật kết hợp định lượng, luật kết hợp
phân cấp.
Chương 3: Trình bày C0 sở Ịý ihuyết về tâp d óng và khai phá luật kết hợp
dóng.


Chương 4: Thử nghiệm khai phá luậi kết hợp: trình bày kết quả xây dựng
chương trình và kết quả thừ nghiệm khai phá luật kết hợp trê» một số CSDL.


6

CHƯƠNG 1
T Ồ N G Q U A N VỂ c o s ở D ữ LIỆU V À K H A I PH Á D Ử LIỆU

1.1. TỔ CHỨC VÀ KHAI THÁC c ơ s ở DỮ LIỆU TRUYỂN t h ố n g :
Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liêu
(CSDL) đã đưực phác triển từ những năm 60. Từ đó cho đến nay, rất nhiều CSDL đã
được

\ổ chức, phát triển và khai thác ở mọi quy mô và ờ khấp các

lĩnh vực hoạt động

của con người vằ xã hội. Theo như đánh giá cho thấy, ỉưựng thông tin (rên thế giới
cứ sau 20 tháng lại tăng gấp đơi. Kích íhước và số lượng cơ sở đữ liệu thậm chí cịn
lăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu,
hầu hết đều )à các cơ sở dữ liêu cỡ nhỏ phát triển trén DBase III. Với sư phát Iricn
mạnh mẽ của công nghệ điện lử tạo ra các bộ nhớ có dung lượng lớn, bộ xử Ịý tốc
(ìộ cao cùng với các hệ thống mạng viễn thông người ỉa đã xơy dựng các hệ ỉhống
thơng tin nhằm tự động hố mọi hoạt động kinh doanh của mình. Điều này đã tạo ra
một dịng dữ liệu lãng lên khơng ngừng vì ngay từ các giao dịch đơn giản nhất như
một cuộc gọi điện thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng v.v... đều được ghi
vào trong máy tính. Cho đến nay, con số này đã trở nên khổng lồ bao gồm các cơ


sở

dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes ỉưu trữ cốc dữ iiệu kinh doanh, ví
dụ như dữ liệu thơng tin khách hàng, dữ liệu lịch sử các giao địch, dữ liệu bán hàng,
(lữ liệu các lài khoản, các khoẳn vay, sử dụng vốn v.v... Nhiều hệ quản Irị CSDL
mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai thác có
hiệu quả các nguồn tàì ngun dữ liệu. Mơ hình CSDL quan hệ và ngơn ngữ vấn đáp
chuẩn (SQL) đã có vai trị hết sức quan trọng trong việc lổ chức và khai ỉiiáe các
CSDL đó. Cho đến nay, không một tổ chức kinh tế nào là không

sủ dụng

các hệ

quản trị CSDL và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các
CSDL phục vụ cho hoạt dộng tác nghiệp của mình.

1.2. BƯỚC PHÁT THIỂN M ỏi CỦA VIỆC rổ CHỨC VẢ KHAI THÁC

í Ác CSDL


7

Sự phá! triển kinh ngạc của công nghệ phần cứng máy tính trong 3 thập kỉ
qua tạo cho máy tính có sức mạnh ỉớn. Điều đó cho phép cạo ra sô' lượng khổng lổ
các CSDL và thông tin được cất giữ để quản ỉý kinh doanh, tìm thơng tin, phân tích
dữ liêu.
Ngày nay, dữ liệu có thể được lưu giữ trong nhiều kiểu khác nhau. Một kiến
trúc CSDL gần đây đã nổi bật ỉên là


kho dữ liệu (data warehouse), nó lưu giữ nhiều

(iữ liệu từ nhiều nguồn khác nhau, tổ chức thống nhất để có thể tạo ra quyết định.
Cơng nghệ kho đữ Hệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, phần tích trực
(uyên (O L A P ),.... đó là những kĩ thuật phân tích với chức năng như là tóm tắ i, hợp
nhất, tập hợp... để có thể xem xét thơng tin từ các góc độ khác nhau. Các cơng cụ
OLAP hỗ trợ phân tích đa chiều và cạo ra quyết định, thêm vào đó các cơng cụ phân
rích dữ liệu đã địi hịi phân tích sâu như phân ỉớp dữ iiộu, phân nhóm, tìm các đặc
tính của dữ liệu,...
Cùng với việc tăng klìịng ngừng khối lượng dữ liệu, các hệ thống thồng tin
cũng (tược chun mơn hố, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài
chính, bn bán thị trường v.v... Như vậy, bên cạnh chức năng khai thác dữ liệu có
lính chất tác nghiệp, sự thành cơng trong kinh doanh khơng cịn là năng suất của các
hộ íhơng tin nữa mà ià tính linh hoại và sẵn sàng đáp lại những yêu cầu trong thực
tế, CSDL cần đem lại những "tri thức" hơn !à chính những dữ liệu đó. Các quyết
dịnh cần phài có càng nhanh càng tốt và phải chính xác dựa trên những đữ liệu sán
có trong khỉ khối lượng đữ liệu cứ sau 20 tháng lại tãng gấp đôi làm ảnh hường đến
thời gian ra quyết định cũng nhưklìả năng hiểu biết được nội dung dữ liệu. Lúc này,
các mơ hình CSDL truyền thống và ngỏn ngữ SQL đã cho thấy khơng có khả nàng
thực hiện được cơng việc này. Để lấy được những ihơng tin có tính ”ỉri thức" írong
khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuậl có khả năng hợp nhái
các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi Ihành một tập hợp các
cơ sở dữ liệu ổn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích
nào đó, Các kỹ thuật dó ctirơc gọi chung là kỷ thuệt tạo kho dữ liệu (data
warehousing) và mơi trường các dữ liệu có đuợc gọi là các kho dữ liệu (data
warehouse).


8


Kho dữ liệu [ i ,3] là một môi trường có cấu trúc các hệ ihống ihơng tin, cung
cấp clio người dùng các Ihơag Ún khó có thể truy nhập hoặc biểu dien trong cúc
CSDL tác nghiệp truyền thống, nhằm ¡nục đích hỗ trợ việc ra quyết định mang ỉính
lịch sử hoặc hiện đại. Theo W.H. Inmon, có thể định nghĩa kho dữ liệu như sau :
’'Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ để có lính ổ» định, Ihay
dổi iheo thời gian nhằm hỗ trợ clio việc ra quyết định, Nói cách khác, mội kho liộu bao gồm;
- Một hoặc nhiều công cụ (íể chiêì xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu
nào.

- Cơ sở đữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu
bẳng cách iặp các bàng dữ liệu của dữ liệu”.
Một kho đữ liệu có thể được coi là một hệ thống thơng tin với những thuộc
lính sau :
- Là m ột

ca sở dữ liệu được thiết kế có nhiệm vụ phùn tích, sử dụng các
liệu từ các ứng dụng khác nhau.
* Mỗ trự cho một số người dùng có liên quan với các thòng tin liên quan.
- Là dữ liệu chỉ đọc .
- Nội đung của nó được cập nhật thường xuyên theo cách chêm thòng tin .
- Chứa các dût liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin.
- Chứa các bảng dữ liệu có kích thưóc lớn.
- Một CÂU hịi thường

trồ

vẻ một lập kết quả liơn quan đến tồn bơ bảng và


các tiên kếi nhiều bảng.
Cấu trúc kho dữ liệu dược xày dựng dựa trên hệ quản trị CSDL qua» hệ, có
chức năng giống như một kho lưu trữ thông ùn trung tâm. Trong đó» (ỉữ liệu lác
nghiệp và phần xử lý được tách tiêng khỏi quá ìrình xử lý kho dữ liệu. Kho lưu trữ
trung tăm đuợc bao quanh bởi các thành phổn được thiết kế để làm cho kho dữ liệu
CĨ ílìổ hoạt động, quản ỉý và truy nhập được từ người dùỉig đẩu cuối cũng nhu tù các
nguổn dữ liệu.


9

('ác dừ liệu iiịỊUồn

I lình 1 .1 : Cấu ÍVÚC điển hỉnh cãa kho dữ liệu

Như trên hình l . i cho thấy, kho dữ liệu bao gồm 7 thành phần :
- Dữ liệu nguồn (là cúc ứng (lung lác nghiệp hoặc các kho dữ liệu tác liglỉìệp
và các cơng cụ chiết xuất, tàm sạch và chuydn đổi dữ liệu),
- Kho dữ liệu vể dữ liệu (Metadata)
- Các kỹ thuật xốy kho
- Kho dữ iiệu thồng minh hay dữ liệu theo chỏ đề (Data marts) là nơi các dữ
liệu đưựe khoanh vùng theo chủ đề tới một gíổi hạn nào đố và có thể được (hay đổi
cho phù hợp với nhu cầu của từng bộ phận người đùng. Vứi các kho dữ ỉiệu này,
cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp
nghĩa là với một tạp hợp các kho dữ liệu Ihơng minh, ta tạo ra một kho dữ ỉiệu,
lìgược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thơng
minh,
- Các cóng cụ vẩn đáp (query), báo cáo (reporting), phãti tích trực tiếp
(OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai thác kho dữ

liệu để đem lại những "tri thức" hơ» là đem lại chính những dữ liệu thơ.
- Quản trị kho dữ liệu
- Hệ thống phân phối thông tin
Nhưng chỉ có kho dữ liệu thịi chưa đỏ để có các trì thức. Như đã để cập ở
trên, các kho dữ liệu được sử đụng theo ba cách chính:


10

- '['heo cách khai thác truyền thống, kho dữ liệu dược sử dụng dể khai thác
các thông tin bằng các công cụ vấn đáp và băo cáo. Tuy nhiên, nhờ có việc chic!
xuất, lổng hợp và chuyến dổi lừ các dữ liệu thơ sang dạng dữ íiệu chấl iượng cao và
có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biếu diễn llỉông
tin ỉruyền thống (hỏi đáp và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng
và CSDL, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy
nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và
biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm
trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liộu khác nhau, tránh cho
người đùng khỏi những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là các khai
thác với kỹ thuật cao để đưa ra cấc dữ liệu tinh và chính xác hơn chứ chưa đưa ra
được dữ liệu "íri thức”.
- Thứ hai là các kho dữ liệu được sử dụng để hỗ trọ cho phan tích trực tuyến
(OLAP). Trong khi ngơn ngữ vấn đáp chuẩn SQL và các công eụ iằm báo cáo truyền
thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực luyến có khả
nìing phân tích dữ liệu, xác định xem giả thuyết đứng hay sai. Tuy nhiên, phân tích
írựe tuyến ầại klìơng

có khả năng dưa ta được các giả thuyết.

Hơn nữa, kích thước quá iớn và tính chất phức tạp của kho tlữ liệu iàm cho nó

rốt khó có thể được sử dụng cho những mục đích như đua ra các giả thuyết từ các
tlìơng tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giá
thuyết giải thích được hành vi của một nhóm khách hàng).
Trước đây, kỹ thuật học máy thường được sử đụng để tìm ra những giả thuyết
từ các ihơng tin dữ liệu thu íhập được. Tuy nhiên, thực nghiêin cho thấy chúng thể
hiện khả năng rất kém khi áp dụng với các tập đữ liệu lớn trong kho dữ liệu này.
Phựơng pháp thống kê tuy ra đời đã lâu nhưng khơng có gì cải tiến để phù hợp với
sự phát triển của đữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ ỉiệu vẫn
chua được khai thác và thậm chí được ỉuu chủ yếu trong các kho đữ liệu không trực
tuyến (off line). Điều này đã tạo nên một iỗ hổng lớn trong việc hị !rợ phân lích và
tìm hiểu dữ liệu tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai íhác các dữ
liệu dó. Trong khi đố, càng ngày người ta càng nhân thấy rằng nếu được phân tích


11

ihồng minh thì dữ liệu sẽ là mội nguồn tàí nguyên quý giá ưong cạnh tranh tiên
thương trường.
Một phương pháp mới đáp ứng cả nhu cầu trong khoa hạc cũng như trong

CÔHỊỈ nghệ khai phá dữ liệu (data mining).
là ứng dụng chinh tiìứba cửa kho dữ liệu.

hoạt dộng thực ũễn, đó chính là
chính

Đây

1.3. Q TRÌNH PHÁT HÍỆN TRI THỨC
1.3.1. Phát hiện tri thức

Yếu tố Ihành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử
dụng thông tin mội cách có hiệu quả, Điều đó có nghĩa là từ các dữ liệu sẩn có phải
Om ra những thơng tin tiềm ẩn có giá trị mà trước đó chưa được phái hiện, tìm ra
những xu hướng phát triển và những yếu tố tác động lên chúng. Tliực hiện công việc
đổ chính !à thực hiện q trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge
Discovery in Database - KDD) mà trong đó

kỹ thuật cho phép ta ỉáv dược các tri

thức chính ỉờ kỹ thuật khai phú dữ liệu (data mining).
Như John Nsbeiỉ đã nói ’'Chúng ta đang chìm ngập trong dữ liệu mà vẫn
đói tri ihức". Dữ liệu Ihường được cho bởi cổc giá {rị mô tá các sự kiện, hiện lưỢrtg
cụ Ihế. Còn tri thức (knowledge) là gì? Có thể có nhũng dịnh nghĩa rỗ ràng đế phân
biệt các khái niệm dữ liệu, thông tin và tri thức hay khơng? Khó mà (lịnh nglũa
chính xác nhưng phân hiệt chúng trong những ngữ cảnh nhất định là rất cần thiết và
có thể ịàm dược. Thống tin là một khái niệm rất rộng, khó có thể dưa ra một định
nghĩa chính xác cho khái niệm này. Cũng khơng thể định nghĩa cho khái niệm iri
thức cho dù chì hạn chế trong phạm vi những trị Ihức đưọc chiết suâì từ các CSDL.
Tuy nhiên, ta cố Ihể hiểu

tri thức là một biển thức trong một ngơn ngữ nào dó ciìưn

kỉ một (hoặc nhiều) mếi quan hệ giữa các thuộc tinh trong các dữ liệu đó. Các ngơn
ngữ thường được đùng để biểu diễn tri thức (trong việc pháĩ hiện tri thức từ các
CSDL) là các

khung (frames), các cây và đồ thị, các ỉtiật (rules), các công ĩh ứ c

trong


hệ thống phương trình v.v...

ví dụ

ngơn ngữ logic mệnh đề hoặc tàn từ cấp một, các

như ta có các luật miơu tả các thuộc lính của dữ liệu, các mẫu rhường xuyên xảy ra,
các nhóm đối luợng trong cơ sở dữ liệu v.v...


12

Trì thức nói ờ đây là tri thức được rút ra từ CSDL (hường đổ giải quyết một
loại các nhiệm vụ nhất định trong 1T1ỘI Lĩnh vực nhất định. Do vậy, quá trình phát
hiện ỉri Ihức cũng mang

linh hướng nhiệm vụ,

khơng phải là phát hiện mọi trí thức

bái kỳ mà phát hiện U'i thức nhằm giải quyết lốt một nhiệm vụ íiào đó. Vì vậy, q
irình phát hiện tri thức là quá trình hoạt động tương tác giữa người sử dụng hoặc
chun gia phân tích với các cơng cụ lin học [3J.
1,3.2. Cốc giai đoạn của quá trình phát hiện tri thức:
Mục đích của q trình phát hiện tri íhức là rút ra tri thức từ dữ liệu trong
CSDL lớn. Quá trình KDD là quá trình gồm nhiỂu giai đoạt» và lặp l ạ i , mà trong dó
sự lặp lại có thể xuất hiện

ở bất cứ bước nào.


Quá trinh đó có thể mơ lả theo mơ hình

sau: [3] ( hình 1.2)

Giai đoạn Ấ: Xác định và dịnh nghĩa vấn đề: Tìm

hiểu lĩnh vực ứng dụng và

nhiệm vụ đặt ra, xác định các tri tlìức đã có và mục tiêu của người dùng. Tạo và lựa
chọn CSDL.

Giai đoạn 2: Thu thập và tiền xử lý dữ liệu,

bao gồm: làm sạch dữ liệu, rúi

gọn kích ihướe và số chiều,...

Giai đoạn 3: Khai phá dữ liệu, bao gồm:

chọn nhiệm vụ khai phá, chọn các

phương pháp khai phá và thực hiện khai phá để rút ra các mẫu, các mồ hình có ý
nghĩa dưới (lạng biểu diễn tương ứng (luật xếp loại, cây quyết định, luật sàn xuấl,
biểu thức hồi quy...)

Giai đoạn 4: Giải ihích kết quả và đánh giá các mâu, các mơ hình tìm thấy ở
giai đoạn 3.
Giai (ỉoạn 5: Sử iltmg các íri thức d ã được p h á t hiện.

Cùng cố tinh chế các tri thức đã được phát hiện. Kết hợp các tri liiức (hành lìộ

iliống. Giải quyết các xung đột tiềm tàng trong tri thức khai Ihác được. Sau đó, tri
thức dược chuẩn bị sẩn cho ứng đụng.
Như vậy,

KDD ià một quả trình rứt ra tri thức từ dữ Uệu mả ¡rong đó khai

phá dữ liệu là giai đoạn chã yếu.


!3

Hình 1.2. Q iiâ trình phá! hiện tri thức
Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà la xốt ở dây
íà sự tiếp thu, sử dụng và phát triển nhiều thành tựu và cỗng cụ cùa các lĩnh vực đã
phát triển trước đổ như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v...
Nil ưng ctặc điểm cơ bản của lý luận về phát hiện tri íhức ở tlây là p h á t hiện

trực tiếp lừ dữ liệu , do
ngành đã

có lừ trước.

iri thức

đậc điểm đổ mà nó có những điểm mới. phán biệt với các

Thí dụ như với các hệ chuyên gia thì cư sở tri Ihức dược hình

thành lừ kinh nghiệm và kiến thức của các chuyên gia là chú yếu, vói nhiổu bài »ốn
nhận citing thì ihường lập các dạng mẫu là cho trước v.v... còn


dối với lỷ thuyết phái

hiện (ri ìhức thì các u i thức, các dựng m ẫu, cức giả thuyết détt dược p h ả i hiệti lữ
việc kh a i thác các kho d ữ liệu .

Néu phát hiện tri thức là toàn bộ quá trình trừu xuất tri thức từ các CSDL llìí
khai

phá d ữ

liệu là giai đoạn

chả yếu

của qúa trình dó- Như trên đã trình bày, trong

quá tành phát hiện tri thức, khâu khai phá dữ liệu được thực liiện sau các khâu linh
lọc và tiền xử lý dữ liệu, lức là việc khai phá để lìm ra các mẫu hình có ý nghĩa ctuợc

tiến hành trên tập dữ tiêu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ


14

không phải ià khai phá hếl dữ liệu với một thời gian đủ dài đổ lấy được một mẫu
không thực sự có ích như khái niệm trong thống kê trước đây. Vì vậy, khai phá dữ
liệu thuồng bao gồm việc thử tìm mơ hình phù hợp vái tập dữ liệu và tìm kiếm các
mẫu từ tập dữ liệu theo mơ hình dó. Thí dụ ìa có mổ hình là một luật kết họp ỉhl
mẫu là các yếu tố tham gia cùng với các độ hỗ uợ (support) và độ tin cậy

(confidence) trong các luật tương ứng.
Nếu xét về mật ý íưởng và mục đích ứng đụng, khai phá dữ liệu là một nhu
cầu tấi yếu, mội sự nhạy cảni đáp lại sự mong mỏi của giới kỉnh đoanh thì về mặì kỹ
ỉht, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học.
Khai phá dữ liệu được xây dựng dựa trên việc sử dụng

các giải

thuật mới, được (lịnh

hướng theo nhu cầu kinh doanh để có thể giải quyếl tự động các bài tốn kinh doanh
bảng các kỹ thuật dễ dùng và có thể hiểu được.
Khai phá dữ liệu không thuộc một ngành cơng nghiệp nào. Nó sử dụng các
kỹ thuật thơng minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi khai
phá dừ liệu ngày nay đang

ở trạng

thái giống như việc quàn trị dữ liệu vào niũrng

[lãm 60, khi mà cấc ứng dụng quản íậ dữ liệu đều không tuân theo một nguyên lác
chung nào cho đến khi mơ hình dữ liệu quan hệ ra đờỉ cùng với sức mạnh cùa ngôn
ngũ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh
chổng, Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành cơng nghiệp sử dụng
kỹ ihuẠt khai phá dữ liêu đổ phục vụ cho hoại động kinh doanh của mình và đã hước
đáu thành cơng như ngành tỉli chính, y học, hố học, bào hiểm, sản xuất, giao thịng,
hàng khơng v.v... Các kết quả đạl được cho thấy mặc dù kỹ thuật khai plìá dữ liệu
hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng vối những tri ihức mà chuyôrv gịa con
người cũng chưa cung cấp được thì khai phá dữ iiệu cổ một tiềm năng to lớn trong
việc lạo ra những lợi nhuận đáng kể trong nền kinh tế.


1.4 KHAI PHÁ D ữ LIỆU:
Khai phá dữ Liệu (Data mining - DM) là một khái niệm ra đời vào những năm
cuối của thập kỷ 80. N ó

bao hờm một loạt các kỹ thuật nhằm phái hiện ra các thơng

ủn có giá trị tiềm ẩn trong, các tập dữ liệu Ịởn (các

kho dữ liệu), v ề bàu chất, khai


15

phá dữ liệu liên quan đến việc

phân tích các dữ liệu và sử dụng các kỹ thuật để tìm

ra các m ầu hình có tính chinh quy ịregularities) trong tập d ữ liệu.

[3]

1.4.1 Kiến trúc cùa hệ thống khai phá cỉữ liệu :
Khai phá dữ liệu Ut mội bước trong quá trình phát hiện trì thức từ số lưựng
lớn clữ liệu đã lưu trữ trong các CSDL, kho dữ liệu hoặc các nơi lưu giữ khác, Bước
này có thể tương tác lẫn nhau giữa người sử đụng hoặc

cơ sở tri

thức, những mẫu


đáng quan tâm được đưa đến cho người đùng hoậc ĩưu giữ như là tri thức mới ĩrong
cư sở tri thức.
Kiến trúc của hệ thống khai phá dữ liệu có thế có các thành phần chính sau [11]:
(hình 1,3)
+ CSDL, kho dữ liệu hoặc kho lưu trữ khác: đó là một hoặc mộl tập các
CSDL, kho dữ liệu... Các kĩ thuật làm sạch dữ liệu và tích hợp dữ liệu có thổ thực
hiện trên dữ liệu .
+ Cư sở tri thức: đó là lĩnh vực tri thức được dùng để hướng dẫn việc rim hoặc
đánh giá các mẫu kết quả tìm dược,
+ Data mining engine: bao gồm tập các modul chức năng dể Ihực hiện các
nhiệm vụ như là rnơ tả đặcdiểm, kết hợp, phan lớp, phân nhóm dữ liệu,...
+ Module đánh giá mẫu: TliùnU phẩn này sử dụng các độ đo và tương lác với
các modul khai phá DL đổ tạp trung vào tìm các mẫu cẩn quan lảm.

+ Biểu diễn dạng dồ hoạ : mociul này giao tiếp giữa người dùng và hệ thống
khai phá dữ liệu.


16

Hình 1.3:

Kiến trúc hệ thống khai phú dừ liệu.

1-4.2. Quá trình khai phá dữ iỉệu
Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình
hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thông kè trước
đây, thường till bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ
nhớ. Khi chuyển sang các ứng đụng công nghiệp liên quan đến việc khai phá các

kho dữ liệu lớn, mơ hình này khơng thể đáp ứng được. Khồng chỉ bởi vì nó khống
thổ nạp hết dữ ìiệu vào trong bộ nhớ mà cịn vì khó có thể chiết xuất dữ liệu ra các
tệp dơn gián để phân tích được,
Q trình khai phá dữ liệu dược thể hiện bồi mơ hình sau [3Ị:


17

+ Xác định nhiệm vụ: Xãc định chính xác vấn đề cần giải quyết.
+ Xác định các đữ liệu liên quan dùng để xây đựng giải pháp.
+ Thu thập các dữ liệu có liên quan và xừ lý chứng thành dạng sao cho giải
thuật khai phá dữ liệu có thể hiểu được, ị đây có thể gặp một sơ' vấn đề: dữ liệu
phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập cáctệp dữ
iiệu, phải lặp đi lặp lại nhiều lẩn toàn bộ quá trình (nếu mơ hình đữ ỉiệu ihay

đổi

v.v...)
4- Chọn thuật tốn khai phá dữ ĩiệu thích bợp và thực hiện việc khai phá dữ
liệu: nhằm tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với
các ý nghĩa dó.

1.4.3. Nhiệm vụ chính của khai phá dữ tiêu :
Mục đích của khai phá dữ liệu ià các chiết xuất tri thức từ dữ liệu. Do đó, ta
có thể coi mục đích chính của khai thác dữ liệu sẽ là

(prediction). Các

mơ tả (description) vị dự đốn


mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích

này.
Dự đoán liên quan đến việc sử đụng các biến hoặc các trường trong cơ sờ dữ
ỉiệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá
trị trong tương lai của các biến đáng quan tâm. Mơ tả tập trung vào việc tìm kiếm
các mẫu mơ lả dữ liệu mà con người có thể hiểu được.
Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ iiệu bao gổm
như sau :


18

4 Phản lớp (Chmificcution)

: Phãn lớp ià việc học một hàm ánh xạ {hay

phân loại) mội mẫu dữ liệu vào mộl trong số các lớp đã xác dinh (Hand 1981; Weiss

Si Kulikowski
t

1991; MeLaehla» 1992).

ỉỉổi qui

(Regression)

: Hồi qui là việc học một hàm ánh xạ từ một mẫu dữ


liệu thành mội biến dự đốn có giá trị thực.

Ạ Phân nhóm (Clustering) : Là

việc mơ tả chung để lìm ra các tập xác định

các nhóm hay các ioại dể mơ tẳ dữ liệu (Tìuerington, Smith & Makov 1985, Jain &

Dubes 1988). Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lèn nhau. Có
nghĩa ỉà một dỉr liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứiig dụng
khai phá dữ liệu có nhiệm vụ phàn nhổm như phát hiện tập các khách hàng có phản
ứng giống nhau trong cơ sớ dữ liệu tiếp thị...

H ình 1.5'.Mẩn kết quả

với nhiệm vụ phản nhóm

H ìnhl .5 m iêu tả các m ẫu của quá trình khai phá dữ liệu với nhiệm vụ phân nhổm . Ở
đây các m ẫu là các nhóm khách hàng được xếp thành ba nhóm gối lên nhau. Các
điếm nằm trong cả hai nhóm chứng tỏ khách hàng có thể thuộc cả hai loại trạng

thái.
#

Tóm tắt (summarization)

: Liên quan đến các phương pháp tìm kiếm một

mơ tả tóm tắt' cho một tập con dữ liệu. Các kỹ thuật tóm tắt thường được áp dụng
cho các phân tích dữ ìiệu tương tác có tính thăm dị và tạo báo cáo tự động.


* Mơ hình hố phụ thuộc (Dependency Modeling)

: Bao gồm việc tì nì kiếm

ruột mơ hình mơ tả sự phụ thuộc đáng kể giữa các biến. Các mơ hình phụ thuộc tồn
tại dưới hai mức:


19

- Mức cấu true của mị hình xác dinh (thường ơ dạng đồ hoạ) các biến
nào là phụ thuộc cục bộ với nhau,
- Mức định ỉượag của một mơ hhìh xác định độ mạnh của sự phụ
thuộc Iheu một thước đo nào đó.
ệ Phái hiện sự ihuy đổi và lạc hướng (Change and D eviation Detection):

Tập trung vào khai íhác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị
chuẩn hoặc được đo trưóc đó (Berndt & Cliffort; Guyon et al. Kloesgen; Matheus et
al., Basseville & Nikiforov 1993).
Rõ ràng là ta thấy những nhiệm vụ khác nhau này yêu cầu sô' lượng và các
dạng thông tin rất khác nhau ndn chúng thường ảnh hưởng đến việc thiết kế và chọn
giải thuật khai phá dữ liệu khác nhau.
1.4.4. Các thành phần của giải thuật khai phá d ô liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn
mơ hình, đánh giá mơ hình, tìm kiếm mị hình. [3]

• Biểu

diễn


mơ hình'.

Mơ hình được biểu diễn bằng mộl ngôn ngữ L để miêu

tả các mẫu có thể khai thác dược, Nếu sự mơ tả quá bị hạn chế thì sẽ khổng ihể học
dưực hoặc sẽ khơng thể có các mẫu tạo ra được một mơ hình chính xác cho đĩr liệu.
Khả nãng miêu tả mơ hình càng lớn thì càng làm tăng ư»ức độ nguy hiểm do bị học
quá và làm giảm di khả năng dự đoán các dữ liệu chưa biết. Hơn tiữa, việc lìm kiếm
sẽ càng trở nên phức tạp hơn VỈI vịệc giải thích mơ hình cũng khó khãn hơn.
• Đ ánh giá m ơ h ìn h : Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn
của q trình phát hiện tri thức hay khơng. Việc đánh giá độ chính xác dự đốn dự»
(IV¡1 đánh giá chéo (cross validation)- Đátth giá chất lượng liên quan đến độ chính
xác dự đốiỉ, độ mới, khả nâng sử dụng, khả năng hiểu được của mơ hình. Câ hai
chuẩn tliơng kè và chuẩn logic đều có thể dược sừ dụng đổ đánh giá mõ hình.

• T ìm

kiếm m ỏ hình: Phương pháp tìm kiếm bao gổm 2 thành phẩn: lìm kiếm

Iham số và úm kiếm mơ hình.
-

Trong tìm kiếm tham số; giải thuật cẩn lìm kiêm các tham số để tối ưu hóa

các liơti chuẩn đánh giá mơ hình với các dữ liệu quan sál được và với một miêu ui
mô hình dã định.


20


-

Tìm kiếm mơ hình; Tìm kiếm mõ hình xây ra giống như một vịng lặp qua

phương pháp lìm kiấn tham số: miêu tả mơ hình bị thay đổi tạo nên một họ các mó
hình. Với mỗi một miêu tả mố hình, phương pháp tìm kiếm tham số dược áp dụng
để đánh giá chất lượng mơ hình, Các phương pháp tìm kiếm mơ hình thường sử
dạng các kỹ thuật tìm kiếm heuristic vì kích thước của khơng gian các mơ hình có
thể thường ngăn càn các tìm kiếm tổng thể.

1.4.5. Một sô' phương pháp khai thác dữ liệu phổ biến [3, II]

ỉ .4.5.1. Phương phấp quy nạp (induction)
Có hai kỹ thuật chính để thực hiện việc này ià suy diễn và quy nạp.
* Phương pháp suy diễn: Nhằm rúl ra thông tìm là kết quả logic của các thõng
tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy
ra các trí thức mới từ các thơng lin cũ, Mẫu chiết xuấí được bằng cách sừ đụng
phương pháp này »hường là các luậí suy dìển.
* Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh
ra từ cơ sở dữ liệu. Có nghĩa là tìó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không
phải bất đẩu với các tri thức đã biết trước. Các thông tin mà phương pháp nìiy dem
lạị íà các ihơng tin hay các tri thức cấp cao diễn tà .về các đối tượng irong cơ sở dữ
liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.
Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo

luạt.

Ị .4.5.2. CâỴ quyầĩ định và luật:
* Cây quyết định', cây


quyết định là một mô tả tri thức dạng đơn giàn nhằm

phân các đôi tưọng dữ liệu thành mội số lớp nhất định. Các nút của cây được gán
nhãn !à tên các thuộc tính, các cạnh được gắn các giá trị có thể của các thuộc tính,
các )á miều tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi
trẽn cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá.


21

Vi du: Bang vf du hoc cho ktiai niem chd tennis ( PlayTennte)
Day
D!
D2
D3
D4
D5
D6
D7
D8
D9
DIO
D ll
D12
DI3
D14

Outlook
Sunny

Sunny
Overcast
Rain
Rain
Rain
Overcast
Sunny
Sunny
Rain
Sunny
Overcast
Overcast
Rain

Temperature
Hot
Dot
Hot
Mild
Cool
Cool
Cool
Mild
Cool
Mild
Mild
Mild
Hot
Mild


Humidity
High
High
High
High
Normal
Normal
Normal
High
Normal
Normal
Normal
High
Normal
High

Wind
Weak
Strong
Weak
Weak
Weak
Strong
Strong
Weak
Weak
Weak
Strong
Strong
Weak

Strong

Hinh 1.6 mö ta cäy quy£t dinh cho khai ni&m choi tennis

ITmh 1.6:



PlayTennis?
No
No
Yes
Yes
Yes
No
Yes
No
Yes
Yes
Yes
Yes
Yes
No

(PlayTennis)

Cäy quyei dinh cho khäi niem choi tennis (PlayTennis)

Tao ladt: Cäc luat dufoc tao ra nhäm suy diln


mot so mSu dür lieu co y nghla

vd mat thöng kS. Cäc luat cd dang Neu P thi Q; vöi P lä menh d l düng vöi möt phän
d& liSu Irong CSDL, Q la menh d£ du doän.
CAy quydt dinh va iuät co iru dilm lä hinh thüt miSu ta ddn gum, mo hinh
.suy di£n khä de hi£u do'i vöi ngudi sir dung. Tuy nhien, gioi han ctia no la miCm la
cay vä luat chi co the bi£u diln du'Oc möt so dang chtfc naug va vi vay gioi ban ca vd(> chinh xäc cüa mo hinh.


22

! A.5.ỉ. Phát hiện các Idật kết hợp
Phương pháp này nhằm phái hiện ta các luật kết hợp giữa các thành phần dữ
liệu trong cơ sớ dữ liệu. Mẫu dầu ra của giải thuật khai phá dữ liệu là lập luật kết
hợp lìm dược. Chẳng hạn: phân tích CSDL bán hàng nhận được thông tin về những
kliácli hàng mua máy tính cũng có khuynh hướng ¡nua phần mềm quản lý tài chính
trong cùng lần mua được miêu tà trong luật kếl hợp sau:
" M á y tinh = > Phần m ềm quản Ịý tài chính"
[Độ hỗ trợ: 2%, độ tin cậy: <50%]

Độ hỗ irợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật, Chúng
lương ứng phản ảnh H ự hữu ích và sự chắc chắn của luật đã khám phá. Đỗ hỗ irợ 2%
có nghĩa là: 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phẩn mém
quản lý tài chính là đã được mua cùng nhau. Cịn độ tin cậy 60% có nghĩa là 60%
các khách hàng mua máy lính cũng mua phần mềm.

1.4.5,4. Phân nhỏm và phân đoạn (dttsíerrìg and segmentation)
Kỹ thuật phân nhóm và phan đoạn ià những kỹ thuật phân chia dữ liệu sao
cho mơi phẩn hoặc mỗi nhóm giơng nhau theo một tiêu chuẩn nào đó. Mơl quan hệ

ihàiìh vieil của các nhóm có thể đụa trên mức độ giống nhau của các ihành viên và
lừ đó xây dựng nên các luật rằng buộc giữa các thành viên trong nhóm, Một kỹ tliuẠl
phần nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các chành
phần như là hàm của các tham sổ' của các thành phần. Phương pháp này được gọi là
phương pháp phan hoạch lối ưu (optimal partitioning).
Mẳu đẩu ra của quá trình khai phá dữ liệu sử dụng kỹ Ihuật này là các lập
mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ
liệu. Khi các mẫu dược thiết lập, chúng có thể dược sử dụng để tái tạo các tập dữ
liệu

ở dạng

dễ hiểu hơn, đồng thời còng cung cấp các nhóm dữ liệu cho các hoại

động cũng như cơng viộc phân lích. Đối với cơ sở dữ liệu lớn, việc ỉấy ra các nhóm
này !à rất quan ỉrọng,
L 4 .5.5. C ác phương p háp dựa {rên mầu:

Sừ dụng

các mẫu miêu tả từ cơ sở dữ ỉiệu để cạo nên một mơ hình dự đốn

các mẫu mới băng cách rúl ra các Umộc tính tương tự như các mầu tiă bict trong mô


23

lùnh. Các kỹ thuật bao gồm phản lốp theo láng giềng gồn nhắt, các giai thuật lìổi
quy {Dasarathy 1991) và các hệ thống suy diễn dựa trên lình huống (case-based
reasoning) (Kolodner ỉ 993).

/ .4.5.6. M ỏ hình phụ thuộc dựa trên đồ thị xức stưĩỉ

Các mơ hình dồ thị xác định sự phụ thuộc xác suấỉ giữa các sự kiện litông
tịua các lièn hệ trực liếp theo cẩc cung đổ thị (Pearl 1988; Whiflaker, 1990). Ở dạng
(lơn gián nliất, mô hình này xác định những biến nào phụ IỈ1UỘC trực tiếp vào nhau.

Những mơ hình này chủ yếu được sử dụng với các biến có giá trị rời rạc hoặc phân
loại.
1.4.5.7. M ỏ hình học quan hệ

Trong khi mẫu chicl xuất được bằng các luật suy diễn và cốy quyết định gắn
chật với các mệnh dề logic (prepositional logic) thì mổ hình học quan hệ (cịn được
gọi là lập trình logic quy nạp sử dụng ngồn ngữ mẫu theo thứ tự logic trước (first order logic) rất linh hoạt. Mô hình này có thể dễ dàng tìm ra cổng (hức: X = Y. Chơ
đến nay, háu hết các nghiên cứu về các phưưng pháp đánh giá mơ hình này cỉều Ihco
logic trong tự nhiên.
1.4.5.8. K hai p h á d ữ liệu văn bthì (Text M ining)

Phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không
định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo, v.v.
Khai phá dữ ỉiệu dạng văn bàn đã được sử dụng để phân tích cồu trả lời cho các êu
hỏi mở (rong khảo sát thị trường, lìm kiếm các rài liệu phức tạp.
1.4.5.9. M ạng neuron

Mạng neuron ià một tiếp cận tính toán mới liên quan đến việc phát triển các
cấu trúc toán học với khả năng học. Các phương pháp là kết quả của việc nghiên cứu
mơ hình học của hệ thống thẩn kinh C011 người, Mạng neuron có thể đưa ra ý nghĩa
từ các dữ liệu phức tạp hoặc không chính xác và có Ihể được sử đụng để chiết xuất
các mẫu và phát hiện ra các xu hướng quá phức lạp mà con ngưòi cũng như các kỹ
thuật máy tính khác khơng thể phát hiện được.
Khi đề cập đến khai lluíc dữ liệu, người ía chường đề cập nhiều đến mạng

neuron. Tuy lìuỊug neuron có một số hạn chế gây khó khãn trong việc áp dạng và


24

triển khai nhưng nó cũng có những ưu điểm đáng kể. Một Irong số nlìững ưu điểm
phải kể đến của mạng neuron ỉà khả năng tạo ra các mị hình dự đốn có độ chính
xác cao, có thế áp dụng được cho rất nhiều các loại bài toán ktiác nhau đáp ứng dược
các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mơ hình hóa, dự
báo các sự kiện phụ thuộc vào Ihời gian, v.v...
i ,4.5,10. G iá ì thuật di truyền

Giải thuật di truyền, nói theo nghĩa rộng là mơ phỏng íại hệ thống tiến hóa
irong tự nhiên, chính xác hơn đó là các giải thuật chì ra tập các cá thể được bình
thành, (lược ước lượng và biến dổi như thế nào. Ví dụ như xác định xem làm thế nào
để tựa chọn các cá thể tạo giống và lựa chọn cá thể nào sẽ bị loại bỏ. Giải thuậi
cũng mỏ phỏng lại yếu lô' gen trong nhiễm sắc thể sinh học trên máy tính dể có thè'
giảií quyết nhiều bài tốn fhực iế khác nhau.
Giải thuật di truyền là mội giải thuật lối ưu hóa, Nó được sử dụng rất rộng rãi
trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuặỉ mạng
neuron. Sự liêti hệ cùa nó với các giẳi ihuậí khai phá dữ liệu là

ờ chỗ việc lối

ưu hóa

cần Ihiết cho các qua trinh khai phá dữ liệu, ví dụ như trong các kỹ thuật cây quyết
dịnh, tạo luật.
Như vây, qua phẩn tành bày (rên nêu ra một số phưcíng pháp, chúng ta thày
cổ rất nhiều cấc phương pháp khai phá dữ Hệu.


Mỗi phương pháp có những dặc tliểiit

liètìịỉ phù hợp YỚÌ ruột ¡¿rp các bài mán, với các dạng dữ liệu và miền dữ liệu nhất
ílịnh.

1.4.6. Lựa chọn phương pháp
Các giải thuật khai phá dữ ìiệu tự đơng vẫn mới chỉ ớ giai đoạn phát triển ban

chưa dưa ra dược m ột liêu chuẩn nào trong việc
sử (lụng phương pháp nào vào trong trường hợp nào thì có hiệu q. [3]

dầu, H iện người ta vần

quyết dịnh

Mầu hết các kỹ thuật khai phá dữ liệu đều mới đối với lĩnh vực kinh doanh.
Hơn nữa lại cố rất nhỉểu kỹ thuật, m ỗi kỹ

thuật dược

s ồ d ụng

cho nhiêu

bời ¡oản

khác nhau. Vì vậy, ngay sau cẵu hối khai phá dữ ỉiệu là gì sẽ là câu hỏi vậy thì dùng

kỹ thuật nào? Câu trả lời tất nhiên là không dơn giản. Mỗi phương pháp đều có điếm

mạnh và điểm yếu của nó, nhưng hầu hết các điểm yếu đều có thể khắc phục dược.


×