Tải bản đầy đủ (.pdf) (109 trang)

Một số vấn đề về khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )

NGUYỀN HUY ĐỨC
MỘT SỐ VẤN ĐỀ VỀ KHAI PHÁ DỮ LIỆU
* ■
CHUYÊN NGÀNH; CÔNG NGHỆ THÔNG TIN
MA SỐ: 01.01.10
LUẬN VĂN THẠC s ĩ
ĐẠI HỌC QUỐC GIA HÀ NỘI
K H O A C Ồ N G N G H Ệ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS» TS VŨ ĐỨC THI
HÀ NỘI - Năm 2003
1
Lời inởdầu 3
Chương 1: Tổng quan về cơ s ở dữ liệu và khai phá dữ liệu
6
/./. T ổ chức và khai thác cơ sở dữ liệu truyền ỉhống 6
1.2. Bước phát triển mới của việc tổ chức và khai thác các CSDL

7
1.3. Quá trình phát hiện tri thức 11
1.3.1. Pháỉ hiện tri thức 11
1.3.2. Các giai đoạn của quá trình phát hiện tri thức 12
1.4. Khai phá dữ liệ u 14
1.4.1 Kiến trúc của hệ thống khai phá dữ liệu 15
1.4.2. Quá trình khai phá dữ iiệu 16
1.4.3. Nhiệm vụ chính của khai phá dữ liệu í 7
1.4.4. Các thành phẩn của giải thuật khai phá dữ liệu 19
1.4.5. Mội số phương pháp khai thác dữ liệu phổ biến 20
1.4.6. Lựa chọn phương pháp 24
1.4.7. Có phải tất cả cấc mẫu lìm được đều đáng quan tâm ? 25
Chương 2: Khai phá luật kết hợp Irong cơ sở tia iiộu lớ n 27


2,1, ¡Mật kết h ợ p 27
2.1.1 Phân tích sự bán hàng của siêu thị - một ví dụ về dộng cơ thúc dẩy khai
phá luật kết họ p 27
2.1.2. Các khái niệm cơ s ở 28
2.1.3 Một số lính chất của tập mục phổ biến và luật kếl h ợp

32
2.2 Khai phá luật kết hợp boolean dơn chiều ỉừC SD L tác vụ
35
2.2.1 Thuật toán Apriori: tìm tập mục phổ biến sử dụng sinh các ứng cừ 35
2.2.2 Nồng cao hiệu quả của Thuật toán Apriori 42
2.2.3 Sinh các luật kồì hợp từ ỉập mục phổ biên 46
23:K hưi phá lập mục phổ biến không sinh các ứng cử 49
2.4. Cơ .sở iỷ ỉhuyâì của luật kết hợp 59
MỤC LỤC
2.6 Khai phá ỉnậi kết hợp da mức 66
2.6.1: Luật kết hợp đa mức 66
2.6.2: Các cách tiếp cận khai phá luật kết hợp đa mức

68
Chưong 3: Khai phá luật kết hợp đ ón g
.

.

73
3.1: Tập mục phổ biến dóng

73
3.2: Sình luật 79

3.3: Thuật toán CHARM 80
Chương 4ĩ Thử nghiệm khai phấ luật kết h ợ p
86
4.1: Mô tảđữỉiệu 86
4,2: Xây dựng chương trình 87
4.3: Kết quả thử nghiệm 90
Kết kuân của luân v ả o 93
> >
Tài iiệu tham khảo 94
2.5. Khai phá luật kết hợp ảịnh lượng 63
3
LỜI M Ở ĐẨU
Sự phát triển mạnh mẽ của công nghệ phần cứng đã tạo nên các máy tính có
bộ xử lý tốc độ cao, bộ nhớ dung ỉưọmg lớ» và cùng với điều đó là sự phát triển
không ngừng của các hệ thống viễn thông. Các hệ thống Ihông tin phục vụ việc ụr
(lộng hoá trong các lĩnh vực kinh doanh cũng như quản !ỷ đã được triển khai với lốc
độ íãng trưởng virợi bậc. Diều dó dã tạo ra những dòng dữ liệu khổng lồ, trớ Iliành
hiện tượng “bùng lỉố thông tin”. Nhiều hệ quàn trị cơ sở dữ iiệu mạnh với các cõng
cụ phong phú và thuận úện đã giúp con người khai thác có hiệu quả nguồn lài
nguyên <Jữ liệu nói irên.
Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai ihác các cơ
sớ ciữ liệu (CSDL) phục vụ các yêu cầu trợ giúp qưyết định ngày càng có ý nghĩa
quan trọng và là nhu cầu lo lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý.
Dữ liệu được Ihu thập và lưu trữ ngày càng nhiều nhuìig người ta quyết đình trong
quàn ỉý, kinh doanh lại cần những thông tin bố ích, những "tri thức'' rút ra từ những
nguổn cỉù' liệu dó hơn là chính những dữ liệu dó cho việc ra quyẽì định của mình.
Các nhu cầu đó đã được biết tiến tờ lâu nhưng mới thực sự bùng nổ lìr thập
»íèu 90 của ihế kì 20, Do đó, những nám gổn dây đã phát triếci mạnh mẽ một loại
các lình vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin (data
warechouse, information wareliouse), các hệ trợ giúp quyết định, các phương pháp

phát hiện tri thức và khai phá dữ lìồu (data mining). Trong đó, khai phá dữ liệu và
phát hiện tri Ihức đã trở Ihành một lĩnh vực nghiên cứu sôi đông, thu hút sự quan
tàm cúa rất nhiều người Ixên khấp các lĩnh vực khác nhau như các hệ cơ sở dữ liệu,
thống kê, chiếi xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo v.v
Các kho dữ liệu có Ihc giúp khai thác thông tin bằng các .công cụ truy vấn và
báo cáo cũng như được sử dụng để hỗ trợ việc phân tích trực tuyến, kiểm dịnli các
giả thuyết. Tuy nhiên, chỉ có kho dữ liệu thì chưa (hể có được tri thức, nếu dữ liệu
dược phân tích một cách thông minh thì chúng sẽ là nguồn tài nguyên vỏ cùng quí
giá. Từ những khối lượng khổng ỉổ dữ liệu có sẵn, tìm ra những Ihông tin tiềm ẩn có
giá trị, chưa đưọc phót hiện, những xu hướng phát trịểu và »hững yểu lố íác dộng tôn
4
ehüiig là một diều hết sức cần thiết. Tiến hành công việc như vậy chính là thực hiện
quá trình phíH hiện tri thức trong cơ sở dữ liệu ( Knowledge Discovery in Database -
KDD).
Được nói đến lần đẩu vào cuối những năm 1980 [3] , phát hiện tri thức trong
các CSDL là quá trình phát hiện tri thức tiềm ẩn, không biết trước và liềm năng cỏ
lợi từ (iữ liệu trong các CSDL lớn. Phát hiện tri thức là một sự tiếp thu, sử dụng và
phái triển các thành tựu của nhiều lĩnh vực nghiên cứu trước đó như: iý Ihuỵết nhộn
dạng, hê chuyên gia, trí tuệ nhân tạo, thông kê,
Quá trình phát hiện iri ihức gdm nhiều giai đoạn, trong đó giai (Jüan khai pliầ
dử liệu ( data mining hay viết tắỉ là DM) là giai doạn chủ yếu nhất cùa nó.
Giai đoạn khai phá dữ liệu được thực hiện sau các khâu tình lọc và tiền xử lý
dữ liệu, nhằm tìm ra các mẫu, các xu hướng có ý nghĩa (ừ các tập dữ liệu. Chỉ có các
mầu, các xu hướng được xem là đáng quan tâm (xét theo một phương diện nào dó)
mới được coi là tri thức, và tri thức là có ích khí nó có thể gìiip đạt được mục đích
của hệ thống hoặc người dùng. Các kỹ thuật khai phá dữ liệu được chia thành ba
mảng cơ bân: phan lóp/phân cụm dữ liệu, các luật kết hợp và khai phá chuỗi.
Khai phá luật kết hợp từ những CSDL lớn lần đầu xuất hiện vào năm 1993 và
hiện tại đã và đang được nghiên cứu, phát triển rất mạnh, trở rhành một khuynh
hưởng quan trọng của khai phá dữ liệu. Khai phá luật kết hợp được nghiên cứu và

phát triển mạnh vì các iuật tìm được bộc lộ nhiổu mẫu có ích .
Dựa trên mộl số báo cáo khoa học trong một số hội nghị quốc tể và một số
bài báo dược công bố trẽn các tạp chí chuyên ngành hoặc phổ biến {rèn Internet,
íuận ván này sẽ trình bày một số vấn đề về phái hiện tri thức, khai phá dữ liệu và
trình bày rô vấn để khai phá luật kết hợp.
Nội dung của luân văn gồm có bốn chương và phần phụ lục.
Chương 1: Tổng quan về cơ sở dữ liệu và khai phá dữ liệu: nhằm tổng quan
lioá về các giai đoạn của quá trình phát hiện tri thức, các vấn đề chúlil của íỊUá trình
khai phá dữ liệu, các phương pháp , các kỹ thuật khai phá dữ liệu.
Chương 2: Khai phá luật kết hợp trong CSDL lớn. Chương này trình bày chi
liếi các vâ'n đề chính yếu của khai phá ỉuật kếi họp: bài toán xuất phát, mô hình lùnii
5
thức, một số thuật loárt điển hình giải quyết vấn dề, phân lích độ phức tạp cùa bài
toán, nêu một số cách ùếp cận trong khai phá luật kết hợp định lượng, luật kết hợp
phân cấp.
Chương 3: Trình bày C
0
sở Ịý ihuyết về tâp dóng và khai phá luật kết hợp
dóng.
Chương 4: Thử nghiệm khai phá luậi kết hợp: trình bày kết quả xây dựng
chương trình và kết quả thừ nghiệm khai phá luật kết hợp trê» một số CSDL.
6
TỒ N G QUAN VỂ c o s ở D ữ LIỆU VÀ K HAI PHÁ DỬ LIỆU
1.1. TỔ CHỨC VÀ KHAI THÁC c ơ s ở DỮ LIỆU TRUYỂN t h ố n g :
Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liêu
(CSDL) đã đưực phác triển từ những năm 60. Từ đó cho đến nay, rất nhiều CSDL đã
được \ổ chức, phát triển và khai thác ở mọi quy mô và ờ khấp các lĩnh vực hoạt động
của con người vằ xã hội. Theo như đánh giá cho thấy, ỉưựng thông tin (rên thế giới
cứ sau 20 tháng lại tăng gấp đôi. Kích íhước và số lượng cơ sở đữ liệu thậm chí còn
lăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu,

hầu hết đều )à các cơ sở dữ liêu cỡ nhỏ phát triển trén DBase III. Với sư phát Iricn
mạnh mẽ của công nghệ điện lử tạo ra các bộ nhớ có dung lượng lớn, bộ xử Ịý tốc
(ìộ cao cùng với các hệ thống mạng viễn thông người ỉa đã xôy dựng các hệ ỉhống
thông tin nhằm tự động hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra
một dòng dữ liệu lãng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như
một cuộc gọi điện thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng v.v đều được ghi
vào trong máy tính. Cho đến nay, con số này đã trở nên khổng lồ bao gồm các cơ sở
dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes ỉưu trữ cốc dữ iiệu kinh doanh, ví
dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao địch, dữ liệu bán hàng,
(lữ liệu các lài khoản, các khoẳn vay, sử dụng vốn v.v Nhiều hệ quản Irị CSDL
mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai thác có
hiệu quả các nguồn tàì nguyên dữ liệu. Mô hình CSDL quan hệ và ngôn ngữ vấn đáp
chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc lổ chức và khai ỉiiáe các
CSDL đó. Cho đến nay, không một tổ chức kinh tế nào là không sủ dụng các hệ
quản trị CSDL và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các
CSDL phục vụ cho hoạt dộng tác nghiệp của mình.
CHƯƠNG 1
1.2. BƯỚC PHÁT THIỂN M ỏi CỦA VIỆC rổ CHỨC VẢ KHAI THÁC í Ác CSDL
7
Sự phá! triển kinh ngạc của công nghệ phần cứng máy tính trong 3 thập kỉ
qua tạo cho máy tính có sức mạnh ỉớn. Điều đó cho phép cạo ra sô' lượng khổng lổ
các CSDL và thông tin được cất giữ để quản ỉý kinh doanh, tìm thông tin, phân tích
dữ liêu.
Ngày nay, dữ liệu có thể được lưu giữ trong nhiều kiểu khác nhau. Một kiến
trúc CSDL gần đây đã nổi bật ỉên là kho dữ liệu (data warehouse), nó lưu giữ nhiều
(iữ liệu từ nhiều nguồn khác nhau, tổ chức thống nhất để có thể tạo ra quyết định.
Công nghệ kho đữ Hệu bao gồm làm sạch dữ liệu, tích hợp dữ liệu, phần tích trực
(uyên (O LA P), đó là những kĩ thuật phân tích với chức năng như là tóm tắ i, hợp
nhất, tập hợp để có thể xem xét thông tin từ các góc độ khác nhau. Các công cụ
OLAP hỗ trợ phân tích đa chiều và cạo ra quyết định, thêm vào đó các công cụ phân

rích dữ liệu đã đòi hòi phân tích sâu như phân ỉớp dữ iiộu, phân nhóm, tìm các đặc
tính của dữ liệu,
Cùng với việc tăng klìòng ngừng khối lượng dữ liệu, các hệ thống thồng tin
cũng (tược chuyên môn hoá, phân chia theo các lĩnh vực ứng dụng như sản xuất, tài
chính, buôn bán thị trường v.v Như vậy, bên cạnh chức năng khai thác dữ liệu có
lính chất tác nghiệp, sự thành công trong kinh doanh không còn là năng suất của các
hộ íhông tin nữa mà ià tính linh hoại và sẵn sàng đáp lại những yêu cầu trong thực
tế, CSDL cần đem lại những "tri thức" hơn !à chính những dữ liệu đó. Các quyết
dịnh cần phài có càng nhanh càng tốt và phải chính xác dựa trên những đữ liệu sán
có trong khỉ khối lượng đữ liệu cứ sau 20 tháng lại tãng gấp đôi làm ảnh hường đến
thời gian ra quyết định cũng nhưklìả năng hiểu biết được nội dung dữ liệu. Lúc này,
các mô hình CSDL truyền thống và ngỏn ngữ SQL đã cho thấy không có khả nàng
thực hiện được công việc này. Để lấy được những ihông tin có tính ”ỉri thức" írong
khối dữ liệu khổng lồ này, người ta đã đi tìm những kỹ thuậl có khả năng hợp nhái
các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi Ihành một tập hợp các
cơ sở dữ liệu ổn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích
nào đó, Các kỹ thuật dó ctirơc gọi chung là kỷ thuệt tạo kho dữ liệu (data
warehousing) và môi trường các dữ liệu có đuợc gọi là các kho dữ liệu (data
warehouse).
8
Kho dữ liệu [ i ,3] là một môi trường có cấu trúc các hệ ihống ihông tin, cung
cấp clio người dùng các Ihôag Ún khó có thể truy nhập hoặc biểu dien trong cúc
CSDL tác nghiệp truyền thống, nhằm ¡nục đích hỗ trợ việc ra quyết định mang ỉính
lịch sử hoặc hiện đại. Theo W.H. Inmon, có thể định nghĩa kho dữ liệu như sau :
’'Một kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ để có lính ổ» định, Ihay
dổi iheo thời gian nhằm hỗ trợ clio việc ra quyết định, Nói cách khác, mội kho <iũ'
liộu bao gồm;
- Một hoặc nhiều công cụ (íể chiêì xuất dữ liệu từ bất kỳ dạng cấu trúc dữ liệu
nào.
- Cơ sở đữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các dữ liệu

bẳng cách iặp các bàng dữ liệu của dữ liệu”.
Một kho đữ liệu có thể được coi là một hệ thống thông tin với những thuộc
lính sau :
- Là một ca sở dữ liệu được thiết kế có nhiệm vụ phùn tích, sử dụng các <iữ
liệu từ các ứng dụng khác nhau.
* Mỗ trự cho một số người dùng có liên quan với các thòng tin liên quan.
- Là dữ liệu chỉ đọc .
- Nội đung của nó được cập nhật thường xuyên theo cách chêm thòng tin .
- Chứa các dût liệu lịch sử và hiện tại để cung cấp các xu hướng thông tin.
- Chứa các bảng dữ liệu có kích thưóc lớn.
- Một CÂU hòi thường trồ vẻ một lập kết quả liôn quan đến toàn bô bảng và
các tiên kếi nhiều bảng.
Cấu trúc kho dữ liệu dược xày dựng dựa trên hệ quản trị CSDL qua» hệ, có
chức năng giống như một kho lưu trữ thông ùn trung tâm. Trong đó» (ỉữ liệu lác
nghiệp và phần xử lý được tách tiêng khỏi quá ìrình xử lý kho dữ liệu. Kho lưu trữ
trung tăm đuợc bao quanh bởi các thành phổn được thiết kế để làm cho kho dữ liệu
CÓ ílìổ hoạt động, quản ỉý và truy nhập được từ người dùỉig đẩu cuối cũng nhu tù các
nguổn dữ liệu.
9
('ác dừ liệu iiịỊUồn
I lình 1.1 : Cấu ÍVÚC điển hỉnh cãa kho dữ liệu
Như trên hình l . i cho thấy, kho dữ liệu bao gồm 7 thành phần :
- Dữ liệu nguồn (là cúc ứng (lung lác nghiệp hoặc các kho dữ liệu tác liglỉìệp
và các công cụ chiết xuất, tàm sạch và chuydn đổi dữ liệu),
- Kho dữ liệu vể dữ liệu (Metadata)
- Các kỹ thuật xốy kho
- Kho dữ iiệu thồng minh hay dữ liệu theo chỏ đề (Data marts) là nơi các dữ
liệu đưựe khoanh vùng theo chủ đề tới một gíổi hạn nào đố và có thể được (hay đổi
cho phù hợp với nhu cầu của từng bộ phận người đùng. Vứi các kho dữ ỉiệu này,
cũng có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp

nghĩa là với một tạp hợp các kho dữ liệu Ihông minh, ta tạo ra một kho dữ ỉiệu,
lìgược lại, một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu thông
minh,
- Các cóng cụ vẩn đáp (query), báo cáo (reporting), phãti tích trực tiếp
(OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai thác kho dữ
liệu để đem lại những "tri thức" hơ» là đem lại chính những dữ liệu thô.
- Quản trị kho dữ liệu
- Hệ thống phân phối thông tin
Nhưng chỉ có kho dữ liệu thòi chưa đỏ để có các trì thức. Như đã để cập ở
trên, các kho dữ liệu được sử đụng theo ba cách chính:
10
- '['heo cách khai thác truyền thống, kho dữ liệu dược sử dụng dể khai thác
các thông tin bằng các công cụ vấn đáp và băo cáo. Tuy nhiên, nhờ có việc chic!
xuất, lổng hợp và chuyến dổi lừ các dữ liệu thô sang dạng dữ íiệu chấl iượng cao và
có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biếu diễn llỉông
tin ỉruyền thống (hỏi đáp và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng
và CSDL, các dữ liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy
nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và
biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm
trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở dữ liộu khác nhau, tránh cho
người đùng khỏi những câu lệnh SQL phức tạp. Tuy nhiên, đây mới chỉ là các khai
thác với kỹ thuật cao để đưa ra cấc dữ liệu tinh và chính xác hơn chứ chưa đưa ra
được dữ liệu "íri thức”.
- Thứ hai là các kho dữ liệu được sử dụng để hỗ trọ cho phan tích trực tuyến
(OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công eụ iằm báo cáo truyền
thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực luyến có khả
nìing phân tích dữ liệu, xác định xem giả thuyết đứng hay sai. Tuy nhiên, phân tích
írựe tuyến ầại klìông có khả năng dưa ta được các giả thuyết.
Hơn nữa, kích thước quá iớn và tính chất phức tạp của kho tlữ liệu iàm cho nó
rốt khó có thể được sử dụng cho những mục đích như đua ra các giả thuyết từ các

tlìông tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giá
thuyết giải thích được hành vi của một nhóm khách hàng).
Trước đây, kỹ thuật học máy thường được sử đụng để tìm ra những giả thuyết
từ các ihông tin dữ liệu thu íhập được. Tuy nhiên, thực nghiêin cho thấy chúng thể
hiện khả năng rất kém khi áp dụng với các tập đữ liệu lớn trong kho dữ liệu này.
Phựơng pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến để phù hợp với
sự phát triển của đữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ ỉiệu vẫn
chua được khai thác và thậm chí được ỉuu chủ yếu trong các kho đữ liệu không trực
tuyến (off line). Điều này đã tạo nên một iỗ hổng lớn trong việc hò !rợ phân lích và
tìm hiểu dữ liệu tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai íhác các dữ
liệu dó. Trong khi đố, càng ngày người ta càng nhân thấy rằng nếu được phân tích
11
ihồng minh thì dữ liệu sẽ là mội nguồn tàí nguyên quý giá ưong cạnh tranh tiên
thương trường.
Một phương pháp mới đáp ứng cả nhu cầu trong khoa hạc cũng như trong
hoạt dộng thực ũễn, đó chính là CÔHỊỈ nghệ khai phá dữ liệu (data mining). Đây
chính là ứng dụng chinh tiìứba cửa kho dữ liệu.
1.3. QUÁ TRÌNH PHÁT HÍỆN TRI THỨC
1.3.1. Phát hiện tri thức
Yếu tố Ihành công trong mọi hoạt động kinh doanh ngày nay là việc biết sử
dụng thông tin mội cách có hiệu quả, Điều đó có nghĩa là từ các dữ liệu sẩn có phải
Om ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phái hiện, tìm ra
những xu hướng phát triển và những yếu tố tác động lên chúng. Tliực hiện công việc
đổ chính !à thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge
Discovery in Database - KDD) mà trong đó kỹ thuật cho phép ta ỉáv dược các tri
thức chính ỉờ kỹ thuật khai phú dữ liệu (data mining).
Như John Naísbeiỉ đã nói ’'Chúng ta đang chìm ngập trong dữ liệu mà vẫn
đói tri ihức". Dữ liệu Ihường được cho bởi cổc giá {rị mô tá các sự kiện, hiện lưỢrtg
cụ Ihế. Còn tri thức (knowledge) là gì? Có thể có nhũng dịnh nghĩa rỗ ràng đế phân
biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà (lịnh nglũa

chính xác nhưng phân hiệt chúng trong những ngữ cảnh nhất định là rất cần thiết và
có thể ịàm dược. Thống tin là một khái niệm rất rộng, khó có thể dưa ra một định
nghĩa chính xác cho khái niệm này. Cũng không thể định nghĩa cho khái niệm iri
thức cho dù chì hạn chế trong phạm vi những trị Ihức đưọc chiết suâì từ các CSDL.
Tuy nhiên, ta cố Ihể hiểu tri thức là một biển thức trong một ngôn ngữ nào dó ciìưn
kỉ một (hoặc nhiều) mếi quan hệ giữa các thuộc tinh trong các dữ liệu đó. Các ngôn
ngữ thường được đùng để biểu diễn tri thức (trong việc pháĩ hiện tri thức từ các
CSDL) là các khung (frames), các cây và đồ thị, các ỉtiật (rules), các công ĩ
hứ c
trong
ngôn ngữ logic mệnh đề hoặc tàn từ cấp một, các hệ thống phương trình v.v ví dụ
như ta có các luật miôu tả các thuộc lính của dữ liệu, các mẫu rhường xuyên xảy ra,
các nhóm đối luợng trong cơ sở dữ liệu v.v
12
Trì thức nói ờ đây là tri thức được rút ra từ CSDL (hường đổ giải quyết một
loại các nhiệm vụ nhất định trong
1
T
1
ỘI Lĩnh vực nhất định. Do vậy, quá trình phát
hiện ỉri Ihức cũng mang linh hướng nhiệm vụ, không phải là phát hiện mọi trí thức
bái kỳ mà phát hiện U'i thức nhằm giải quyết lốt một nhiệm vụ íiào đó. Vì vậy, quá
irình phát hiện tri thức là quá trình hoạt động tương tác giữa người sử dụng hoặc
chuyên gia phân tích với các công cụ lin học [3J.
1,3.2. Cốc giai đoạn của quá trình phát hiện tri thức:
Mục đích của quá trình phát hiện tri íhức là rút ra tri thức từ dữ liệu trong
CSDL lớn. Quá trình KDD là quá trình gồm nhiỂu giai đoạt» và lặp lạ i, mà trong dó
sự lặp lại có thể xuất hiện ở bất cứ bước nào. Quá trinh đó có thể mô lả theo mô hình
sau: [3] ( hình 1.2)
Giai đoạn Ấ: Xác định và dịnh nghĩa vấn đề: Tìm hiểu lĩnh vực ứng dụng và

nhiệm vụ đặt ra, xác định các tri tlìức đã có và mục tiêu của người dùng. Tạo và lựa
chọn CSDL.
Giai đoạn 2: Thu thập và tiền xử lý dữ liệu, bao gồm: làm sạch dữ liệu, rúi
gọn kích ihướe và số chiều,
Giai đoạn 3: Khai phá dữ liệu, bao gồm: chọn nhiệm vụ khai phá, chọn các
phương pháp khai phá và thực hiện khai phá để rút ra các mẫu, các mồ hình có ý
nghĩa dưới (lạng biểu diễn tương ứng (luật xếp loại, cây quyết định, luật sàn xuấl,
biểu thức hồi quy )
Giai đoạn 4: Giải ihích kết quả và đánh giá các mâu, các mô hình tìm thấy ở
giai đoạn 3.
Giai (ỉoạn 5: Sử iltmg các íri thức dã được phát hiện.
Cùng cố tinh chế các tri thức đã được phát hiện. Kết hợp các tri liiức (hành lìộ
iliống. Giải quyết các xung đột tiềm tàng trong tri thức khai Ihác được. Sau đó, tri
thức dược chuẩn bị sẩn cho ứng đụng.
Như vậy, KDD ià một quả trình rứt ra tri thức từ dữ Uệu mả ¡rong đó khai
phá dữ liệu là giai đoạn chã yếu.
!3
Hình 1.2. Qiiâ trình phá! hiện tri thức
Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà la xốt ở dây
íà sự tiếp thu, sử dụng và phát triển nhiều thành tựu và cỗng cụ cùa các lĩnh vực đã
phát triển trước đổ như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v
Nil ưng ctặc điểm cơ bản của lý luận về phát hiện tri íhức ở tlây là phát hiện iri thức
trực tiếp lừ dữ liệu, do đậc điểm đổ mà nó có những điểm mới. phán biệt với các
ngành đã có lừ trước. Thí dụ như với các hệ chuyên gia thì cư sở tri Ihức dược hình
thành lừ kinh nghiệm và kiến thức của các chuyên gia là chú yếu, vói nhiổu bài »oán
nhận citing thì ihường lập các dạng mẫu là cho trước v.v còn dối với lỷ thuyết phái
hiện (ri ìhức thì các u i thức, các dựng mẫu, cức giả thuyết détt dược phải hiệti lữ
việc khai thác các kho dữ liệu.
Néu phát hiện tri thức là toàn bộ quá trình trừu xuất tri thức từ các CSDL llìí
khai phá dữ liệu là giai đoạn chả yếu của qúa trình dó- Như trên đã trình bày, trong

quá tành phát hiện tri thức, khâu khai phá dữ liệu được thực liiện sau các khâu linh
lọc và tiền xử lý dữ liệu, lức là việc khai phá để lìm ra các mẫu hình có ý nghĩa ctuợc
tiến hành trên tập dữ tiêu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ
14
không phải ià khai phá hếl dữ liệu với một thời gian đủ dài đổ lấy được một mẫu
không thực sự có ích như khái niệm trong thống kê trước đây. Vì vậy, khai phá dữ
liệu thuồng bao gồm việc thử tìm mô hình phù hợp vái tập dữ liệu và tìm kiếm các
mẫu từ tập dữ liệu theo mô hình dó. Thí dụ ìa có mổ hình là một luật kết họp ỉhl
mẫu là các yếu tố tham gia cùng với các độ hỗ uợ (support) và độ tin cậy
(confidence) trong các luật tương ứng.
Nếu xét về mật ý íưởng và mục đích ứng đụng, khai phá dữ liệu là một nhu
cầu tấi yếu, mội sự nhạy cảni đáp lại sự mong mỏi của giới kỉnh đoanh thì về mặì kỹ
ỉhuât, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học.
Khai phá dữ liệu được xây dựng dựa trên việc sử dụng các giải thuật mới, được (lịnh
hướng theo nhu cầu kinh doanh để có thể giải quyếl tự động các bài toán kinh doanh
bảng các kỹ thuật dễ dùng và có thể hiểu được.
Khai phá dữ liệu không thuộc một ngành công nghiệp nào. Nó sử dụng các
kỹ thuật thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi khai
phá dừ liệu ngày nay đang ở trạng thái giống như việc quàn trị dữ liệu vào niũrng
[lãm 60, khi mà cấc ứng dụng quản íậ dữ liệu đều không tuân theo một nguyên lác
chung nào cho đến khi mô hình dữ liệu quan hệ ra đờỉ cùng với sức mạnh cùa ngôn
ngũ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh
chổng, Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành công nghiệp sử dụng
kỹ ihuẠt khai phá dữ liêu đổ phục vụ cho hoại động kinh doanh của mình và đã hước
đáu thành công như ngành tỉli chính, y học, hoá học, bào hiểm, sản xuất, giao thòng,
hàng không v.v Các kết quả đạl được cho thấy mặc dù kỹ thuật khai plìá dữ liệu
hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng vối những tri ihức mà chuyôrv gịa con
người cũng chưa cung cấp được thì khai phá dữ iiệu cổ một tiềm năng to lớn trong
việc lạo ra những lợi nhuận đáng kể trong nền kinh tế.
1.4 KHAI PHÁ D ữ LIỆU:

Khai phá dữ Liệu (Data mining - DM) là một khái niệm ra đời vào những năm
cuối của thập kỷ 80. Nó bao hờm một loạt các kỹ thuật nhằm phái hiện ra các thông
ủn có giá trị tiềm ẩn trong, các tập dữ liệu Ịởn (các kho dữ liệu), v ề bàu chất, khai
15
phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm
ra các mầu hình có tính chinh quy ịregularities) trong tập d ữ liệu. [3]
1.4.1 Kiến trúc cùa hệ thống khai phá cỉữ liệu :
Khai phá dữ liệu Ut mội bước trong quá trình phát hiện trì thức từ số lưựng
lớn clữ liệu đã lưu trữ trong các CSDL, kho dữ liệu hoặc các nơi lưu giữ khác, Bước
này có thể tương tác lẫn nhau giữa người sử đụng hoặc cơ sở tri thức, những mẫu
đáng quan tâm được đưa đến cho người đùng hoậc ĩưu giữ như là tri thức mới ĩrong
cư sở tri thức.
Kiến trúc của hệ thống khai phá dữ liệu có thế có các thành phần chính sau [11]:
(hình 1,3)
+ CSDL, kho dữ liệu hoặc kho lưu trữ khác: đó là một hoặc mộl tập các
CSDL, kho dữ liệu Các kĩ thuật làm sạch dữ liệu và tích hợp dữ liệu có thổ thực
hiện trên dữ liệu .
+ Cư sở tri thức: đó là lĩnh vực tri thức được dùng để hướng dẫn việc rim hoặc
đánh giá các mẫu kết quả tìm dược,
+ Data mining engine: bao gồm tập các modul chức năng dể Ihực hiện các
nhiệm vụ như là rnô tả đặcdiểm, kết hợp, phan lớp, phân nhóm dữ liệu,
+ Module đánh giá mẫu: TliùnU phẩn này sử dụng các độ đo và tương lác với
các modul khai phá DL đổ tạp trung vào tìm các mẫu cẩn quan lảm.
+ Biểu diễn dạng dồ hoạ : mociul này giao tiếp giữa người dùng và hệ thống
khai phá dữ liệu.
16
Hình 1 .3: Kiến trúc hệ thống khai phú dừ liệu.
1-4.2. Quá trình khai phá dữ iỉệu
Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình
hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thông kè trước

đây, thường till bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ
nhớ. Khi chuyển sang các ứng đụng công nghiệp liên quan đến việc khai phá các
kho dữ liệu lớn, mô hình này không thể đáp ứng được. Khồng chỉ bởi vì nó khống
thổ nạp hết dữ ìiệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các
tệp dơn gián để phân tích được,
Quá trình khai phá dữ liệu dược thể hiện bồi mô hình sau [3Ị:
17
+ Xác định nhiệm vụ: Xãc định chính xác vấn đề cần giải quyết.
+ Xác định các đữ liệu liên quan dùng để xây đựng giải pháp.
+ Thu thập các dữ liệu có liên quan và xừ lý chứng thành dạng sao cho giải
thuật khai phá dữ liệu có thể hiểu được, ò đây có thể gặp một sô' vấn đề: dữ liệu
phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập các tệp dữ
iiệu, phải lặp đi lặp lại nhiều lẩn toàn bộ quá trình (nếu mô hình đữ ỉiệu ihay đổi
v.v )
4- Chọn thuật toán khai phá dữ ĩiệu thích bợp và thực hiện việc khai phá dữ
liệu: nhằm tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với
các ý nghĩa dó.
1.4.3. Nhiệm vụ chính của khai phá dữ tiêu :
Mục đích của khai phá dữ liệu ià các chiết xuất tri thức từ dữ liệu. Do đó, ta
có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả (description) vò dự đoán
(prediction). Các mẫu mà khai phá dữ liệu phát hiện được nhằm vào các mục đích
này.
Dự đoán liên quan đến việc sử đụng các biến hoặc các trường trong cơ sờ dữ
ỉiệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá
trị trong tương lai của các biến đáng quan tâm. Mô tả tập trung vào việc tìm kiếm
các mẫu mô lả dữ liệu mà con người có thể hiểu được.
Để đạt được hai mục đích này, nhiệm vụ chính của khai phá dữ iiệu bao gổm
như sau :
18
4 Phản lớp (Chmificcution) : Phãn lớp ià việc học một hàm ánh xạ {hay

phân loại) mội mẫu dữ liệu vào mộl trong số các lớp đã xác dinh (Hand 1981; Weiss
Si Kulikowski 1991; MeLaehla» 1992).
t ỉỉổi qui (Regression) : Hồi qui là việc học một hàm ánh xạ từ một mẫu dữ
liệu thành mội biến dự đoán có giá trị thực.
Ạ Phân nhóm (Clustering) : Là việc mô tả chung để lìm ra các tập xác định
các nhóm hay các ioại dể mô tẳ dữ liệu (Tìuerington, Smith & Makov 1985, Jain &
Dubes 1988). Các nhóm có thể tách riêng nhau hoặc phân cấp hoặc gối lèn nhau. Có
nghĩa ỉà một dỉr liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm kia. Các ứiig dụng
khai phá dữ liệu có nhiệm vụ phàn nhổm như phát hiện tập các khách hàng có phản
ứng giống nhau trong cơ sớ dữ liệu tiếp thị
Hình 1.5'.Mẩn kết quả với nhiệm vụ phản nhóm
Hìnhl .5 m iêu tả các mẫu của quá trình khai phá dữ liệu với nhiệm vụ phân nhổm. Ở
đây các mẫu là các nhóm khách hàng được xếp thành ba nhóm gối lên nhau. Các
điếm nằm trong cả hai nhóm chứng tỏ khách hàng có thể thuộc cả hai loại trạng
thái.
# Tóm tắt (summarization) : Liên quan đến các phương pháp tìm kiếm một
mô tả tóm tắt' cho một tập con dữ liệu. Các kỹ thuật tóm tắt thường được áp dụng
cho các phân tích dữ ìiệu tương tác có tính thăm dò và tạo báo cáo tự động.
* Mô hình hoá phụ thuộc (Dependency Modeling) : Bao gồm việc tì nì kiếm
ruột mô hình mô tả sự phụ thuộc đáng kể giữa các biến. Các mô hình phụ thuộc tồn
tại dưới hai mức:
19
- Mức cấu true của mò hình xác dinh (thường ơ dạng đồ hoạ) các biến
nào là phụ thuộc cục bộ với nhau,
- Mức định ỉượag của một mô hhìh xác định độ mạnh của sự phụ
thuộc Iheu một thước đo nào đó.
ệ Phái hiện sự ihuy đổi và lạc hướng (Change and Deviation Detection):
Tập trung vào khai íhác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị
chuẩn hoặc được đo trưóc đó (Berndt & Cliffort; Guyon et al. Kloesgen; Matheus et
al., Basseville & Nikiforov 1993).

Rõ ràng là ta thấy những nhiệm vụ khác nhau này yêu cầu sô' lượng và các
dạng thông tin rất khác nhau ndn chúng thường ảnh hưởng đến việc thiết kế và chọn
giải thuật khai phá dữ liệu khác nhau.
1.4.4. Các thành phần của giải thuật khai phá dô liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn
mô hình, đánh giá mô hình, tìm kiếm mò hình. [3]
• Biểu diễn mô hình'. Mô hình được biểu diễn bằng mộl ngôn ngữ L để miêu
tả các mẫu có thể khai thác dược, Nếu sự mô tả quá bị hạn chế thì sẽ khổng ihể học
dưực hoặc sẽ không thể có các mẫu tạo ra được một mô hình chính xác cho đĩr liệu.
Khả nãng miêu tả mô hình càng lớn thì càng làm tăng ư»ức độ nguy hiểm do bị học
quá và làm giảm di khả năng dự đoán các dữ liệu chưa biết. Hơn tiữa, việc lìm kiếm
sẽ càng trở nên phức tạp hơn VỈI vịệc giải thích mô hình cũng khó khãn hơn.
• Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn
của quá trình phát hiện tri thức hay không. Việc đánh giá độ chính xác dự đoán dự»
(IV
¡1
đánh giá chéo (cross validation)- Đátth giá chất lượng liên quan đến độ chính
xác dự đoáiỉ, độ mới, khả nâng sử dụng, khả năng hiểu được của mô hình. Câ hai
chuẩn tliông kè và chuẩn logic đều có thể dược sừ dụng đổ đánh giá mõ hình.
• Tìm kiếm m ỏ hình: Phương pháp tìm kiếm bao gổm 2 thành phẩn: lìm kiếm
Iham số và úm kiếm mô hình.
- Trong tìm kiếm tham số; giải thuật cẩn lìm kiêm các tham số để tối ưu hóa
các liôti chuẩn đánh giá mô hình với các dữ liệu quan sál được và với một miêu ui
mô hình dã định.
2 0
- Tìm kiếm mô hình; Tìm kiếm mõ hình xây ra giống như một vòng lặp qua
phương pháp lìm kiấn tham số: miêu tả mô hình bị thay đổi tạo nên một họ các mó
hình. Với mỗi một miêu tả mố hình, phương pháp tìm kiếm tham số dược áp dụng
để đánh giá chất lượng mô hình, Các phương pháp tìm kiếm mô hình thường sử
dạng các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có

thể thường ngăn càn các tìm kiếm tổng thể.
1.4.5. Một sô' phương pháp khai thác dữ liệu phổ biến [3, II]
ỉ .4.5.1. Phương phấp quy nạp (induction)
Có hai kỹ thuật chính để thực hiện việc này ià suy diễn và quy nạp.
* Phương pháp suy diễn: Nhằm rúl ra thông tìm là kết quả logic của các thõng
tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy
ra các trí thức mới từ các thông lin cũ, Mẫu chiết xuấí được bằng cách sừ đụng
phương pháp này »hường là các luậí suy dìển.
* Phương pháp quy nạp: phương pháp quy nạp suy ra các thông tin được sinh
ra từ cơ sở dữ liệu. Có nghĩa là tìó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không
phải bất đẩu với các tri thức đã biết trước. Các thông tin mà phương pháp nìiy dem
lạị íà các ihông tin hay các tri thức cấp cao diễn tà .về các đối tượng irong cơ sở dữ
liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.
Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo
luạt.
Ị .4.5.2. CâỴ quyầĩ định và luật:
* Cây quyết định', cây quyết định là một mô tả tri thức dạng đơn giàn nhằm
phân các đôi tưọng dữ liệu thành mội số lớp nhất định. Các nút của cây được gán
nhãn !à tên các thuộc tính, các cạnh được gắn các giá trị có thể của các thuộc tính,
các )á miều tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi
trẽn cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá.
21
Vi du: Bang vf du hoc cho ktiai niem chd tennis (PlayTennte)
Day Outlook Temperature Humidity Wind PlayTennis?
D!
Sunny Hot High Weak No
D2
Sunny Dot High Strong No
D3 Overcast Hot High Weak Yes
D4

Rain Mild
High
Weak
Yes
D5 Rain Cool Normal Weak Yes
D6
Rain
Cool
Normal Strong No
D7
Overcast Cool Normal
Strong
Yes
D8
Sunny Mild High Weak No
D9
Sunny Cool Normal Weak Yes
DIO
Rain Mild Normal Weak Yes
D ll
Sunny Mild Normal Strong Yes
D12
Overcast
Mild
High Strong Yes
DI3 Overcast Hot Normal Weak Yes
D14
Rain Mild High Strong No
Hinh 1.6 mö ta cäy quy£t dinh cho khai ni&m choi tennis (PlayTennis)
ITmh 1.6: Cäy quyei dinh cho khäi niem choi tennis (PlayTennis)

• Tao ladt: Cäc luat dufoc tao ra nhäm suy diln mot so mSu dür lieu co y nghla
vd mat thöng kS. Cäc luat cd dang Neu P thi Q; vöi P lä menh d l düng vöi möt phän
d& liSu Irong CSDL, Q la menh d£ du doän.
CAy quydt dinh va iuät co iru dilm lä hinh thüt miSu ta ddn gum, mo hinh
.suy di£n khä de hi£u do'i vöi ngudi sir dung. Tuy nhien, gioi han ctia no la miCm la
cay vä luat chi co the bi£u diln du'Oc möt so dang chtfc naug va vi vay gioi ban ca v<j
d(> chinh xäc cüa mo hinh.
2 2
! A.5.ỉ. Phát hiện các Idật kết hợp
Phương pháp này nhằm phái hiện ta các luật kết hợp giữa các thành phần dữ
liệu trong cơ sớ dữ liệu. Mẫu dầu ra của giải thuật khai phá dữ liệu là lập luật kết
hợp lìm dược. Chẳng hạn: phân tích CSDL bán hàng nhận được thông tin về những
kliácli hàng mua máy tính cũng có khuynh hướng ¡nua phần mềm quản lý tài chính
trong cùng lần mua được miêu tà trong luật kếl hợp sau:
" M áy tinh => Phần mềm quản Ị ý tài chính"
[Độ hỗ trợ: 2%, độ tin cậy: <50%]
Độ hỗ irợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật, Chúng
lương ứng phản ảnh
H ự
hữu ích và sự chắc chắn của luật đã khám phá. Đỗ hỗ irợ 2%
có nghĩa là: 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phẩn mém
quản lý tài chính là đã được mua cùng nhau. Còn độ tin cậy 60% có nghĩa là 60%
các khách hàng mua máy lính cũng mua phần mềm.
1.4.5,4. Phân nhỏm và phân đoạn (dttsíerrìg and segmentation)
Kỹ thuật phân nhóm và phan đoạn ià những kỹ thuật phân chia dữ liệu sao
cho môi phẩn hoặc mỗi nhóm giông nhau theo một tiêu chuẩn nào đó. Môl quan hệ
ihàiìh vieil của các nhóm có thể đụa trên mức độ giống nhau của các ihành viên và
lừ đó xây dựng nên các luật rằng buộc giữa các thành viên trong nhóm, Một kỹ tliuẠl
phần nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các chành
phần như là hàm của các tham sổ' của các thành phần. Phương pháp này được gọi là

phương pháp phan hoạch lối ưu (optimal partitioning).
Mẳu đẩu ra của quá trình khai phá dữ liệu sử dụng kỹ Ihuật này là các lập
mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ
liệu. Khi các mẫu dược thiết lập, chúng có thể dược sử dụng để tái tạo các tập dữ
liệu ở dạng dễ hiểu hơn, đồng thời còng cung cấp các nhóm dữ liệu cho các hoại
động cũng như công viộc phân lích. Đối với cơ sở dữ liệu lớn, việc ỉấy ra các nhóm
này !à rất quan ỉrọng,
L4.5.5. Các phương pháp dựa {rên mầu:
Sừ dụng các mẫu miêu tả từ cơ sở dữ ỉiệu để cạo nên một mô hình dự đoán
các mẫu mới băng cách rúl ra các Um ộc tính tương tự như các mầu tiă bict trong mô
23
lùnh. Các kỹ thuật bao gồm phản lốp theo láng giềng gồn nhắt, các giai thuật lìổi
quy {Dasarathy 1991) và các hệ thống suy diễn dựa trên lình huống (case-based
reasoning) (Kolodner ỉ 993).
/ .4.5.6. M ỏ hình phụ thuộc dựa trên đồ thị xức stưĩỉ
Các mô hình dồ thị xác định sự phụ thuộc xác suấỉ giữa các sự kiện litông
tịua các lièn hệ trực liếp theo cẩc cung đổ thị (Pearl 1988; Whiflaker, 1990). Ở dạng
(lơn gián nliất, mô hình này xác định những biến nào phụ IỈ1UỘC trực tiếp vào nhau.
Những mô hình này chủ yếu được sử dụng với các biến có giá trị rời rạc hoặc phân
loại.
1.4.5.7. M ỏ hình học quan hệ
Trong khi mẫu chicl xuất được bằng các luật suy diễn và cốy quyết định gắn
chật với các mệnh dề logic (prepositional logic) thì mổ hình học quan hệ (còn được
gọi là lập trình logic quy nạp sử dụng ngồn ngữ mẫu theo thứ tự logic trước (first -
order logic) rất linh hoạt. Mô hình này có thể dễ dàng tìm ra cổng (hức: X = Y. Chơ
đến nay, háu hết các nghiên cứu về các phưưng pháp đánh giá mô hình này cỉều Ihco
logic trong tự nhiên.
1.4.5.8. Khai phá dữ liệu văn bthì (Text M ining)
Phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không
định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo, v.v.

Khai phá dữ ỉiệu dạng văn bàn đã được sử dụng để phân tích cồu trả lời cho các eâu
hỏi mở (rong khảo sát thị trường, lìm kiếm các rài liệu phức tạp.
1.4.5.9. M ạng neuron
Mạng neuron ià một tiếp cận tính toán mới liên quan đến việc phát triển các
cấu trúc toán học với khả năng học. Các phương pháp là kết quả của việc nghiên cứu
mô hình học của hệ thống thẩn kinh C
011
người, Mạng neuron có thể đưa ra ý nghĩa
từ các dữ liệu phức tạp hoặc không chính xác và có Ihể được sử đụng để chiết xuất
các mẫu và phát hiện ra các xu hướng quá phức lạp mà con ngưòi cũng như các kỹ
thuật máy tính khác không thể phát hiện được.
Khi đề cập đến khai lluíc dữ liệu, người ía chường đề cập nhiều đến mạng
neuron. Tuy lìuỊug neuron có một số hạn chế gây khó khãn trong việc áp dạng và
24
triển khai nhưng nó cũng có những ưu điểm đáng kể. Một Irong số nlìững ưu điểm
phải kể đến của mạng neuron ỉà khả năng tạo ra các mò hình dự đoán có độ chính
xác cao, có thế áp dụng được cho rất nhiều các loại bài toán ktiác nhau đáp ứng dược
các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hóa, dự
báo các sự kiện phụ thuộc vào Ihời gian, v.v
i ,4.5,10. Giá ì thuật di truyền
Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng íại hệ thống tiến hóa
irong tự nhiên, chính xác hơn đó là các giải thuật chì ra tập các cá thể được bình
thành, (lược ước lượng và biến dổi như thế nào. Ví dụ như xác định xem làm thế nào
để tựa chọn các cá thể tạo giống và lựa chọn cá thể nào sẽ bị loại bỏ. Giải thuậi
cũng mỏ phỏng lại yếu lô' gen trong nhiễm sắc thể sinh học trên máy tính dể có thè'
giảií quyết nhiều bài toán fhực iế khác nhau.
Giải thuật di truyền là mội giải thuật lối ưu hóa, Nó được sử dụng rất rộng rãi
trong việc tối ưu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuặỉ mạng
neuron. Sự liêti hệ cùa nó với các giẳi ihuậí khai phá dữ liệu là ờ chỗ việc lối ưu hóa
cần Ihiết cho các qua trinh khai phá dữ liệu, ví dụ như trong các kỹ thuật cây quyết

dịnh, tạo luật.
Như vây, qua phẩn tành bày (rên nêu ra một số phưcíng pháp, chúng ta thày
cổ rất nhiều cấc phương pháp khai phá dữ Hệu. Mỗi phương pháp có những dặc tliểiit
liètìịỉ phù hợp YỚÌ ruột ¡¿rp các bài mán, với các dạng dữ liệu và miền dữ liệu nhất
ílịnh.
1.4.6. Lựa chọn phương pháp
Các giải thuật khai phá dữ ìiệu tự đông vẫn mới chỉ ớ giai đoạn phát triển ban
dầu, Hiện người ta vần chưa dưa ra dược m ột liêu chuẩn nào trong việc quyết dịnh
sử (lụng phương pháp nào vào trong trường hợp nào thì có hiệu quá. [3]
Mầu hết các kỹ thuật khai phá dữ liệu đều mới đối với lĩnh vực kinh doanh.
Hơn nữa lại cố rất nhỉểu kỹ thuật, mỗi kỹ thuật dược sồ dụng cho nhiêu bời ¡oản
khác nhau. Vì vậy, ngay sau cẵu hối khai phá dữ ỉiệu là gì sẽ là câu hỏi vậy thì dùng
kỹ thuật nào? Câu trả lời tất nhiên là không dơn giản. Mỗi phương pháp đều có điếm
mạnh và điểm yếu của nó, nhưng hầu hết các điểm yếu đều có thể khắc phục dược.

×