Tải bản đầy đủ (.pdf) (90 trang)

Nghiên cứu một số thuật toán khai phá luật kết hợp và thử nghiệm ứng dụng vào khai phá cơ sở dữ liệu bảo hiểm y tế tại bảo hiểm xã hội bắc giang

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 90 trang )

1

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG



NGUYỄN NGỌC HẢI

NGHIÊN CỨU MỘT SỐ THUẬT TỐN KHAI PHÁ LUẬT KẾT HỢP VÀ
THỬ NGHIỆM ỨNG DỤNG VÀO KHAI PHÁ CƠ SỞ DỮ LIỆU BẢO HIỂM
Y TẾ TẠI BẢO HIỂM XÃ HỘI BẮC GIANG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUN - 2013

Số hóa bởi Trung tâm Học liệu

Tai ngay!!! Ban co the xoa dong chu nay!!!

/>

2

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG



NGUYỄN NGỌC HẢI



NGHIÊN CỨU MỘT SỐ THUẬT TỐN KHAI PHÁ LUẬT KẾT HỢP VÀ
THỬ NGHIỆM ỨNG DỤNG VÀO KHAI PHÁ CƠ SỞ DỮ LIỆU BẢO HIỂM
Y TẾ TẠI BẢO HIỂM XÃ HỘI BẮC GIANG

Chuyên ngành :KHOA HỌC MÁY TÍNH
Mã số

:60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học:TS. PHÙNG VĂN ỔN

THÁI NGUYÊN - 2013

Số hóa bởi Trung tâm Học liệu

/>

3

MỤC LỤC

Trang
MỤC LỤC ...........................................................................................................
LỜI CẢM ƠN .....................................................................................................
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .....................................
MỞ ĐẦU ........................................................................................................... 7
Chƣơng 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...................................... 8
1.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống .........................................8

1.2. Tổng quan về kỹ thuật phát hiện tri thức và khai phá dữ liệu......................8
1.3. Các nhiệm vụ trong khai phá dữ liệu và phát hiện tri thức. .......................11
1.4. Phân lớp dữ liệu .........................................................................................18
1.4.1. Các loại dữ liệu đƣợc khai phá................................................................21
1.4.1.1. Cơ sở dữ liệu quan hệ...........................................................................21
1.4.1.3. Cơ sở dữ liệu giao tác...........................................................................21
1.4.1.4. Cơ sở dữ liệu không gian .....................................................................21
1.4.1.5. Cơ sở dữ liệu có yếu tố thời gian .........................................................22
1.4.1.6. Cơ sở dữ liệu đa phƣơng tiện ...............................................................22
1.4.2. Những vấn đề quan tâm trong khai phá dữ liệu. .........................................22

Chƣơng 2 MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU ........................ 25
2.1. Luật kết hợp ..................................................................................................25
2.2. Các đặc trƣng của luật kết hợp .......................................................................35
2.2.1. Khơng gian tìm kiếm của luật .................................................................35
2.2.2. Độ hỗ trợ của luật ....................................................................................38
2.3. Một số thuật toán khai thác luật kết hợp. .......................................................38
2.3.1. Giải thuật BFS (Breadth First Search) ....................................................39
2.3.2. Giải thuật DFS (Depth First Search) .......................................................52
2.3.3. Giải thuật DHP (Direct Hashing and Pruning) .......................................52
2.3.4. Giải thuật PHP (Perfect Hashing and Pruning).......................................55
2.3.5. Phát sinh luật từ các tập phổ biến............................................................58
2.4. Đánh giá, nhận xét..........................................................................................62

Chƣơng 3 ÁP DỤNG KHAI PHÁ TRÊN CƠ SỞ DỮ LIỆU BẢO HIỂM Y
TẾ CỦA BẢO HIỂM XÃ HỘI TỈNH BẮC GIANG ..................................... 63
3.1. CSDL bảo hiểm xã hội, bảo hiểm y tế và yêu cầu bài tốn ...........................63
3.2. Lựa chọn cơng cụ khai phá ............................................................................64
3.3. Thiết kế ứng dụng. .........................................................................................64
3.4. Phân tích và cài đặt thuật toán .......................................................................64

3.5. Các kết quả đạt đƣợc ......................................................................................69
* Đánh giá, nhật xét ..............................................................................................71

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ...................................................... 73
TÀI LIỆU THAM KHẢO............................................................................... 75
PHỤ LỤC ........................................................................................................ 77
Số hóa bởi Trung tâm Học liệu

/>

4

LỜI CẢM ƠN

Tác giả xin chân thành cảm ơn các thầy giáo, cô giáo Trƣờng Đại học
Công nghệ thông tin và Truyền thông Thái Nguyên và các thầy Viện Công
nghệ thông tin - Đại học quốc gia Hà Nội, đã tận tâm giảng dạy các kiến thức
trong hai năm học qua cùng với sự cố gắng hết mực của bản thân.
Đặc biệt tôi xin bày tỏ sự biết ơn sâu sắc đến thầy giáo Tiến sĩ Phùng
Văn Ổn, PGS. TS Ngơ Quốc Tạo ngƣời đã tận tình giảng dạy và hƣớng dẫn
tôi thực hiện luận văn này.
Tác giả cũng xin chân thành cảm ơn lãnh đạo Bảo hiểm xã hội tỉnh Bắc
Giang, các bạn đồng nghiệp, các bạn trong lớp cao học CK10B đã tạo điều
kiện, giúp đỡ tôi trong suốt thời gian qua.
Rất mong nhận đƣợc sự góp ý của các thầy, cô, bạn bè, đồng nghiệp để
luận văn có thể phát triển và hồn thiện hơn.

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn và chƣa từng đƣợc ai công bố

trong bất kỳ công trình nào khác.

Thái Nguyên, tháng 09 năm 2013
TÁC GIẢ

Nguyễn Ngọc Hải

Số hóa bởi Trung tâm Học liệu

/>

5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt
Ck
Conf
CSDL
DW
Item
Itemset
K- itemset
KDD
Lk
Minconf
Minsup
OLAP
MOLAP
ROLAP
pre(k, s)

Record
Supp
TID
SQL
SQO
DBSCAN

DENCLUE
ADO
DFS
BFS
DHP
PHP
I/O
BHXH
BHYT
KCB

Tiếng Anh
Ck
Confidence
Database
Data Warehouse
Item
Itemset
K- itemset
Knowledge Discovery and
Data Mining
Lk
Minimum Confidence

Minimum Support
On Line Analytical
Processing
Multidimensional OLAP
Relational OLAP
pre(k, s)
Record
Support
Transaction Indentification
Structured Query Language
Semantic Query Optimization
Density Based Spatial
Clustering of Application
with Noise
DENsity Based CLUstEring
Activate X Data Object
Depth First Search
Breadth First Search
Direct Hashing and Pruning
Perfect Hashing and Pruning
Input/Output

Số hóa bởi Trung tâm Học liệu

Tiếng Việt
Tập các K – itemset ứng cử
Độ tin cậy
Cơ sở dữ liệu
Kho dữ liệu
Khoản mục

Tập các khoản mục
Tập gồm K mục
Kỹ thuật phát hiện tri thức và khai
phá dữ liệu
Tập các K - itemset phổ biến
Độ tin cậy tối thiểu
Độ hỗ trợ tối thiểu
Phân tích trực tuyến
Phân tích đa chiều trực tuyến
Phân tích quan hệ trực tuyến
Tiếp đầu dãy có độ dài k của s
Bản ghi
Độ hỗ trợ
Định danh giao tác
Ngôn ngữ truy vấn có cấu trúc
Tối ƣu truy vấn ngữ nghĩa
Thuật tốn phân lớp dựa vào vị trí
địa phƣơng
Thuật tốn phân lớp cơ bản (tổng
quát)
Đối tƣợng dữ liệu Active X
Tìm kiếm theo chiều sâu
Tìm kiếm theo chiều rộng
Bảng băm trực tiếp và sự cắt tỉa
Bảng băm lý tƣởng và sự cắt tỉa
Vào/ra
Bảo hiểm xã hội
Bảo hiểm y tế
Khám chữa bệnh


/>

6

DANH MỤC CÁC BẢNG
Trang

Bảng 1.1. So sánh các nhiệm vụ phát hiện tri thức ......................................... 16
Bảng 2.1. Ví dụ về một cơ sở dữ liệu dạng giao dịch D ................................. 27
Bảng 2.2. Các tập phổ biến trong cơ sở dữ liệu ở bảng 2.1 với độ hỗ trợ tối
thiểu 50%......................................................................................................... 28
Bảng 4. Kết quả minh họa chạy thuật toán Apriori. ....................................... 70
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang

Hình 1.1. Quy trình phát hiện tri thức ............................................................... 9
Hình 2.1. Dàn cho tập I = {1,2,3,4} ................................................................ 36
Hình 2.2. Cây cho tập I = {1, 2, 3, 4} ............................................................. 37
Hình 2.3. Hệ thống hóa các giải thuật ............................................................. 39
Hình 2.4. Ví dụ thuật tốn Apriori .................................................................. 45

Số hóa bởi Trung tâm Học liệu

/>

7

MỞ ĐẦU
Ngày nay, thông tin đƣợc coi là tài sản quan trọng của các tổ chức,
doanh nghiệp và các cá nhân. Cá nhân hoặc tổ chức nào thu thập và hiểu đƣợc

thông tin, và hành động kịp thời dựa trên các thơng tin đó sẽ có đƣợc kết quả
tốt trong lĩnh vực sản xuất, kinh doanh, quản lý ... của mình. Chính vì lý do
đó, việc tạo ra thơng tin, tổ chức lƣu trữ và khai thác thông tin ngày càng trở
nên quan trọng và gia tăng không ngừng.
Sự tăng trƣởng vƣợt bậc của các cơ sở dữ liệu (CSDL) trong các hoạt
động nhƣ: sản xuất kinh doanh, thƣơng mại, quản lý đã làm nảy sinh và thúc
đẩy sự phát triển của kỹ thuật thu thập, lƣu trữ, phân tích và khai phá dữ
liệu… không chỉ bằng các phƣơng pháp thơng thƣờng nhƣ: thống kê mà địi
hỏi cách xử lý thơng minh hơn, hiệu quả hơn. Từ đó các nhà quản lý có đƣợc
thơng tin hữu ích để tác động lại q trình sản xuất, kinh doanh của mình…
đó là tri thức. Các kỹ thuật cho phép ta khai thác đƣợc tri thức hữu dụng từ
CSDL (lớn) đƣợc gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining).
Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.
Luận văn tìm hiểu về luật kết hợp và ứng dụng thử nghiệm khai phá cơ
sở dữ liệu Bảo hiểm y tế nhằm hỗ trợ cho công tác quản lý, sử dụng quỹ
BHYT tại tỉnh Bắc Giang .

Số hóa bởi Trung tâm Học liệu

/>

8

Chƣơng 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Tổ chức và khai thác cơ sở dữ liệu truyền thống
Việc dùng các phƣơng tiện tin học để tổ chức và khai thác cơ sở dữ liệu
(CSDL) đã đƣợc phát triển từ những năm 60 của thế kỉ trƣớc. Từ đó cho đến
nay, rất nhiều CSDL đã đƣợc tổ chức, phát triển và khai thác ở mọi quy mô và
các lĩnh vực hoạt động của con ngƣời và xã hội. Cho đến nay, số lƣợng CSDL

đã trở nên khổng lồ bao gồm các CSDL cực lớn cỡ gigabytes và thậm chí
terabytes lƣu trữ các dữ liệu kinh doanh ví dụ nhƣ dữ liệu thông tin khách
hàng, dữ liệu bán hàng, dữ liệu các tài khoản, ... Nhiều hệ quản trị CSDL
mạnh với các công cụ phong phú và thuận tiện đã giúp con ngƣời khai thác có
hiệu quả nguồn tài nguyên dữ liệu. Mơ hình CSDL quan hệ và ngơn ngữ
(SQL) đã có vai trị hết sức quan trọng trong việc tổ chức và khai thác CSDL.
Tuy nhiên bên cạnh chức năng khai thác dữ liệu có tính chất tác nghiệp,
sự thành cơng trong cơng việc khơng cịn là năng suất của các hệ thống thơng
tin nữa mà là tính linh hoạt và sẵn sàng đáp ứng những yêu cầu trong thực tế,
CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu trong đó. Lúc
này, các mơ hình CSDL truyền thống và ngôn ngữ SQL đã cho thấy không có
khả năng thực hiện cơng việc này. Để lấy thơng tin có tính “tri thức” trong
khối dữ liệu khổng lồ này, ngƣời ta đã tìm ra những kỹ thuật có khả năng hợp
nhất các dữ liệu từ các hệ thống giao dịch khác nhau, chuyển đổi thành một
tập hợp các CSDL ổn định, có chất lƣợng đƣợc sử dụng chỉ cho riêng một vài
mục đích nào đó. Các kỹ thuật đó gọi chung là kỹ thuật tạo kho dữ liệu (data
warehousing) và mơi trƣờng các dữ liệu có đƣợc gọi là các kho dữ liệu (data
warehouse).
Đồng thời, Công nghệ khai phá dữ liệu (data mining) ra đời đáp ứng
những đòi hỏi trong khoa học cũng nhƣ trong hoạt động thực tiễn. Đây chính
là một ứng dụng chính để khai phá kho dữ liệu nhằm phát hiện tri thức
(Knowledge Discovery) phục vụ công tác quản lý, kinh doanh,….
1.2. Tổng quan về kỹ thuật phát hiện tri thức và khai phá dữ liệu

Số hóa bởi Trung tâm Học liệu

/>

9


Chúng ta có thể xem tri thức nhƣ là các thơng tin tích hợp, bao gồm các
sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể đƣợc
hiểu ra, có thể đƣợc phát hiện, hoặc có thể đƣợc học. Nói cách khác, tri thức
có thể đƣợc coi là dữ liệu có độ trừu tƣợng và tổ chức cao.
Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các
mẫu hoặc các mơ hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích,
và có thể hiểu đƣợc. Cịn khai phá dữ liệu là một bƣớc trong qui trình phát
hiện tri thức gồm có các thuật tốn khai thác dữ liệu chuyên dùng dƣới một số
qui định về hiệu quả tính tốn chấp nhận đƣợc để tìm ra các mẫu hoặc các mơ
hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai
phá dữ liệu chính là tìm ra các mẫu và/hoặc các mơ hình đang tồn tại trong
các cơ sở dữ liệu nhƣng vẫn còn bị che khuất bởi hàng núi dữ liệu.
Định nghĩa: Phát hiện tri thức và khai phá dữ liệu (KDD: Knowledge
Discovery and Data Mining) là q trình khơng tầm thƣờng nhận ra những
mẫu có giá trị, mới, hữu ích tiềm năng và hiểu đƣợc trong dữ liệu [7].
Còn các nhà thống kê thì xem Khai phá dữ liệu nhƣ là một qui trình phân
tích đƣợc thiết kế để thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện ra
các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến
và sau đó sẽ hợp thức hố các kết quả tìm đƣợc bằng cách áp dụng các mẫu
đã phát hiện đƣợc cho các tập con mới của dữ liệu. Qui trình này bao gồm ba
giai đoạn cơ bản: thăm dị, xây dựng mơ hình hoặc định nghĩa mẫu, hợp
thức/kiểm chứng.
1.2.1. Qui trình khai phá dữ liệu và phát hiện tri thức.
Qui trình phát hiện tri thức đƣợc mơ tả tóm tắt trên Hình 1:

Hình 1.1. Quy trình phát hiện tri thức

Số hóa bởi Trung tâm Học liệu

/>


10

Bƣớc thứ nhất: Hình thành, xác định và định nghĩa bài tốn. Là tìm hiểu
lĩnh vực ứng dụng từ đó hình thành bài tốn, xác định các nhiệm vụ cần phải
hoàn thành. Bƣớc này sẽ quyết định cho việc rút ra đƣợc các tri thức hữu ích
và cho phép chọn các phƣơng pháp khai phá dữ liệu thích hợp với mục đích
ứng dụng và bản chất của dữ liệu.
Bƣớc thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý thơ,
cịn đƣợc gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu,
biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bƣớc này thƣờng chiếm
nhiều thời gian nhất trong tồn bộ qui trình phát hiện tri thức.
Bƣớc thứ ba: Khai phá dữ liệu, rút ra các tri thức. Là trích ra các mẫu
và/hoặc các mơ hình ẩn dƣới các dữ liệu. Giai đoạn này rất quan trọng, bao
gồm các công đoạn nhƣ: chức năng, nhiệm vụ và mục đích của khai phá dữ
liệu, dùng phƣơng pháp khai phá nào?
Bƣớc thứ tƣ: Sử dụng các tri thức phát hiện đƣợc. Là hiểu tri thức đã tìm
đƣợc, đặc biệt là làm sáng tỏ các mô tả và dự đốn. Các bƣớc trên có thể lặp
đi lặp lại một số lần, kết quả thu đƣợc có thể đƣợc lấy trung bình trên tất cả
các lần thực hiện.
Tóm lại: KDD là một quá trình chiết xuất ra tri thức từ kho dữ liệu mà
trong đó khai phá dữ liệu là công đoạn quan trọng nhất.
1.2.2. Các lĩnh vực liên quan đến khai phá dữ liệu và phát hiện tri
thức
Khai phá dữ liệu và phát hiện tri thức liên quan đến nhiều ngành, nhiều
lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật tốn học, tính tốn
song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ
liệu... Đặc biệt Phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực
thống kê, sử dụng các phƣơng pháp thống kê để mơ hình dữ liệu và phát hiện
các mẫu, luật... Kho dữ liệu (Data Warehousing) và các công cụ phân tích

trực tuyến (OLAP) cũng liên quan rất chặt chẽ với Phát hiện tri thức và khai
phá dữ liệu.
Khai phá dữ liệu có nhiều ứng dụng trong thực tế. Một số ứng dụng điển
hình nhƣ:

Số hóa bởi Trung tâm Học liệu

/>

11

- Bảo hiểm, tài chính và thị trƣờng chứng khốn: Phân tích tình hình tài
chính và dự báo giá của các loại cổ phiếu trong thị trƣờng chứng khoán. Danh
mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ...
- Điều trị y học và chăm sóc y tế: Một số thơng tin về chuẩn đoán bệnh
lƣu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu
chứng bệnh, chuẩn đoán và phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc,
...).
- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm
tắt văn bản,...
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và
một số bệnh di truyền, ...
- Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, sự cố, chất lƣợng dịch vụ, ...
1.3. Các nhiệm vụ trong khai phá dữ liệu và phát hiện tri thức.
Do sự phát triển mạnh mẽ của các loại hệ thống phát hiện tri thức trong
CSDL (KDD) theo yêu cầu nhằm đáp ứng những đòi hỏi trong nhiều lĩnh vực
khác nhau, việc phát hiện tri thức cũng trở lên đa dạng hơn. Do đó, nhiệm vụ
của phát hiện tri thức trong CSDL cũng trở lên phong phú và có thể phát hiện

rất nhiều kiểu tri thức khác nhau. Một trong các bƣớc đầu tiên trong quá trình
phát hiện tri thức trong CSDL là quyết định xem loại kiến thức nào mà thuật
toán phát hiện tri thức trong CSDL cần phải kết xuất từ dữ liệu. Do đó, vệc
phân loại và so sánh các kiểu nhiệm vụ phát hiện tri thức trong CSDL là vấn
đề đáng quan tâm nhằm tạo ra một hệ thống phát hiện tri thức trong CSDL
hữu ích. Ta sẽ xem xét một số kiểu nhiệm vụ phát hiện tri thức sau:
Phát hiện các luật tối ƣu truy vấn ngữ nghĩa (Sematics Query
Optimization - SQO Rules)
Các luật tối ƣu truy vấn CSDL thông thƣờng thực hiện một phép biến
đổi cú pháp, hay sắp xếp lại thứ tự của các phép toán quan hệ trong một truy
vấn và sản sinh ra một truy vấn hiệu quả hơn. Các phép biến đổi này thƣờng
dựa trên lý thuyết đại số quan hệ. Các luật đƣợc biến đổi trả lại cùng một câu
trả lời nhƣ câu truy vấn ban đầu ở bất kỳ trạng thái nào của CSDL. Ngƣợc lại,
Số hóa bởi Trung tâm Học liệu

/>

12

luật tối ƣu truy vấn ngữ nghĩa biến đổi các câu truy vấn ban đầu thành một
truy vấn mới bằng cách thêm vào hoặc xoá đi các mối liên kết bằng việc sử
dụng các tri thức CSDL ngữ nghĩa bao gồm các ràng buộc về tính tồn vẹn và
sự phụ thuộc hàm để sản sinh ra các câu truy vấn hiệu quả hơn. Nhƣ vậy câu
truy vấn đã biến đổi cũng trả lại cùng câu trả lời giống nhƣ câu truy vấn ban
đầu trong bất kỳ trạng thái nào của CSDL thoả mãn kiến thức về ngữ nghĩa
đƣợc sử dụng trong phép biến đổi. Các hệ thống phát hiện luật SQO có thể
đƣợc chia thành ba lớp:
- Các hệ thống hƣớng truy vấn (hệ thống báo cáo) trong đó thuật toán
phát hiện tri thức trong CSDL nhằm phục vụ các truy vấn CSDL thực của
ngƣời dùng;

- Các hệ thống hƣớng dữ liệu (hệ thống tác nghiệp) trong đó thuật tốn
phát hiện tri thức trong CSDL chủ yếu phục vụ sự phân bổ dữ liệu trong trạng
thái hiện thời của CSDL;
- Các hệ thống lai kết hợp các đặc tính của cả hệ thống hƣớng truy vấn
và hƣớng dữ liệu.
Một đặc tính quan trọng của các luật SQO, khác với các kiểu phát hiện
tri thức khác, là việc chọn các thuộc tính để tổng hợp một SQO cần phải tính
đến chi phí liên quan nhƣ dùng phƣơng pháp truy cập nào và sơ đồ chỉ số
trong hệ quản trị CSDL. Việc này là cần thiết để tiết kiệm thời gian xử lý truy
vấn. Một thuật toán phát hiện tri thức trong CSDL loại này đòi hỏi phải xem
xét tối ƣu chi phí.
Phát hiện sự phụ thuộc CSDL (Database Dependencies)
Trong mơ hình dữ liệu quan hệ, chúng ta đã nghiên cứu quan hệ trong
CSDL quan hệ khơng tính đến quan hệ giữa các thuộc tính. Các quan hệ này
thƣờng đƣợc thể hiện thông qua sự phụ thuộc dữ liệu hoặc ràng buộc toàn
vẹn. Ở đây sẽ sử dụng thuật ngữ phụ thuộc CSDL để chỉ sự phụ thuộc dữ liệu
kiểu này. Sự phụ thuộc CSDL đƣợc sử dụng trong thiết kế và duy trì một
CSDL. Phƣơng pháp phát hiện tự động các sự phụ thuộc CSDL này chính là
một kiểu nhiệm vụ của Khai phá dữ liệu.

Số hóa bởi Trung tâm Học liệu

/>

13

Phát hiện sự sai lệch (Deviation)
Nhiệm vụ này nhằm phát hiện sự sai lệch đáng kể giữa nội dung của tập
con dữ liệu thực và nội dung mong đợi. Hai mơ hình sai lệch hay dùng là mơ
hình sai lệch theo thời gian và sai lệch nhóm. Sai lệch theo thời gian là sự

thay đổi có ý nghĩa của dữ liệu theo thời gian. Sai lệch theo nhóm là sự khác
nhau không chờ đợi giữa dữ liệu trong hai tập con dữ liệu, ở đây tính đến cả
trƣờng hợp tập con này thuộc trong tập con kia, nghĩa là xác định dữ liệu
trong một nhóm con của đối tƣợng có khác đáng kể so với tồn bộ đối tƣợng
khơng. Theo cách này, các sai sót dữ liệu hay sự sai lệch so với giá trị thông
thƣờng đƣợc phát hiện.
Phát hiện luật kết hợp (Association Rules)
Ta xét một ví dụ: Xét một tập các mặt hàng trong một giỏ mua hàng.
Vấn đề đặt ra là tìm những mối liên quan giữa các mặt hàng trong giỏ.
Một cách chi tiết hơn, xét một tập các thuộc tính nhị phân với một tập
các bộ, mỗi bộ đƣợc gọi là một giỏ. Các thuộc tính nhị phân đƣợc gọi là các
mục hay các mặt hàng trong giỏ mà mỗi mục chỉ nhận một trong hai giá trị
đúng hoặc sai tuỳ thuộc vào khách hàng có mua mặt hàng đó trong giao dịch
hay khơng. Trên thực tế, loại dữ liệu này rất phổ biến và đƣợc gọi là dữ liệu
giỏ. Chúng thƣờng đƣợc thu thập thông qua công nghệ mã số, mã vạch trong
các hoạt động kinh doanh siêu thị.
Một giao dịch có thể chứa một số khoản mục, tập hợp tất cả các khoản
mục sẽ thuộc vào một khơng gian T nào đó mà mỗi giao dịch khi đó là một
tập con của T. Ta cần phát hiện những mối tƣơng quan quan trọng hoặc mối
quan hệ, mối kết hợp trong số các khoản mục chứa trong các giao dịch của
một dữ liệu nào đó sao cho sự xuất hiện của một số khoả mục nào đó trong
giao dịch sẽ kéo theo sự xuất hiện của một số khoản mục khác trong cùng một
giao dịch đó.
Ta sẽ tìm hiểu luật kết hợp cụ thể hơn ở phần sau.
Mơ hình hố sự phụ thuộc (Dependence Modeling)
Nhiệm vụ này liên quan đến việc phát hiện sự phụ thuộc trong số các
thuộc tính. Những phụ thuộc này thƣờng đƣợc biểu thị dƣới dạng luật “nếu

Số hóa bởi Trung tâm Học liệu


/>

14

thì”: “nếu (tiên đề là đúng) thì (kết luận là đúng)”. Về nguyên tắc, cả tiên đề
và kết luận của luật đều có thể là sự kết hợp logic của các giá trị thuộc tính.
Trên thực tế, tiên đề thƣờng là nhóm các giá trị thuộc tính và kết luận chỉ là
một giá trị tuộc tính. Lƣu ý là những luật này khơng phải hồn tồn giống với
sự phụ thuộc CSDL đƣợc nêu ở phần 2.2. Hơn nữa, hệ thống có thể phát hiện
các luật với phần kết luận nhiều thuộc tính. Điều này khác với luật phân lớp
trong đó tất cả các luật cần phải có cùng một thuộc tính do ngƣời dùng chỉ ra
trong kết luận.
Mơ hình hố nhân quả (Causation Modeling)
Nhiệm vụ này liên quan đến việc phát hiện mối quan hệ nhân quả trong
thuộc tính. Các luật nhân quả cũng là các luật “nếu - thì” giống các luật phụ
thuộc, nhƣng mạnh hơn. Luật phụ thuộc đơn giản chỉ ra một mối tƣơng hỗ
giữa tiên đề và kết luận của luật mà khơng có ý nghĩa nhân quả trong quan hệ
này. Do đó, cả tiên đề và kết luận có thể quan hệ dƣới sự ảnh hƣởng của một
biến thứ ba, tức là một thuộc tính hoặc có ở trong tiên đề hoặc có ở trong kết
luận. Luật nhân quả không chỉ chỉ ra mối tƣơng quan giữa tiên đề và kết luận
mà còn cho biết tiên đề thực sự tạo ra kết luận và mối quan hệ giữa hai thành
phần này là trực tiếp. Tập các mối quan hệ nhân quả có thể đƣợc biểu diễn
bằng đồ thị nhân quả.
Các quan hệ nhân quả cần phụ thuộc vào thời gian theo nghĩa là nguyên
nhân trƣớc kết quả (kết luận). Nguyên nhân và kết quả đều có ít nhất một sự
kiện thời gian đi kèm và thời gian của kết quả phải đi sau thời gian của
nguyên nhân. Mặc dù yếu tố thời gian làm rõ ý nghĩa nhân quả nhƣng hệ
thống thƣờng khó phân biệt các liên kết giả tạo.
Phân cụm, nhóm (Clustering).
Một nhiệm vụ của các hệ thống phát hiện tri thức là phân tích các đối

tƣợng dữ liệu dạng nhƣ các giỏ hàng mà không quan tâm tới lớp của chúng.
Các hệ thống này phải tự phát hiện ra các lớp và sinh ra một sơ đồ phân nhóm
của tập dữ liệu đó.
Tuy nhiên, chất lƣợng của việc phân nhóm này là một vấn dề khó có thể
xác định đƣợc. Bài tốn phân nhóm xác định các nhóm dựa vào quan hệ nhiều
- nhiều, tức là bất kỳ thuộc tính nào cũng có thể đƣợc sử dụng để xác định các

Số hóa bởi Trung tâm Học liệu

/>

15

nhóm và để dự báo các giá trị thuộc tính khác. Điều này trái với cách xác định
nhiều - một liên quan đến nhiệm vụ phân lớp các đối tƣợng, trong đó, một
thuộc tính đƣợc xem nhƣ lớp và tất cả các thuộc tính khác đƣợc sử dụng để
phán đốn giá trị cho thuộc tính lớp.
Phân lớp (Classification)
Trong nhiệm vụ phân lớp, mỗi bộ dữ liệu theo dạng giỏ mua hàng thuộc
về một lớp nào đó đã đƣợc xác định trƣớc. Các bộ dữ liệu bao gồm tập các
thuộc tính dự báo và một thuộc tính phân lớp cụ thể. Lớp của bộ đƣợc chỉ ra
bởi giá trị của thuộc tính lớp mà ngƣời dùng xác định trƣớc.
Ta xét ví dụ sau: Giả sử, mỗi bộ dữ liệu biểu diễn các thơng tin về nhân
viên, trong đó các thuộc tính dự báo là tuổi, giới tính, trình độ học vấn, ... của
nhân viên đó và thuộc tính phân lớp là trình độ lãnh đạo của nhân viên. Mục
tiêu của thuật tốn phân lớp là tìm ra mối quan hệ nào đó giữa các thuộc tính
dự báo và thuộc tính phân lớp, từ đó sử dụng mối quan hệ này để dự báo lớp
cho các bộ dữ liệu mới khác cùng khuôn dạng.
Trong trƣờng hợp những kiến thức đƣợc phát hiện biểu diễn dƣới dạng
các luật thì khn dạng của luật có thể là: “nếu các thuộc tính dự báo của một

bộ dữ liệu thoả mãn các điều kiện của tiên đề, thì bộ dữ liệu đó có lớp chỉ ra
trong kết luận”.
Hồi quy (Regression)
Về khái niệm, nhiệm vụ hồi quy tƣơng tự nhƣ phân lớp. Điểm khác nhau
chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc. Việc dự
báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển,
chẳng hạn nhƣ hồi quy tuyến tính. Tuy nhiên, các phƣơng pháp mơ hình hố
cũng đƣợc sử dụng, chẳng hạn nhƣ cây quyết định, trong đó nút lá là mơ hình
tuyến tính phát sinh tập các lớp giả (pseudo - class) có giá trị thuộc tính đích
tƣơng tự nhau, sau đó sử dụng phƣơng pháp quy nạp để thay thế các lớp trong
luật quy nạp bằng tổ hợp các giá trị của thuộc tính lớp cho các bộ dữ liệu theo
luật.

Số hóa bởi Trung tâm Học liệu

/>

16

Tổng hợp (Sumarization)
Nhiệm vụ tổng hợp chính là sản sinh ra các mô tả đặc trƣng cho một lớp.
Mô tả này là một kiểu tổng hợp, tóm tắt mơ tả các đặc tính chung của tất cả
(hoặc hầu hết) các bộ dữ liệu dạng giỏ mua hàng thuộc một lớp.
Các mơ tả đặc trƣng thể hiện dƣới dạng luật có dạng sau: ”nếu một bộ dữ
liệu thuộc về một lớp đã chỉ ra trong tiên đề, thì bộ dữ liệu đó có tất cả các
thuộc tính đã nêu trong kết luận”. Cần lƣu ý là các luật này có những đặc
trƣng khác biệt so với luật phân lớp. Luật phát hiện đặc trƣng cho một lớp chỉ
sản sinh khi các bộ dữ liệu đã thuộc về lớp đó.
So sánh các nhiệm vụ phát hiện tri thức.
Điểm giống và khác giữa các nhiệm vụ phát hiện tri thức đƣợc tóm tắt

trong bảng sau:
Bảng 1.1. So sánh các nhiệm vụ phát hiện tri thức

Kiểu phát hiện

Mục đích

SQO

Hƣớng hệ quản trị
CSDL

Tối ƣu truy vấn

Không học

Sự phụ thuộc
CSDL

Hƣớng hệ quản trị
CSDL

Thiết kế và duy trì
CSDL

Khơng học

Phát hiện sai lệch Mục đích chung

Xác định trội


Khơng học

Phát hiện liên kết Mục đích chung

Dự báo, xác định
trội

Có học

Nhiệm vụ

Kiểu dự báo

Nhân quả

Mục đích chung

Dự báo, mơ tả

Khơng học

Phân nhóm

Mục đích chung

Dự báo, mơ tả

Khơng học


Phân lớp

Mục đích chung

Dự báo

Có học

Hồi quy

Mục đích chung

Dự báo

Có học

Tổng hợp

Mục đích chung

Dự báo

Có học

Trong bảng này, cột đầu tiên chỉ ra nhiệm vụ phát hiện tri thức. Cột thứ
hai chỉ ra kiểu tri thức đƣợc phát hiện. Các kiểu có thể là hƣớng hệ quản trị

Số hóa bởi Trung tâm Học liệu

/>


17

CSDL (nhƣ các luật SQO) hoặc phụ thuộc CSDL hoặc là mục đích chung (tức
là các nhiệm vụ phát hiện bổ trợ khác). Tri thức hƣớng hệ quản trị CSDL
thƣờng dùng trong thiết kế và giao dịch của một CSDL. Tuy nhiên, tri thức
hƣớng hệ quản trị CSDL cũng có thể dùng cho việc kiểm tra các luật tối ƣu
truy vấn ngữ nghĩa để cải thiện việc tìm hiểu ứng dụng. Trong khi tri thức
theo kiểu mục đích chung có thể đƣợc sử dụng theo các mục đích khác nhau
tuỳ thuộc vào nhu cầu của ngƣời dùng theo nghĩa mờ và nó có thể sử dụng
hiệu quả trong hệ quản trị CSDL. Tuy vậy, điểm khác biệt quan trọng là tri
thức hƣớng hệ quản trị CSDL yêu cầu độ chính xác cao hơn so với tri thức
theo mục đích chung.
Cột thứ ba trong bảng chỉ ra mục đích của việc phát hiện tri thức. Cột
này xuất phát từ cột hai. Mục đích chính của các tri thức hƣớng hệ quản trị
CSDL là khá cụ thể: Tối ƣu truy vấn (trong trƣờng hợp SQO) và thiết kế, duy
trì CSDL (trong trƣờng hợp sự phụ thuộc CSDL). Các tri thức theo kiểu mục
đích chung thƣờng đƣợc dùng co một sự kết hợp các mục đích dự báo, mơ tả
và xác định trội. Dự báo liên quan đến xác định giá trị của các tri thức trên cơ
sở xác định giá trị của các thuộc tính khác. Kỹ thuật đặc trƣng là phân lớp và
hồi quy. Tuy nhiên, dự báo cũng dựa trên quan hệ nhân quả, mơ hình hố sự
phụ thuộc cũng nhƣ phát hiện luật kết hợp. Mô tả thƣờng gắn với tổng hợp,
thông tin gộp. Do vậy, mô tả là mục tiêu chính của phân nhóm và tổng hợp.
Đối với hai nhiệm vụ này, việc mơ tả các thuộc tính chung của các tập dữ liệu
đƣợc quan tâm. Hơn nữa việc mô tả cũng khá quan trọng trong các nhiệm vụ
xác định phụ thuộc và quan hệ nhân quả. Cần chú ý là mục tiêu chính của
phát hiện tri thức phụ thuộc vào dạng mà tri thức biểu diễn, chẳng hạn, mạng
nhân quả thích hợp cho mục tiêu mơ tả hơn là luật về sự phụ thuộc.
Cột thứ tƣ chỉ ra loại dự báo liên quan đến từng nhiệm vụ phát hiện tri
thức. Mặc dù các nhiệm vụ SQO và sự phụ thuộc CSDL phát hiện tri thức

hƣớng CSDL và theo mục tiêu cụ thể, nhƣng cũng có các nhiệm vụ dự báo
liên quan đến kiểu này. Nói chung, các nhiệm vụ SQO, sự phụ thuộc CSDL,
liên kết, nhân quả, sự phụ thuộc và phân cụm có kiểu dự báo nhiều - nhiều
trong đó giá trị của một vài thuộc tính có thể dùng để dự báo giá trị của các
thuộc tính khác. Một cách nhìn khác về quan hệ nhiều - nhiều là xem xét các
nhiệm vụ nhƣ một dạng phát hiện khơng có học, bởi vì ngƣời dùng khơng chỉ
ra thuộc tính mục tiêu và hệ thống có sự tự chủ hồn tồn để quyết định thuộc
Số hóa bởi Trung tâm Học liệu

/>

18

tính nào sẽ đƣợc đƣa ra trong tri thức. Nhiệm vụ phát hiện sự sai khác khơng
hồn tồn đúng với mục tiêu dự báo nhƣng có thể nói nó liên quan đến việc
phát hiện khơng có học.
Nhiệm vụ phân lớp và hồi quy liên quan đến dự báo nhiều - một trong đó
giá trị của nhiều thuộc tính có thể đƣợc sử dụng để dự báo giá trị của một
thuộc tính do ngƣời dùng xác định trƣớc. Đối với nhiệm vụ tổng hợp, từ lớp
của một bộ dữ liệu, chúng ta có thể dự báo giá trị (hoặc khoảng giá trị, giá trị
trung bình, ...) của các thuộc tính khác. Tri thức đƣợc phát hiện phải bao gồm
quan hệ đó. Do vậy, tính tự chủ của hệ thống chỉ ở chỗ xác định các thuộc
liên quan đến giá trị thuộc tính đích và có hạn chế hơn so với các nhiệm vụ
không học. Tuy nhiên, các nhiệm vụ không học có thể chuyển thành có học.
Các đặc tính khác của phát hiện tri thức nhƣ tính thơng minh và tính hữu
dụng khơng bao gồm trong bảng trên bởi vì chúng mang tính chủ quanvà thay
đổi lớn trong mỗi nhiệm vụ của từng kĩnh vực cụ thể.
Phát hiện tri thức hƣớng CSDL (SQO và sự phụ thuộc CSDL) có độ
chính xác cao. Đây là điểm khác biệt quan trọng so với các đòi hỏi của các
nhiệm vụ phát hiện tri thức khác. Nhiệm vụ phát hiện sự sai lệch liên quan

đến phát hiện tri thức với mức ý nghĩa do ngƣời dùng xác định. Nhiệm vụ
phát hiện liên kết cũng nhƣ thế với ngƣỡng tin cậy (ngƣỡng confidence) và
tần suất tƣơng đối (ngƣỡng hỗ trợ - support). Nhiệm vụ tổng hợp liên quan
đến phát hiện tri thức có tính phổ biến cao tức là luật đƣợc phát hiện phải bao
hàm một số dữ liệu (mà các nhiệm vụ khác nhƣ phân lớp khơng địi hỏi nhƣ
vậy).
Các nhiệm vụ nhƣ phát hiện sự phụ thuộc, nhân quả, phân lớp và hồi quy
chủ yếu liên quan đến phát hiện tri thức có độ chính xác cao.
1.4. Phân lớp dữ liệu
KDD bao gồm hai yếu tố quan trọng không thể thiếu đƣợc là Dự đốn
(Prediction) và Mơ tả (Description)
Dự đốn: Địi hỏi sử dụng một vài biến hoặc trƣờng để dự đốn thơng tin
tiềm ẩn hoặc một giá trị tƣơng lai của một biến thuộc tính mà ta quan tâm
đến.

Số hóa bởi Trung tâm Học liệu

/>

19

Mơ tả: Tập trung là nổi bật lên mơ hình kết quả mà con ngƣời có thể
hiểu sâu về thơng tin dữ liệu.
Với hai đích chính đã nêu ở trên, ngƣời ta thƣờng sử dụng các phƣơng
pháp sau cho khai phá dữ liệu:
- Phân lớp, phân loại (Classification): Là việc học một hàm ánh xạ từ
một mẫu dữ liệu vào một trong số các lớp đã đƣợc xác định trƣớc đó.
- Hồi qui (Regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu
thành một biến dự đoán có giá trị thực.
- Phân nhóm (Clustering): Là việc mơ tả chung để tìm ra các tập hay các

nhóm, loại mơ tả dữ liệu. Các nhóm có thể tách nhau hoặc phân cấp.
- Luật kết hợp: Luật kết hợp là dạng luật biểu diễn tri thức ở dạng khá
đơn giản. Mục tiêu của phƣơng pháp này là phát hiện và đƣa ra các mối liên
hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu của giải thuật khai phá
dữ liệu là tập luật kết hợp tìm đƣợc.
Ví dụ về luật kết hợp: Một cửa hàng bán văn phịng phẩm đăng thơng tin
quảng cáo mỗi tuần trên một tờ báo địa phƣơng. Khi một mặt hàng, chẳng hạn
nhƣ mực in đã đƣợc chỉ định bán giảm giá, ngƣời bán hàng xác định các mặt
hàng khác nào sẽ đƣợc mua cùng lúc với mực in. Họ thấy rằng giấy A4 và
mực in đƣợc khách hàng mua cùng chiếm 30% và kẹp giấy đƣợc mua kèm
với mực in là 40%. Dựa vào các mối quan hệ này, ngƣời bán hàng bày bán
giấy A4 và kẹp giấy gần với mặt hàng mực in khi bán giảm giá. Họ cũng
quyết định không đƣa các mặt hàng này vào danh sách các mặt hàng giảm giá.
Các hành động này nhằm mục đích tăng thêm toàn bộ khối lƣợng hàng bán ra
bởi việc bán các mặt hàng mua mực in.
Có 2 luật kết hợp đƣợc đề cập ở ví dụ trên. Luật thứ nhất là: “30% khách
hàng mua mực in lẫn giấy A4 ”. Luật thứ hai là: “40% khách hàng khi mua
mực in thì cũng mua kẹp giấy ”. Các luật kết hợp này thƣờng đƣợc sử dụng
bởi các cửa hàng bán lẻ để phân tích các giao dịch của cửa hàng. Đối với
ngƣời quản lý kinh doanh, các luật kết hợp đƣợc phát hiện có thể đƣợc dùng
trong chiến dịch quảng cáo, tiếp thị, quản lý hàng tồn kho và dự trữ hàng. Các
luật kết hợp cũng đƣợc sử dụng cho các ứng dụng khác nhƣ dự đoán lỗi, cho
các mạng điện thoại bằng việc xác định các sự kiện xuất hiện trƣớc đó.

Số hóa bởi Trung tâm Học liệu

/>

20


- Tổng hợp (Summarization): Là công việc lên quan đến các phƣơng
pháp tìm kiếm một mơ tả tập con dữ liệu, thƣờng áp dụng trong việc phân tích
dữ liệu có tính thăm dị và báo cáo tự động.
- Mơ hình ràng buộc (Dependency modeling): Là việc tìm kiếm một mơ
hình mơ tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: phụ thuộc cục
bộ vào cấu trúc của mơ hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng của một định
lƣợng nào đó.
- Dị tìm biến đổi và độ lệch (Change and Deviation Dectection): Chú ý
vào những thay đổi quan trọng trong dữ liệu từ các giá trị chuẩn hoặc đã đƣợc
xác định trƣớc đó.
- Biểu diễn mơ hình (Model Representation): Là việc dùng một ngôn
ngữ L_ Language nào đó để mơ tả các mẫu mơ hình có thể khai phá đƣợc. Mơ
tả mơ hình rõ ràng thì học máy sẽ tạo ra mẫu có mơ hình chính xác cho dữ
liệu. Tuy nhiên, nếu mơ hình q lớn thì khả năng dự đoán của học máy sẽ bị
hạn chế. Nhƣ thế sẽ làm cho việc tìm kiếm phức tạp hơn cũng nhƣ hiểu đƣợc
mơ hình là khơng đơn giản.
- Kiểm định mơ hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng
các mơ hình chi tiết, chuẩn trong q trình xử lý và phát hiện tri thức với sự
ƣớc lƣợng có dự báo chính xác hay khơng và có thoả mãn cơ sở logic hay
không? Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả
đặc điểm bao gồm dự báo chính xác, tính mới lạ, tính hữu ích, tính hiểu đƣợc
phừ hợp với các mơ hình. Hai phƣơng pháp logic và thống kê chuẩn có thể sử
dụng trong mơ hình kiểm định.
- Phƣơng pháp tìm kiếm (Search Method): Gồm có hai thành phần: (1) –
Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật tốn phải tìm kiếm
các tham số tronng phạm vi các chuẩn của mơ hình kiểm định rồi tối ƣu hố
và đƣa ra tiêu chí (quan sát) dữ liệu và biểu diễn mơ hình đã định. (2) – Mơ
hình tìm kiếm, xuất hiện nhƣ một đƣờng vịng trên tồn bộ phƣơng pháp tìm
kiếm, biểu diễn mơ hình phải thay đổi sao cho các hệ mơ hình phải thay đổi
sao cho các hệ gia phả mơ hình phải đƣợc thơng qua.


Số hóa bởi Trung tâm Học liệu

/>

21

1.4.1. Các loại dữ liệu đƣợc khai phá.
Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia
dữ liệu thành các loại khác nhau.
1.4.1.1. Cơ sở dữ liệu quan hệ
Đến nay, hầu hết dữ liệu đƣợc lƣu giữ dƣới dạng cơ sở dữ liệu quan hệ.
Cơ sở dữ liệu quan hệ là một nguồn tài nguyên lớn nhất chứa những đối
tƣợng mà chúng ta cần khai phá. Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ
liệu đƣợc mô tả bởi một tập những thuộc tính và lƣu trong những bảng. Khai
phá dữ liệu trên cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá mẫu . Ví dụ,
trong cơ sở dữ liệu của một ngân hàng, ta có thể tìm đƣợc những khách hàng
có mức chi tiêu cao, ta có thể phân loại những khách hàng này dựa vào quá
trình chi tiêu của họ. Cũng với việc phân tích những mục chi tiêu của khách
hàng, chúng ta có thể cung cấp một số thông tin của khách hàng đến những
doanh nghiệp khác. Giả sử rằng một khách hàng chi mỗi tháng 500 đô la cho
thời trang, nếu đƣợc phép, ngân hàng có thể cung cấp thơng tin về khách hàng
này cho những cửa hàng thời trang.
1.4.1.3. Cơ sở dữ liệu giao tác
Cơ sở dữ liệu giao tác là tập hợp những bản ghi giao dịch, trong đa số
các trƣờng hợp chúng là những bản ghi các dữ liệu hoạt động của doanh
nghiệp, tổ chức. Với tính phổ biến của máy tính và thƣơng mại điện tử, ngày
nay có rất nhiều cơ sở dữ liệu giao tác. Khai phá dữ liệu trên cơ sở dữ liệu
giao tác tập trung vào khai phá luật kết hợp, tìm mối tƣơng quan giữa những
mục dữ liệu của bản ghi giao dịch. Nghiên cứu sâu về cơ sở dữ liệu giao tác

đƣợc mô tả chi tiết ở phần sau.
1.4.1.4. Cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian bao gồm hai phần: Phần thứ nhất là dữ liệu
quan hệ hay giao tác, phần thứ hai là thông tin định vị hoặc thông tin địa lý.
Những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa các
đặc trƣng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp khơng gian
có dạng X ⇒ Y, với X, Y là tập hợp những vị từ khơng gian. Những thuật
tốn khai phá luật kết hợp không gian tƣơng tự nhƣ khai phá luật kết hợp
nhƣng thêm những vị từ về khơng gian.
Số hóa bởi Trung tâm Học liệu

/>

22

1.4.1.5. Cơ sở dữ liệu có yếu tố thời gian
Giống nhƣ cơ sở dữ liệu không gian, cơ sở dữ liệu có yếu tố thời gian
bao gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai
là thông tin về thời gian xuất hiện dữ liệu ở phần thứ nhất. Những luật kết hợp
có yếu tố thời gian có nhiều thơng tin hơn những luật kết hợp cơ bản. Ví dụ,
từ luật kết hợp cơ bản {Bia} {Thuốc lá}, với dữ liệu có yếu tố thời gian chúng
ta có thể có nhiều luật: Độ hỗ trợ của luật {Bia} {Thuốc lá} là 20% từ 9 giờ
đến 13 giờ, là 50% trong thời gian 19 giờ tới 22 giờ. Rõ ràng rằng, những
ngƣời bán lẻ có thể xác định chiến lƣợc để bn bán tốt hơn.
Hầu hết nghiên cứu về lĩnh vực này ngày nay hình thành một hƣớng khai
phá dữ liệu mới gọi là khai phá mẫu lặp liên tục, khai phá tập mục dữ liệu
thƣờng xuyên trong cơ sở dữ liệu thời gian.
1.4.1.6. Cơ sở dữ liệu đa phƣơng tiện
Số lƣợng trang web đang bùng nổ trên thế giới, web có mặt ở khắp mọi
nơi, duyệt web đã là nhu cầu của mọi tầng lớp trong xã hội. Thông tin trên

web đang phát triển với tốc độ rất cao, khai phá thông tin trên web (web
mining) đã trở thành một lĩnh vực nghiên cứu chính của khai phá dữ liệu,
đƣợc các nhà nghiên cứu đặc biệt quan tâm. Khai phá dữ liệu web thơng
thƣờng đƣợc chia thành ba phạm trù chính: Khai phá cách dùng web (web
usage mining), khai phá cấu trúc web (web structure mining) và khai phá nội
dung web (web content mining).
Khai phá cách dùng web tập trung vào việc khai phá thông tin của ngƣời
truy nhập web. Với những thông tin này ngƣời khai phá dữ liệu có thể cung
cấp những thơng tin hữu ích cho ngƣời dùng và các nhà kinh doanh.
1.4.2. Những vấn đề quan tâm trong khai phá dữ liệu.
Khai phá dữ liệu ngày càng đóng một vai trị quan trọng trong việc tìm ra
các tri thức thực sự có ích, hiệu quả tiềm ẩn trong các khối dữ liệu thông tin
khổng lồ vẫn hàng ngày đang đƣợc thu thập, lƣu trữ để giúp các cá nhân và tổ
chức đƣa ra đƣợc các quyết định chính xác và nhanh chóng. Tuy đã có rất
nhiều các giải pháp và phƣơng pháp đƣợc ứng dụng trong khai phá dữ liệu
nhƣng trên thực tế q trình này vẫn gặp khơng ít khó khăn và thách thức
nhƣ:

Số hóa bởi Trung tâm Học liệu

/>

23

- Cơ sở dữ liệu lớn
- Số chiều các thuộc tính lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khơng
cịn phù hợp
- Dữ liệu bị thiếu hoặc bị nhiễu
- Quan hệ giữa các trƣờng phức tạp

- Giao tiếp với ngƣời sử dụng và kết hợp với các tri thức đã có
- Tích hợp với các hệ thống khác.
Cơ sở dữ liệu lớn có thể lớn về số lƣợng các bản ghi, lớn về số lƣợng các
thuộc tính trong CSDL. Số lƣợng các bản ghi trong CSDL lớn có khi dung
lƣợng tới hàng gigabyte, terabyte; số các thuộc tính trong CSDL có thể rất
nhiều và đa dạng. Để giải quyết vấn đề này, ngƣời ta thƣờng đƣa ra một
ngƣỡng nào đó cho CSDL bằng các cách nhƣ chiết xuất mẫu, xấp xỉ hoặc xử
lý song song.
Trong CSDL khi mà các thuộc tính là rất lớn, cùng với số lƣợng các bản
ghi sẽ dẫn đến kích thƣớc độ phức tạp của bài tốn tăng lên. Vì vậy, khơng
gian tìm kiếm, khơng gian trạng thái gia tăng, nhiều mẫu hay mơ hình thừa,
trùng lặp phát sinh nhiều luật thừa, đây đƣợc coi là vấn đề nan giải trong quá
trình khai phá dữ liệu. Nhằm giải quyết đƣợc những vấn đề trên, phải sử dụng
một số các tri thức đã biết trƣớc để loại bỏ và trích lọc ra những dữ liệu thích
hợp với yêu cầu của bài toán.
Vấn đề dữ liệu bị thay đổi phụ thuộc theo thời gian, có nghĩa là dữ liệu
bị ảnh hƣởng và phụ thuộc vào thời điểm quan sát, lấy mẫu, thời điểm khai
phá. Kết quả đạt đƣợc sau khai phá cũng gây khơng ít khó khăn cho khai phá
dữ liệu, nhƣ các mẫu đƣợc khai phá ở bƣớc trƣớc, có thể khơng cịn giá trị
hay vơ nghĩa đối với thời điểm sử dụng, hoặc có thể làm nhiễu hay phát sinh
hiệu ứng phụ làm sai lệch kết quả. Để khắc phục đƣợc vấn đề này cần phải
chuẩn hóa, cải tiến, nâng cấp các mẫu, các mơ hình và có thể xem các thay
đổi này là mục đích của khai phá và tìm kiếm các mẫu bị thay đổi.
Thuộc tính khơng phù hợp, các bộ giá trị khơng đầy đủ, bị thiếu giá trị
trong các mềi n thuộc tính đã làm ảnh hƣởng rất lớn trong khai phá dữ liệu .

Số hóa bởi Trung tâm Học liệu

/>


24

Trong quá trình khai phá dữ liệu, khi các hệ thống tƣơng tác với nhau phụ
thuộc nhau mà thiếu vắng một vài giá trị nào đó, sẽ dẫn đến các mẫu khơng
đƣợc chính xác, bị thiếu, khơng đầy đủ. Để giải quyết cho vấn đề này, ngƣời
ta coi sự thiếu vắng của các dữ liệu này là giá trị ẩn, chƣa biết và có thể đƣợc
tiên đốn bằng một số phƣơng pháp nào đó.
Quan hệ phức tạp giữa các thuộc tính trong CSDL cũng là vấn đề cần
đƣợc quan tâm. Những bộ thuộc tính có cấu trúc, phân lớp phức tạp, có mối
liên hệ phức tạp với nhau trong CSDL địi hỏi khai phá dữ liệu phải có các
giải pháp, các kỹ thuật để có thể áp dụng đƣợc, nhận ra đƣợc các mối quan hệ
này trong quá trình khai phá dữ liệu.
OLAM (Online Analytical Mining): là sự tích hợp giữa cơ sở dữ liệu,
kho dữ liệu và khai thác dữ liệu một số hệ cơ sở dữ liệu nhƣ Oracle, MS SQL
Server đã tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến
(OLAP). Những tính năng này đƣợc hỗ trợ dƣớc dạng các công cụ đi kèm và
ngƣời sử dụng phải mua nếu cần sử dụng. Các nhà nghiên cứu trong lĩnh vực
cơ sở dữ liệu cịn muốn thêm sự tích hợp giữa cơ sở dữ liệu, kho dữ liệu, và
khai thác dữ liệu. Khám phá đƣợc nhiều tri thức khác nhau từ các kiểu dữ liệu
khác nhau. Tính chính xác và hiệu quả, khả năng mở rộng và tích hợp, xử lý
dữ liệu bị nhiễu khơng đầy đủ và tính có ích của tri thức đƣợc khám phá. Vấn
đề song song hóa và phân tán q trình khai thác dữ liệu. Vấn đề ngơn ngữ
truy vấn Khai thác dữ liệu phải cung cấp cho ngƣời sử dụng một ngôn ngữ
thuận tiện, gần gũi tƣơng tự nhƣ SQL trong cơ sở dữ liệu quan hệ. Biểu diễn
các tri thức khai thác đƣợc sau cho trự quan và gần gũi với ngƣời sử dụng để
ngƣời sử dụng tri thức có hiệu quả hơn.

Số hóa bởi Trung tâm Học liệu

/>


25

Chƣơng 2
MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU
Việc dự đốn các thơng tin có giá trị cao dựa trên số lƣợng dữ liệu lớn về
nghiệp vụ càng ngày càng trở lên quan trọng đối với nhiều tổ chức, doanh
nghiệp. Chẳng hạn, những vấn đề các nhà quản lí và kinh doanh cần biết là
các kiểu mẫu hành vi mua hàng của các khách hàng, xu hƣớng kinh doanh,
vv…. Những thơng tin này có thể có đƣợc từ những dữ liệu có sẵn.
Một trong những vấn đề khó khăn nhất trong việc khai phá dữ liệu trong
CSDL là có một số vô cùng lớn dữ liệu cần đƣợc xử lý. Các tổ chức doanh
nghiệp quy mơ vừa có thể có từ hàng hàng trăm Megabyte đến vài Gigabyte
dữ liệu thu thập đƣợc. Các ứng dụng khai phá dữ liệu thƣờng thực hiện phân
tích dữ liệu khá phức tạp, mất nhiều thời gian trong tồn bộ CSDL. Vì vậy,
tìm một thuật toán nhanh và hiệu quả để xử lý khối lƣợng dữ liệu lớn là một
thách thức lớn.
Chƣơng này trình bày cơ sở lý thuyết của luật kết hợp, khai phá dữ liệu
dựa vào luật kết hợp, đồng thời trình bày một số thuật toán liên quan đến luật
kết hợp.
2.1. Luật kết hợp
Từ khi đƣợc giới thiệu vào năm 1993, bài toán khai thác luật kết hợp
nhận đƣợc rất nhiều sự quan tâm của các nhà khoa học. Ngày nay việc khai
thác luật kết hợp vẫn là một trong những phƣơng pháp khai thác mẫu phổ biến
nhất trong việc khám phá tri thức và khai thác dữ liệu
Một cách ngắn gọn, một luật kết hợp là một biểu thức có dạng: X Y ,
trong đó X và Y là tập các trƣờng gọi là item. Ý nghĩa của các luật kết hợp
khá dễ nhận thấy: Cho trƣớc một cơ sở dữ liệu có D là tập các giao tác - trong
đó mỗi giao tác T D là tập các item - khi đó X Y diễn đạt ý nghĩa rằng bất
cứ khi nào giao tác T có chứa X thì chắc chắn T có chứa Y. Độ tin cậy của

luật (rule confidence) có thể đƣợc hiểu nhƣ xác suất điều kiện p(Y T | X
T).
Ý tƣởng của việc khai thác các luật kết hợp có nguồn gốc từ việc phân
tích dữ liệu mua hàng của khách và nhận ra rằng “Một khách hàng mua mặt
hàng x1 và x2 thì sẽ mua mặt hàng y với xác suất là c%”. Ứng dụng trực tiếp
Số hóa bởi Trung tâm Học liệu

/>

×