Tải bản đầy đủ (.pdf) (69 trang)

Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 69 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
-------------

TRẦN KHÁNH

KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ
SỬ DỤNG PHỦ TỐI THIỂU VÀ LỚP TƢƠNG ĐƢƠNG

Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01

TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Thái Nguyên - 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN



ii

MỤC LỤC
MỤC LỤC .................................................................................................................. i
DANH MỤC VIẾT TẮT VÀ KÍ HIỆU .................................................................. iii
DANH MỤC CÁC BẢNG BIỂU ............................................................................ iv
DANH MỤC CÁC HÌNH VẼ ................................................................................... v

MỞ ĐẦU ........................................................................................................... 1


CHƢƠNG 1....................................................................................................... 4
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ PHỤ THUỘC
HÀM, PHỤ THUỘC HÀM XẤP XỈ ................................................................ 4
1.1. Khai phá dữ liệu ..................................................................................... 4
1.1.1. Khám phá tri thức và khai phá dữ liệu ............................................ 4
1.1.2. Kiến trúc của hệ thống khai phá dữ liệu ......................................... 6
1.1.3. Quá trình khai phá dữ liệu............................................................... 7
1.1.4. Một số kỹ thuật khai phá dữ liệu..................................................... 8
1.1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu ........................... 12
1.1.6. Một số ứng dụng của khai phá dữ liệu .......................................... 14
1.2. Khai phá phụ thuộc hàm và phụ thuộc hàm xấp xỉ .............................. 15
1.2.1. Khai phá phụ thuộc hàm. .............................................................. 15
1.2.2. Khai phá phụ thuộc hàm xấp xỉ .................................................... 19
1.2.2.1. Định nghĩa phụ thuộc hàm xấp xỉ .......................................... 20
1.2.2.2. Một số độ đo cơ bản ............................................................... 21
CHƢƠNG 2 THUẬT TOÁN KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ
SỬ DỤNG PHỦ TỐI THIỂU VÀ LỚP TƢƠNG ĐƢƠNG ........................... 28
2.1. Lớp tƣơng đƣơng và phủ tối thiểu ....................................................... 29
2.1.1. Sự phân hoạch ............................................................................... 29
2.1.2. Phân hoạch mịn hơn ...................................................................... 31
2.1.3. Phủ tối thiểu .................................................................................. 32
Số hóa bởi Trung tâm Học liệu – ĐHTN



iii

2.1.4. Phụ thuộc hàm xấp xỉ và lớp tƣơng đƣơng ................................... 35
2.2. Thuật toán TANE sửa đổi..................................................................... 38
2.2.1. Thủ tục chính của thuật toán TANE sửa đổi ................................. 38

2.2.2. Độ phức tạp của thuật toán TANE sửa đổi. .................................. 41
2.3. Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp
tƣơng đƣơng ................................................................................................ 41
2.3.1. Mô tả thuật toán ............................................................................ 41
2.3.2. Độ phức tạp của thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng
phủ tối thiểu và lớp tƣơng đƣơng ............................................................ 44
2.3.3. Phân tích thử nghiệm, so sánh về độ phức tạp thời gian . ............ 45
2.3.3.1. Phân tích thử nghiệm. ............................................................ 45
2.3.3.2. So sánh về độ phức tạp thời gian (theo [8]) ........................... 46
CHƢƠNG 3 THỰC NGHIỆM KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ ... 48
3.1. Xây dựng chƣơng trình thực nghiệm ................................................... 48
3.1.1. Giới thiệu bài toán ......................................................................... 48
3.1.2. Dữ liệu thử nghiệm ....................................................................... 48
3.1.3. Xây dựng chƣơng trình thực nghiệm ............................................ 50
3.2. Thực nghiệm khai phá phụ thuộc hàm xấp xỉ ...................................... 50
3.3. Kết quả thực nghiệm ............................................................................ 51
KẾT LUẬN ..................................................................................................... 52
TÀI LIỆU THAM KHẢO ............................................................................... 53
PHỤ LỤC ........................................................................................................ 55

Số hóa bởi Trung tâm Học liệu – ĐHTN



iv

DANH MỤC VIẾT TẮT VÀ KÍ HIỆU SỬ DỤNG TRONG LUẬN VĂN
Ký hiệu

Diễn giải


R U 

Quan hệ trên tập thuộc tính U

U   A1, ..., Am 

Tập m thuộc tính.

S = (U, F)

Lƣợc đồ quan hệ với U là tập thuộc tính, F là tập
các phụ thuộc hàm trên U

LĐQH

Lƣợc đồ quan hệ

CSDL

Cơ sở dữ liệu

PTH

Phụ thuộc hàm

Số hóa bởi Trung tâm Học liệu – ĐHTN




v

DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1: Ví dụ về quan hệ ............................................................................. 17
Bảng 1.2: Các thuật toán khai phá phụ thuộc hàm ......................................... 19
Bảng 1.3. Bảng quan hệ ví dụ về PTH xấp xỉ ................................................. 21
Bảng 1.4: Bảng dữ liệu quan hệ số ................................................................. 24
Bảng 1.5: Bảng quan hệ ví dụ ......................................................................... 25
Bảng 1.6: Bảng quan hệ ví dụ về phụ thuộc hàm điều kiện ........................... 27
Bảng 2.1: Bảng quan hệ vi dụ cho phân hoạch ............................................... 30
Bảng 2.2: Bảng quan hệ ví dụ cho phân hoạch mịn hơn ................................ 32
Bảng 2.3: Bảng quan hệ ví dụ cho phụ thuộc hàm xấp xỉ .............................. 36
Bảng 2.4: Thời gian thực hiện cho cả hai thuật toán ...................................... 45
Bảng 2.5: So sánh độ phức tạp thời gian dựa trên T(n) của hai thuật toán ..... 46
Bảng 3.1: Dữ liệu trích chọn để khai phá. ...................................................... 49
Bảng 3.2: Bảng mã hóa các thuộc tính............................................................ 49

Số hóa bởi Trung tâm Học liệu – ĐHTN



vi

DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Quá trình khám phá tri thức .............................................................. 5
Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệu ........................................... 6
Hình 1.3: Quá trình khai phá dữ liệu................................................................. 7
Hình 1.4: Cây quyết định .................................................................................. 9
Hình 1.5: Mẫu kết quả của nhiệm vụ phân cụm dữ liệu ................................. 10
Hình 1.6: Mẫu kết quả của nhiệm vụ hồi quy ................................................. 11

Hình 1.7: Các loại phụ thuộc dữ liệu .............................................................. 16
Hình 1.8 : Kỹ thuật phát hiện phụ thuộc hàm ................................................. 18
Hình 2.1: Dàn cho các thuộc tính (A, B, C, D, E) .......................................... 38
Hình 3.1: Dữ liệu đã mã hóa chuẩn bị cho khai phá ....................................... 50
Hình 3.2: Giao diện kết quả đƣợc khai phá phụ thuộc hàm xấp xỉ................. 51

Số hóa bởi Trung tâm Học liệu – ĐHTN



1

MỞ ĐẦU
1. Đặt vấn đề
Trong những năm gần đây, Công nghệ thông tin (CNTT) phát triển mạnh
mẽ đã tác động đến mọi mặt của xã hội, những thành tựu của công nghệ lƣu trữ
đã cho phép tạo ra những nguồn dữ liệu khổng lồ. Việc khai thác các nguồn dữ
liệu này ngày càng cấp thiết, đặt ra những thách thức lớn cho ngành CNTT, đặc
biệt là lĩnh vực khai phá dữ liệu. Với nguồn dữ liệu lớn nhƣ vậy thì việc tìm
kiếm, phân tích, xử lý và đƣa ra các thông tin cần thiết, phù hợp với thời gian và
yêu cầu là điều không dễ dàng.
Các phƣơng pháp khai thác cơ sở dữ liệu truyền thống ngày càng không đáp
ứng đƣợc nhu cầu thực tế này. Vì vậy các phƣơng pháp nghiên cứu, tiếp cận với
những công cụ cho phép phân tích, tổng hợp, khai phá tri thức từ dữ liệu một
cách thông minh, hiệu quả đã đƣợc nhiều nhà khoa học quan tâm nghiên cứu.
Khái niệm phụ thuộc hàm đóng một vai trò rất quan trọng trong lý thuyết
cơ sở dữ liệu quan hệ. Các phụ thuộc hàm rất hữu ích trong việc phân tích và
thiết kế cơ sở dữ liệu quan hệ nhƣ xác định khóa, xác định các dạng chuẩn,
các vấn đề về nhất quán dữ liệu ... Tuy nhiên trong thực tế do có một số giá trị
dữ liệu không chính xác hoặc một số ngoại lệ nào đó làm cho các phụ thuộc

hàm không thỏa. Sự phụ thuộc tuyệt đối này dƣờng nhƣ quá nghiêm ngặt khi
ta hình dung tới một quan hệ có hàng nghìn bộ, trong khi đó chỉ có khoảng
vài bộ vi phạm phụ thuộc hàm. Bỏ qua các phụ thuộc hàm này sẽ làm mất tính
chất phụ thuộc vốn có giữa các thuộc tính. Vì vậy các nhà nghiên cứu đã mở
rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ theo một cách
thức, một nghĩa nào đó, các phụ thuộc hàm xấp xỉ (Approximate

Functional

Dependencies - AFDs) này cho phép có một số lƣợng lỗi nhất định của các bộ
dữ liệu đối với phụ thuộc hàm.
Phụ thuộc hàm xấp xỉ đƣợc khai phá từ CSDL quan hệ biểu diễn các mối
Số hóa bởi Trung tâm Học liệu – ĐHTN



2

quan hệ có ý nghĩa, có nhiều ứng dụng khác nhau nhƣ: Dự đoán giá trị thiếu
thuộc tính trong bảng quan hệ bằng cách sử dụng các giá trị của các thuộc tính
trong việc xác định tập hợp các AFDs, tối ƣu hóa truy vấn, viết lại câu truy
vấn, chuẩn hóa cơ sở dữ liệu để cho hiệu suất tốt hơn và thiết kế lƣu trữ hiệu
quả hơn,…
Luận văn sẽ tìm hiểu về phụ thuộc hàm xấp xỉ và nghiên cứu thuật toán
AFDMCEC, một thuật toán mới tìm các phụ thuộc hàm xấp xỉ trong các
CSDL lớn dựa trên độ đo xấp xỉ. Thuật toán này sử dụng một số khái niệm
trong lý thuyết thiết kế CSDL quan hệ, đặc biệt là các khái niệm phủ tối thiểu
và lớp tƣơng đƣơng.
2. Đối tƣợng và phạm vi nghiên cứu
Luận văn tìm hiểu tổng quan về khai phá dữ liệu, đi sâu tìm hiểu khái

niệm phụ thuộc hàm, phụ thuộc hàm xấp xỉ và các tính chất, độ đo lỗi của phụ
thuộc hàm xấp xỉ, từ đó nghiên cứu thuật toán TANE sửa đổi và thuật toán
AFDMCEC tìm phụ thuộc hàm xấp xỉ.
3. Hƣớng nghiên cứu của đề tài
- Tìm hiểu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ và các độ đo lỗi của
chúng.
- Nghiên cứu về thuật toán khai phá phụ thuộc hàm xấp xỉ từ bảng quan
hệ.
4. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu chính của luận văn là nghiên cứu lý thuyết kết
hợp với đánh giá thực nghiệm, cụ thể là: Phân tích, tổng hợp các kết quả
nghiên cứu về phụ thuộc hàm, phụ thuộc hàm xấp xỉ, … đã công bố trên các
bài báo khoa học, hội thảo chuyên ngành trong và ngoài nƣớc. Từ đó, trình
bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp
tƣơng đƣơng.
Số hóa bởi Trung tâm Học liệu – ĐHTN



3

5. Ý nghĩa khoa học và thực tiễn
Phụ thuộc hàm đóng vai trò quan trọng trong lý thuyết CSDL quan hệ.
Tuy nhiên, trong thực tế do có một số giá trị dữ liệu không chính xác hoặc
một số ngoại lệ nào đó, làm cho các phụ thuộc hàm không thỏa mãn. Sự phụ
thuộc tuyệt đối này dƣờng nhƣ quá nghiêm ngặt khi ta hình dung một quan hệ
có hàng nghìn bộ, trong khi đó chỉ có vài bộ vi phạm phụ thuộc hàm. Do vậy,
mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ, cho phép có
một số lỗi nhất định của các bộ dữ liệu, là rất cần thiết và có ý nghĩa cả về
mặt lý thuyết cũng nhƣ thực tiễn.

Các phụ thuộc hàm xấp xỉ không những giúp chúng ta thấy đƣợc mối
quan hệ tiềm ẩn giữa các thuộc tính mà còn giúp ta thuận tiện hơn trong việc
phân tích dữ liệu, đánh giá thông tin.
Phát hiện phụ thuộc hàm xấp xỉ trong CSDL là một vấn đề nghiên cứu hấp
dẫn và cũng là một trong những mục tiêu của phát hiện tri thức. Tiếp cận phụ
thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tƣơng đƣơng của khai phá dữ
liệu là một hƣớng đi thú vị, hứa hẹn nhiều kết quả và ứng dụng hiệu quả trong
thực tiễn.
6. Cấu trúc luận văn:
Luận văn đƣợc trình bày trong 3 chƣơng:
Chƣơng 1: Tổng quan về khai phá dữ liệu và khai phá phụ thuộc hàm, phụ
thuộc hàm xấp xỉ.
Chƣơng 2: Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu
và lớp tƣơng đƣơng.
Chƣơng 3: Thực nghiệm khai phá phụ thuộc hàm xấp xỉ.
Cuối cùng là kết luận của luận văn và tài liệu tham khảo.

Số hóa bởi Trung tâm Học liệu – ĐHTN



4

CHƢƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ PHỤ THUỘC
HÀM, PHỤ THUỘC HÀM XẤP XỈ
1.1. Khai phá dữ liệu
1.1.1. Khám phá tri thức và khai phá dữ liệu
Khai phá dữ liệu (KPDL) là việc rút trích tri thức một cách tự động và hiệu
quả từ một khối dữ liệu lớn. Tri thức đó thƣờng ở dạng các mẫu có tính chất

không tầm thƣờng, không tƣờng minh (ẩn), chƣa đƣợc biết đến và có tiềm năng
mang lại lợi ích. Có một số nhà nghiên cứu còn gọi KPDL là phát hiện tri thức
từ cơ sở dữ liệu (Knowledge Discovery in Database – KDD). Ở đây chúng ta có
thể coi KPDL là cốt lõi của quá trình phát hiện tri thức.
Quá trình phát hiện tri thức gồm các bƣớc:
Bƣớc 1: Trích chọn dữ liệu (data selection): Là bƣớc trích chọn những tập
dữ liệu cần đƣợc khai phá từ các tập dữ liệu lớn (databases, data ware houses).
Bƣớc 2: Tiền xử lý dữ liệu (data preprocessing): Là bƣớc làm sạch dữ liệu
(xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,…v.v), rút
gọn dữ liệu (sử dụng các phƣơng pháp thu gọn dữ liệu, histograms, lấy
mẫu…v.v), rời rạc hóa dữ liệu (dựa vào histograms, entropy, phân
khoảng,...v.v). Sau bƣớc này, dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và
đƣợc rời rạc hóa.
Bƣớc 3: Biến đổi dữ liệu (data transformation): Là bƣớc chuẩn hóa và
làm mịn dữ liệu để đƣa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ
thuật khai thác ở bƣớc sau.
Bƣớc 4: Khai phá dữ liệu (data mining): Đây là bƣớc quan trọng và tốn
nhiều thời gian nhất của quá trình khám phá tri thức, áp dụng các kỹ thuật khai
phá (phần lớn là các kỹ thuật của machine learning) để khai phá, trích chọn
đƣợc các mẫu (pattern) thông tin, các mối liên hệ đặc biệt trong dữ liệu.
Số hóa bởi Trung tâm Học liệu – ĐHTN



5

Bƣớc 5: Đánh giá và biểu diễn tri thức (knowledge representation &
evaluation): Dùng các kỹ thuật hiển thị dữ liệu để trình bày các mẫu thông tin
(tri thức) và mối liên hệ đặc biệt trong dữ liệu đã đƣợc khai thác ở bƣớc trên
biểu diễn theo dạng gần gũi với ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu,

luật,…v.v. Đồng thời bƣớc này cũng đánh giá những tri thức khám phá đƣợc
theo những tiêu chí nhất định.
Trong giai đoạn khai phá dữ liệu, có thể cần sự tƣơng tác của ngƣời dùng để
điều chỉnh và rút ra các tri thức cần thiết nhất. Các tri thức nhận đƣợc cũng có
thể đƣợc lƣu và sử dụng lại.
Các Tri thức
Các mẫu

Dữ liệu đã
sạch
Dữ liệu đã
chọn
5.Đánh giá và biểu diễn tri thức
knowledge representation &
evaluation

4.Khai phá dữ liệu
data mining

Kho
dữ
liệu

3.Biến đổi dữ liệu
data transformation
2. Tiền xử lý dữ liệu
data preprocessing

1. Trích chọn dữ liệu
data selection


Hình 1.1. Quá trình khám phá tri thức
Việc KPDL có thể đƣợc tiến hành trên một lƣợng lớn dữ liệu có trong
CSDL, các kho dữ liệu hoặc trong các loại lƣu trữ thông tin khác.
Các mẫu đáng quan tâm có thể đƣợc đƣa đến ngƣời dùng hoặc đƣợc lƣu trữ
trong một cơ sở tri thức.
Số hóa bởi Trung tâm Học liệu – ĐHTN



6

1.1.2. Kiến trúc của hệ thống khai phá dữ liệu
Kiến trúc của một hệ thống KPDL điển hình có thể có các thành phần phần
nhƣ hình 1.2.
- CSDL, kho dữ liệu hoặc các lƣu trữ thông tin khác (Databases, Data
ware house,…): Đây là một hay một tập CSDL, các kho dữ liệu, các trang tính
hay các dạng lƣu trữ thông tin khác. Các kỹ thuật làm sạch dữ liệu và tích hợp
dữ liệu có thể đƣợc thực hiện trên những dữ liệu này.

(Graphical user interface)

Giao diện đồ họa cho ngƣời dùng

(Pattern evaluation)

Đánh giá mẫu
Cơ sở dữ liệu

(Data mining engine)

Máy khai phá dữ liệu
(Knowledge-base)

(Database or Warehouse Server

Máy chủ CSDL hay ho dữ liệu

Làm sạch: Tích hợp dữ liệu, lọc

Cơ sở dữ liệu

Kho dữ liệu

Các lƣu trữ thông
tin khác

Hình 1.2. Kiến trúc của hệ thống khai phá dữ liệu
- Máy chủ CSDL hay máy chủ kho dữ liệu (Database or Warehouse
Server): Máy chủ này có trách nhiệm lấy những dữ liệu tích hợp dựa trên các
Số hóa bởi Trung tâm Học liệu – ĐHTN



7

yêu cầu khai phá của ngƣời dùng.
- Cơ sở tri thức (Knowledge-base): Đây là miền tri thức dùng để hƣớng
dẫn việc tìm kiếm hay đánh giá độ quan trọng của các hình mẫu kết quả.
- Máy KPDL (Data mining engine): Một hệ thống KPDL cần phải có một
tập các modun chức năng để thực hiện công việc nhƣ: đặc trƣng hóa, kết hợp,

phân lớp, phân cụm, phân tích sự tiến hóa.
- Modun đánh giá mẫu (Pattern evaluation): Bộ phận này tƣơng tác với
các modun KPDL để duyệt tìm các mẫu đáng đƣợc quan tâm. Nó có thể dùng
các ngƣỡng về độ quan tâm để lọc mẫu đã khám phá đƣợc. Cũng có thể modun
đánh giá mẫu đƣợc tích hợp vào modun khai phá, tùy theo cách cài đặt của
phƣơng pháp khai phá đƣợc dùng.
- Giao diện đồ họa ngƣời dùng (Graphical user interface): Bộ phận này
còn cho phép ngƣời dùng giao tiếp với hệ thống KPDL. Ngoài ra, bộ phận này
còn cho phép ngƣời dùng xem các lƣợc đồ CSDL, lƣợc đồ kho dữ liệu (hay các
cấu trúc dữ liệu), các đánh giá mẫu và hiển thị các mẫu trong các khuôn dạng
khác nhau.
1.1.3. Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu đƣợc thể hiện bởi mô hình sau:
Thống kê
tóm tắt

Xác định
nhiệm vụ

Xác định dữ
liệu liên quan

Thu thập và
tiền xử lý DL

Giải thuật
khai phá DL

Dữ liệu
trực tiếp


Hình 1.3: Quá trình khai phá dữ liệu
+ Xác định nhiệm vụ: Xác định chính xác vấn đề cần giải quyết.
Số hóa bởi Trung tâm Học liệu – ĐHTN


Mẫu


8

+ Xác định các dữ liệu liên quan dùng để xây dựng giải pháp.
+ Thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải
thuật khai phá dữ liệu có thể hiểu đƣợc. Ở đây có thể gặp một số vấn đề: dữ liệu
phải đƣợc sao ra nhiều bản (nếu đƣợc chiết suất vào các tệp), quản lý tập các tệp
dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay
đổi v.v.).
+ Chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ
liệu: nhằm tìm đƣợc các mẫu (pattern) có ý nghĩa dƣới dạng biểu diễn tƣơng
ứng với các ý nghĩa đó.
1.1.4. Một số kỹ thuật khai phá dữ liệu
Mục đích của khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh
doanh hay cho nghiên cứu khoa học… Do đó, ta có thể xem mục đích của khai
phá dữ liệu sẽ là mô tả các sự kiện và dự đoán. Các mẫu khai phá dữ liệu phát
hiện đƣợc nhằm vào mục đích này. Dự đoán liên quan đến việc sử dụng các
biến hoặc các đối tƣợng (bản ghi) trong CSDL để chiết xuất ra các mẫu, dự
đoán đƣợc những giá trị chƣa biết hoặc những giá trị tƣơng lai của các biến
đáng quan tâm. Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà
con ngƣời có thể hiểu đƣợc.
Một số kỹ thuật chính của khai phá dữ liệu:

Phân lớp dữ liệu
Khái niệm phân lớp dữ liệu đƣợc Han và Kamber đƣa ra năm 2000. Phân
lớp dữ liệu là xây dựng một mô hình mà có thể phân các đối tƣợng thành những
lớp để dự đoán giá trị bị mất tại một số thuộc tính của dữ liệu hay tiên đoán giá
trị của dữ liệu sẽ xuất hiện trong tƣơng lai.
Quá trình phân lớp dữ liệu đƣợc thực hiện qua hai bƣớc. Bước thứ nhất:
Dựa vào tập hợp dữ liệu huấn luyện, xây dựng một mô hình mô tả những đặc
trƣng của những lớp dữ liệu hoặc những khái niệm, đây là quá trình học có
Số hóa bởi Trung tâm Học liệu – ĐHTN



9

giám sát, học theo mẫu đƣợc cung cấp trƣớc. Bước thứ hai: Từ những lớp dữ
liệu hoặc những khái niệm đã đƣợc xác định trƣớc, dự đoán giá trị của những
đối tƣợng quan tâm.
Một kỹ thuật phân lớp dữ liệu đƣợc Han và Kamber đƣa ra là cây quyết định.
Mỗi nút của cây đại diện một quyết định dựa vào giá trị thuộc tính tƣơng ứng.
Kỹ thuật này đã đƣợc nhiều tác giả nghiên cứu và đƣa ra nhiều thuật toán.
Một ví dụ tiêu biểu về cây quyết định:

Hình 1.4: Cây quyết định
Trong hình 1.4 là một cây quyết định cho lớp mua laptop, chỉ ra một khách
hàng sẽ mua hay không mua một laptop. Mỗi nút lá đại diện một lớp mà đánh
giá mua laptop là Yes hay No. Sau khi mô hình này đƣợc xây dựng, chúng ta có
thể dự đoán việc có thể mua một laptop hay không dựa vào những thuộc tính
khách hàng mới là tuổi và nghề nghiệp. Cây quyết định có thể ứng dụng rộng
rãi trong nhiều hoạt động của đời sống thực.
Phân nhóm dữ liệu

Phân nhóm là kỹ thuật khai phá dữ liệu tƣơng tự nhƣ phân lớp dữ liệu. Tuy
nhiên, sự phân nhóm dữ liệu là quá trình học không đƣợc giám sát, là quá trình
nhóm những đối tƣợng vào trong những lớp tƣơng đƣơng, đến những đối tƣợng
trong một nhóm là tƣơng đƣơng nhau, chúng phải khác với những đối tƣợng
trong những nhóm khác. Trong phân lớp dữ liệu, một bản ghi thuộc về lớp nào
Số hóa bởi Trung tâm Học liệu – ĐHTN



10

là phải xác định trƣớc, trong khi phân nhóm không xác định trƣớc. Trong phân
nhóm, những đối tƣợng đƣợc nhóm lại cùng nhau dựa vào sự giống nhau của
chúng. Sự giống nhau giữa những đối tƣợng đƣợc xác định bởi những chức
năng giống nhau. Thông thƣờng những sự giống về định lƣợng nhƣ khoảng
cách hoặc độ đo khác đƣợc xác định bởi những chuyên gia trong lĩnh vực của
mình.

Hình 1.5: Mẫu kết quả của nhiệm vụ phân cụm dữ liệu
Đa số các ứng dụng phân nhóm đƣợc sử dụng trong sự phân chia thị trƣờng.
Với sự phân nhóm khách hàng vào trong từng nhóm, những doanh nghiệp có
thể cung cấp những dịch vụ khác nhau tới nhóm khách hàng một cách thuận lợi.
Ví dụ, dựa vào chi tiêu, số tiền trong tài khoản và việc rút tiền của khách hàng,
một ngân hàng có thể xếp những khách hàng vào những nhóm khác nhau. Với
mỗi nhóm, ngân hàng có thể cho vay những khoản tiền tƣơng ứng cho việc mua
nhà, mua xe,… Trong trƣờng hợp này ngân hàng có thể cung cấp những dịch vụ
tốt hơn và cũng chắc chắn rằng tất cả các khoản tiền cho vay đều có thể thu hồi
đƣợc. Ta có thể tham khảo một khảo sát toàn diện về kỹ thuật và thuật toán phân
nhóm trong.
Hồi qui (Regression): Là việc học một hàm ánh xạ từ một tập dữ liệu thành

một biến dự đoán có giá trị thực. Nhiệm vụ hồi qui tƣơng tự nhƣ phân lớp, điểm
khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không rời rạc [6].
Việc dự báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ
Số hóa bởi Trung tâm Học liệu – ĐHTN



11

điển chẳng hạn nhƣ hồi qui tuyến tính. Tuy nhiên, phƣơng pháp mô hình hóa
cũng đƣợc sử dụng.

Nợ

đƣờng hồi quy
tuyến tính

+

0

0
0
+
0

0

0
+


+
0

Thu nhập

0
+

+

0

0
0
Hình 1.6:
Mẫu
kết quả
của nhiệm
vụ hồi quy
+
+
0
0
+

0

Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lƣợng sinh vật phát
quang hiện thời trong khu rừng bằng cách dò tìm vi sóng bằng thiết bị cảm biến

từ xa; dự đoán khả năng tử vong của bệnh nhân khi biết các kết quả xét nghiệm
chẩn đoán; dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu
quảng cáo… hình 1.6 chỉ ra mẫu kết quả hồi quy tuyến tính đơn giản, ở đây
tổng số nợ đƣợc điều chỉnh cho phù hợp giống nhƣ một hàm thu nhập tuyến
tính. Việc điều chỉnh này là không đáng kể bởi vì chỉ tồn tại một tƣơng quan
yếu giữa hai biến.
Tổng hợp (summarization): Là công việc liên quan đến các phƣơng pháp
tìm kiếm một mô tả cô đọng cho tập con dữ liệu. Các kỹ thuật tổng hợp thƣờng
đƣợc áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động.
Mô hình hóa phụ thuộc (dependency modeling): Là việc tìm kiếm mô tả
các phụ thuộc quan trọng giữa các biến. Mô hình phụ thuộc tồn tại hai mức:
Mức cấu trúc của mô hình (thƣờng dƣới dạng đồ thị) xác định các biến phụ
thuộc cục bộ vào các biến khác;
Mức định lƣợng của mô hình xác định mức độ phụ thuộc của biến. Những
phụ thuộc này thƣờng đƣợc biểu thị dƣới dạng luật.
Số hóa bởi Trung tâm Học liệu – ĐHTN



12

Quan hệ phụ thuộc cũng có thể biểu diễn dƣới dạng mạng tin cậy [6]. Đó là
đồ thị có hƣớng không có dạng chu trình, các nút biểu diễn thuộc tính và trọng
số chỉ liên kết phụ thuộc giữa các nút đó.
Phát hiện sự thay đổi và độ lệch (change and deviation dectection):
Nhiệm vụ này tập trung vào khám phá những thay đổi có ý nghĩa trong dữ liệu
dựa vào các giá trị chuẩn hay độ đo đã biết trƣớc, phát hiện độ lệch đáng kể
giữa nội dung của tập con dữ liệu và nội dung mong đợi. Hai mô hình độ lệch
thƣờng dùng là lệch theo thời gian và lệch theo nhóm. Độ lệch theo thời gian là
sự thay đổi có nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác

nhau giữa dữ liệu trong hai tập con dữ liệu, tính cả trƣờng hợp tập con của đối
tƣợng này thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của
đối tƣợng có khác nhau đáng kể so với toàn bộ đối tƣợng.
1.1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu
Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ
liệu thành các loại khác nhau.
Cơ sở dữ liệu quan hệ
Đến nay, hầu hết dữ liệu đƣợc lƣu giữ dƣới dạng cơ sở dữ liệu quan hệ. Cơ
sở dữ liệu quan hệ là một nguồn tài nguyên lớn nhất chứa những đối tƣợng mà
chúng ta cần khai phá. Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu đƣợc mô
tả bởi một tập những thuộc tính và lƣu trong những bảng. Khai phá dữ liệu trên
cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá mẫu. Ví dụ, trong cơ sở dữ liệu
của một ngân hàng, ta có thể tìm đƣợc những khách hàng có mức chi tiêu cao, ta
có thể phân loại những khách hàng này dựa vào quá trình chi tiêu của họ. Cũng
với việc phân tích những mục tiêu của khách hàng, chúng ta có thể cung cấp
một số thông tin của khách hàng đến những doanh nghiệp khác. Giả sử rằng
một khách hàng chi mỗi tháng 500 đô la cho thời trang, nếu đƣợc phép, ngân
hàng có thể cung cấp thông tin về khách hàng này cho những cửa hàng thời
Số hóa bởi Trung tâm Học liệu – ĐHTN



13

trang.
Cơ sở dữ liệu giao tác
Cơ sở dữ liệu giao tác là tập hợp những bản ghi giao dịch, trong đa số các
trƣờng hợp chúng là những bản ghi các dữ liệu hoạt động của doanh nghiệp, tổ
chức. Với tính phổ biến của máy tính và thƣơng mại điện tử, ngày nay có rất
nhiều cơ sở dữ liệu giao tác.

Cơ sở dữ liệu không gian
Cơ sở dữ liệu không gian bao gồm hai phần: Phần thứ nhất là dữ liệu quan
hệ hay giao tác, phần thứ hai là thông tin định vị hoặc thông tin địa lý. Ví dụ,
những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa các
đặc trƣng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp không gian có
dạng X  Y, với X, Y là tập hợp những vị từ không gian. Những thuật toán
khai phá luật kết hợp không gian tƣơng tự nhƣ khai phá luật kết hợp nhƣng
thêm những vị từ về không gian.
Cơ sở dữ liệu có yếu tố thời gian
Giống nhƣ cơ sở dữ liệu không gian, cơ sở dữ liệu có yếu tố thời gian bao
gồm hai phần: Phần thứ nhất là dữ liệu quan hệ hay giao tác, phần thứ hai là
thông tin về thời gian xuất hiện dữ liệu ở phần thứ nhất. Những luật kết hợp có
yếu tố thời gian có nhiều thông tin hơn những luật kết hợp cơ bản. Ví dụ, từ luật
kết hợp cơ bản {Bia}  {Thuốc lá}, với dữ liệu có yếu tố thời gian chúng ta có
thể có nhiều luật: Độ hỗ trợ của luật {Bia}  {Thuốc lá} là 20% từ 9 giờ đến
13 giờ là 50% trong thời gian từ 19 giờ tới 22 giờ. Rõ ràng rằng, những ngƣời
bán lẻ có thể xác định chiến lƣợc để buôn bán tốt hơn.
Hầu hết nghiên cứu về lĩnh vực này ngày nay hình thành một hƣớng khai
phá dữ liệu mới gọi là khai phá mẫu lặp liên tục, khai phá tập mục dữ liệu
thƣờng xuyên trong cơ sở dữ liệu thời gian.

Số hóa bởi Trung tâm Học liệu – ĐHTN



14

Cơ sở dữ liệu đa phƣơng tiện
Số lƣợng trang web đang bùng nổ trên thế giới, web có mặt ở khắp mọi nơi,
duyệt web đã là nhu cầu của mọi tầng lớp trong xã hội. Thông tin trên web đang

phát triển với tốc độ rất cao, khai phá thông tin trên web (web mining) đã trở
thành một lĩnh vực nghiên cứu chính của khai phá dữ liệu, đƣợc các nhà nghiên
cứu đặc biệt quan tâm. Khai phá dữ liệu web thông thƣờng đƣợc chia thành ba
phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá cấu trúc
web (web structure mining) và khai phá nội dung web (web content mining).
Khai phá cách dùng web tập trung vào việc khai phá thông tin của ngƣời
truy cập web. Với những thông tin này ngƣời khai phá dữ liệu có thể cung cấp
những thông tin hữu ích cho ngƣời dùng và các nhà kinh doanh.
1.1.6. Một số ứng dụng của khai phá dữ liệu
KPDL đƣợc vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác
nguồn dữ liệu phong phú đƣợc lƣu trữ trong các hệ thống thông tin. Tuỳ theo
bản chất của từng lĩnh vực, việc vận dụng KPDL có những cách tiếp cận khác
nhau.
KPDL đƣợc vận dụng có hiệu quả để giải quyết các bài toán phức tạp
trong những ngành đòi hỏi kỹ thuật cao nhƣ: tìm kiếm mỏ dầu từ ảnh viễn thám,
xác định vùng gãy trong ảnh địa chất để dự đoán thiên tai, cảnh báo hỏng hóc
trong các hệ thống sản xuất.
Phân nhóm và dự đoán là những kỹ thuật rất cần thiết cho việc quy hoạch
và phát triển hệ thống quản lý và sản xuất trong thực tế nhƣ: dự đoán tái sử dụng
điện năng cho các công ty cung cấp điện, lƣu lƣợng viễn thông cho các công ty
điện thoại, mức độ tiêu thụ sản phẩm cho các nhà sản xuất, giá trị của sản phẩm
trên thị trƣờng cho các công ty tài chính hay phân nhóm khách hàng tiềm năng.
Ngoài ra KPDL còn đƣợc áp dụng trong việc giải quyết các vấn đề xã hội
nhƣ: phát hiện tội phạm hay tăng cƣờng an ninh xã hội và mang lại những hiệu
Số hóa bởi Trung tâm Học liệu – ĐHTN



15


quả thiết thực cho các hoạt động trong đời sống hàng ngày.
Một số ứng dụng cụ thể nhƣ sau:
- KPDL đƣợc sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định.
- Trong sinh học: nó dùng để tìm kiếm, so sánh các hệ gen và thông tin di
truyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di truyền.
- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng, chẩn
đoán bệnh.
- Tài chính và thị trƣờng chứng khoán: KPDL dùng để phân tích tình
hình tài chính, phân tích đầu tƣ, phân tích cổ phiếu.
- Khai thác dữ liệu web.
- Trong thông tin kỹ thuật: KPDL dùng để phân tích các sai hỏng, điều
khiển và lập lịch trình.
- Trong thông tin thƣơng mại: dùng để phân tích dữ liệu ngƣời dùng,
phân tích dữ liệu marketing, phân tích đầu tƣ, phát hiện các gian lận.
- Trong công nghiệp viễn thông: Phân tích nhu cầu và phân tích các mẫu
gian lận và xác định các mẫu khác thƣờng.
1.2. Khai phá phụ thuộc hàm và phụ thuộc hàm xấp xỉ
1.2.1. Khai phá phụ thuộc hàm
Phụ thuộc hàm biểu diễn mối quan hệ giữa các thuộc tính của một cơ sở dữ
liệu, một phụ thuộc hàm chỉ ra rằng giá trị của một thuộc tính đƣợc xác định
duy nhất bởi giá trị của một số thuộc tính khác. Phụ thuộc hàm đóng vai trò
quan trọng trong chuẩn hóa cơ sở dữ liệu, phát hiện các phụ thuộc hàm cũng có
thể giúp các nhà thiết kế cơ sở dữ liệu tách một lƣợc đồ quan hệ thành nhiều
lƣợc đồ quan hệ đạt dạng chuẩn cao hơn.
Một CSDL thiết kế không tốt trong là cơ sở dữ liệu có dƣ thừa thông tin,
gặp bất thƣờng cập nhật, bất thƣờng khi chèn, bất thƣờng khi xóa. Chuẩn hóa là
quá trình thiết kế lại lƣợc đồ cơ sở dữ liệu để đảm bảo cho nó không có các dị
Số hóa bởi Trung tâm Học liệu – ĐHTN




16

thƣờng. Chuẩn hóa chia các quan hệ thành các quan hệ nhỏ hơn và mỗi quan hệ
nhỏ đó ở một dạng chuẩn mong muốn. Điều kiện để biến đổi từ dạng chuẩn này
sang dạng chuẩn kia là sự ràng buộc giữa các bộ thuộc tính trong quan hệ, ràng
buộc đó đƣợc biểu diễn bằng phụ thuộc hàm.
Phụ thuộc của các thuộc tính: có 3 loại phụ thuộc của các thuộc tính
thƣờng đƣợc khám phá là : phụ thuộc hàm (FD), phụ thuộc có điều kiện
(CFDs) và phụ thuộc bao gồm (INDs). Hình 1.7 biểu diễn các loại phụ thuộc
dữ liệu (theo [11]).
Khai phá dữ liệu

FD

CFDs

INDs

Hình 1.7: Các loại phụ thuộc dữ liệu
Cho tập hữu hạn khác rỗng các thuộc tính U   A1, ..., Am . Mỗi thuộc
tính Ai có một miền giá trị tƣơng ứng Dom Ai  , 1  i  m . Một quan hệ
trên U, ký hiệu R (U) hoặc R nếu không sợ nhầm lẫn, là một tập con của tích
Descartes

Dom A1   Dom A2   ...  Dom Am  .

Một cách hình thức:
RU   Dom A1   Dom A2   ...  Dom Am 


Các phần tử của quan hệ R đƣợc gọi là các bộ. Một quan hệ không chứa
bộ nào đƣợc gọi là quan hệ rỗng.
Kí hiệu: t[X] là phép chiếu của bộ t trên tập thuộc tính X, X  U .
Định nghĩa 1.1: Một phụ thuộc hàm (PTH) trên quan hệ R (U) là một mệnh
đề có dạng X → Y (trong đó X, Y ⊆ U). Ta nói PTH X → Y đúng trên quan hệ
Số hóa bởi Trung tâm Học liệu – ĐHTN



17

R, nếu:  t,s R :  t  X  s X  t Y  sY
Khi PTH X → Y đúng trên quan hệ R. Ngƣời ta còn nói R thỏa PTH X →
Y và ký hiệu R (X → Y).
Ví dụ. Xét quan hệ R trên tập thuộc tính U = {T, A, B, C} cho trên bảng
1.1 nhƣ sau:

R=

T

A

B

C

1

a1


b1

c1

2

a2

b2

c2

3

a2

b2

c3

Bảng 1.1: Ví dụ về quan hệ
Ta có: Chẳng hạn R thỏa các PTH {T} → {A, B, C}, {C} → {T, A, B}, {A}
→ {B}, … và không thỏa PTH {B} → {C}, …
Nhƣ vậy, có thể thấy PTH (trên quan hệ) là sự phụ thuộc của một số thuộc
tính vào một số thuộc tính khác.
Một cặp S = (U, F) với U là tập các thuộc tính và F là tập các PTH trên U
đƣợc gọi là một lược đồ quan hệ (LĐQH).
Quan hệ R đƣợc gọi là thỏa tập PTH F, ký hiệu R(F) nếu với mọi PTH
X  Y  F thì R (X → Y).


Cho tập các PTH F trên U và X → Y là một PTH bất kỳ trên U. Ta nói F
suy diễn logic PTH X → Y, ký hiệu F |= X → Y. Nếu với mọi quan hệ R (U)
sao cho R (F) thì R (X → Y).
Bao đóng của tập PTH F trên U, ký hiệu F+ là tập nhỏ nhất các PTH trên
U chứa F và thỏa các tính chất (A1) – (A3) nhƣ sau:
Với ∀ X, Y, Z ⊆ U:
(A1) Tính phản xạ
Nếu Y ⊆ X thì X → Y ∈ F+
Số hóa bởi Trung tâm Học liệu – ĐHTN



18

(A2) Tính gia tăng
Nếu X → Y ∈ F+ thì X ⋃ Z → Y ⋃ Z ∈ F+
(A3) Tính bắc cầu
Nếu X → Y ∈ F+ và Y → Z ∈ F+ thì X → Z ∈ F+
Rõ ràng F+ hữu hạn vì U hữu hạn.
Các tính chất từ (A1) – (A3) còn thƣờng đƣợc gọi là hệ tiên đề
Armstrong hay tập quy tắc suy diễn Armstrong.
Các kỹ thuật phát hiện phụ thuộc hàm
Phát hiện phụ thuộc hàm từ một bảng quan hệ đã đƣợc nhiều nhà nghiên
cứu quan tâm. Đã có nhiều thuật toán đƣợc đề xuất, hình 1.8 biểu diễn các
phƣơng pháp cùng một số thuật toán.
Khai phá phụ thuộc hàm

Từ trên xuống


Tên thuật toán
o TANE
o FD_Miner
o FUN

Từ dƣới lên

Tên thuật toán
o Negative Cover
o Dep_Miner
o FAST FD

Hình 1.8 : Kỹ thuật phát hiện phụ thuộc hàm
Bảng 1.2 trình bày một số thuật toán điển hình và các kỹ thuật sử dụng
trong thuật toán đó (theo [11]).

Số hóa bởi Trung tâm Học liệu – ĐHTN



19

Năm

Tên thuật toán

Kỹ thuật sử dụng

Tác giả


1999

TANE

Phân hoạch
(Partitions)

2000

Dep-Miner

Tập khác biệt (Difference
Set)

2001

FUN

Yka, Juha, Pasi and
Hannu
St_ephane Lopes,
Jean-Marc Petit, and
Lot_ Lakhal
N. Novelli and R.
Cicchetti,

2002

FD_Mine


Phụ thuộc hàm nhúng
(Embedded FD)
Phân hoạch và lớp tƣơng
đƣơng
(Partitions and Equivalences)
Các lớp tƣơng đƣơng và phủ
tối thiểu
(Equivalent Classes and
Minimal Cover)

2008

FD_Discover

2010

FDs Using Rough
Sets

Tập thô
(Rough sets)

2011

FDs via Bayes Net
Analyses

Sử dụng mạng Bayes Net và
Heuristics
(Bayes Net and Heuristics)


Hong Yao and
Hamelton
Jalal Atoum,
Dojanah Bader and
Arafat Awajan
Y.V.Sreevani, Prof.
T. Venkat Narayana
Rao
Nittaya Kerdprasop
and Kittisak
Kerdprasop

Bảng 1.2: Các thuật toán khai phá phụ thuộc hàm
1.2.2. Khai phá phụ thuộc hàm xấp xỉ
Khái niệm phụ thuộc hàm đóng một vai trò rất quan trọng trong lý thuyết
cơ sở dữ liệu quan hệ. Các phụ thuộc hàm rất hữu ích trong việc phân tích và
thiết kế cơ sở dữ liệu quan hệ nhƣ xác định khóa, xác định các dạng chuẩn,
các vấn đề về nhất quán dữ liệu ... Tuy nhiên trong thực tế do có một số giá trị
dữ liệu không chính xác hoặc một số ngoại lệ nào đó làm cho các phụ thuộc
hàm không thỏa. Sự phụ thuộc tuyệt đối này dƣờng nhƣ quá nghiêm ngặt khi
ta hình dung tới một quan hệ có hàng nghìn bộ, trong khi đó chỉ có khoảng
vài bộ vi phạm phụ thuộc hàm. Bỏ qua các phụ thuộc hàm này sẽ làm mất tính
chất phụ thuộc vốn có giữa các thuộc tính. Vì vậy các nhà nghiên cứu đã mở
Số hóa bởi Trung tâm Học liệu – ĐHTN



×