Tải bản đầy đủ (.pdf) (91 trang)

Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (45.49 MB, 91 trang )

ĐẠT H Ọ C Q U Ố C G IA H À NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Kiêu Thu Hãng

PHÁT HIỆN LUẬT VẰTIỂN x ử LÝ Dữ LIỆU THEO TIẾP CẬN
TẬP THÔ VÀ ỨNG DỤNG ROSETTA PHẤT HIỆN LUẬT TRONG
BÀI TOÁN X ử LÝ Dữ LIỆU XUẤT NHẬP CẢNH

N ẹ à n h : C ổ n g n g h ệ t h ò n g lin
M ã s ố : 1 .0 1 .0 1

LUẬN VÃN THẠC s ỉ

NGƯỜI LỈUỚNG DẪN K I I O A HỌC:

TS Hà Quang Tlniỵ
I

H O C Q U Ổ C G*A H A N Õ '

\ K o m
Hà N ội - 2 0 0 5

r

'

VIE!



3

MỤC LỤC
MỞ ĐẦU..................................................................................................................
CHƯƠNG 1. TỔNG QUAN VỀ TẬP THÔ VÀ PHÁT HIỆN LUẬT THEO
TIẾP CẬN TẬP THÔ..............................................................................................
1.1.

Tổng quan về tập thỏ.................................................................................

1.1.1. Khái niệm hộ thông tin............................................................................
1.1.2. Khái niệm bảng quyết định.....................................................................
1.1.3. Tính không phân biệt được trong hộ thông tin......................................
1.1.4. Khái niệm tập thô, tập xấp xỉ................................................................. .
1.1.5. Độ chính xác và độ thô............................................................................
1.1.6. Sự phụ thuộc của thuộc tính....................................................................
1.1.7. Khái quát phụ thuộc hàm dựa trên lý thuyết tập thô............................
1.2.

Luật theo tiếp cận tập th ô ........................................................................

1.2.1. Luật kết hợp..............................................................................................
1.2.2. Mẫu trong hệ thống thông tin..................................................................
1.2.3. Mối liên hộ giữa mẫu và luật theo tiếp cận tập thô...............................
1.4.

Kết luận chương 1 .....................................................................................

CHƯƠNG 2. TIỀN XỬ LÝ DỮLIỆU VÀ TÌM TẬP RÚT GỌN THEO TIÊP

CẬN TẬP THÔ VỚI BỘ CÔNG c ụ ROSETTA................................................
2.1.

Bộ công cụ ROSETTA..............................................................................

2.1.1. Giới thiệu bộ công cụ ROSETTA..........................................................
2.1.2. Các thành phần cơ bản của ROSETTA................................................
2.1.3. Các đặc trưng của ROSETTA.................................................................
2.2.

Tìm tập rút gọn theo tiếp cận tập thô....................................................

2.2.1. Tiêu chuẩn cho rút gọn tốt nhất..............................................................
2.2.2. Tập thuộc tính rút gọn.........................................................................


4

2.2.3. Cách tiếp cận suy luận logic để rút gọn dữ liệu......................................
2.3.

Các luật quyết định tối thiểu......................................................................

2.4. Tiền xử lý dữ liệ u ............................................................................................
2.4.1. Dữ liệu đầy đủ................................................................................................
2.4.2. Dữ liệu không đầy đủ....................................................................................
2.5.

Kết luận chương 2 ......................................................................................


CHƯƠNG 3. ÚNG DỤNG BỘ CÔNG c ụ ROSETTA ĐỂ g iả i q u y ế t b à i
TOÁN XỬ LÝ DỮ LIỆU XUẤT NHẬP CẢNH............................................
3.1.

Bài toán..........................................................................................................

3.1.1. Phát biểu bài toán.....................................................................................
3.1.2. Phân tích bài toán.....................................................................................
3.1.3. Một số đặc trưng......................................................................................
3.2.

Tiền xử lý dữ liệu..........................................................................................

3.2.1. Giới thiệu các phương pháp tiền xử lý được chọn.................................
3.2.2. Thực nghiệm tiền xử lý............................................................................
3.2.3. Đánh giá thực nghiệm..............................................................................
3.3.

Tìm tập rút gọn.............................................................................................

3.3.1. Thử nghiệm...............................................................................................
3.3.2. Đánh giá....................................................................................................
3.4.

Sinh luật.........................................................................................................

3.5.

Kết luận chương 3 .....................................................................................


KẾT LU Ậ N ..............................................................................................................
TÀI LIỆU THAM KHẢO......................................................................................


5

CÁC KÝ HIỆU, VIẾT TẮT VÀ GIẢI THÍCH Ý NGHĨA
Ký hiệu, viết tắt
dl
A, B
D

Giải thích ý nghĩa
Hệ thông tin hay bảng quyết định
Tập các thuộc tính trong hệ thông tin
Tập thuộc tính quyết định trong hệ thông tin
Một thuộc tính điều kiện trong tập thuộc tính điều kiện của

a

V,

u
RED
0

hệ thông tin
Tập giá trị của thuộc tính điều kiện
Tập đối tượng (tập tổng thể) trong hộ thông tin
Tập rút gọn

Tập rỗng

CỊ

Bị chứa trong

3

Chứa

E

Thuộc (là phần tử của)

>

Lớn hơn hoặc bằng
Nhỏ hơn hoặc bằng

*
u, n
3
Ixl
card (X) hay 11X11

Khác
Phép hợp, giao của một tập hợp
Tồn tai
Trị tuyệt đối của X
Số lượng phần tử có trong X



6

MỞ ĐẦU
Với tốc độ tin học hoá rất nhanh trong vài thập kỷ qua, hầu hết các tổ
chức và cá nhân đều thu thập và lưu trữ một khối lượng dữ liệu khổng lồ trong
các cơ sở dữ liệu của họ. Lúc đó, việc có thể hiểu được chúng vượt xa khả
năng của con người. Dữ liệu được thu thập trong các cơ sở dữ liệu vì thế trở
thành dữ liệu “bị chôn vùi” - rất hiếm khi được xem xét. Các quyết định
thường được thực hiện dựa vào trực giác của người tạo quyết định mà không
dựa vào dữ liệu giàu thông tin có sẩn trong cơ sở dữ liệu. Đơn giản vì người
tạo quyết định không có các công cụ để trích rút các tri thức có giá trị. Các kỹ
thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi các tri thức
chuyên môn thành biểu diễn tri thức trong máy. Các thao tác này thiên về tính
chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý rất lớn. Tình
huống lúc này được mô tả như “ Giàu dữ liệu nhưng nghèo thông tin”.
Lý thuyết tập thô được Pavvlak đề xuất vào đầu những năm 1980 được
xem như một cách tiếp cận mới để phát hiện tri thức và nó “tạo thành một cơ
sở vững chắc cho các ứng dụng khai phá dữ liệu

Chúng ta đã chứng kiến sự

phát triển rất nhanh trong việc nghiên cứu lý thuyết tập thô và các ứng dụng
của chúng trên thế giới. Cho đến nay, đã có hàng ngàn bài báo được công bố
về tập thô và các ứng dụng của chúng. Lý thuyết tập thô đã được áp dụng
thành công trong nhiều lĩnh vực như y học, dược học, ngân hàng, tài chính,
phân tích thị trường. Các kết quả thú vị cũng đạt được trong nhận dạng giọng
nói và âm thanh. Tiếp cận tập thô cũng đóng vai trò quan trọng đối với nhiều
ứng dụng kỹ thuật như máy chẩn đoán, khoa học vật liệu,... Lý thuyết tập thô

có các mối liên hệ với các phương pháp suy luận logic, thống kê, mạng nơron,
hình thái toán học. Nó bổ sung cho các phương pháp khác và cũng có thể được
sử dụng kết hợp với các cách tiếp cận khác như tập mờ, thuật toán di truyền,
các phương pháp thống kê, mạng nơron.


7

Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua hộ thông tin,
hay bảng quyết định; ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận
tập thô xuất phát từ những khái niệm về sự xấp xỉ tập, về quan hộ "không phân
biệt được". Từ những bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ
liệu liên tục, hay dữ liệu biểu diễn dưới dạng ký hiệu, lý thuyết tập thô cho
phép khai phá tri thức từ những loại dữ liệu như vậy nhằm phát hiện ra những
quy luật tiềm ẩn từ khối dữ liệu này. Tri thức được biểu diễn dưới dạng các
luật, mẫu mô tả mối quan hệ bị che dấu trong dữ liệu. Trong lý thuyết tập thô,
chất lượng của thông tin được đo bằng cách sử dụng khái niệm tập xấp xỉ trên
và xấp xỉ duới. Nhằm thu hẹp nhiều nhất chính xác thông tin, ý tưởng “rút
gọn” được sử dụng để cho phép loại bỏ những thông tin dư thừa, không cần
thiết mà vẫn giữ được ý nghĩa. Sau khi tìm được những quy luật chung nhất
biểu diễn dữ liệu, người ta có thể tính toán độ mạnh, độ phụ thuộc giữa các
thuộc tính trong hệ thông tin.
Với những lợi điểm quan trọng trên của lý thuyết tập thô, chúng tôi đã giành
thời gian để nghiên cứu và tìm hiểu về lý thuyết này. Luận văn đi sâu tìm hiểu
ý tưởng và cở sở toán học của lý thuyết tập thô, từ những hiểu biết về lý thuyết
cũng như ứng dụng thực tế của tập thô trong lĩnh vực khai phá dữ liệu. Thông
qua tìm hiểu và khai thác bộ công cụ ROSETTA (do Aleksander 0 h m và
cộng sự thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính và
thông tin của trường đại học Norwegian, Trondheim, Na-uy cùng nhóm Logic
thuộc ĐHTH Warsaw, Ba-lan xây dựng), luận văn cũng đưa ra một số đề xuất

ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ quyết định bài toán xử
lý dữ liệu xuất nhập cảnh và phát hiện đối tượng trong số khách xuất nhập
cảnh tại cơ quan công tác.
Phương pháp nghiên cứu chủ yếu của luận văn là khảo sát, phân tích nội đung
các bài báo khoa học về lý thuyết tập thô và ứng dụng được công bố vào
những năm gần đây.


8

Luận văn được trình bày gồm có phần mở đầu, ba chương và phần kết luận.
Trong luận văn này chúng tôi sử dụng một ví dụ thống nhất trong bài toán xử
lý dữ liệu xuất nhập cảnh từ đầu đến cuối luận văn, đó cũng chính là bài toán
chúng tôi thử nghiệm trên hệ thống thực tế tại cơ quan công tác. Để đảm bảo
tính bảo mật của hệ thống khi đưa các ví dụ cụ thể vào luận văn này chúng tôi
đã thay đổi các thuộc tính và các giá trị cho phù hợp.
Trong chương một, chúng tôi trình bày các khái niệm cơ bản về lý
thuyết tập thô như: hệ thông tin, bảng quyết định, khái niệm không phân biệt
được, tập xấp xỉ trên, tập xấp xỉ dưới, miền biên, giới thiệu luật kết hợp, quá
trình khám phá mẫu từ bảng quyết định. Nội dung của chương này được tổng
hợp từ các tài liệu trong [1, 2, 3, 4, 5, 6, 7, 8, 9, 15, 20, 21].
Trong chương hai, luận văn tập trung giới thiệu về bộ công cụ
ROSETTA, các thành phần, đặc trưng của ROSETTA. Các vấn đề về ma trận
phân biệt được và hàm phân biệt được kết hợp với giải thuật Johnson của hệ
thống ROSETTA để tìm ra các tập giá trị rút gọn của một hộ thông tin từ đó
trích rút ra các luật quyết định và các vấn đề về tiền xử lý dữ liệu theo tiếp cận
tập thô.
Nội dung của chương này được tổng hợp từ các tài liệu trong [2, 12, 16, 17,
18,22].
Trong chương ba, từ kết quả nghiên cứu trình bày trong chương một và

chương hai, thông qua bộ công cụ ROSETTA, chúng tôi đề xuất việc ứng
dụng các phương pháp và thuật toán trong bộ công cụ ROSETTA vào thực tế
bài toán xử lý dữ liệu xuất nhập cảnh tại cơ quan công tác đồng thời trong
chương này chúng tôi cũng đề xuất việc ứng dụng luật kết hợp theo tiếp cận
tập thô vào bài toán thực tế và nhận được một số luật tương đối chính xác và
hợp lý.


9

CHƯƠNG 1
TỔNG QUAN VỂ TẬP THÔ VÀ PHÁT HIỆN LUẬT
THEO TIẾP CẬN TẬP THỒ
1.1. TỔNG QUAN VÊ TẬP THÔ
1.1.1. Khái niệm hệ thông tin
Trong rất nhiều lĩnh vực, việc thu thập thông tin là nhu cầu cần thiết. Các khái
niệm cơ bản của lý thuyết tập thô có thể được phát biểu có hệ thống với tính
khái quát cao, nhưng để có hiểu biết sâu sắc và trực quan về lý thuyết, chúng
ta sẽ bắt đầu nghiên cứu từ bảng dữ liệu. Bảng dữ liệu còn được gọi là bảng
thông tin, hệ thông tin hay hệ thống thồng tin - giá trị. Cột của bảng được gán
nhãn bởi các thuộc tính, hàng được gán bởi các đối tượng và mục nhập của
bảng là các giá trị thuộc tính. Bảng này được gọi là một hệ thông tin
(iníormation system). [1, 3, 4, 5].
Định nghĩa 1.1. Hệ thông tin là cặp cA = (A,U) trong đó u là một tập hữu
hạn khác rỗng các đối tượng được gọi là tập vũ trụ (universe) và A là một tập
hữu hạn khác rỗng các thuộc tính. Với mỗi thuộc tính a e A, có tương ứng tập
Va, gọi là tập giá trị (miên) của a. Ký hiệu a: u -> Va với mọi a e A.
Ví du 1.1.1:
Một hệ thông tin gồm 6 đối tượng (Xj, x2, x3, x4, x5, x6) và 4 thuộc tính
(Md_xn, Nghe_nghiep, Qt_hnay, XXety.

X,
x2
x4

Md_xn
Du lich
Thuong mai
Thuong mai
Du lich
Thuong mai
Du lích

Nghe_nghiep
Qt_hnay
Thuong nhan
Malaysia
Nhan vien
Malaysia
Thuong nhan
My
Thuong nhan
Viet nam
Nhan vien
Malaysia
Thuong nhan
Ucraina
Bảng 1.1.1. Hệ thông tin

XXet
Cam

Cam
Cam
Khong
Khong
Cam

Mỗi hàng của bảng có thể được xem như thông tin về một khách xuất nhập
cảnh riêng biệt. Ví dụ khách x2 được mô tả trong bảng bởi tập thuộc tính - giá


10

trị sau đây: {(Md_xn, Thuong mai), (Nghe_nghiep, Nhan vien), (Qt_hnay,
Malaisia), (XXet, Cam)}.
Chúng ta hãy quan sát mỗi tập con các thuộc tính chia tập tất cả các đối tượng
trong bảng thành những lớp con có cùng những đặc trưng, tức là khối các đối
tượng mà chúng không thể phân biệt được trong khuôn khổ của dữ liệu sẵn có.
Ví dụ, trong bảng các khách Xj, x4, x6 không thể phân biệt được đối với thuộc
tính Md_xn, vì chúng có cùng giá trị thuộc tính. Tương tự các khách x2 và x5
không phân biệt theo những thuộc tính Md_xn, Nghe_nghiep,... Vì vậy, mỗi
tập con các thuộc tính sinh ra một quan hệ tương đương chia tập đối tượng
thành các lớp tương đương. Mỗi lớp tương đương bao gồm các đối tượng có
cùng những đặc trưng tương ứng. Những lớp tương đương này sẽ được xem
như các tập sơ cấp, chúng là những viên gạch xây dựng cơ bản của lý thuyết
tập thô.
1.1.2. Khái niệm bảng quyết định
Như ta đã biết, kết quả của việc phân lớp trong rất nhiều ứng dụng là quyết
định phân lớp. Pawlak z. đã phát triển một số khía cạnh liên quan đến tập thô
trong bảng quyết định. Chúng ta sẽ chỉ ra rằng, bảng quyết định là một dạng
đặc biệt của hệ thông tin [1,4, 21].

Định nghĩa 1.2. Bảng (hệ) quyết định là hệ thông tin bất kỳ có dạng
c4 = (U, A u {d}), trong đó:
-

u là tập hữu hạn các trạng thái,

-

A là tập các thuộc tính,

-

dr\ A = ệ là thuộc tính quyết định. Các thuộc tính thuộc A được gọi
là thuộc tính điều kiện hay điều kiện.

Bảng 1.1.1 thể hiện ví dụ về bảng quyết định, trong đó tập các khách có thể
coi là tập trạng thái; tập A các thuộc tính {Md_xn, Nghe_nghiep, Qt_hnay,
X Xet}. Thuộc tính quyết định XXet và giá trị thông tin liên quan đến thuộc
tính đó đều được in nghiêng (trong bảng dưới đây) để dễ phân biệt.


11

Md_xn

Nghe_nghiep

Qt_hnay

XXet


*1
x2

Du lich

Thuong nhan

Thuong mai

Nhan vien

Malaysia

Cam

x3

Thuong mai

Thuong nhan

My

Cam

x4

Du lich


Thuong nhan

Viet nam

Khong

Thuong mai

Nhan vien

Malaysia

Khong

Du lich

Thuong nhan

Ucraina

Cam

*6

Malaysia

Cam

Bảng 1.1.2 Bảng quyết định
N hận xét: Loại trừ việc tách tập thuộc tính làm hai tập thuộc tính điều kiện và

thuộc tính quyết định trong bảng quyết định, tồn tại sự tương ứng giữa các
khái niệm trong các định nghĩa về Bảng quyết định và Hệ thông tin và sự
tương ứng đó thể hiện trong bảng dưới đây:
Hệ thông tin
Bảng quyết định
Tập đối tượng
Tập trạng thái
Hàm quyết định
Ánh xạ biểu diễn thông tin
Luật quyết định
Hàm thông tin
Thuộc tính
Thuộc tính
Miền giá trị
Miền giá trị
Bảng 1.1.3. Bảng so sánh Hệ thông tin - Bảng quyết định
1.1.3. Tính không phân biệt được trong hệ thông tin
1.1.3.1. Khái niệm tính không phàn biệt được
Một hệ quyết định (bảng quyết định) biểu diễn tất cả tri thức về mô
hình (mẫu). Bảng này có thể không lớn, một phần vì nó dư thừa ít nhất theo
hai trường hợp. Các đối tượng giống nhau hoặc không phân biệt có thể xuất
hiện nhiều lần, hoặc một số thuộc tính là dư thừa
Như đã biết, một quan hệ R có cả ba tính chất phản xạ, đối xứng và bắc
cầu được gọi là một quan hệ tương đương. Quan hệ tương đương R sẽ phân
hoạch tập vũ trụ u thành các lớp tương đương. Lớp tương đương của phần tử
xeU , kí hiệu là [x], chứa tất cả các đối tượng 3Í6 Ư mà xRỵ.


12


Định nghĩa 1.3. Với tập con bất kỳ B cA xác định một quan hộ hai ngôi
IND(B) trên u được gọi là quan hệ không phân biệt được và được định nghĩa
như sau:
(jt,y)eIND(B) nếu và chỉ nếu a{x) = a(ỵ) với V aeB, a(x) ký hiệu giá trị
thuộc tính a với mọi phần tử X.

Hiển nhiên ỈNDị B) là quan hệ tương đương. Họ của tất cả các lớp tương
đương IND(B), tức là phân hoạch xác định bởi B, được ký hiệu U/IND(B), hay
đom giản U/B; một lớp tương đương IND(B), tức là khối phân hoạch U/B chứa
X được ký hiệu B(x).
Nếu (x,y)eIND(B) chúng ta nói rằng X và y là B-không phân biệt được. Các
lớp tương đương của IND(B) hay các khối phân hoạch U/B được xem như tập
B-sơ cấp.
Trong bảng, các khách x2, x3 và x5 không phân biệt được đối với thuộc tính
Md_xn, khách x3 và x6 không phân biệt được đối với thuộc tính Nghe_nghiep,
Qt_hnay và khách x2, x5 không phân biệt được đối với thuộc tính Md_xn,
Nghe_nghiep và Qt_hnay. Do đó, thuộc tính Md_xn sinh ra hai tập sơ cấp {x2,
x3, x5} và {Xp x4, x6}, trái lại thuộc tính Md_xn, Nghe_nghiep tạo thành các
tập sơ cấp sau: {Xj, x4, x6}, {x2, x5} và {x3}.
1.1.3.2. Tập mô tả được và ngôn ngữ mô tả tập
Ngôn ngữ trong hệ thông tin d (ký hiệu L 4)
Bảng chữ: các hằng 0,1; các phần tử của tập A tên các thuộc tính và tập
các giá trị thông tin; các dấu ngoặc đơn “(” và

dấu phẩy ‘7 \ các dấu phép

toán logic “hay là” V, “và” A, “phủ định”
Định nghĩa 1.4. Hạng thức (term) được định nghĩa độ quy như sau:
+ 0 và 1 là các hằng (hạng thức hằng) trong L^,
+ Nếu aeA và v e V a là các hạng thức (đơn giản) trong L 4. Ta thường

dùng cách viết (a=v) để chỉ hạng thức (a,v),




+ Nếu t, ti,

t2 là các hạng thức thì t , (tivt2), (ti A t2) cũng là các hạng

thức.
+ Hạng thức chỉ được xác định bằng cách như trên.
Định nghĩa 1.5. Ngữ nghĩa ơ(t) của một hạng thức t được cho bằng ánh
ơ: z,

xạ

2U (tập các tập con của U) được xác định như sau:

+ ơ(0) = 0 và ơ(l) = u
+ ơ((a,v)) = {xeU: a(x)=vỊ
+ ơ ( t ) = u - ơ ( t) ; ơ(t[vt2) = ơ ( ti) u ơ (t2 ); ơ(tiAt2) = ơ (ti) nơ (t2 )
Nếu không xảy ra nhầm lẫn và tuân theo quy tắc ngầm định là phép toán logic
Acó độ ưu tiên cao hơn phép toán logic V, thì được phép loại bỏ các dấu

ngoặc đơn ( và ) không cần thiết trong biểu diễn hạng thức.
M ệnh đề 1.1. Tồn tại sự tương ứng 1-1 giữa tập E các tập sơ cấp với tập các
hạng thức dạng chuẩn có ngữ nghĩa khác rỗng.
Hạng thức dạng t=tj V t2 V... V tm(với mọi i: t| là hạng thứcsơcấpvà m
là số tự nhiên nào đó) được gọi là hạng thức chuẩn.
Thông qua hệ thông tin và ngôn ngữ L chúng ta có thể "mô tả" tập con các đối

tượng. Pawlak đã đưa ra khái niệm về tập mô tả được trong hệ thông tin như
định nghĩa dưới đây.
Định nghĩa 1.6. Một tập con X khác rỗng các đối tượng được gọi là tập mô tả
được khi và chỉ khi X là hợp của các tập sơ cấp trong hệ thông tin (Trường hợp
đặc biệt là tập rỗng cũng được coi là một tập mô tả được).
Mệnh đề dưới đây là kết quả suy diễn từ mệnh đề 1.1. và định nghĩa 1.6.
M ệnh đê 1.2. Tập X là mô tả được khi và chỉ khi tồn tại một hạng thức t trong
L để cho a(t) = X.
ý nghĩa của khái niệm "mô tả được" trong mệnh đề 1.2 cho thấy chúng ta có
thể dùng một hạng thức trong ngôn ngữ L để "mô tả" tập X.


14

Theo các định nghĩa và mệnh đề trên đây thì không phải tập con nào của u
cũng là tập mô tả được, nghĩa là tồn tại các tập con các đối tượng không là tập
mô tả được. Khái niệm tập thô được Pawlak đề xuất được dùng để chỉ dẫn và
mở ra một mô hình ứng dụng rất rộng rãi trong lĩnh vực khai phá dữ liệu và
khám phá tri thức trong cơ sở dữ liệu.
1.1.4. Khái niệm tập thô, tập xấp xỉ
Lý thuyết tập thô, được Pawlak khỏi xướng trong những năm 1980, là
một tiếp cận về tri thức không hoàn thiện. Đặc biệt, nó đưa ra viễn cảnh mới
về những vấn đề không rõ ràng, không chắc chắn, cơ bản đã được bàn luận
trong triết học hiện đại, logic và trí tuệ nhân tạo. Gần đây, các nhà nghiên cứu
liên quan đến các ngành khoa học nhận thức, học máy, khai phá dữ liệu và các
ngành khác đã đóng góp chủ yếu cho lĩnh vực này. Những đóng góp quan
trọng nhất, không nghi ngờ, là lý thuyết tập mờ và lý thuyết hiển nhiên. Tập
thô bao gồm [1, 5, 8, 20]:
+ u là tập vũ trụ, khác rỗng,
+ R là quan hệ không phân biệt, hoặc quan hệ tương đương,

+ ct|= ( ư ,R), là một cặp có thứ tự, được gọi là không gian xấp xỉ.

+ [x]R là ký hiệu lớp tương đương của quan hệ R chứa đối tượng X, với
mỗi phẩn tử X thuộc u ,
+ các tập thành viên trong A - lớp tương đương của quan hệ R,
+ tập mô tả được trong A - mọi phép hợp hữu hạn các tập thành viên
trong A.
Hom nữa, với bất kỳ không gian xấp xỉ đã cho xác định trên tập vũ trụ u và có
một quan hệ tương đương R trên u , u được phân hoạch thành các lớp tương
đương được gọi là các tập thành viên có thể dùng để định nghĩa các tập khác
trong A. Cho X cU , X có thể xác định theo các tập mô tả được trong A như
sau:
Xấp xỉ dưới của X trong A là tập RX = {jc e u I[*]* c x }


15

Xấp xỉ trên của X trong A là tập RX = {* e u I[x]R n X * ộ)
Xấp xỉ dưới chứa tất cả các đối tượng được phân lớp hoàn toàn dựa trên dữ
liệu đã được thu thập. Xấp xỉ trên chứa tất cả các đối tượng được phân lớp bộ
phận, trong đó miền biên là hiệu giữa xấp xỉ dưới và xấp xỉ trên.
Có một cách khác để miêu tả các tập xấp xỉ như sau. Cho xấp xỉ trên và xấp xỉ
dưới RX và RX , X là tập con của u , R- miền dương của X là POSR(X) = RX,
R - miền phủ định của X là NEGR(X) = U - R X , và R - miền biên của X là
BNr (X) = R X - R X . X được gọi là R- mô tả được nếu và chỉ nếu RX = R X .
Ngược lại, RX * R X thì X là thô đối với R.
Ví du 1■1.4. về hê thống tin trong bảng 1.1.1:
Khách xuất nhập cảnh x2 bị cấm, trái lại khách x5 thì không và các đối tượng
này không thể phân biệt được đối với các thuộc tính Md_xn, Nghe_nghiep và
Qt_hnay, vì thế, XXet không thể được phân tích theo các thuộc tính Md_xn,

Nghe_nghiep và Qt_hnay. Hơn nữa, x2 và x5 là một ví dụ về miền biên, không
thể phân lớp trong khuôn khổ của tri thức sẵn có. Các khách còn lại như Xj, x3,
x6 hiển thị chắc chắn bị cấm, x2, x5 khồng thể loại trừ bị cấm, x4 chắn chắn là
không bị cấm. Vì vậy, xấp xỉ dưới của tập các khách bị cấm là tập {Xị, x3, x6}
và xấp xỉ trên của tập này là tập {Xj, x2, x3, x5, x6}, trong đó, miền biên là
khách x2 và x5.
Tương tự, x4 không bị cấm và x2, x5 không loại trừ bị cấm, nên xấp xỉ dưới của
khái niệm này là tập {x4}, ngược lại, xấp xỉ trên là tập {x2, x4, x5} và miền
biên của khái niệm “không cấm” là tập {x2, x5} giống như trong trường hợp
trên.
1.1.4.1. Các tính chất của sự xấp xỉ. [4, 5, 20]
(1) Ổ I c X c B X ,
(2) B ( 0 ) = B ( 0 ) , B ( U ) = B ( U ) = U,
(3) B ( X v r ) = B ( X ) v B ( r ) ,


16

(4) B ( X n Y ) = B ( X ) n B(Y),
(5) N ế u X c y thì B ( X ) ^ B ( Y ) v ầ B ( X ) ^ B ( Y ) ,
(6) B ( X u Y ) ^ B( X ) U B(Y),
(7 ) B ( X n Y ) ^ B ( X ) n B ( Y ) ,
(8)B(-X) = -B(X),
(9)B(-X) = -B(X),
(10)
(11)

B(B(X))=B(B(X))=B(X),
B(B(X))=B(B(X))=B(X),


Trong đó ký hiệu -X biểu thị cho U-X.
Có thể nhận thấy là tập xấp xỉ trên và xấp xỉ dưới của một tập về hình thức là
tương đổng với phần trong và bao đóng của tập hợp trong tôpô hình học được
sinh ra bởi quan hệ không phân biệt được.
1.1.4.2. H àm thành viên thô
Tập thô còn có thể được định nghĩa bằng cách dùng một hàm thành
viên thô. Hàm thành viên thô của một tập hợp X c U (trong không gian xấp xỉ
R cho trước) được định nghĩa trong [5, 20] như sau:
|i(x,X) =

với I . I là ký hiệu lực lượng
|M w£>1

do đó, hàm thành viên thô có thể được dùng để định nghĩa xấp xỉ và miền biên
của một tập, được trình bày như sau:
X = {xeU: n(x,X )= 1},
X = {x éU: h(x,X) > 0},
BN r(X)= ỊxeU : 0<|x(x,X) <1}.
Hơn nữa:
n(x,x) = 1 nếu [x]rND c X
n(x,x) > 0 nếu

[x ] in d

nX * ộ

ĐAI HỌC QUỐC GIA HẢ NỘI
TRƯNGTÂMTHÕNG TINTHƯVIÊN

\K 0 /


4 ? íT


17

n(x,x) = 0 nếu [x]ind n X = ệ
Ví du trong bảng 1.1.1
Chúng ta cũng có thể tính giá trị thành viên cho mỗi khách “Cấm” hoặc
“Không”. Các giá trị của hàm thành viên trong trường hợp “Cấm” được tính
như sau:



IM



I{jC|, x2, x3, x41o ịx2»XAI _ 1

\\x2,xaỊ
, ,

2

Ị{x|tJj,x3,,t6}n{x3|
I M ------- = '

fe W = f e i g H


5 ! =(

Vcam(*s ) = ---------- 1/

,1---------- = X

1*2. *5

2

1.1.5. Độ chính xác và độ thô
Lý thuyết tập thô kế thừa mô hình hai kiểu của tính không chắc chắn.
Kiểu không chắc chắn thứ nhất phát sinh từ quan hệ không phân biệt được trên
tập vũ trụ, phân hoạch tất cả các đối tượng vào một tập hữu hạn các lớp tương
đương. Nếu mỗi lớp tương đương chỉ chứa một giá trị thì không bị mất mát
thông tin. Trong mỗi phân hoạch thô, tuy số lớp có nhiều hơn và mỗi lớp sẽ
chứa số lượng các thành viên nhiều hơn. Tính không chắc chắn cũng là mô
hình miền xấp xỉ của tập thô, trong đó, các thành phần của miền xấp xỉ dưới
có toàn bộ các đối tượng tham gia trong tập thô và các miền xấp xỉ trên này
chỉ có một bộ phận các đối tượng tham gia trong tập thô. Tương tự, xấp xỉ
dưới là miền chắc chắn và vùng biên của miền xấp xỉ trên là miền khả năng.


18

Pavvlak đưa ra hai đặc tính số về sự mơ hồ của một tập thô X: độ chính xác và
độ thô. Độ chính xác, tỉ lệ giữa số các thành phần trong xấp xỉ dưới của X,
RX, chia cho số các thành phần trong xấp xỉ trên của X, R X, bậc của tri thức
đầy đủ về tập thô X đã cho [8]:
X* = card(RX) / card(RX),


0 < XR{X) < 1

Độ đo thứ hai, độ thô, biểu diễn độ không đầy đủ của tri thức trong tập thô.
Nó được tính bằng hiệu của 1 vói độ chính xác: pR( X) = l-x ^íX )
Những độ đo này đòi hỏi tri thức của số các thành phần trong mỗi miền xấp xỉ
và là độ đo tốt của tính khống chắc chắn khi phát sinh từ miền biên, tách các
lớp tương đương khi chúng phụ thuộc một phần hay toàn bộ đến tập hợp. Tuy
nhiên, độ chính xác và độ thô không nhất thiết cung cấp thông tin không chắc
chắn liên quan tới độ mịn của quan hệ không phân biệt mà chứa toàn bộ trong
miền xấp xỉ dưới. Ví dụ, cho tập thô X được định nghĩa như sau:

x={ A ll, A12, A21, A22, B ll, C 1}
với miền xấp xỉ trên và dưói được xác định:
RX={A11, A12, A 21, A 22}
RX ={A11, A12, A21, A22, B ll, B12, B13, C l, C2}
Các miền xấp xỉ này có kết quả từ một số các phân hoạch. Các quan hộ không
phân biệt như sau:
A[={[A11, A12, A21, A22], [BI 1, B12, B13], [Cl, C2]}
A2={[A11, A12], [A21, A22], [B ll, B12, B13], [C1,C2]}
A3={[A11], [A12], [A21], [A22], [B ll, B12, B13], [Cl, C2]Ị
Cả ba kết quả phân hoạch trong cùng miền xấp xỉ trên và dưới của tập X cho
trước và cùng độ chính xác (4/9=0.444) chỉ từ các lớp thuộc miền xấp xỉ dưới
này được phân hoạch lại. Tuy nhiên, tính không chắc chấn trong

lớn hơn

trong A2 và A2 lớn hơn A3. Hơn nữa, độ đo toàn diện hơn của tính không chắc
chắn là cần thiết.
+ Ví dụ về độ chính xác trong bảng 1.1.1



19

Ị{
Tỉ số đô chính xác của khái niêm “cấm” là a{Cam) = -rp-L
|w Và của khái niệm “không cấm” là: a(Khong) =

- =-

1.1.6. Sự phụ thuộc của thuộc tính
Thay vào việc dùng tập xấp xỉ, chúng ta có thể dùng khái niệm sự phụ
thuộc của thuộc tính.
Một cách trực giác, một tập các thuộc tính D (được gọi là thuộc tính
quyết định) phụ thuộc hoàn toàn vào tập các thuộc tính c (được gọi là thuộc
tính điều kiện), ký hiệu

c => D, nếu tất cả các giá trị thuộc tính từ D được xác

định duy nhất bởi các giá trị thuộc tính trong c , nếu tồn tại phụ thuộc hàm
giữa các giá trị của D và c . Trong bảng 1.1.1, không có sự phụ thuộc hoàn
toàn nhưng nếu giá trị thuộc tính Md_xn đối với khách x5 là “Thuong mai”
thay vào “Du lich”, thì sẽ có phụ thuộc hoàn toàn {Qt_hnay}=> {XXet}, vì
với mỗi giá trị thuộc tính Qt_hnay sẽ tương ứng với giá trị thuộc tính XXet
duy nhất.
Sự phụ thuộc có thể được định nghĩa một cách hình thức như sau:
Cho D và c là các tập con của A. Ta nói rằng D phụ thuộc hoàn toàn vào c ,
nếu và chỉ nếu ĨND(C) c: IND(D). Điều này có nghĩa là phân hoạch được sinh
ra bởi c tốt hơn phân hoạch được sinh ra bởi D.
Chúng ta sẽ cần một khái niệm sự phụ thuộccủa thuộc tính tổng quát

hơn, được gọi là một sự phụ thuộc riêng của thuộc tính. Ví dụ, trong bảng
1.1.1, thuộc tính Qt_hnay xác định duy nhất chỉ một số giá trị thuộc tính
XXet. Đó là (Qt_hnay, My) kéo theo (XXet, Cam), tương tự, (Qt_hnay, Viet
nam) kéo theo (XXet, khong), nhưng (Qt_hnay, Malaysia) không luôn kéo
theo (XXet, Cam). Như vậy, sự phụ thuộc riêng có nghĩa làchỉ một số giá trị
của D được xác định bởi các giá trị của c.


20

Một cách hình thức, ý tưởng trên có thể được biểu diễn trong công thức
sau [1, 5, 20]:
Cho D và c là các tập con của A. Ta nói rằng D phụ thuộc vào c với độ
k, 0 <i k ^ 1, ký hiệu c =>t ỡ nếu:
k

-

r ( C , D ) = I/>0^

|ơ|

(0)1= T . x M lDcard^c l -ỵ
ca rd m

^

vói

POS ị Dy =


ỊJc(Jf),

Biểu thức POSc(D) được gọi là miền dương của phân hoạch U/D đối với c , là
tập tất cả các phần tử của u mà có thể được phân lớp duy nhất thành khối của
phân hoạch UID, bởi trung bình của c .
Nếu k = 1 ta nói rằng D phụ thuộc hoàn toàn vào c, và nếu k< l ta nói rằng D
phụ thuộc một phần vào c .
Hệ số k diễn tả tỉ lệ của các thành phần trong tập vũ trụ, với sự phân loại thành
khối của phân hoạch Ư/D, các thuộc tính sử dụng trong c gọi là mức phụ
thuộc.
Dễ nhận ra rằng nếu D phụ thuộc hoàn toàn vào c thì IND(C)

IND(D).

Tóm lại: D là phụ thuộc hoàn toàn (hay một phần) vào c nếu tất cả (một số)
phần tử của tập vũ trụ có thể được phân loại thành khối duy nhất của phân
hoạch U/D, sử dụng c .
1.1.7. Khái quát phụ thuộc hàm dựa trên ỉý thuyết tập thô
Cho A là tập các thuộc tính

và T là một tập các bộ sao cho

ỉ c Dom(Aì)xDom(A2)x...xDom(An) . Chúng ta sử dụng ký hiệu Dom(A) cho
Dom(A])xDom(A2)x...xDom(An) , và các chữ cái X, Y, z để chỉ tập các thuộc tính

Định nghĩa 1.7. Quan hệ tương đương RE(T,X), xác định bởi một tập các
thuộc tính X ^ Ả trên tập T, được định nghĩa:
(í,,t2) E REỢ,X) o /,[x] = t2[x] V*,,r2 € T



21

Phân hoạch PART(T,X), xác định bởi một tập thuộc tính X c A trên T, được
định nghĩa: PART(T,X)=T/RE(T,X)
Quy ước: ký hiệu RE(X) thay cho RE(T,X) và PART(X) thay cho
PART(T,X). Các chữ cái u ,v ,w chỉ các khối thuộc vào một phân hoạch.
Định nghĩa 1.8. Không gian dương (positive) xác định bởi một tập các thuộc
tính X c A đối với một tập các thuộc tính y Q Ả trên tập của bộ T, được định
nghĩa:
P O S Ợ , X , Y ) = u {U e PART (X) Iu

£

V, V

e PÁRTỢ)}

Ký hiệu POS(X,Y) là ký hiệu ngắn gọn của POS(T,X,Y).
Định nghĩa 1.9. Chúng ta nói rằng tập các thuộc tính Y phụ thuộc hàm với độ
k € [0,1] vào tập thuộc tính X và ký hiệu X —k—>Y , trong đó k được định nghĩa
như sau:

^ ca rd iP O S ỊX Y))
card(T)

Quy ước: các ký hiệu X —'—>■Y bằng x~> Y và X —

Y bằng X A Y


Chúng ta coi phụ thuộc này như một mẫu chung của phụ thuộc hàm trong cơ
sở dữ liệu quan hệ X —

là tương đương của một phụ thuộc hàm chuẩn.

Bổ đề 1: X —'—>Y là tương đương với phụ thuộc hàm X -> Y
Tính chất:
Đỉnh lý 1.1: POS(X, Y) c POS(XZ, YZ), X , Y , Z ^ A
Từ kết quả này chúng ta dễ dàng đưa ra:
Hệ quả 1: X —^ Y => XZ—^>YZ,

k'> k

Định lý 1.2: Nếu POS(X,Y)=T thì POS(Y,Z) cPOS(X,Z), Với X,Y,ZcA.
Từ kết quả này chúng ta dễ dàng đưa ra:
Hệ q u ả 2 : X

^->z=> X —^ Z ,

k'>k

M ệnh đê 1.3: Nếu POS(X,Y)=T thì với bất kỳ UePART(X) Có tồn tại
VePART(Y) để Ư cV.
Định lý 1.3: Nếu POS(Y,Z)=T thì POS(X,Y) £POS(X,Z), X,Y,ZcA.


22

Hệquả3:X




ị-^>Y,Y^>Z=>X —>z,


k’>k

Từ hệ quả 3 và quy tắc Armstrong đầu tiên YZ
Hệ q u ả 4 : X —k-^Y Z = > X —

Y , chúng ta cũng có:

k'ầ.k

Nói tóm lại, phụ thuộc hàm trong cơ sở dữ liệu thông thường đúng với 3 tiên
đề Amstrong như phản xạ, tăng trưởng và bắc cầu. Trong lý thuyết tập thô, chỉ
có 2 tiên đề phản xạ và tăng trưởng được ánh xạ theo độ k, k ’ ( k’>k) là đúng,
tiên đề bắc cầu nói chung là không còn đúng, tuy vậy, trong một số trường
hợp đặc biệt (hệ quả 2 hoặc hệ quả 3) có thể nhận được một số kết quả xấp xỉ.
Ví du 1.1.6: Cho tập các bộ T:
+ Chúng ta xác định k cho A—
PA R T C O {{1,2,3}, {4,5}, {6,7}},
PART(A)={ {1,2,3},{4,7},{5,6}} nên A - Í ^ c
+ Chúng ta xác định k cho AB—k-^>BC
PART(BC)={{1},{2},{3},{4},{5},{6},{7}}

A
0
0
0

1
2
2

B

c

1
2
3
4
5
6

0
I
2
2
0
0

1
1
1
0
0
2

7


1

1

2

Bảng 1.1.6. Tập các bộ T

PART(AB)={ {1 Ị,{2},{3},{4},{5,6},{7}} nên
AB-Í^>BC

+ Chúng ta xác định k cho A—k-^ B
PART(B)= {{1, 5,6},{3,4},{2,7}}, PART(A)={ {1,2,3},(4,7},{5,6}} nên
A—^ B
+ Chúng ta xác định k cho B—k- ^ c
PART(C)= {{1,2,3}, {4,5}, {6,7} Ị, PART(B)= {{1, 5,6},{3,4},{2,7}}, nên
B— >c
Ví dụ này là một ví dụ của hệ quả 1 và cũng dẫn chứng một trường hợp thú vị:
A— »5, B—^—>c, A— »c với k ’>k>0.


23

1.2. LUẬT THEO TIẾP CẬN TẬP THÔ
1.2.1. Luật kết hợp
Phát hiện luật kết hợp là sự khai phá dữ liệu không được định hướng
hoặc không có giám sát trên dữ liệu có độ dài thay đổi, nó cho ra các kết quả
rõ ràng và dễ hiểu. Mục đích của khai phá luật kết hợp là tìm tất cả các tập
con các đối tượng hoặc thuộc tính xuất hiện thường xuyên trong nhiều giao

dịch hoặc bản ghi trong cơ sở dữ liệu, thêm vào đó là rút ra các luật về một tập
con đối tượng có ảnh hưởng tới sự xuất hiện của tập con các đối tượng khác
như thế nào.
Mặc dù phát hiện luật kết hợp có cách đặt bài toán đơn giản, nó đòi hỏi
lượng tính toán và truy xuất dữ liệu rất lớn. Khi dữ liệu tăng lên cả về số
hướng (số các thuộc tính) và kích thước (số giao dịch), một trong những tính
chất cần thiết của phát hiện luật kết hợp là khả năng mở rộng được: khả năng
xử lý kho dữ liệu rất lớn. Các thuật toán tuần tự không thể cho khả năng này
trong các cơ sở dữ liệu lớn. Vì vậy ta phải dựa vào tính toán song song và phân
tán hiệu suất cao.
Tập phổ biến là cơ sở để tạo các luật kết hợp [15]. Chúng ta xem xét
một ví dụ khai phá luật kết hợp. Cho một tập các thuộc tính I = {//, Ỉ2,..,I },
một giao dịch T được định nghĩa là một tập con bất kỳ các thuộc tính trong I.
Giả sử sơ sở dữ liệu D là một tập n giao dịch, mỗi giao dịch được gán một
định danh giao dịch duy nhất TID. Giao dịch T là hỗ trợ một tập X e / nếu nó
chứa tất cả các thuộc tính trong X, tức là X c ĩ . Độ hỗ trợ của một tập thuộc
tính X, ký hiệu ơ (X), là tỷ lệ của tất cả các giao dịch trong D hỗ trợ X.
Định nghĩa 1.10 (Luật kết hợp)
Một luật kết hợp là một biểu thức R: X-> Y, với X và Y là các tập thuộc
tính không giao nhau X n Y = 0 v à Y * 0 .
Định nghĩa 1.11 (Độ hỗ trợ và độ tin cậy của luật)


24

Độ hỗ trợ của luật là xác suất của một giao dịch chứa cả X và Y:
ơ ( x u y ) . Độ tin cậy của một luật là xác suất có điều kiện để một giao dịch
chứa Y, nếu nó đã chứa X, và được tính bởi:

Độ hổ trợ của một luật là tần suất nó có thể xảy ra, trong khi độ tin cậy

của luật cho biết luật đó đáng tin ra sao. Một luật là thích hợp nếu nó có đủ độ
hỗ trợ và độ tin cậy: ơ ( R ) t S nÁn(luật phổ biến) và a (/ỉ)£

(luật mạnh), điều

này chỉ xảy ra nếu cả vế trái và vế phải của luật đó là các tập phổ biến.
Phát hiện luật kết hợp liên quan tới việc tìm ra tất cả các luật kết hợp
trong cơ sở dữ liệu có độ hỗ trợ > Smin và có độ tin cậy > cmin (các luật phổ biến
và mạnh). Công việc này bao gồm 2 bước:
1. Tìm tất cả các tập thuộc tính phổ biến có độ hỗ trợ tối thiểu. Không
gian tìm kiếm để liệt kê tất cả các tập thuộc tính phổ biến là 2m, với m là số
thuộc tính. Tuy nhiên, nếu ta giả sử chiều dài giao dịch là có giới hạn, thì có
thể chỉ ra rằng phát hiện luật kết hợp về cơ bản là tuyến tính với kích thước
của cơ sở dữ liệu.
2. Tạo các luật mạnh có độ tin cậy tối thiểu từ các tập thuộc tính phổ
biến. Ta tạo và thử độ tin cậy của tất cả các luật có dạng X \Y -►Y, với Y c X
và X phổ biến. Vì ta phải xét mỗi tập con của X như là vế phải của luật, độ
phức tạp của bước tạo luật là OCr.21), với r là số tập thuộc tính phổ biến, / là
kích thước của tập phổ biến lớn nhất.
Các tính chất của luật kết hợp
-

Không có phép hợp các luật: Nếu X ->Z và Y -*Z, không có nghĩa là

X u Y ->z. Xét trường hợp X n Y = 0 , một giao dịch trong D hỗ trợ z khi và
chỉ khi nó hỗ trợ hoặc X, hoặc Y. Độ hỗ trợ của X u Y là bằng 0, và do đó độ
tin cậy của X u Y -> z là bằng 0%.





25

- Phép tách các luật: Nếu X u Y -> Z thích hợp, các luật X ->Z và
Y -»Z có thể không thích hợp. Ví dụ trong trường hợp z chỉ xuất hiện khi cả
X và Y xuất hiện, tức là ơ (X u y) = ơ(Z) , nếu X và Y có độ hỗ trợ khá lớn so
với X u Y thì hai luật tạo thành sẽ không có đủ độ tin cậy. Trường hợp ngược
lại: X - > Y u Z = > X - > Y / \ X - > y A X - > Z l ạ i đúng, bởi ơ(XY) è ơ(XYZ) và
ơ(XZ) > ơ(XYZ), do đó độ hỗ trợ và độ tin cậy của luật nhỏ hom đều tăng so
với luật ban đầu.
- Không cố tính chất bắc cầu: Nếu X-> Y và Y -»z, ta không thể suy ra
X->Z. Ví dụ trong trường hợp T(X) c ĩ ( r ) c ĩ ( Z ) , với T(X) là tập các giao
dịch

hỗ

trợ

X,

...



độ

tin

cậy


tối

thiểu



cmin.

Giả

sử

a(X ->Y) = a ự -> Z) = cnm(vì cmin < 1), như thế X ->Z không có đủ độ tin cậy
và do đó không thích hợp.
Ví du 1.2.1: Ví dụ: Xem xét một bảng thông tin sau.
Khách
hàng
1
2
3
4

Bánh mì

Sữa

Mứt

Bia


yes
yes
yes
no

yes
yes
yes
yes

no
yes
yes
yes

no
yes
no
no

Mỗi hàng trong bảng biểu diễn các món hàng được mua bởi một khách
hàng. Ví dụ, khách hàng 1 đã mua bánh mì và sữa, trong khi khách hàng 4 đã
mua sữa và mứt. Một luật kết hợp có thể được trích ra từ bảng trên là: một
khách hàng mà mua bánh mì thì cũng mua sữa. Ta biểu diễn như sau:
(Bánh mì = yes) =>(Miỉk = yes)
Từ đó tất cả các khách hàng đã mua bánh mì thì cũng mua sữa, độ tin
cậy của luật này là 1. Bây giờ xem xét luật
(Bánh mì = yes)A(Sữa = yes)=>(Mú7 = yes)



26

Một khách đã mua bánh mì và sữa thì cũng mua mứt. Từ đó ba khách
hàng đã mua cả bánh mì và sữa và hai người trong số họ đã mua mứt, độ tin
cậy của luật là 2/3.
Định nghĩa 1.12 (Tập p h ổ biến)
Tập X c l được gọi là tập phổ biến nếu có ơ(X) > smn với Jmin là độ hỗ trợ
tối thiểu cho trước.
Một tập X có lực lượng k=ỊXỊ được gọi là k-itemset. Có ba tính chất
quan trọng của các tập phổ biến, đó là:
- Nếu A c B với A, B là các tập thuộc tính thì ơ(A) > ơ(B) , bởi tất cả các
giao dịch trong D hỗ trợ B thì đều phải hỗ trợ A.
- Tập cha của một tập khống phổ biến là tập không phổ biến: Nếu tập
thuộc tính A không đủ độ hỗ trợ, tức là ơ(A) sẽ không phổ biến, bởi vì ơ(B) < ơ(A) ắ snm.
- Tập con của tập phổ biến là tập phổ biến: Nếu tập thuộc tính B là phổ
biến trong D, tức là ơ(A) > ơ(B) > smtí.
Mọi tập phổ biến là cực đại nếu nó khồng là tập con của bất kỳ tập phổ
biến nào khác.
Giởi thiêu th u ât toán A priori T41- do Rakesh Agrawal và cộng sự đề
xuất.
Đây là một trong các thuật toán phát hiện luật kết hợp tốt nhất. Nó cũng
là nền tảng cho hầu hết các thuật toán song song. Apriori sử dụng cách tìm
kiếm đầy đủ từ dưới lên trong dữ liệu trình bày theo chiều ngang và liệt kê tất
cả các itemset phổ biến. Là một thuật toán lặp, Apriori đếm các itemset có
chiều dài cụ thể trong cơ sở dữ liệu. Quá trình bắt đầu với việc duyệt tất cả các
giao địch trong cơ sở dữ liệu và tính các itemset phổ biến. Tiếp theo, tạo một
tập các ứng viên 2-itemset phổ biến từ các itemset phổ biến. Một lần duyệt cơ
sở dữ liệu nữa để tính độ hỗ trợ của chúng. Các 2-itemset phổ biến được duy



×