Rút gọn thuộc tính và trích lọc luật trên bảng quyết định không đầy đủ dựa trên mô hình tập thô dung sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 51 trang )

1

MỤC LỤC
MỤC LỤC......................................................................................................................................................1
Danh mục các thuật ngữ................................................................................................................................2
Danh sách bảng...............................................................................................................................................3
MỞ ĐẦU ........................................................................................................................................................4
Chương 1. RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ ...................7
1.1. Rút gọn thuộc tính theo tiếp cận mô hình tập thô truyền thống ................................ 7
1.1.1

Hệ thông tin đầy đủ và mô hình tập thô truyền thống...................................... 7

1.1.2

Rút gọn thuộc tính trong mô hình tập thô truyền thống ................................. 10

1.2. Rút gọn thuộc tính theo tiếp cận mô hình tập thô dung sai ..................................... 13
1.2.1

Hệ thông tin không đầy đủ và mô hình tập thô dung sai ................................ 13

1.2.2

Rút gọn thuộc tính trong mô hình tập thô dung sai........................................ 17

Chương 2. RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG MÔ HÌNH
TẬP THÔ DUNG SAI ....................................................................................................... 26
2.1. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming trong mô hình tập
thô dung sai ......................................................................................................................... 27
2.1.1. Khoảng cách Hamming giữa hai phủ ............................................................ 27

2.1.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming .................. 30
2.1.3. Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách Hamming 37

2.2. Trích lọc luật dựa trên mô hình tập thô dung sai ..................................................... 38
2.2.1. Luật quyết định trong mô hình tập thô dung sai ............................................ 38
3.4.1. Thuật toán trích lọc luật trong mô hình tập thô dung sai ............................... 40

Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ................................................. 42
3.1. Bài toán...................................................................................................................... 42
3.2. Phân tích, lựa chọn công cụ ...................................................................................... 43
3.2.1. Mô tả phương pháp sử dụng độ đo lượng thông tin ....................................... 43
3.2.2. Lựa chọn công cụ cài đặt .............................................................................. 44

3.3. Một số kết quả thử nghiệm ....................................................................................... 44
3.3.1. Kết quả thử nghiệm về rút gọn thuộc tính sử dụng khoảng cách Hamming ... 44
3.3.2. Kết quả thử nghiệm về trích lọc luật trong mô hình tập thô dung sai ............. 47

KẾT LUẬN ..................................................................................................................................................49
Tài liệu tham khảo ........................................................................................................................................50

2

Danh mục các thuật ngữ
Thuật ngữ tiếng Việt

Thuật ngữ tiếng Anh

Tập thô

Rough Set

Hệ thông tin

Information System

Hệ thông tin đầy đủ

Complete Information System

Hệ thông tin không đầy đủ

Incomplete Information System

Hệ thông tin không nhất quán

Inconsistent Information System

Bảng quyết định

Decision Table

Bảng quyết định đầy đủ

Complete Decision Table

Bảng quyết định không đầy đủ

Incomplete Decision Table

Bảng quyết định không nhất quán

Inconsistent Decision Table

Quan hệ không phân biệt được

Indiscernibility Relation

Quan hệ dung sai

Tolerance Relation

Xấp xỉ dưới

Lower Approximation

Xấp xỉ trên

Upper Approximation

Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn

Reduct

Tập lõi

Core

Luật quyết định

Decision Rule

Khoảng cách

Distance

3

Danh sách bảng
Bảng 1.1. Bảng thông tin về bệnh cúm ............................................................................. 9
Bảng 1.2. Bảng quyết định về bệnh cúm .......................................................................... 12
Bảng 1.3. Bảng thông tin về các xe hơi............................................................................ 15
Bảng 1.4. Bảng quyết định về các xe hơi ......................................................................... 17
Bảng 2.1. Hệ thông tin không đầy đủ về các xe hơi......................................................... 28
Bảng 2.2. Bảng quyết định không đầy đủ về các xe hơi ................................................... 34
Bảng 2.3. Bảng quyết định không đầy đủ về các xe hơi ................................................... 38
Bảng 3.1. Kết quả thực hiện Thuật toán HDBAR và Thuật toán IQBAR .......................... 45
Bảng 3.2. Tập rút gọn của Thuật toán HDBAR và Thuật toán IQBAR ............................. 45
Bảng 3.3. Kết quả thực hiện Thuật toán HDBAK và Thuật toán IQBAK .......................... 46
trên các bộ số liệu lớn ..................................................................................................... 46
Bảng 3.4. Tập rút gọn tốt nhất của bộ số liệu Soybean-small.......................................... 47
Bảng 3.5. Các luật phân lớp trên bảng quyết định rút gọn............................................... 48

4

MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [16] đề xuất vào những năm đầu thập
niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết
các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc chắn.
Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá
trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá dữ
liệu và đánh giá kết quả thu được. Rút gọn thuộc tính và trích lọc luật quyết định
(luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô trong khai phá dữ liệu.
Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai
đoạn khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư
thừa nhằm tím tập con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo
toàn thông tin phân lớp của bảng quyết định. Dựa trên tập rút gọn thu được, việc
sinh luật và phân lớp đạt hiệu quả cao nhất.
Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền
giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ. Trên bảng quyết định
không đầy đủ, Kryszkiewicz [10] đã mở rộng quan hệ tương đương trong lý thuyết
tập thô truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai
nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Dựa trên mô hình
tập thô dung sai, một số công trình công bố trong mấy năm gần đây đã đề xuất một
số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc
luật, đáng chú ý là các công trình [6, 7, 8, 11, 13, 12, 23]. Tuy nhiên, các kết quả
nghiên cứu về các phương pháp rút gọn thuộc tính và trích lọc luật trên các bảng
quyết định không đầy đủ còn nhiều hạn chế.
Luận văn đặt ra hai mục tiêu chính:
1) Tổng hợp các công bố mới nhất về các phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, bao
gồm: phân nhóm các phương pháp và nghiên cứu mối liên hệ giữ các nhóm; nghiên
cứu các độ đo đánh giá hiệu năng tập luật quyết định. Trên cơ sở đó, luận văn đề

5

xuất các độ đo cải tiến đánh giá hiệu năng tập luật quyết định và nghiên cứu sự thay
đổi giá trị các độ đo này trên các tập rút gọn nhằm đánh giá các phương pháp rút
gọn thuộc tính về mặt định lượng.
2) Tổng hợp các công bố về các phương pháp rút gọn thuộc tính sử dụng
khoảng cách. Từ đó, xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách
Hamming (một trong những khoảng cách đơn giản và hiệu quả) và thử nghiệm
phương pháp trên các bộ số liệu mẫu từ kho dữ liệu UCI.
Đối tượng nghiên cứu của luận văn là các bảng quyết định không đầy đủ với
kích thước trung bình và kích thước lớn.
Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính ở
bước tiền xử lý số liệu trong quá trình khai phá dữ liệu.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt chẽ dựa
vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố. Về nghiên cứu thực
nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử nghiệm thuật toán với
các bộ số liệu lấy từ kho dữ liệu UCI, so sánh và đánh giá kết quả thực nghiệm so
với kết quả nghiên cứu lý thuyết, từ đó kết luận tính đúng đắn của kết quả nghiên
cứu.
Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
Chương 1 trình bày các khái niệm cơ bản về mô hình tập thô truyền thống,
phương pháp rút gọn thuộc tính trong mô hình tập thô truyền thống và mô hình tập
thô mở rộng dựa trên quan hệ dung sai, phương pháp rút gọn thuộc tính trong mô
hình tập thô dung sai. Tổng kết các công bố mới nhất về các phương pháp rút gọn
thuộc tính, mối liên hệ, phân nhóm các phương pháp

6

Chương 2 đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách
Hamming. Trích lọc luật quyết định từ tập rút gọn theo phương pháp rút gọn thuộc
tính sử dụng khoảng cách Hamming.
Chương 3 cài đặt, thử nghiệm, đánh giá phương pháp trên các bộ số liệu
mẫu từ kho dữ liệu UCI.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hướng phát triển
tiếp theo.

7

Chương 1. RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ
THUYẾT TẬP THÔ
Mô hình tập thô truyền thống do Pawlak đề xuất [16] là công cụ hiệu quả để
giải quyết bài toán phân lớp trên các hệ thông tin đầy đủ dựa trên quan hệ tương
đương. Tuy nhiên trong thực tế, các hệ thông tin thường thiếu giá trị trên miền giá
trị của thuộc tính, gọi là các hệ thông tin không đầy đủ. Trong hệ thông tin không
đầy đủ, Kryszkiewicz [10] được xem là người đầu tiên mở rộng quan hệ tương
đương thành quan hệ dung sai và xây dựng mô hình tập thô mở rộng dựa trên quan
hệ dung sai, gọi là mô hình tập thô dung sai. Trong chương này, tôi trình bày các
khái niệm cơ bản về mô hình tập thô truyền thống và mô hình tập thô dung sai.

1.1. Rút gọn thuộc tính theo tiếp cận mô hình tập thô truyền
thống
1.1.1 Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1) Hệ thông tin đầy đủ
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm p

cột ứng với p thuộc tính và n hàng ứng với n đối tượng. Một cách hình thức, hệ
thông tin được định nghĩa như sau.
Định nghĩa 1.1. Hệ thông tin là một bộ tứ IS  U , A,V , f  trong đó U là tập hữu hạn,
khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính; V   Va với
a A

Va là tập giá trị của thuộc tính a  A ; f : U  A  Va là hàm thông tin, a  A, u  U

f  u, a   Va .

Với mọi u U , a  A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là a  u 
thay vì f  u, a  . Nếu B  b1 , b2 ,..., bk   A là một tập con các thuộc tính thì ta ký
hiệu bộ các giá trị bi  u  bởi B  u  . Như vậy, nếu u và v là hai đối tượng, thì ta viết
B  u   B  v  nếu bi  u   bi  v  với mọi i  1,..., k .

8

Cho hệ thông tin IS  U , A,V , f  , nếu tồn tại u  U và a  A sao cho a  u 
thiếu giá trị (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại IS
được gọi là hệ thông tin đầy đủ. Trong luận văn này, hệ thông tin đầy đủ được gọi tắt
là hệ thông tin.
Xét hệ thông tin IS  U , A,V , f  . Mỗi tập con các thuộc tính P  A xác định
một quan hệ hai ngôi trên U, ký hiệu là IND  P  , xác định bởi





IND  P    u, v   U  U a  P, a  u   a  v  .

IND  P  là quan hệ P-không phân biệt được. Dễ thấy rằng IND  P  là một quan hệ

tương đương trên U. Nếu  u, v   IND  P  thì hai đối tượng u và v không phân biệt được
bởi các thuộc tính trong P. Quan hệ tương đương IND  P  xác định một phân hoạch trên
U, ký hiệu là U / IND  P  hay U / P . Ký hiệu lớp tương đương trong phân hoạch





U / P chứa đối tượng u là u P , khi đó u P  v U  u , v   IND  P  .

2) Mô hình tập thô truyền thống
Cho hệ thông tin IS  U , A,V , f  và tập đối tượng X  U . Với một tập thuộc
tính B  A cho trước, chúng ta có các lớp tương đương của phân hoạch U / B , thế thì
một tập đối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế nào?
Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tương đương của
U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của

một số hữu hạn các lớp tương đương của U / B . Có hai cách xấp xỉ tập đối tượng X
thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký
hiệu là lượt là BX và BX , được xác định như sau:









BX  u U u B  X , BX  u  U u B  X   .

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B. Từ

hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BN B  X   BX  BX : B-miền biên của X , U  BX : B-miền ngoài của X.

9

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X,
còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các
lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
BX   Y  U / B Y  X  , BX   Y  U / B Y  X   .

Trong trường hợp BN B  X    thì X được gọi là tập chính xác (exact set),
ngược lại X được gọi là tập thô (rough set).
Với B, D  A , ta gọi B-miền dương của D là tập được xác định như sau
POS B ( D) 

  BX 
X U / D

Rõ ràng POS B ( D) là tập tất cả các đối tượng u sao cho với mọi v  U mà





u  B   v  B  ta đều có u  D   v  D  . Nói cách khác, POS B ( D )  u  U u B  u D .

Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở Bảng 1.1.
Bảng 1.1. Bảng thông tin về bệnh cúm
U

Đau đầu

Thân nhiệt

Cảm cúm

u1

Có

Bình thường

Không

u2

Có

Cao

Có

u3

Có

Rất cao

Có

u4

Không

Bình thường

Không

u5

Không

Cao

Không

u6

Không

Rất cao

Có

u7

Không

Cao

Có

u8

Không

Rất cao

Không

u , u , u  , u , u , u , u , u 
U / {Thân nhiệt} = u , u  , u , u , u  , u , u , u 
U / {Cảm cúm} = u , u , u , u  , u , u , u , u 
U / {Đau đầu, Cảm cúm} = u  , u , u  , u , u , u  , u , u 

Ta có: U / {Đau đầu} =

1

2

1

1

3

4

4

4

2

5

5

5

8

6

7

2

1

7

3

3

2

8

6

3

6

8

7

4

5

8

6

7

Như vậy, các bệnh nhân u2 , u3 không phân biệt được về đau đầu và cảm cúm,

nhưng phân biệt được về thân nhiệt.
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:

10

u1  , u 2 , u 3  , u 4  , u 5 , u 7  , u 6 , u 8  .
Đặt X  {u u (Cảm cúm) = Có} = u2 , u3 , u6 , u7  . Khi đó:
BX  u2 , u3  và BX  u2 , u3 , u5 , u6 , u7 , u8 . Như vậy, B-miền biên của X là tập

hợp BN B  X   u5 , u6 , u7 , u8  . Nếu đặt D = {Cảm cúm} thì
U / D   X 1  u1, u4 , u5 , u8  ; X 2  u2 , u3 , u6 , u7  , BX 1  u1 , u4  ; BX 2  u2 , u3  ,
POS B ( D ) 

  BX   u , u , u , u  .
1

2

3

4

X U / D

Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô được
chia thành bốn lớp cơ bản:
1) Tập X là B-xác định thô nếu BX   và BX  U .
2) Tập X là B-không xác định trong nếu BX   và BX  U .
3) Tập X là B-không xác định ngoài nếu BX   và BX  U .

4) Tập X là B-không xác định hoàn toàn nếu BX   và BX  U .
1.1.2 Rút gọn thuộc tính trong mô hình tập thô truyền thống

1) Bảng quyết định
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng
dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc tính
A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập
thuộc tính điều kiện và tập thuộc tính quyết định. Tức là DS  U , C  D, V , f  với
CD .

Xét bảng quyết định DS  U , C  D, V , f  với giả thiết u U , d  D , d  u 
đầy đủ giá trị, nếu tồn tại u  U và c  C sao cho c  u  thiếu giá trị thì DS được gọi
là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ.
Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C, tức là
với mọi u, v  U , C  u   C  v  kéo theo D  u   D  v  . Ngược lại thì gọi là không nhất
quán hay mâu thuẫn. Theo định nghĩa miền dương, bảng quyết định là nhất quán khi và
chỉ khi POSC  D   U . Trong trường hợp bảng không nhất quán thì POSC  D  chính là
tập con cực đại của U sao cho phụ thuộc hàm C  D đúng.

11

2) Tập lõi và tập rút gọn trong bảng quyết định
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm:
thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính
dư thừa (redundant attribute). Thuộc tính lõi là thuộc tính không thể thiếu trong
việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất hiện trong tất cả các tập rút
gọn của bảng quyết định. Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ
chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không
xuất hiện trong bất kỳ tập rút gọn nào của bảng quyết định. Thuộc tính rút gọn là

thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định.
- Tập lõi
Cho bảng quyết định DS  U , C  D, V , f  . Thuộc tính c  C được gọi là
không

cần

thiết

(dispensable)

trong

DS

dựa

trên

miền

dương

nếu

POSC  D   POS(C c)  D  ; Ngược lại, c được gọi là cần thiết (indispensable). Tập

tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền dương và
được ký hiệu là PCORE  C  . Khi đó, thuộc tính cần thiết chính là thuộc tính lõi.
- Tập rút gọn

Cho bảng quyết định DS  U, C  D,V, f  và tập thuộc tính R  C . Nếu
1) POS R ( D)  POSC ( D)
2) r  R, POS R r ( D)  POSC ( D)
thì R là một tập rút gọn của C dựa trên miền dương.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak. Ký hiệu
PRED  C  là họ tất cả các tập rút gọn Pawlak của C. Khi đó PCORE  C  



R.

RPRED  C 

Cho bảng quyết định DS  U , C  D, V , f  và a  C . Ta nói rằng a là thuộc
tính rút gọn của DS nếu tồn tại một tập rút gọn R  PRED  C  sao cho a  R .
Cho bảng quyết định DS  U , C  D, V , f  và a  C . Ta nói rằng a là thuộc
tính dư thừa của DS nếu a  C 



RPRED  C 

R.

12

Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2.
Bảng 1.2. Bảng quyết định về bệnh cúm
U

Mệt mỏi

Đau đầu

Đau cơ

Thân nhiệt

Cảm cúm

u1

Có

Có

Có

Bình thường

Không

u2

Có

Có

Có

Cao

Có

u3

Có

Có

Có

Rất cao

Có

u4

Có

Không

Có

Bình thường

Không

u5

Có

Không

Không

Cao

Không

u6

Có

Không

Có

Rất cao

Có

Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 = {Đau đầu,
Thân nhiệt}. Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt là thuộc
lõi duy nhất. Các thuộc tính không cần thiết bao gồm:
 Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào
 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt
trong một tập rút gọn. Hai thuộc tính này đều không cần thiết theo nghĩa là,
từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn

đoán đúng bệnh. Tức là
POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}).
3) Các phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ:
Mục tiêu của rút gọn thuộc tính trong bảng quyết định là tìm tập con nhỏ nhất
của tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp của bảng quyết định. Dựa
vào tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất. Với mục tiêu
đó, có rất nhiều các phương pháp rút gọn thuộc tính khác nhau đã được đề xuất dựa
trên các tiêu chuẩn khác nhau. Đối với một bảng quyết định có thể có nhiều tập rút
gọn khác nhau. Độ phức tạp của thuật toán tìm tất cả các tập rút gọn là hàm mũ của
số thuộc tính điều kiện. Tuy nhiên, trong thực hành không đòi hỏi tìm tất cả các tập

13

rút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá
nào đó là đủ. Do đó, các phương pháp rút gọn thuộc tính đều thực hiện:
1) Đưa ra khái niệm tập rút gọn của phương pháp.
2) Đưa ra khái niệm độ quan trọng của thuộc tính. Ý nghĩa độ quan trọng thuộc
tính của tất cả các phương pháp đều giống nhau, đều đặc trưng cho khả năng đóng
góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ quan trọng càng
lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại.
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu
chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính).
Cho đến nay có rất nhiều các phương pháp rút gọn thuộc tính trong bảng quyết
định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống, các phương pháp điển hình
được trình bày trong công trình số [1], bao gồm:
1) Phương pháp rút gọn thuộc tính dựa trên miền dương
2) Phương pháp rút gọn thuộc tính sử dụng các phép toán trong đại số quan
hệ

3) Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt
4) Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán hạt
5) Phương pháp rút gọn thuộc tính sử dụng entropy thông tin

1.2. Rút gọn thuộc tính theo tiếp cận mô hình tập thô dung sai
1.2.1 Hệ thông tin không đầy đủ và mô hình tập thô dung sai

Với hệ thông tin IS  U , A , nếu tồn tại u U và a  A sao cho a  u  chứa giá
trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại IS
được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký hiệu là ‘*’ và hệ
thông tin không đầy đủ là IIS  U , A .
Xét hệ thông tin không đầy đủ IIS  U , A ), với tập thuộc tính P  A ta định
nghĩa một quan hệ nhị phân trên U như sau





SIM  P    u , v   U  U a  P, a  u   a  v   a  u   '*'  a  v   '*' .

14

Quan hệ SIM  P  không phải là quan hệ tương đương vì chúng có tính phản xạ,
đối xứng nhưng không có tính bắc cầu. SIM  P  là một quan hệ dung sai (tolerance
relation), hay quan hệ tương tự (similarity relation) trên U. Theo [10],
SIM  P    aP SIM a .

Gọi S P  u  là tập v U  u, v   SIM  P  . S P  u  là tập lớn nhất các đối tượng
không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớp

dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ
SIM(P) trên U là U / SIM  P  , khi đó các lớp dung sai trong U / SIM  P  không phải
là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau và
 uU S P  u   U . Ký hiệu tập tất cả các phủ của U sinh bởi các tập con thuộc tính
P  A là COVER U  .

Trên COVER U  ta định nghĩa một quan hệ thứ tự bộ phận  COVERU  ,  như sau.
Định nghĩa 1.1. [10] Cho hệ thông tin không đầy đủ IIS  U , A với P, Q  A . Ta nói:
1)

Phủ

U / SIM  P 

và

phủ

U / SIM  Q 

là

như

nhau

(viết

U / SIM  P   U / SIM  Q  ) khi và chỉ khi u U , S P  u   SQ  u  .

2)

U / SIM  P  mịn hơn U / SIM  P  (viết U / SIM  P   U / SIM  Q  ) khi

và chỉ khi u  U , S P  u   SQ  u  .
Trên

 COVERU  ,

,









  SA  u  SA  u   u , u U

phần

tử

nhỏ

nhất

gọi

là

phủ

rời

rạc

và phần tử lớn nhất gọi là phủ một khối

  SA  u  SA  u   U , u U .

Tính chất 1.1. [10] Cho hệ thông tin không đầy đủ IIS  U , A
1) Nếu P  Q  A thì SQ  u   S P  u  với u U .

15

2) Nếu P  Q  A thì U / SIM  Q   U / SIM  P  .
3) Nếu P, Q  A thì S P Q  u   S P  u   SQ  u  với u U .
Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X trong
hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX , được xác định như sau



 





PX  u U S P  u   X  u  X S P  u   X



PX  u U S P  u   X     S P  u  u U 

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập
BN P  X   PX  PX , và P-miền ngoài của X là tập U  PX .

Ví dụ 1.3. Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ
IIS  U , A với U  {u1 , u2 , u3 , u4 , u5 , u6 } , A  {a1 , a2 , a3 , a4 } với a1 (Đơn giá), a2 (Km

đã đi), a3 (Kích thước), a4 (Tốc độ tối đa).
Bảng 1.3. Bảng thông tin về các xe hơi
Ô tô

Đơn giá

Km đã đi

Kích thước

Tốc độ tối đa

u1

Cao

Cao

Đầy đủ

Thấp

u2

Thấp

*

Đầy đủ

Thấp

u3

*

*

Gọn nhẹ

Cao

u4

Cao

*

Đầy đủ

Cao

u5

*

*

Đầy đủ

Cao

u6

Thấp

Cao

Đầy đủ

*

Ta có U / SIM ( A)  {S A (u1 ), S A (u2 ), S A (u3 ), S A (u4 ), S A (u5 ), S A (u6 )} , với
S A (u1 )  {u1} , S A (u2 )  {u2 , u6 } , S A (u3 )  {u3 } , S A (u4 )  {u4 , u5 }
S A (u5 )  {u4 , u5 , u6 } , S A (u6 )  {u2 , u5 , u6 } .

Với P  a3 , a4  ta có

16

U / SIM ( P)  {S P (u1 ), S P (u2 ), S P (u3 ), S P (u4 ), S P (u5 ), S P (u6 )} , với
SP (u1)  SP (u2 ) {u1, u2 , u6}, SP (u3 ) {u3}, SP (u4 )  SP (u5 ) {u4 , u5, u6}, SP (u6 ) {u1, u2, u4, u5,u6}

Xét tập đối tượng X  {u1 , u2 , u4 , u6 } , khi đó PX  u1, u2 và PX  u1, u2 , u4 , u5 , u6  .
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng
dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc tính
A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập
thuộc tính điều kiện và tập thuộc tính quyết định. Tức là DS  U , C  D  với
CD .

Xét bảng quyết định DS  U , C  D  với giả thiết u U , d  D , d  u  đầy
đủ giá trị, nếu tồn tại u  U và c  C sao cho c  u  thiếu giá trị thì DS được gọi là
bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ. Ta
biểu diễn bảng quyết định không đầy đủ là IDS  U , C  D  với d  D, '*' Vd .
Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc tính quyết định duy
nhất d  .
Cho bảng quyết định không đầy đủ IDS  U , A  d  . Với B  A , u  U ,
 B (u )  d  v  v  S B (u ) gọi là hàm quyết định suy rộng, nếu |  A (u ) | 1 với mọi
u  U thì IDS là nhất quán, trái lại IDS là không nhất quán.

Tương tự trong bảng quyết định đầy đủ, với B  A , miền dương của d  đối
với B, ký hiệu là POS B (d ) , được định nghĩa POS B (d )  {BX | X  U / {d }} , khi
đó IDS là nhất quán khi và chỉ khi POS B (d )  U .
Ví dụ 1.4. Xét bảng quyết định không đầy đủ IDS  U , A  d  cho ở Bảng 1.3 được
xây dựng từ hệ thông tin không đầy đủ ở Ví dụ 1.3 bằng cách thêm vào thuộc tính

quyết định d (Gia tốc), với U  {u1 , u2 , u3 , u4 , u5 , u6 } , A  {a1 , a2 , a3 , a4 } .

17

Bảng 1.4. Bảng quyết định về các xe hơi
Ô tô

Đơn giá

Km đã đi

Kích thước

Tốc độ

Gia tốc

u1

Cao

Cao

Đầy đủ

Thấp

Tốt

u2

Thấp

*

Đầy đủ

Thấp

Tốt

u3

*

*

Gọn nhẹ

Cao

Xấu

u4

Cao

*

Đầy đủ

Cao

Tốt

u5

*

*

Đầy đủ

Cao

Tuyệt hảo

u6

Thấp

Cao

Đầy đủ

*

Tốt

Ta có U / d   { X 1 , X 2 , X 3} với X 1  {u1 , u2 , u4 , u6 }, X 2  {u3}, X 3  {u5 } .
Các tập xấp xỉ dưới đối với A là AX 1  u1 , u2  , AX 2  u3  , AX 3   .
Do đó, POS A (d )  {u1 , u2 , u3} .
Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính A là
 A (u1 )  {Tốt},  A (u2 )  {Tốt},  A (u3 )  {Xấu},  A (u4 )  {Tốt, Tuyệt hảo},
 A (u5 )  {Tốt, Tuyệt hảo},  A (u6 )  {Tốt, Tuyệt hảo}.

Do đó, IDS là bảng quyết định không nhất quán.
1.2.2 Rút gọn thuộc tính trong mô hình tập thô dung sai

Rút gọn thuộc tính trong hệ thông tin đầy đủ theo tiếp cận mô hình tập thô truyền
thống của Pawlak [16] là chủ đề nghiên cứu sôi động trong nhiều năm qua [1]. Trong
các hệ thông tin không đầy đủ, kể từ khi Kryszkiewicz [10] xây dựng mô hình tập thô
dung sai dựa trên quan hệ dung sai, nhiều công trình đã công bố các phương pháp rút
gọn thuộc tính dựa trên các độ đo khác nhau [6, 7, 8, 11, 12, 13, 23]. Giống như trên
bảng quyết định đầy đủ, các phương pháp rút gọn thuộc tính trong bảng quyết định
không đầy đủ theo tiếp cận mô hình tập thô dung sai đều thực hiện:
1) Đưa ra khái niệm tập rút gọn dựa trên độ đo mà phương pháp sử dụng.

18

2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng đóng
góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ quan trọng càng
lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại.
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu
chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính).
Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể áp dụng đối
với các bài toán có dữ liệu lớn. Các thuật toán heuristic này thường được xây dựng
theo hai hướng tiếp cận khác nhau: hướng tiếp cận từ dưới lên (bottom-up) và

hướng tiếp cận từ trên xuống (top-down). Dựa vào nhận xét tập lõi xuất hiện trong
mọi tập rút gọn nên các thuật toán xây dựng theo hướng tiếp cận bottom-up được
chia thành hai nhóm: các thuật toán tính toán lõi và các thuật toán không tính toán
lõi. Ý tưởng chung của các thuật toán tính toán lõi là xuất phát từ tập lõi, bổ sung dần
dần các thuộc tính có độ quan trọng lớn nhất vào tập lõi cho đến khi thu được tập rút
gọn. Các thuật toán không tính toán lõi xuất phát từ tập rỗng và bổ sung dần các
thuộc tính có độ quan trọng lớn nhất cho cho đến khi thu được tập rút gọn. Các
thuật toán được xây dựng theo hướng tiếp cận buttom-up xuất phát từ tập thuộc tính
điều kiện ban đầu, loại bỏ dần các thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu
được tập rút gọn. Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp danh sách các
thuộc tính theo thứ tự giảm dần hoặc tăng dần của độ quan trọng tại mỗi bước lặp.
Theo hướng tiếp cận mô hình tập thô dung sai do Kryszkiewicz [10] đề xuất,
nhiều công trình nghiên cứu về các phương pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ đã được công bố. Các phương pháp điển hình có thể kể
đến:
 Phương pháp dựa trên miền dương [24]
 Phương pháp sử dụng hàm quyết định suy rộng [10]
 Phương pháp sử dụng độ đo lượng thông tin [7]
 Phương pháp sử dụng ma trận phân biệt [9]

19

 Phương pháp sử dụng ma trận dung sai [14 ]
 Phương pháp sử dụng hàm phân bố [21]
 Phương pháp sử dụng hàm ấn định [23]
Mục này giới thiệu các phương pháp rút gọn thuộc tính đã có cùng với các
khái niệm tập rút gọn của mỗi phương pháp, từ đó tổng kết các kết quả nghiên cứu
về mối liên hệ giữa các tập rút gọn và kết quả nghiên cứu về phân nhóm các phương
pháp dựa vào tập rút gọn trong công trình [14]. Việc phân nhóm các phương pháp

thực hiện theo nguyên tắc: Các phương pháp có tập rút gọn như nhau được phân
thành một nhóm. Các kết quả nghiên cứu này là cơ sở để tôi thực hiện so sánh, đánh
giá các phương pháp rút gọn thuộc tính ở phần tiếp theo. Việc so sánh, đánh giá các
phương pháp rút gọn thuộc tính nhằm mục tiêu lựa chọn một phương pháp phù hợp
và hiệu quả đối với một bài toán thực tế.
Kryszkiewicz [10] đưa ra khái niệm đầu tiên về tập rút gọn, là tập con tối
thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của tất cả
các đối tượng.
Định nghĩa 2.1. [10] Cho bảng quyết định không đầy đủ IDS  U, A d . Nếu
R  A thỏa mãn:

(1)  R  u    A  u  với mọi u U

(2) R '  R , tồn tại u U sao cho  R  u    A  u 
'

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng.
Zuqiang Meng và các cộng sự [24] đưa ra khái niệm về tập rút gọn dựa trên
miền dương.
Định nghĩa 2.2. [24] Cho bảng quyết định không đầy đủ IDS  U, A d . Nếu
R  A thỏa mãn:

(1) POS R d   POS A d 

20

(2) R '  R , POS R

'

d   POS d 
A

thì R được gọi là một tập rút gọn của IDS dựa trên miền dương.
Huang B và các cộng sự [7] đưa ra khái niệm về tập rút gọn dựa trên lượng
thông tin (information quantity). Với B  A , lượng thông tin của B đối với {d} là





I B d   I  B  d   I  B  với I  B   1 

n

1
U

2

 S u 
B

i

và U  u1 , u2 ,..., un  .

i 1

Định nghĩa 2.3. [7] Cho bảng quyết định không đầy đủ IDS  U, A d . Nếu
R  A thỏa mãn:

1 I  R d   I  Ad  ;
 2  R'  R, I  R ' d   I  A d  .

.

thì R được gọi là một tập rút gọn của IDS dựa trên lượng thông tin.
Trong [9], Huasheng ZOU và cộng sự đưa ra khái niệm tập rút gọn dựa trên
ma trận phân biệt. Ma trận phân biệt (discernibility matrix) của IDS là M   mi j  nn ,
các phần tử mi j được xác định như sau:



 a a  A, a(ui )    a(u j )    a(ui )  a(u j )

mi j  
 

 d  u  
j

A

 ui 

d  u j    A  ui 

Định nghĩa 2.4. [9] Cho bảng quyết định không đầy đủ IDS  U, A d và ma trận

phân biệt M   mi j  nn . Nếu R  C thỏa mãn:
(1) R  mi j   với mọi mi j  
(2) Với mọi r  R , R  r không thỏa mãn (1)
thì R được gọi là một tập rút gọn của IDS dựa trên ma trận phân biệt.

21

Cũng theo hướng tiếp cận này, công trình [14] đưa ra khái niệm tập rút gọn
dựa trên ma trận dung sai. Ma trận dung sai (tolerance matrix) của IDS là
TM   mi j  , các phần tử mi j được xác định như sau:
nn



 a a  A, a(ui )    a(u j )    a(ui )  a(u j )

mi j  
 



d  ui   d  u j 
d  ui   d  u j 

Định nghĩa 2.5. Cho bảng quyết định không đầy đủ IDS  U, A d và ma trận
dung sai TM   mi j  nn . Nếu R  C thỏa mãn:
(1) R  mi j   với mọi mi j  
(2) Với mọi r  R , R  r không thỏa mãn (1)
thì R được gọi là một tập rút gọn của IDS dựa trên ma trận dung sai.

Ngoài ra, trong các công trình [21, 23], các tác giả đưa ra khái niệm tập rút
gọn phân bố (distribution reduct), tập rút gọn ấn định (assignment reduct).
Định nghĩa 2.6 [21, 23] Cho bảng quyết định không đầy đủ IDS  U, A d ,





R  C , U  u1 ,..., u U , U / d   Y1 ,..., Ym  . Với ui U , đặt:

 R  ui   Y1R  ui  ,..., YmR  ui   với Y jR  ui  

Y j  S R  ui 
S R  ui 

, j  1,..., m .

 R  ui   Y j : Y j  S R  ui   

(1) R được gọi là một tập rút gọn phân bố của IDS nếu R  ui    A  ui  với
i  1,..., U và P '  P , tồn tại u j  U sao cho  R  u j    A  u j  .

(1) R được gọi là một tập rút gọn ấn định của IDS nếu  R  ui    A  ui  với
i  1,..., U và P '  P , tồn tại u j  U sao cho  R  u j    A  u j  .

22

Trong mục này, tôi tổng kết các kết quả nghiên cứu mỗi liên hệ giữa các khái
niệm tập rút gọn của bảng quyết định không đầy đủ nhất quán và không nhất quán

trong công trình số [14]. Để mô tả một cách ngắn gọn, tôi ký hiệu các tập rút gọn ở
Bảng 2.1 như sau:
Bảng 2.1. Ký hiệu các tập rút gọn trong bảng quyết định không đầy đủ.
Ký hiệu tập rút gọn

Mô tả

RP

Tập rút gọn dựa trên miền dương

R

Tập rút gọn dựa trên hàm quyết định suy rộng

R

Tập rút gọn ấn định

RM

Tập rút gọn dựa trên ma trận phân biệt

RI

Tập rút gọn dựa trên lượng thông tin

RTM

Tập rút gọn dựa trên ma trận dung sai

R

Tập rút gọn phân bố

Trước hết, tôi tổng kết các kết quả đã công bố về mối liên hệ giữa các khái
niệm tập rút gọn trong bảng quyết định không đầy đủ.
1) Nếu bảng quyết định nhất quán, các tác giả trong [14, 21, 24] đã chỉ ra RP ,
R , R , RM , RI , RTM , R là tương đương nhau.

2) Nếu bảng quyết định không nhất quán:
-

Các tác giả trong công trình [21] đã chứng minh R tương đương với R .

-

Các tác giả trong công trình [9] đã chứng minh R tương đương với RM .

-

Các tác giả trong công trình [14] đã chứng minh RI tương đương với RTM .

-

Các tác giả trong công trình [14] đã chứng minh RP là tập con của R ,

nghĩa là: nếu R là một tập rút gọn dựa trên hàm quyết định suy rộng thì tồn tại
RP  R với RP là một tập rút gọn dựa trên miền dương.

23

-

Các tác giả trong công trình [14] đã chứng minh R là tập con của RI ,

nghĩa là: nếu RI là một tập rút gọn dựa trên lượng thông tin thì tồn tại R  RI với
R là một tập rút gọn dựa trên hàm quyết định suy rộng.

-

Các tác giả trong công trình [14] đã chứng minh R là tập con của R ,

nghĩa là: nếu R là một tập rút gọn phân bố thì tồn tại R  R với R là một tập rút
gọn dựa trên hàm quyết định suy rộng.
Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không
nhất quán được biểu diễn bằng sơ đồ sau:

RP





RI  RTM



R

R  R  RM

Hình 2.1. Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ
Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [14] đã thực
hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn của
các nhóm. Cụ thể:
Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhóm:
Nhóm 1: Bao gồm tập rút gọn RP .
Nhóm 2: Bao gồm các tập rút gọn R , R , RM .
Nhóm 3: Bao gồm các tập rút gọn RI , RTM .
Nhóm 4: Bao gồm tập rút gọn R .
Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:

24

 Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn R2
thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1  R2  R3 .
 Nếu R4 là một tập rút gọn thuộc nhóm 4 thì tồn tại một tập rút gọn R2
thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1  R2  R4 .
Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm tương ứng.
Nhóm phương pháp 1: Bao gồm phương pháp miền dương (tập rút gọn RP )
Nhóm phương pháp 2: Bao gồm phương pháp sử dụng hàm quyết định suy
rộng ( R ), phương pháp sử dụng hàm ấn định (tập rút gọn R ), phương pháp sử
dụng ma trận phân biệt (tập rút gọn RM )
Nhóm phương pháp 3: Bao gồm phương pháp sử dụng độ đo lượng thông tin
( RI ), phương pháp sử dụng ma trận dung sai ( RTM ).
Nhóm phương pháp 4: Bao gồm phương pháp sử dụng hàm phân bố (tập rút

gọn R ).
Đế đánh giá tính hiệu quả của một phương pháp rút gọn thuộc tính, cộng
đồng nghiên cứu về tập thô sử dụng hai tiêu chuẩn: 1) độ phức tạp về thời gian
thực hiện thuật toán heuristic tìm một tập rút gọn tốt nhất và 2) chất lượng phân
lớp của tập rút gọn. Các công bố về rút gọn thuộc tính đều tính toán độ phức tạp
thời gian thuật toán tìm tập rút gọn. Do đó, hoàn toàn có thể so sánh được tính hiệu
quả của các phương pháp về tiêu chuẩn thời gian.
Việc đánh giá chất lượng phân lớp của tập rút gọn dựa vào số lượng thuộc
tính của tập rút gọn và chất lượng phân lớp của từng thuộc tính. Về mặt định tính,
tập rút gọn có số thuộc tính càng ít thì chất lượng phân lớp càng cao. Tuy nhiên,
điều này chưa hẳn đã chính xác vì chất lượng phân lớp của từng thuộc tính khác
nhau. Tóm lại, ta cần phải sử dụng độ đo mang tính định lượng để đánh giá chất
lượng phân lớp của tập rút gọn. Trong lý thuyết tập thô, các nhà nghiên cứu sử

25

dụng ba độ đo để đánh giá tính đúng đắn và tính hiệu quả của một phương pháp rút
gọn thuộc tính: độ chắc chắn (certainty measure), độ nhất quán (consistency
measure) và độ hỗ trợ (support measure), cụ thể là: tập rút gọn của phương pháp
rút gọn thuộc tính phải bảo toàn độ chính xác, độ nhất quán của tập luật quyết định.
Độ hỗ trợ sử dụng để đánh giá chất lượng phân lớp của tập rút gọn. Độ hỗ trợ của
tập luật quyết định dựa trên tập rút gọn càng cao thì chất lượng phân lớp của tập
rút gọn đó càng cao.
Kết quả mới nhất về đánh giá các phương pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ được trình bày trong công trình số [27]. Trong đó, các tác
giả đã xây dựng ba độ đo mới để đánh giá hiệu năng tập luật quyết định dựa trên
tập rút gọn, trên cơ sở đó đánh giá các phương pháp rút gọn thuộc tính. Ba độ đo đó
là độ chắc chắn  , độ nhất quán  và độ hỗ trợ  của bảng quyết định. Kết quả
về đánh giá các phương pháp rút gọn thuộc tính được trình bày vắn tắt như sau:

1) Các phương pháp thuộc nhóm 2 có độ hỗ trợ  cao hơn phương pháp rút
gọn miền dương (nhóm 1), do đó chất lượng phân lớp của các phương pháp thuộc
nhóm 2 cao hơn phương pháp miền dương (nhóm 1).
2) Các phương pháp thuộc nhóm 3 có độ hỗ trợ  cao hơn các phương pháp
thuộc nhóm 2, do đó chất lượng phân lớp của các phương pháp thuộc nhóm 3 cao
hơn các phương pháp thuộc nhóm 2.
3) Phương pháp sử dụng hàm phân bố (nhóm 4) có độ hỗ trợ  cao hơn các
phương pháp thuộc nhóm 3, do đó chất lượng phân lớp của phương pháp sử dụng
hàm phân bố cao hơn các phương pháp thuộc nhóm 2.

Rút gọn thuộc tính và trích lọc luật trên bảng quyết định không đầy đủ dựa trên mô hình tập thô dung sai

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về