Tải bản đầy đủ (.pdf) (24 trang)

luận án tiến sĩ rút gọn thuộc tính trong bảng quyết định động theo tiếp cận tập thô (TT)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.17 MB, 24 trang )

1
MỞ ĐẦU
Trích chọn thuộc tính theo phương pháp tiếp cận lý thuyết tập thô
củ
wl k thư ng ư c gọi là rút gọn thuộc tính) là một bài toán
ư c cộng ồng khoa học rất quan tâm từ khi lý thuyết tập thô ư c ề
xuất năm 1982 cho ến n y
t gọn thuộc tính l một quá tr nh chọn
l một tập thuộc tính con s o cho lư ng thông tin h m ch t i trong
khi s lư ng thuộc tính l t i thi u Một ng quyết nh c th có nhiều
tập thuộc tính rút gọn (từ nay gọi ngắn gọn là tập rút gọn) và mỗi tập rút
gọn ều có th thay thế ư c cho tập thuộc tính g c iệc tìm tập rút gọn
t t nhất liên qu n ến bài toán tìm tất c các rút gọn củ một ng quyết
nh - ây l bài toán NP - khó ư c ch ng minh trong [41]. Tuy nhiên,
trong các ng dụng th c tế việc tìm tập rút gọn t t nhất là không nhất
thiết, do
thư ng một chiến lư c tìm kiếm heuristic ư c áp dụng
tìm một tập rút gọn t i ưu phù h p mô hình phân tích dữ liệu Cho ến
nay, các phương pháp heuristic r t gọn thuộc tính theo hư ng tiếp cận l
thuyết tập thô ư c phát tri n khá phong ph Các phương pháp r t gọn
thuộc tính sử dụng một ộ o l m tiêu chuẩn ánh giá lư ng thông tin
ch a trong thuộc tính thư ng gồm h i ư c cơ n: Đ nh nghĩ tập rút gọn
d a trên ộ o v Xây d ng chiến lư c tìm tập rút gọn Đ nh nghĩ tập rút gọn
ư c ư r v i mục tiêu b o to n ộ phụ thuộc của các thuộc tính và không
ch a các thuộc tính không cần thiết i v i tác vụ phân l p.
trên việc so sánh các tập r t gọn kết qu v ộ o sử dụng
ánh giá thuộc tính, tác gi guy n ong i ng v cộng s
phân lo i
các phương pháp r t gọn thuộc tính trong ng quyết nh th nh
nh m 2 , 4 : 1 h m phương pháp miền dương 12 , 16 , 28 , [36];
2


h m phương pháp ntropy h nnon - sử dụng h nnon entropy
([30], [43], [45], [47], [50], [51], [52], [53]), các ph p toán i s qu n
hệ ([1], [18], [19], [55]), ộ o metric ([2], [3], [6], [9], [13], [14]); 3
h m phương pháp ntropy i ng - sử dụng i ng entropy ([25], [29]),
m trận phân iệt ([43], [54], [59]). Theo phân nh m n y, ộ phủ của tập
luật quyết nh gi m dần từ nh m 1 ến nh m 3, nghĩ l các tập rút gọn
bởi phương pháp miền dương c ộ phủ của tập luật cao nhất. Mặc dù
vậy, phương pháp miền dương không o to n ộ phụ thuộc thuộc tính
i v i b ng quyết nh không nhất quán o
c th nói trên khía
c nh t ư c ộ phủ của tập luật l n nhất và không h n chế trên b ng
quyết nh nhất quán thì các tập rút gọn của nhóm 2 trên ây l t t nhất.
Vấn ề ặt ra là: Khi dữ liệu có s th y ổi theo chu kỳ (thêm,
xóa, cập nhật), cần cập nhật tập rút gọn của hệ thông tin như thế nào cho
hiệu qu ? Một hệ thông tin biến ộng (Dynamic Information System)
thư ng ư c xét theo các g c ộ: iến ộng về tập i tư ng hoặc iến


2
ộng về tập thuộc tính ề l thuyết, các thuật toán t m tập r t gọn i
v i hệ thông tin g c ều c th ư c th c hiện l i cho hệ thông tin s u
iến ộng Tuy nhiên, v i s iến ộng thư ng xuyên củ hệ thông tin
như ng y n y th việc th c thi l i thuật toán nhiều lần s t n k m về th i
gi n một cách áng k . Vì vậy, nghiên c u ề xuất các phương pháp s o cho
gi m t i các chi phí phát sinh khi th y ổi dữ liệu là một vấn ề cấp thiết.
Cho ến n y, gi i pháp ư c ề xuất nhiều nhất
cập nhật tập
rút gọn cho hệ thông tin ộng là các tiếp cận gi tăng v i tưởng gi m
t i
các tính toán lặp l i bằng cách sử dụng những kết qu

ư c tính
cùng v i chiến lư c tìm kiếm heuristic cập nhật tập rút gọn từ
gi m th i
gian tính toán [9], [15], [17], [21], [23], [26], [37], [38], [48], [49], [60].
Trong các công trình [15], [17], [37], [60], các tác gi
xây d ng
phương pháp gi tăng t m tập rút gọn d a trên miền dương v m trận
phân biệt khi bổ sung tập i tư ng m i. Trong công trình [26], các tác
gi
xây d ng các công th c tính toán gi tăng các ộ o entropy
(Shannon entropy, Liang entropy, entropy tổ h p) khi bổ sung, lo i bỏ
các i tư ng; Tương t , trong 49 ề xuất cập nhật các ộ o entropy
khi ổ sung, lo i ỏ tập thuộc tính v trên cơ sở
xây d ng thuật toán
gi tăng t m tập rút gọn.Trong các công trình nêu trên, các tác gi ều minh
ch ng bằng th c nghiệm rằng phương pháp gi tăng c th i gian th c hiện
gi m thi u áng k so v i phương pháp không gi tăng, ặc biệt trên các bộ dữ
liệu c kích thư c l n. Từ nghiên c u các tiếp cận gi tăng ề xuất, có th phát
bi u: Tiệm cận gia tăng trong rút gọn thuộc tính trên hệ thông tin động
là phương pháp tìm cơ chế tái sử dụng các kết quả tính để cập nhật tập
rút gọn nhằm giảm thời gian tính toán và đảm bảo các yêu cầu về hiệu
năng của tập rút gọn.
Trong luận án n y tác gi sử dụng tiếp cận gi tăng d a trên µmetric ư c Nguy n ong i ng ề xuất trong 14
cập nhật tập
thuộc tính rút gọn cho b ng quyết nh ộng trong các trư ng h p có s
th y ổi thêm, xóa, cập nhật i tư ng hoặc thuộc tính. Tập rút gọn sử
dụng ộ o n y
ư c ch ng minh thuộc nhóm 2 theo phân nhóm trên.
Luận án đã đ t đ


n

n

t qu

n s uđ

1) Xây d ng các công th c cập nhật µ-metric và các thuật toán
heuristic gi tăng r t gọn thuộc tính trong b ng quyết nh ộng
khi thêm/xóa/cập nhật đối tượng.
2) Xây d ng các công th c cập nhật µ-metric, cập nhật ma trận phân
biệt mở rộng và các thuật toán heuristic gi tăng r t gọn thuộc tính
trong b ng quyết nh ộng khi thêm/xóa thuộc tính.


3
Các công th c cập nhật ộ o µ-metric và ma trận phân biệt mở rộng
khi hệ thông tin biến ộng l cơ sở có th sử dụng l i các kết qu của
thuật toán g c cho thuật toán cập nhật tập rút gọn.
Bố cục của luận án gồm phần mở ầu v
chương nội dung,
phần kết luận và danh mục các tài liệu tham kh o. Chương 1 c tính chất
hệ th ng h cơ sở l thuyết c liên qu n các kết qu củ luận án o
gồm các khái niệm cơ n củ l thuyết tập thô v một s phương pháp
r t gọn thuộc tính Các ng g p của luận án ư c trình bày trong
chương 2 v chương 3
Chương 2 l các kết qu nghiên c u gồm: Xây d ng cơ chế cập nhật
µ-metric khi tập i tư ng củ
ng quyết nh ư c ổ sung, lo i ỏ

hoặc cập nhật th hiện trong 12 công th c của 4 mệnh ề v i ch ng minh
và ví dụ cụ th . Trong chương 2 c ng ề xuất 4 thuật toán gi tăng
heuristic d trên µ-metric: Thuật toán gi tăng d a trên µ-metric tìm rút
gọn trong b ng quyết nh khi thêm một i tư ng (Thủ tục AdObj);
Thuật toán gi tăng d a trên µ-metric tìm rút gọn trong b ng quyết nh
khi thêm một tập i tư ng (Thuật toán MIR_AdObjs); Thuật toán gia
tăng d a trên µ-metric tìm rút gọn khi cập nhật một i tư ng (Thủ tục
UpObj) và Thuật toán gi tăng d a trên µ-metric tìm rút gọn khi cập nhật
một tập i tư ng (Thuật toán MIR_UpObjs). Một s thử nghiệm ư c
tiến hành trên 08 bộ dữ liệu UCI vừa và l n so sánh tính ng ắn và
hiệu qu của các thuật toán ề xuất v i thuật toán không gi tăng thuật
toán MBAR) và thuật toán gi tăng d a trên Liang entropy trong [26].
Đồng bộ v i chương 2, chương 3 tr nh y cơ chế cập nhật µ-metric
khi ng quyết nh ư c ổ sung hoặc lo i ỏ một tập thuộc tính v thuật
toán gi tăng t m tập r t gọn trong các trư ng h p tương ng hần s u
củ chương 3 ề xuất phương pháp gi tăng r t gọn sử dụng ộ o khác l
h m phân iệt mở rộng v ch ng minh phương pháp n y cho tập r t gọn
kết qu t t hơn theo nghĩ ộ hỗ tr củ tập luật sinh ởi tập r t gọn l n
hơn so v i các phương pháp nh m entropy Shannon. Trong chương n y
tác gi ề xuất 4 thuật toán gi tăng t m r t gọn khi thêm hoặc xóa một
tập thuộc tính iều kiện: Thuật toán MIR_AdAt; Thuật toán MIR_DeAt
sử dụng µ-metric; Thuật toán GDF_IR_AdAt và Thuật toán
GDF_IR_DeAt sử dụng hàm phân biệt mở rộng. ột s kết qu th c
nghiệm
so sánh kết qu nghiên c u v i thuật toán không gi tăng cho
thấy thuật toán ề xuất cho kết qu t t hơn về th i gi n tính toán v
m
b o ộ chính xác phân l p.
Chương 2. TIẾP CẬ
ẾT Đ


I T
T
TẬ
C TẬ Đ I T

T
T

T
ĐỔI


4
V i mục ích t m r một phương pháp r t gọn thuộc tính có th áp
ng t t về tiêu chí th i gian tìm tập rút gọn ồng th i m b o hiệu năng
của b ng quyết nh và ng dụng ư c cho b ng quyết nh nhất quán
c ng như không nhất quán, trong chương n y ề xuất phương pháp rút
gọn d trên ộ o µ-metric theo tiếp cận gi tăng Trư c hết, xây d ng
và ch ng minh các công th c gi tăng cập nhật µ-metric trong các
trư ng h p: Thêm một i tư ng; X một i tư ng v Cập nhật một
i tư ng
a trên các công th c cập nhật, tác gi ề xuất thuật toán gia
tăng heuristic t m r t gọn trong trư ng h p thêm và cập nhật tập i
tư ng. Các th c nghiệm ư c tiến h nh trên 08 ộ s liệu C vừa và
l n cho kết qu phù h p v i các ch ng minh l thuyết cho thấy thuật
toán ề xuất l chính xác v hiệu qu Các kết qu củ chương n y ư c
tr nh y d trên các công tr nh [3], [4] của tác gi .
2.1. Cậ nhật µCho


t i

hi tậ đối tượng thay đổi

ng quyết

{

nh

}v

,

{

nghĩ :



}. µ-metric trong 14

ng

tư ng vào

đư c ác đ nh ởi các công th c

ếu


thì
{ }

2)

(2.1.1)

ếu



thì
|

{ }
ếu

|

(2.1.2)


{ }


|

|

thì

(

|

nh

{ } gi a hai tri th c hi th m đ i

Mệnh đề 2.1. µ-metric

1)

ư c



ập n ật µ-metric khi thêm một đối t

2.1

i sử

.

|

|

|
|


|

)
(2.1.3)


5
ập n ật µ-metric khi xóa một đối t

2.1

Mệnh đề 2.2.

iả sử

là phần tử
hi đ

1)

ếu

ng
a và

v i

µ-metric đư c cập nhật như sau:
{ } thì


t c là
{ }

2)

ếu

(2.2.1)
thì

{ }

(2.2.2)
|

(

rong đ

|

|
|



|

|(|


ập n ật µ-metric khi cập nhật một đối t

2.1

Mệnh đề 2.3.
nhật

)

)

ng

iả sử trong ảng qu ết đ nh

đ i tư ng
|

thành

|

|

đư c cập

;

Gọi tập đ i tư ng U sau khi cập nhật là U và


.

Metric trong DT đư c cập nhật ởi các công th c sau
1) ếu


(

|

|
|

thì


)

|

2) ếu

|

(2.3.1)

|



|

(

|

thì
|

|



)

(

|

|

)

(2.3.2)
̀

3) ếu
(

|

|

|
|

)

thì


|

|

(2.3.3)


6
4) ếu


(

|
|

thì

|




)

|

(

)

|

(2.3.4)

Mệnh đề 2.4.
đ i tư ng
nhật là

|

iả sử trong ảng qu ết đ nh
đư c cập nhật thành

,

ọi tập đ i tư ng U sau khi cập

, Nếu { }




(

) và

đư c cập nhật ởi các công th c sau

; Metric trên
1) ếu

thì

2) ếu



(2.4.1)
thì
(



)

(2.4.2)
3) ếu



thì



2.2. Th ật t n gia t ng t
tượng thay đổi

(2.4.3)

t g n sử dụng µ-metric khi tậ đối

Bổ đề 2. . ho ảng qu ết đ nh
gọn của

{

theo metric và

th m vào

là một tập r t
}

hi đ

1)

ếu

2)

ếu


{ }
́

{ }
{ }

thì

Thủ tục AdObj. T m tập r t gọn khi thêm một
Input:
Output:
1. Begin

là đ i tư ng đư c

ng quyết nh
Phân ho ch U/C; Phân ho ch
Tập rút gọn

trên

{ }

i tư ng

; Tập rút gọn
củ
; Đ i tư ng gi tăng x
{ }


T;


7
2.
3. If
4.

then
Begin

5.

{ } do

{ }

While

// Kết nạp nh ng thuộc tính có m c ý nghĩa l n nhất vào tập rút gọn
6.

Begin

7.

For each

8.


Begin

9.

do
{ } ;

Tính

10.

If
của mệnh ề 2 1 v

then Tính
nh nghĩ 1 15

11.

If
của mệnh ề 2 1 v

then Tính
nh nghĩ 1 15

12.
13.

theo công th c 2.1.3


End;
{

Chọn
{

14.
15.
16.

theo công th c 2.1.2

};

};

End;
End;

// Loại bỏ thuộc tính dư thừa
17. For each
18.

do

Begin

19.


Tính

20.

If

{ }
{ }

{ }
21.

{ }
{ }

{ } then

End;

22. Return

.

23. End.
Bổ đề 2.2. ho ảng qu ết đ nh
gọn của theo metric
thành
gọi tập U sau khi cập nhật là
1)


ếu



là một tập r t
là đ i tư ng đư c cập nhật

hi đ
thì


8
2) ếu

thì

Thủ tục UpObj. T m tập r t gọn khi cập nhật một

i tư ng

Input: ng quyết nh
; Tập rút gọn
ho ch C; Đ i tư ng x cập nhật th nh x’
Output:

Tập rút gọn

{ }

trên


củ

T; hân

{ }

1. Begin
2.

;

3. If { }

and |

| =1 and

then Return Rup;

4. Else
//Thêm các thuộc tính có m c ý nghĩa l n nhất vào tập rút gọn R g c
5. While
6.

do

Begin

7.


If { }

8.

For each

9.

Begin

|

|

and

then

{ } theo thuật toán 1.1;

10.

Tính

11.

If
Then Tính
mệnh ề 2 4 v nh nghĩ 1 15;


theo công th c 2 4 2 ở

12.

If
Then Tính
mệnh ề 2 4 v nh nghĩ 1 15;

theo công th c 2 4 3 ở

13.

End;

14.

If { }

15.

For each

16.

Begin

17.

Tính


18.

If

19.

Tính
nghĩ 1 15;

20.

If

21.

Tính
nghĩ 1 15;

then

{ } ;
and

Then
theo công th c 2 3 1 ở mệnh ề 2 3 v

and

nh


Then
theo công th c 2 3 2 ở mệnh ề 2 3 v

nh


9
22.

If

23.

Tính
nghĩ 1 15;

24.

If

25.

Tính
nghĩ 1 15;

26.

End;


27.

Chọn

and

theo công th c 2 3 3 ở mệnh ề 2 3 v
and

{

nh

Then
theo công th c 2 3 4 ở mệnh ề 2 3 v

{

28.
29.

Then

nh

};

};

EndWhile;


//Loại bỏ các thuộc tính dư thừa trong Rup
30. For each

do

31. Begin
32.

Tính

33.

If

;

{ }

then

{ }

{ }

34.
35. End;
36. Return

;


37. End.
Th ật t

n 2. . Thuật toán gi tăng d a trên µ-metric t m r t gọn khi
thêm tập i tư ng ọi là Thuật toán MIR_AdObjs)

Input:

ng quyết nh
Tập i tư ng

Output:

Tập rút gọn

; Rút gọn R củ DT;
trên

1. Begin
2.

Tính U/C; U/D;

3.

For

4.
5.

6.

do

Begin
= AdObj(DT; U/C; U/D; R; x)


10
7.

End;

8.

Return

;

9. End.

 Độ h

t

th yết ủa th ật t

Độ ph c t p củ thuật toán 2 1 l
Th ật t


n MIR_AdObjs

(

|

|| | ).

n 2.2. Thuật toán gi tăng d a trên µ-metric t m r t gọn khi
cập nhật tập
i tư ng
ọi là Thuật toán
MIR_UpObjs)
ng quyết
i tư ng

Input:
Output:

nh

Tập rút gọn

; Rút gọn R củ DT; Tập
ư c cập nhật thành
trên

1. Begin
2. Tính U/C; U/D;
3.


For

4.

Begin

do
pO j

5.

T;

C;

; ; x; x’

6.
7.

End;

8.

Return

;

9. End.


 Độ h

t

th yết ủa th ật t

Độ ph c t p thuật toán 2.2 là
2.3. Th

nghiệ

th ật t

n 2.2
.

n

2.3.1. Thực nghiệm thuật toán gia tăng tìm rút gọn khi bổ sung tập đối tượng
Tiến hành thử nghiệm thuật toán MIR_AdObjs trên 08 bộ s liệu UCI so
sánh v i thuật toán sử dụng µ-metric MBAR [2] và thuật toán gi tăng sử dụng
i ng entropy trong 26
ki m tr tính ng ắn và hiệu qu của thuật toán.
Các kết qu ư c trình bày trong các b ng và hình sau.
B ng 2.5. Bộ số liệu thử nghiệm


11
STT

1
2
3
4
5
6
7
8

Số đối t

Tập d liệu
Breast-cancer-wisconsin
Tic-tac-toe
Kr-vs-kp
Mushroom
Letter-recognition
Krkopt (King-rook-vs-king)
Shuttle
CoverType

ng

683
958
3196
5644
20000
28056
58000

581012

Số thuộc tính
điều kiện
9
9
36
22
16
6
9
54

Số lớp
2
2
2
2
26
18
7
7

B ng 2.6. Tập rút gọn của thuật toán MBAR và thuật toán MIR_AdObjs
Thuật toán MBAR

Số thuộc
t n điều
kiện


|R|

9

4

1, 2, 4, 6

2
3

Breastcancerwisconsin
Tic-tac-toe
Kr-vs-kp

9
36

8
29

4

Mushroom

22

8

5


Letterrecognition

16

11

6
7
8

Krkopt
Shuttle
CoverType

6
9
54

6
4
17

1- 5, 7, 8, 9
1, 3-7, 9-13, 15
-18, 20, 21, 23,
- 28, 30, 31, 33,
- 36
1, 3, 5, 7, 8, 9,
12, 20

1, 3, 4, 8, 9, 10,
11, 12, 13, 15,
16
1-6
1, 2, 3, 5
1, 4, 5, 7, 8, 10,
16, 22, 26, 29,
30, 36, 37, 42,
43, 45, 52

STT
1

Tập d liệu

Tập rút gọn

Thời gian
(s)
1.248

Thuật toán MIR_AdObjs
|R|

Tập rút gọn

Thời
gian (s)
0.415


4

1, 2, 4, 6

4.825
128.13

8
28

1- 5, 7, 8, 9
1, 3, 4, 5, 7, 9-13,
15-18, 20, 21, 2328, 30, 31, 33- 36

0.684
12.36

156.48

7

1, 2, 3, 5, 7, 9, 20

48.58

598.34

12

1, 2, 3, 4, 5, 8, 9,

10, 11, 13, 15, 16

84.28

96.14
218.84
10286.28

6
4
19

1- 6
1, 2, 3, 5
1, 4, 5, 7, 10, 12
16, 17, 22, 25, 26,
29, 30, 36, 37, 42,
43, 45, 52

22.38
43.06
946.64

Hình 2.1. Thời gian tìm rút gọn của hai thuật toán MBAR và MIR_AdObjs


12
Bn
7 á độ đo
MIR_AdObjs


AP, AQ ,  , g 

của thuật toán MBAR và thuật toán

Thuật toán MBAR
STT

Thuật toán MIR_AdObjs

Tập d liệu
AP

g



AQ

AP

g



AQ

1

Breastcancerwisconsin


1

1

1

1

1

1

1

1

2

Tic-tac-toe

1

1

1

1

1


1

1

1

3

Kr-vs-kp

1

1

1

1

0.9998

0.9999

1

0.9999

4

Mushroom


1

1

1

1

0.9974

0.9993

1

0.9986

5

Letterrecognition

1

1

1

1

1


0.9999

1

0.9996

6

Krkopt

1

1

1

1

1

1

1

1

7

Shuttle


0.9977

0.9988

0.9976

0.9953

0.9977

0.9988

0.9976

0.9953

8

CoverType

0.9611

0.9466

0.9248

0.9256

0.9626


0.9488

0.9248

0.9372

B ng 2.8 So sán độ chính xác phân lớp của MBAR và MIR_AdObjs
STT

1
2
3
4
5
6
7
8

Bộ số liệu

U

C

Breast-cancer-wisconsin
683
9
Tic-tac-toe
958

9
Kr-vs-kp
3196
36
Mushroom
5644
22
Letter-recognition
20000
16
Krkopt (King-rook-vs28056
6
king)
Shuttle
58000
9
CoverType
581012
54
Độ chính xác phân lớp trung bình C4.5

Độ chính
xác phân
lớp C4.5
của b ng
quy t định
gốc (%)
76.14
69.06
88.75

76.86
72.04
42.26

Thuật toán
MBAR
Độ chính
xác phân
R
lớp C4.5
(%)
4
75.82
8
71.16
29
90.68
8
75.12
11
74.82
6
42.26

Thuật toán
MIR_AdObjs
Độ chính
xác phân
R
lớp C4.5

(%)
4
75.82
8
71.16
28
91.12
7
74.6
12
75.57
6
42.26

4
17

4
19

94.76
60.72
72.57

98.12
62.16
73.76

98.12
61.82

73.81

Bảng 2.9. Kết quả thực hiện Thuật toán MIR_AdObjs và thuật toán GIARC-L
STT

Số
thuộc
tính
điều
kiện

Tập d liệu

Thuật toán GIARC-L
|R|

Tập rút gọn

Thuật toán MIR_AdObjs

Thời
gian (s)

|R|

Tập rút gọn

Thời
gian (s)


1

Breastcancerwisconsin

9

4

1, 2, 4, 6

0.42

4

1, 2, 4, 6

0.415

2

Tic-tac-toe

9

8

1, - 5, 7, 8, 9

0.614


8

1- 5, 7, 8, 9

0.684

3

kr-vs-kp

36

31

1- 7, 9-18, 20,
21, 23, -28, 30,
31, 33-36

11.86

28

1, 3, 4, 5, 7, 9,
10- 13, 1518, 20, 21, 2328, 30, 31, 3336

12.36

4

Mushroom


22

9

1, 3, 5, 7, 8, 9,

50.12

7

1, 2, 3, 5, 7, 9,

48.58


13
12, 14, 20

20

5

Letterrecognition

16

13

1- 4, 7-13, 15,

16

81.75

12

1- 5, 8-11, 13,
15, 16

84.28

6

Krkopt

6

6

1- 6

23.48

6

1- 6

22.38

7


Shuttle

9

4

1, 2, 3, 5

44.26

4

1, 2, 3, 5

43.06

8

CovType

54

22

1, 4, 6, 7, 8, 10,
12, 13, 16, 19,
20, 22, 26, 29,
30, 36, 37, 40,
42, 43, 45, 48.


958.15

19

1, 4, 5, 7, 10,
12 16, 17, 22,
25, 26, 29, 30,
36, 37, 42, 43,
45, 52

946.64

Bảng 2.10. Các độ đo của thuật toán MIR_AdObjs và thuật toán GIARC-L.
Thuật toán GIARC-L
STT

Thuật toán MIR_AdObjs

Tập d liệu
AP

g



AQ

AP


g



AQ

1

Breastcancerwisconsin

1

1

1

1

1

1

1

1

2

Tic-tac-toe


1

1

1

1

1

1

1

1

3

Kr-vs-kp

0.9972

0.9968

0.9999

0.9999

0.9998


0.9999

0.9999

0.9999

4

Mushroom

0.9986

0.9982

0.9992

0.9986

0.9974

0.9993

0.9992

0.9986

5

Letterrecognition


0.9975

0.9982

0.9992

0.9996

1

0.9999

0.9992

0.9996

6

Krkopt

1

1

1

1

1


1

1

1

7

Shuttle

0.9918

0.9926

0.9976

0.9953

0.9977

0.9988

0.9976

0.9953

8

CoverType


0.9428

0.9218

0.9366

0.9372

0.9626

0.9488

0.9366

0.9372

Bảng 2.11. So sánh độ chính xác phân lớp của GIARC-L và MIR_AdObjs
STT

1
2
3
4
5
6
7
8

Bộ số liệu


U

C

Breast-cancer-wisconsin
683
9
Tic-tac-toe
958
9
Kr-vs-kp
3196
36
Mushroom
5644
22
Letter-recognition
20000
16
Krkopt (King-rook-vs28056
6
king)
Shuttle
58000
9
CoverType
581012
54
Độ chính xác phân lớp trung bình C4.5


Độ chính
xác phân
lớp C4.5
của b ng
quy t
định gốc
(%)
76.14
69.06
88.75
76.86
72.04
42.26
94.76
60.72
72.57

Thuật toán
GIARC-L

R

Độ chính
xác phân
lớp C4.5
(%)

Thuật toán
MIR_AdObjs


R

Độ chính
xác phân
lớp C4.5
(%)

4
8
31
9
13
6

75.82
71.16
88.56
71.12
76.27
42.26

4
8
28
7
12
6

75.82
71.16

91.12
74.6
75.57
42.26

4
22

98.12
58.75
72.75

4
19

98.12
61.82
73.81

2.3.2. Thực nghiệm thuật toán tìm tập rút gọn khi cập nhật tập đối tượng
K ch b n th c ngiệm thuật toán gi tăng t m r t gọn trong trư ng
h p cập nhật i tư ng (MIR_UpObjs) gi ng như i v i thuật toán
MIR_AdObjs th c hiện t i mục 2.3.1.


14

Hình 2.3. Thời gian thực hiện thuật toán gia tăng và hông gia tăng

Bảng 2.12. Các độ đo của thuật toán MBAR và thuật toán MIR_UpObjs

Thuật toán MBAR
STT

Thuật toán MIR_UpObjs

Tập d liệu
AP

AQ



g

AP

AQ



g

1

Kr-vs-kp

0.8806

0.8926


0.9216

0.9248

0.8814

0.8915

0.9216

0.9248

2

Mushroom

0.9148

0.9224

0.8912

0.8816

0.9024

0.9211

0.8912


0.8816

3

Letterrecognition

0.9196

0.9248

0.9548

0.9462

0.9124

0.9212

0.9548

0.9462

4

Krkopt

0.9848

0.9822


0.9874

0.9842

0.9848

0.9822

0.9874

0.9842

5

Shuttle

0.9514

0.9512

0.9255

0.9216

0.9468

0.9436

0.9255


0.9216

6

CovType

0.8874

0.8812

0.8972

0.8910

0.8892

0.8846

0.8972

0.8910

Nhận xét về k t qu thực nghiệm
Th i gian th c hiện các thuật toán gi tăng sử dụng µ-metric trong
các trư ng h p thêm hoặc cập nhật i tư ng gi m áng k so v i thuật
toán không gi tăng
A trong khi các ộ o hiệu năng v ộ chính
xác phân l p xấp xỉ bằng nhau ch ng tỏ tính hiệu qu v
ng ắn của
thuật toán ề xuất. So v i thuật toán gi tăng sử dụng Liang entropy cho

i toán tương t , thuật toán ề xuất c ộ chính xác phân l p trung bình
c o hơn v th i gian tính toán xấp xỉ như nh u
Chương 3. TIẾP CẬN GIA TĂNG TÌM TẬP RÚT GỌN TRONG
NG QU ẾT N C TẬP T U C T N T A
ỔI
Trong chương n y, tác gi xây d ng phương pháp gi tăng sử
dụng h i ộ o l µ-metric và hàm phân biệt mở rộng (GDF).


15
3.1. Thuật t n gia t ng t
thuộ tính thay đổi

tập rút g n ử ụng µ-metric khi tập

ập n ật µ-metric khi thêm tập thuộc tín điều kiện

3.1

Gi sử sau khi thêm tập thuộc tính P, phân ho ch
{
} trong
một tập con của Xi i = k+1, …, m; t = 1, 2, …, ti).



Mệnh đề 3.1. Cho bảng quyết đ nh DT = (U, C  D), P là tập thuộc
tính điều kiện đư c thêm vào DT. hi đ công th c gia tăng tính µmetric là:
(∑


rong đ





|

|





ập n ật µ-metric khi xóa tập thuộ t n điều kiện

3.1

Khi xóa tập thuộc tính P,
khỏi b ng quyết
{
), gi sử
; r + 1 ≤ t ≤ m; k ≤ m
Mệnh đề 3.2. Metric trên bảng quyết đ nh
một tập thuộc tính điều kiện P (
đư c tính bởi:

(∑

rong đ

3.1

)

uật toán i t n t
tn t
đổi

Th ật t


r t ọn sử





nh
}, v i
) sau khi xóa

)

n µ-metric khi tập thuộc

n . . Thuật toán gi tăng t m r t gọn d a trên µ-metric khi
thêm tập thuộc tính (Gọi là Thuật toán MIR_AdAt)

Input:
tăng


), tập rút gọn RC của C và tập thuộc tính gia
 C = )

Output: Tập rút gọn

của

1. Begin
2. Tính

;

3. Tính

theo công th c ở mệnh ề 3.1;

//Tìm tập thuộc tính lõi của tập P


16
;
5. For each a  P do
6. Begin
7.

If

{ };


Then

{ }

8. End;
9.

;

10. If

Then Return R;

11. While

do

12. Begin
13.

For each

14.

Tính

15.

Chọn


;
{

sao cho
{

16.
17.

do
};

};

End;

// Loại bỏ các thuộc tính dưa thừa
18. For

do

19. Begin
20.

Tính

21.

If


{ }
{ }

;
then

{ };

22. End;
23. Return R;
24. End.
 Độ ph c t p lý thuyết của thuật toán MIR_AdAt
Độ ph c t p tính toán của thuật toán 3.1 là O((|U||C  P|2 + |U|2).
Th ật t

n .2. Thuật toán gi tăng d a trên µ-metric tìm rút gọn khi
xóa các thuộc tính (Gọi là Thuật toán MIR_DeAt)

Input:
Output: Tập rút gọn

), tập rút gọn RC của C, tập xóa


17
1. Begin
2.

;


3.

If

then Return R;

4.

;
{

5.

Tính

6.

Tính

7.

If

8.

While

9.

Begin


}

theo công th c ở mệnh ề 3.2
then Return R;
do

10.

For each

11.

Chọn

12.

R = R  {am};

13.

End;

14.

For each

15.

Begin

Tính

17.

If
End;

19.

Return R;

;
{

sao cho

};

do

16.
18.

tính

{ }
{ }

=


Then

{ };

20. End.
 Độ ph c t p lý thuyết của thuật toán MIR_DeAt
Độ ph c t p tính toán của thuật toán 3.2 là
3.1

ự n

iệ

t uật toán

.

v

Tiến hành th c nghiệm trên 6 bộ s liệu UCI so sánh thuật toán gia
tăng ề xuất v i thuật toán MBAR và thuật toán gi tăng sử dụng Liang
entropy (Thuật toán DIA_RED) [49], các kết qu th c nghiệm khẳng
nh tính ng ắn và hiệu qu của thuật toán.


18
B ng 3.1. Mô t các bộ d liệu thử nghiệm
ID
1
2

3
4
5
6

Số đối t

Tập d liệu
Hepatitis.data
Lung-cancer.data
Import-85.data
kr-vs-kp.data
Dermatology.data
Backup-large.data

ng

155
32
205
3196
366
307

Số thuộ t n điều
kiện
19
56
25
36

34
35

Số lớp t ơn
đ ơn
3
4
6
2
6
19

B ng 3.2. K t qu thực nghiệm thuật toán MIR_AdAt và MBAR
Thuật toán MBAR
Tập d liệu

Hepatitis

Lung-cancer
Import-85
Kr-vs-kp

Dermatology

Backuplarge

Thuộ t n điều
kiện i t n
(%)


|R|

50

Tập rút gọn

Time
(s)

3

2, 3, 15

0.310

100

3

2, 15, 16

50

5

100
50
100
50


Thuật toán MIR_AdAt
|R|
Tập rút gọn

Time
(s)

3

2, 3, 15

0.012

0.327

4

2, 15, 16, 18

0.015

3, 4, 9, 25, 32

0.582

5

3, 4, 9, 25, 32

0.040


4
6
6
23

3, 4, 9, 43
1, 2, 7, 11, 14, 16
1, 2, 7, 14, 20, 21
1- 8, 10-13, 1518, 20, 21, 23-27

0.620
2.342
2.839
206.232

4
6
6
21

3, 4, 9, 43
1, 3, 7, 11, 14, 16
1, 3, 7, 14, 20, 21
1-8, 10-13, 15-18, 20,
21, 23, 24, 25, 27

0.052
0.386
0.422

19.254

100

29

219.250

27

8

3.286

8

1, 2, 4, 5, 6, 7, 10-18,
20, 21, 22, 24-27, 30,
31, 33-36
1, 2, 4, 5, 7, 9, 14, 16

23.256

50

1, 3-7, 10-13, 1518, 20-28, 30,
31, 33-36
1, 2, 3, 4, 9, 14,
15, 22


100

9

3.853

8

7

1.422

7

100

8

1.840

8

1, 2, 4, 5, 14, 16, 18,
19
1, 4, 6, 7, 8, 10, 15,
16
1, 4, 6, 7, 8, 15, 16,
22

0.462


50

1, 2, 3, 4, 5, 16,
19, 28, 32
1, 4, 6, 7, 8, 10,
16
1, 4, 6, 7, 8, 15,
16, 22

0.414

0.124
0.162

Hình 3.1. Thời gian tìm rút gọn của hai thuật toán gia tăng và hông gia tăng
B ng 3.4. K t qu

á độ đo ủa thuật toán MIR_AdAt và MBAR


19
STT
1
2
3
4
5
6


Tập d liệu
Hepatitis
Lung-cancer
Import-85
kr-vs-kp
Dermatology
Backuplarge

Tập gia
t n (%)

Thuật toán MBAR

Thuật toán MIR_AdAt

AQ

AP



g

AQ

AP



g


50

0.8217

0.8284

0.8758

0.8712

0.8028

0.8116

0.8758

0.8712

100

1

1

1

1

1


1

1

1

50

0.9284

0.9126

0.8812

0.8796

0.9284

0.9126

0.8812

0.8796

100

1

1


1

1

1

1

1

1

50

0.8826

0.8812

0.8962

0.8904

0.8992

0.8921

0.8962

0.8904


100

0.9985

0.9897

0.9942

0.9906

0.9985

0.9897

0.9942

0.9906

50

0.9212

0.9197

0.9406

0.9382

0.9206


0.9126

0.9406

0.9382

100

0.9994

0.9987

0.9914

0.9896

0.9994

0.9987

0.9914

0.9896

50

0.9125

0.9006


0.8996

0.8904

0.9015

0.8996

0.8996

0.8904

100

0.9906

0.9818

0.9472

0.9403

0.9804

0.9716

0.9472

0.9403


50

0.8856

0.8014

0.8678

0.8611

0.8827

0.8002

0.8678

0.8611

100

0.9023

0.8174

0.9876

0.9812

0.9048


0.8186

0.9876

0.9812

Bảng 3.5. So sánh độ chính xác phân lớp của DIA_RED và MIR_AdAt
STT

1
2
3
4
5
6

Tập d liệu

U

C

Độ chính
xác phân lớp
C4.5 của
b ng quy t
địn b n đầu
(%)


Hepatitis
155
19
Lung-cancer
32
56
Import-85
205
25
Kr-vs-kp
3196
36
Dermatology
366
34
Backup-large
307
35
Độ chính xác phân lớp trung bình C4.5

95.84
90.18
93.58
88.75
90.91
81.86
90.18

Thuật toán
DIA_RED


R

Độ chính
xác phân
lớp C4.5
(%)

4
5
7
30
9
10

96.72
91.04
92.46
89.24
89.17
80.16
89.79

Thuật toán
MIR_AdAt
Độ
chính
R
xác
phân lớp

C4.5 (%)
4
96.72
4
92.65
6
94.75
27
90.58
8
88.57
8
82.39
90.94

Nhận xét về các k t qu thực nghiệm
- Thuật toán gia tăng cho kết qu t t hơn so v i thuật toán không gia
tăng về th i gi n tính toán v
m b o các ộ o hiệu năng v ộ chính
xác phân l p gần như b ng quyết nh g c ch ng tỏ thuật toán ề xuất là
hiệu qu v
ng ắn.
- Thuật toán gi tăng sử dụng µ-metric tìm rút gọn cho kết qu t t hơn
thuật toán gi tăng sử dụng Liang entropy về ộ chính xác phân l p trung
bình, th i gian th c hiện xấp xỉ bằng nhau.
3.2. Thuật t n gia t ng t tập rút g n ử ụng h
ộng hi tập thuộ tính thay đổi

h n iệt


Trư c hết, tác gi nghiên c u v ề xuất phương pháp r t gọn
thuộc tính sử dụng hàm phân biệt mở rộng. Tiếp theo, xây d ng phương
pháp gi tăng r t gọn thuộc tính sử dụng hàm phân biệt mở rộng trong
trư ng h p bổ sung, lo i bỏ tập thuộc tính. Về lý thuyết, tập rút gọn của


20
phương pháp ề xuất ư c ch ng minh có l c lư ng nhỏ hơn tập rút
gọn sử dụng µ-metric. Các th c nghiệm cho thấy tính hiệu qu v
ng
ắn của thuật toán.
3.2.1. Tập rút gọn dựa trên hàm quy t định mở rộng và các tính chất
Định nghĩa . ([36], [11]). Cho b ng quyết nh
và u  U ,  ( u )   D  v  v   u   ư c gọi là hàm quyết
B

B

.V i
nh mở

rộng (generalized decision function) của DT.
Nếu |  ( u ) | 1 v i mọi
không nhất quán.
C

Định nghĩa
. Nếu:

.2


u U

thì DT là nhất quán, ngư c l i DT là

([36]). Cho b ng quyết

1)  u  U ,  ( u )   ( u )
2)  r  R ,  u  U thì    ( u )   ( u )
thì R là một rút gọn của C d a trên hàm quyết
R

nh

C

R r

C

nh mở rộng.

Mệnh đề 3.1. Cho bảng quyết đ nh
 u  U ,   u     u  thì P O S  D   P O S  D  .
B



C


B



B  C

. Nếu

C

Nếu b ng quyết nh DT không nhất quán thì chiều ngư c l i của
mệnh ề 3.1 không thỏa mãn.
Mệnh đề 3.2. Cho bảng quyết đ nh
H  D B   H  D C  thì  u  U ,   u     u  .
B



B  C

. Nếu

C

Nếu b ng quyết nh DT không nhất quán thì chiều ngư c l i của
mệnh ề 3.2 không thỏa mãn.
Từ mệnh ề 3.1 và mệnh ề 3.2 ta có kết qu sau:
Định lý 3.1. Cho bảng quyết đ nh
, nếu R là một tập
rút gọn dựa trên Shannon entropy thì tồn tại một tập rút gọn dựa trên

hàm quyết đ nh mở rộng R và một tập rút gọn dựa trên miền dương R
sao cho R  R  R .
H



P



P

H

Từ nh lý 3.1 có th rút ra: s thuộc tính của tập rút gọn d a trên
hàm quyết nh mở rộng nhỏ hơn hoặc bằng s thuộc tính của tập rút
gọn d a trên Shannon entropy (và µ-metric)


21
3.2.2. Ma trận phân biệt mở rộng và hàm phân biệt mở rộng
D a trên hàm quyết nh mở rộng, hàm phân biệt mở rộng ư c
xây d ng như s u
Định nghĩa . . Cho b ng quyết nh
, v i B  C và
trên tập thuộc tính B , ký
U  n . Ma trận phân biệt mở rộng của
hiệu M   m  , là ma trận vuông cấp n, mỗi phần tử có giá tr 0 hoặc
B


i j

nn

1, ư c nh nghĩ như s u:
m  1 nếu d  u     u 
(1)
ij

j

m ij  0

(2)
Chú ý: Nếu

A  

nếu

B

i

d  u j    B ui 

th quy ư c

mi


 0

j

.



M

A

là ma trận

i x ng.

B  C và
Định nghĩa .5. Cho b ng quyết nh
M  m 
là ma trận phân biệt mở rộng của
trên tập thuộc tính B .
Khi , h m phân iệt mở rộng của
trên B , ký hiệu là G D F  B  ư c
B

i j

nn

nh nghĩ như s u:


n

 A

GDF



n


i 1

m ij

.

j 1

Mệnh đề 3.4. Cho bảng quyết đ nh
Nếu P  Q thì G D F  P   G D F  Q  .

, v i

P,Q  C

.

ệnh đề .5. Cho bảng quyết đ nh

và M , G D F  C 
tương ng là ma trận phân biệt mở rộng và hàm phân biệt mở rộng
của
tr n tập thuộc tính C , B  C
hi đ G D F  B   G D F  C  khi và
chỉ hi  ( u )   ( u ) v i  u  U .
C

B

C

3.2.3. Thuật toán tìm tập rút gọn sử d ng hàm phân biệt mở rộng
Định nghĩa .6. Cho b ng quyết nh
thỏa mãn:
(1) G D F  R   G D F  C 
(2)  R  R , G D F  R   G D F  C 
'

. Nếu

R  C

'

th

ư c gọi là một tập rút gọn của
d a trên hàm phân biệt mở rộng.
Mệnh ề 3.5 cho thấy tập rút gọn d a trên hàm phân biệt mở rộng

tương ương v i tập rút gọn d a trên hàm quyết nh suy rộng.
Định nghĩa .7. Cho b ng quyết nh
, B  C và
bC  B
Độ quan trọng của thuộc tính b
i v i tập thuộc tính B
ư c nh nghĩ ởi: S I G  b   G D F  B   b    G D F  B 
out

B


22
Định nghĩa .8. Cho b ng quyết nh
Độ quan trọng của thuộc tính b trong tập thuộc tính
bởi: S I G  b   G D F  B   G D F  B   b  

,

B  C

ư c

B

và b  B .
nh nghĩ

in


B

D trên các nh nghĩ , luận án ư r Thuật toán heuristic 3.3
tìm tập rút gọn sử dụng hàm phân biệt mở rộng.
3.2.4. Thuật toán i t n t r t ọn sử d ng hàm phân biệt mở rộng
khi bổ sung tập thuộc tính
Đ xây d ng thuật toán tìm tập rút gọn, trư c hết xây d ng thuật
toán gi tăng 3 4 tính ma trận phân biệt mở rộng khi bổ sung một tập
thuộc tính. Sử dụng thuật toán này
xây d ng thuật toán tìm rút gọn
s u ây
Thuật toán 3.5. Thuật toán gi tăng d a trên hàm phân biệt mở rộng tìm
rút gọn khi bổ sung tập thuộc tính (Gọi là Thuật toán
GDF_IR_AdAt)
Input: B ng quyết nh
, tập rút gọn R của C và tập
thuộc tính gi tăng P v i P  C   .
Output: Một tập rút gọn t i ưu R của C  P .
1. R  R ;
C

C

2. Tính

M

3. While

CP


GDF

theo Thuật toán 3.4; Tính
R

 G D F C  P 

4. Begin
5. For a  P  R tính
6. Chọn
7.

am  P  R

R  R  am 

out

S IG R

a 

sao cho

G D F C  P 

;

do


 GDF
out

S IG R

 R  a    G D F  R  ;

am 

 M a x S IG R

out

a P  R

 a  ;

;

8. End;
9. For a  R
10.
If G D F  R   a    G D F  A T

 P

then

11. Return R .

Độ ph c t p tính toán của thuật toán 3.5 là

R  R  a

;
.

3.2.5. Thuật toán i t n t r t ọn sử d ng hàm phân biệt mở rộng
khi lo i bỏ tập thuộc tính
Trư c hết, xây d ng thuật toán gi tăng 3 6 tìm ma trận phân biệt
mở rộng khi lo i bỏ tập thuộc tính, sử dụng thuật toán n y
xây d ng
thuật toán tìm rút gọn d a trên hàm phân biệt mở rộng 3 7 s u ây


23
Thuật toán 3.7. Thuật toán gi tăng d a trên hàm hàm phân biệt mở
rộng tìm rút gọn khi lo i bỏ tập thuộc tính (Gọi là Thuật toán
GDF_IR_DeAt)
Input: B ng quyết nh
, tập rút gọn R của tập thuộc
tính C và tập thuộc tính P v i P  C .
C

Output: Một tập rút gọn t i ưu R của tập thuộc tính
1. R  R  P ;

C  P

.


C

2. Tính

M

3. While

CP

theo Thuật toán 3.6; Tính

GDF

R

4. Begin
For each
5. Chọn
6.

am  R

R  R  a m 

 G D F C  P 

aR


tính

sao cho

in

S IG R
in

S IG R

;

do
a 

am 

 GDF

R   GDF R

 M in  S I G R

 a  

;

 a  ;


in

a R

;

7. End;
8. For each a  R
9. If G D F  R   a    G D F  C  P  then
10. Return

G D F C  P 

R  R  a

;

.
Độ ph c t p tính toán của thuật toán 3.7 là
.
3.2.6
ự n iệ t uật toán
Mục tiêu của thử nghiệm là so sánh kết qu của Thuật toán
GDF_IR_AdAt (thuật toán gi tăng t m r t gọn khi bổ sung tập thuộc
tính d a trên hàm phân biệt mở rộng) v i thuật toán MIR_AdAt (thuật
toán gi tăng t m r t gọn khi bổ sung tập thuộc tính d a trên µ-metric)
về th i gian th c hiện và kết qu tập rút gọn. Các kết qu th c nghiệm
cho thấy, thuật toán GDF_IR_AdAt hiệu qu v
ng ắn v i ộ chính
xác phân l p v ộ nhất quán rất gần v i thuật toán gi tăng

_AdAt; tuy
nhiên thuật toán GDF_IR_AdAt cho tập rút gọn nhỏ hơn so v i MIR_AdAt.
R

Bảng 3.10. So sánh độ chính xác phân lớp của GDF_IR_AdAt và MIR_AdAt
STT

1
2
3

Tập d liệu

Hepatitis
Lung-cancer
Import-85

C

U

155
32
205

19
56
25

Độ chính

xác phân
lớp C4.5
của b ng
quy t định
b n đầu
(%)
95.84
90.18
93.58

Thuật toán
GDT_IR_AdAt
Độ chính
xác phân
lớp C4.5
(%)

R

3
4
5

94.18
92.65
91.98

Thuật toán
MIR_AdAt
Độ chính

xác phân
lớp C4.5
(%)

R

4
4
6

96.72
92.65
94.75


24
4
5
6

Kr-vs-kp
3196
36
Dermatology
366
34
Backup-large
307
35
Độ chính xác phân lớp trung bình C4.5


ẾT

88.75
90.91
81.86
90.18

24
7
7

89.16
87.98
80.27
89.37

27
8
8

90.58
88.57
82.39
90.94



Luận n đã đề cậ đến những vấn đề a đ y:
 Tìm hi u tổng quan tình hình nghiên c u rút gọn thuộc tính trên b ng quyết

nh ộng v tĩnh theo hư ng tiếp cận lý thuyết tập thô.
 Nghiên c u phương pháp r t gọn thuộc tính d trên ộ o metric
theo hư ng tiếp cận lý thuyết tập thô.
 Nghiên c u ề xuất các phương pháp c i tiến rút gọn thuộc tính của
b ng quyết nh ộng trong các trư ng h p thêm, x các i tư ng
hoặc thuộc tính.
Những kết quả hính đ t được trong luận án gồm:
 T m cơ chế tái sử dụng các kết qu của thuật toán g c th hiện qua
việc xây d ng và ch ng minh các công th c cập nhật ộ o µ-metric
trong các trư ng h p b ng quyết nh có s biến ộng một i tư ng
(thêm, xóa và cập nhật l m cơ sở cho rút gọn thuộc tính theo tiếp cận
gi tăng
 D a trên các kết qu xây d ng ở ư c trên, ề xuất các thuật toán
heuristic cập nhật tập rút gọn trong trư ng h p thêm hoặc cập nhật
tập i tư ng; tiến hành các th c nghiệm minh họa trên các bộ dữ liệu
UCI so sánh v i thuật toán g c không gi tăng v các thuật toán gia
tăng sử dụng entropy (Liang). Kết qu th c nghiệm c ng như ch ng
minh lý thuyết ều cho thấy các thuật toán luận án ề xuất có những
c i tiến nhất nh về th i gian th c hiện v
m b o ư c ộ chính
xác phân l p của b ng quyết nh rút gọn như ng quyết nh g c.
 Xây d ng và ch ng minh các công th c cập nhật ộ o µ-metric và
cơ chế cập nhật ma trận phân biệt mở rộng trong trư ng h p b ng
quyết nh có s biến ộng về tập thuộc tính (thêm, xóa).
 D a trên các kết qu ở ư c trên, ề xuất các thuật toán heuristic tìm
rút gọn khi thêm hoặc xóa một tập thuộc tính theo h i ộ o khác
nh u: ộ o µ-metric và Hàm phân biệt mở rộng. Th c nghiệm trên
các bộ s liệu UCI ch ng minh s c i tiến củ các phương pháp ề
xuất so v i phương pháp không gi tăng v một s phương pháp gi
tăng trong nh m tập thô khác.




×