Tải bản đầy đủ (.pdf) (26 trang)

Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (734.38 KB, 26 trang )

BỘ THÔNG TIN VÀ TRUYỀN THÔNG
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

CAO CHÍNH NGHĨA

NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC
TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH THEO TIẾP CẬN TẬP
THÔ MỜ

Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội - 2017


Công trình được hoàn thành tại: Học viện Công nghệ Bưu chính
Viễn thông
Người hướng dẫn khoa học: GS. TS. Vũ Đức Thi
TS. Tân Hạnh
Phản biện:.....................................................................
.....................................................................................
Phản biện:.....................................................................
.....................................................................................
Phản biện:.....................................................................
.....................................................................................
Luận án sẽ được bảo vệ trước Hội đồng cấp Học viện Công
nghệ Bưu chính Viễn thông chấm luận án tiến sĩ họp tại..
.....................................................................................
vào hồi



giờ

ngày

tháng

năm

Có thể tìm hiểu luận án tại:
-

Thư viện Quốc gia Việt Nam

-

Thư viện Học viện Công nghệ Bưu chính Viễn thông


MỞ ĐẦU
Tính cấp thiết của luận án
Rút gọn thuộc tính và sinh luật quyết định là hai bài toán quan
trọng trong quá trình khám phá tri thức từ dữ liệu. Rút gọn thuộc
tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất của
tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn
thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct).
Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực
hiện các nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng,
tính dễ hiểu của các kết quả thu được. Sinh luật quyết định là bước
tiếp theo của rút gọn thuộc tính trong khai phá dữ liệu nhằm đánh

giá chất lượng phân lớp của dữ liệu thông qua độ hỗ trợ của tập luật
quyết định.
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và
Prade, H., đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết
tập mờ nhằm xấp xỉ các tập mờ dựa trên một quan hệ tương đương
mờ (fuzzy equivalent relation) được xác định trên miền giá trị thuộc
tính. Theo lý thuyết tập thô mờ, độ tương đương mờ của hai đối
tượng là một giá trị nằm trong đoạn [0,1] cho thấy tính gần nhau,
hay khả năng phân biệt giữa hai đối tượng. Do đó, quan hệ tương
đương mờ bảo toàn sự khác nhau giữa các đối tượng và các phương
pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có tiềm năng trong
việc bảo toàn độ chính xác phân lớp sau khi thực hiện các phương
pháp rút gọn thuộc tính.
Chủ đề nghiên cứu về rút gọn thuộc tính và sinh luật quyết
định theo tiếp cận tập thô mờ đã thu hút sự quan tâm của các nhà
nghiên cứu trong mấy năm gần đây. Luận án tập trung nghiên cứu
trọng tâm vào hai bài toán:
1


1) Bài toán thứ nhất là rút gọn thuộc tính của bảng quyết định
miền giá trị thực trong bước tiền xử lý số liệu.
2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật quyết
định của bảng quyết định mờ.
Đối tượng nghiên cứu của luận án là các bảng quyết định có
miền giá trị thực và bảng quyết định mờ.
Các kết quả đạt được của luận án
1)

Đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên


bảng quyết định miền giá trị thực theo tiếp cận tập thô mờ, bao
gồm:
- Phương pháp rút gọn thuộc tính sử dụng miền dương mờ
nhằm nhằm khắc phục một số hạn chế của những công bố trước
đây để tìm được một tập rút gọn không dư thừa thuộc tính và bảo
toàn miền dương mờ. Kết quả này công bố trong công trình
[CCN1], [CCN2].
- Phương pháp rút gọn thuộc tính sử dụng khoảng cách
Jaccard mờ và khoảng cách phân hoạch mờ. Thực nghiệm trên một
số bộ dữ liệu lấy từ kho dữ liệu UCI chứng minh hai phương pháp
sử dụng khoảng cách mờ hiệu quả hơn các phương pháp đã công
bố trên cả hai tiêu chí: Độ chính xác phân lớp và thời gian thực
hiện trên một số bộ dữ liệu thực nghiệm. Các kết quả này công bố
trong công trình [CCN3], [CCN4].
2)

Đề xuất phương pháp rút gọn thuộc tính và sinh luật trong

bảng quyết định mờ theo tiếp cận tập thô mờ. Phương pháp rút gọn
thuộc tính sử dụng miền dương mờ được công bố trong công trình
[CCN2], phương pháp sinh hệ luật mờ trên bảng quyết định mờ sử
dụng khoảng cách Jaccard mờ được công bố trong [CCN5]. Bằng lý
thuyết và thực nghiệm chứng minh phương pháp đề xuất tương
2


đương với các phương pháp khác trên tiêu chí độ chính xác phân lớp
dữ liệu.
Bố cục của luận án gồm phần mở đầu và bốn chương nội

dung, phần kết luận và danh mục các tài liệu tham khảo. Chương 1
trình bày một số khái niệm cơ bản về lý thuyết tập thô và tổng quan
về bài toán rút gọn thuộc tính mà luận án tập trung nghiên cứu.
Chương 2 trình bày các kết quả nghiên cứu về các phương pháp rút
gọn thuộc tính trong bảng quyết định miền giá trị thực sử dụng miền
dương mờ và khoảng cách Jaccard mờ. Chương 3 trình bày kết quả
nghiên cứu về phương pháp rút gọn thuộc tính trong bảng quyết định
miền giá trị thực sử dụng khoảng cách phân hoạch mờ. Chương 4
trình bày phương pháp rút gọn thuộc tính và sinh luật quyết định
của bảng quyết định mờ.
CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ
1.1. Một số khái niệm về tập thô
Hệ thông tin là một cặp IS  U , A  trong đó U là tập hữu hạn
khác rỗng các đối tượng gọi là tập vũ trụ; A là tập hữu hạn khác
rỗng các thuộc tính.
Cho hệ thông tin IS  U , A  và tập đối tượng X  U . Với một
tập thuộc tính P  A cho trước, xác định được các lớp tương đương
của phân hoạch U / P . Có hai cách xấp xỉ tập đối tượng X thông
qua tập thuộc tính P, được gọi là P-xấp xỉ dưới và P-xấp xỉ trên của
X, ký hiệu lần lượt là PX và PX , được xác định như sau:









PX  u  U  u   X , PX  u U u   X  

P
P

Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc
vào X, còn tập PX bao gồm các phần tử của U có khả năng thuộc
vào X dựa vào tập thuộc tính P.
3


Xét hệ thông tin IS  U , A  với P, Q  A , ta gọi POS P (Q ) là
P-miền dương của Q, là tập các đối tượng trong U được phân lớp đúng
vào các lớp của U / Q sử dụng tập thuộc tính P. Nói một cách hình
thức, POSP (Q)  u U uP  uQ
Bảng quyết định DT  U , C  D  là một dạng đặc biệt của hệ
thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách
biệt nhau: Tập các thuộc tính điều kiện C và tập các thuộc tính
quyết định D với C  D   . Nếu miền giá trị của mọi thuộc tính
c  C là các giá trị số thực thì bảng quyết định DT được gọi là bảng

quyết định miền giá trị thực.
1.2. Một số khái niệm về tập thô mờ xác định trên bảng quyết
định miền giá trị thực
Cho bảng quyết định miền giá trị thực DT  U , C  D  , một
 xác định trên miền giá trị thuộc tính được gọi là quan hệ
quan hệ R

tương đương mờ nếu thỏa mãn các điều kiện sau với mọi x, y, z U
1) Tính phản xạ (reflexive):

  x, x   1 ;

R

2) Tính đối xứng (symetric): R  x , y   R  y , x  ;
3) Tính bắc cầu max-min (max-min
  x, z   min  R
  x, y  , R
  y, z  ;
R

transitive):

Cho bảng quyết định miền giá trị thực DT  U , C  D  với
U   x1 , x2 ,..., xn 

 P là quan hệ tương đương mờ xác định trên
và R

 P được biểu diễn bởi ma trận
tập thuộc tính P  C . Quan hệ R
tương đương mờ

P  p 
M R
 ij  nn

 

với pij  R P  xi , x j  là giá trị của quan hệ giữa hai đối tượng xi và x j
trên tập thuộc tính


P,

pij  0,1 , xi , x j  U , 1  i , j  n .

4


 P xác định một phân hoạch mờ
Quan hệ tương đương mờ R
 P là  R P  U / R P   x  n   x  ,...,  x  với
  P  U / R
 
 i  R P   1  R P  n  R P 
i 1

xi R P  pi1 / x1  pi2 / x2  ...  pin / xn

là một tập mờ đóng vai trò là một lớp tương đương mờ (fuzzy
equivalent class) của đối tượng xi . Hàm thuộc của các đối tượng xác
định bởi:
xi 

 R P

 x j    R  xi , x j   R P  xi , x j   pij
P

với mọi x j  U .

Khi đó, lực lượng của lớp đương đương mờ xi R P là

n

 xi R P 

p

ij

j 1

 P là một quan hệ tương
Cho X là một tập mờ trên U và R

đương mờ trên tập thuộc tính P  C . Khi đó, tập xấp xỉ dưới R P X
và tập xấp xỉ trên R P X của X là các tập mờ và hàm thuộc của các
đối tương x U được xác định
 R

PX



RP

 x 



sup min   F  x  , inf max 1   F  y  ,  X  y  
y


U



F U / R P

 x 
X



sup min   F  x  , sup min  F  y  ,  X  y  
P
yU
FU / R



 X,R
 P X là tập thô mờ.
Bộ R
P

Với hai quan hệ tương đương mờ R P , R Q xác định trên hai tập
 Q là một tập mờ,
thuộc tính P , Q  C , miền dương mờ POS R P R

 


hàm thuộc của các đối tượng x U được xác định
 POS


RP

  x
 R Q   x   X sup
Q RP X
U /R

5


1.3. Một số khái niệm về tập thô mờ xác định trên bảng quyết
định mờ
Bảng quyết định mờ là bảng quyết định mà các thuộc tính là
 D
 ,
các tập mờ (fuzzy set). Cho bảng quyết định mờ DT  U , C



 C
 được xác định
phân hoạch mờ sinh ra bởi tập thuộc tính P
   a  P
 : U / a
U/P






 

 X
  Y :  
, 
X  A, Y  B
X  Y   .
với A  B





X là các tập mờ và
Xấp xỉ dưới mờ và xấp xỉ trên mờ của tập 

hàm thuộc của các đối tượng được xác định như sau:


 P X  x   sup min   F  x  , inf max 1   F  y  ,  X  y  
yU



F U / P



    x   sup min   F  x  ,sup min  F  y  ,  X  y  
PX

yU
FU / P







Khi đó, miền dương mờ là tập mờ với hàm thuộc là:
 POS


P

   x
Q   x   Xsup
 PX
U / Q

Lực lượng của miền dương mờ được tính theo công thức
POS


P


Q   x    xU  POS P Q   x 

1.4. Rút gọn thuộc tính trong bảng quyết định
Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa
chọn thuộc tính (Attribute selection) và biến đổi thuộc tính
(Attribute transformation).
Lựa chọn thuộc tính là chọn một tập con tốt nhất (theo một
nghĩa nào đó) từ tập dữ liệu ban đầu.

6


Biến đổi thuộc tính thực hiện việc biến đổi các thuộc tính ban
đầu thành một tập các thuộc tính mới với số lượng ít hơn sao cho
bảo tồn được thông tin nhiều nhất.
Các công trình nghiên cứu về rút

Tập thuộc
tính ban đầu

gọn thuộc tính thường tập trung vào
nghiên cứu các kỹ thuật lựa chọn
thuộc tính. Nhìn chung, một thuật

Định nghĩa tập rút gọn

toán lựa chọn thuộc tính thường bao
gồm bốn khâu cơ bản:



Tạo lập tập con



Đánh giá tập con



Kiểm tra điều kiện dừng



Kiểm chứng kết quả.

Định nghĩa độ quan trọng
của thuộc tính

Xây dựng thuật toán
heuristic tìm một tập rút gọn

Phương pháp rút gọn thuộc tính
heuristic được mô hình hóa như hình
Tập rút gọn

vẽ.
1.5. Kết luận chương 1
Chương 1 trình bày một số khái niệm cơ bản trong lý thuyết tập
thô; một số khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán
rút gọn thuộc tính trên bảng quyết định miền giá trị thực; giải quyết
bài toán rút gọn thuộc tính và sinh luật quyết định trên bảng quyết

định mờ. Các khái niệm được trình bày ở Chương 1 là các kiến thức
nền tảng được sử dụng trong các chương sau của luận án.

7


CHƯƠNG 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG
QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN
DƯƠNG MỜ VÀ KHOẢNG CÁCH JACCARD MỜ
2.1. Đặt vấn đề
Các kết quả chính trong chương này được công bố trong các
công trình [CCN1], [CCN2], [CCN3].
2.2. Rút gọn thuộc tính sử dụng miền dương mờ
Theo hướng tiếp cận này, Hu, Q., và các cộng sự đề xuất thuật
toán FAR-VPFRS tìm một tập rút gọn sử dụng độ phụ thuộc của
thuộc tính dựa trên miền dương mờ. Dựa trên phương pháp của Hu,
Q., phần này đề xuất phương pháp rút gọn thuộc tính dựa trên miền
dương mờ sử dụng quan hệ tương đương mờ, để tìm một tập rút
gọn không dư thừa và bảo toàn miền dương mờ.
2.2.1.

Phương pháp rút gọn thuộc tính sử dụng miền dương mờ

Định nghĩa 2.1. Cho bảng quyết định có miền giá trị thực
 và tập thuộc tính
DT  U , C  D  , quan hệ tương đương mờ R
P  C . Nếu

1)  POS  D   x    POS   D   x 
RP

RC
2) p  P,  POS 

R( P { p })

 D   x    POS R C  D   x 

thì P là một tập rút gọn của C dựa trên miền dương mờ.
Định nghĩa 2.2. Cho bảng quyết định có miền giá trị thực
DT  U , C  D 

 xác định trên miền
và quan hệ tương đương mờ R

giá trị thuộc tính. Với P  C , độ quan trọng của thuộc tính b  C  P
 được định nghĩa:
đối với tập thuộc tính P dựa trên quan hệ R

SIGR P  b    POS

R ( P {b})

( D ) ( x)

  POS

RP

(D) ( x)


Thuật toán F_RSAR2: Thuật toán tìm một tập rút gọn không dư
8


thừa dựa trên miền dương mờ sử dụng quan hệ tương đương mờ.
Đầu vào: Bảng quyết định giá trị thực DT  U , C  D  , quan
.
hệ tương đương mờ R
Đầu ra: Một tập rút gọn P .
1. P  ; | POSR ( D) ( x) | 0 ;


2. Tính  POS

(D)


RC

3. While POS

P
R

( x) ;

( D)

( x)  POSR


C

(D )

( x) Do

4. Begin
5.
For c  C  P Do
;

SIGP  c   POS
( D ) ( x )  POSR ( D ) ( x)
R( P{c})
P

6.

Chọn cm  C  P sao cho SIGP (cm )  Max{SIGP (c)} ;

7.

P  P  {cm } ;

cC  P

8. End;
// Kiểm tra thuộc tính dư thừa trong P nếu có
9. For each a  P
10. Begin

11.

Tính  POS

12.

If POS


R( P { a })

 ( P { a })
R

(D)

(D)

( x) ;

( x )   POSR

C

(D)

( x ) then P  P  a ;

13. End;
14. Return P;

Ví dụ 2.1. Cho bảng quyết định miền giá trị thực DT  U , C  D 
như ở Bảng 2.1.
Bảng 2.1. Bảng quyết định miền giá trị thực của Ví dụ 2.1

U
u1

c1

c2

c3

c4

c5

c6

D

0.8

0.2

0.6

0.4

1


0

0

9


u2

0.8

0.2

0

0.6

0.2

0.8

1

u3

0.6

0.4


0.8

0.2

0.6

0.4

0

u4

0

0.4

0.6

0.4

0

1

1

u5

0


0.6

0.6

0.4

0

1

1

u6

0

0.6

0

1

0

1

0

Một quan hệ tương đương mờ được định nghĩa trên miền giá trị
của thuộc tính với p  xi  là giá trị của thuộc tính p tại đối tượng xi ,

pmax , pmin tương ứng là giá trị lớn nhất, nhỏ nhất của thuộc tính p.

 


p  xi   p x j
1  4 *
pij  
p max  p min

 0, otherwise

, if

 

p  xi   p x j
p max  p min

 0.25

Áp dụng F_RSAR2 tìm được tập rút gọn P  c 4 , c1  .
Thuật toán F_RSAR2 có độ phức tạp tính toán ma trận tương
2

đương mờ của một thuộc tính là O( U ) với U là số lượng đối
tượng, C là số lượng thuộc tính điều kiện; độ phức tạp tính toán của
2

3


2

C )
M (R

là O( C U ) . Độ phức tạp của F_RSAR2 là O( C U ) .

2.2.2.

Thử nghiệm và đánh giá kết quả

Luận án chọn sáu bộ dữ liệu lấy từ kho dữ liệu UCI có miền
giá trị số thực cho ở Bảng 2.2 để tiến hành thử nghiệm. Môi trường
thử nghiệm là máy tính PC với cấu hình Pentium core i3 2.4 GHz
CPU, 2 GB bộ nhớ RAM, hệ điều hành Windows 10.
Bảng 2.2. Bộ dữ liệu thử nghiệm

TT

Bộ dữ liệu

1
2
3
4
5

Fisher_Order
Iris

Glass
Sonar
Sensor_Readings_24

Số thuộc tính
điều kiện
35
4
10
60
24

10

Số đối
tượng
47
150
214
208
5456

Số
lớp
4
3
7
2
4



6

EEG_Eye_State

14

14980

2

Cài đặt các thuật toán F_RSAR2, FAR-VPFRS bằng ngôn ngữ
C#, các thuật toán sử dụng quan hệ tương đương mờ như ở Ví dụ
2.1. Sử dụng thuật toán C4.5 trong công cụ J48 của WEKA để đánh
giá độ chính xác phân lớp của hai thuật toán bằng cách chọn 2/3 số
đối tượng làm tập huấn luyện (training set), 1/3 số đối tượng còn lại
làm tập kiểm tra (testing set).
Bảng 2.3 và Bảng 2.4 là kết quả thử nghiệm trên sáu bộ số liệu
được chọn với U là số đối tượng, C là số thuộc tính điều kiện,
R

là số thuộc tính của tập rút gọn với mỗi thuật toán, t là thời gian

thực hiện (đơn vị là giây).
Bảng 2.3. Kết quả thực nghiệm của F_RSAR2, FAR-VPFRS

TT
1
2
3

4
5
6

C

Bộ số liệu
Fisher_Order
Iris
Glass
Sonar
Sensor_Readings_24
EEG_Eye_State

35
4
10
60
24
14

FA_RSAR2
R
t
19
1
7
12
15
7


0.216
0.003
0.40
2.975
2.634
4.969

FAR_VPFRS
R
t
21
2
7
12
15
7

0.209
0.003
0.040
2.889
2.465
4.356

Bảng 2.4. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS
T
T

Bộ số liệu


U

C

F_RSAR2
Độ chính
xác phân
R
lớp C4.5
(%)

1
2
3
4
5
6

Fisher_Order
Iris
Glass
Sonar
Sensor_Readings_24
EEG_Eye_State

47
150
214
208

5456
14980

35
4
10
60
24
14

19
1
7
12
15
7

11

78.72
94.67
81.56
70.60
95.12
81.25

FAR-VPFRS
Độ chính
xác phân
R

lớp C4.5
(%)

21
2
7
12
15
7

76.59
94.00
81.56
70.60
95.12
81.25


2.3. Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ
2.3.1.

Khoảng cách Jaccard mờ và các tính chất

Định nghĩa 2.3. Cho U là tập hữu hạn các đối tượng và A, B  U .
Khoảng cách Jaccard giữa hai tập hợp hữu hạn, được định nghĩa
DJ ( A, B)  1 

A B
A B


,C
 là ba tập mờ trên U . Khi đó
Định lý 2.1. Cho A, B

, B
)  1
DFJ ( A



A B


A B

là khoảng cách Jaccard mờ giữa hai tập mờ A, B .
Định nghĩa 2.4. Cho bảng quyết định mờ DT  U , C  D  , giả sử
 C và R
 D xác định trên hai tập thuộc
hai quan hệ tương đương mờ R
C
tính C và D tương ứng. Gọi rij là các phần tử của ma trận tương

 C và r D là các phần tử của ma trận tương đương
đương mờ M R
ij

 

D

mờ M R

 

với 1  i, j  n . Khoảng cách Jaccard mờ giữa hai tập

thuộc tính C và C  D dựa trên ma trận quan hệ tương đương
mờ xây dựng như sau:
n

d FJ

1
C, C  D   1 
U

U


i 1

 min r

C D
ij , rij



j 1


n
C
ij

r
j 1

Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực
DT  U , C  D 

và tập thuộc tính P  C . Nếu

1) d FJ  P , P  D   d FJ  C , C  D 
2) p  P, dFJ (P   p ,  P   p   D)  d FJ (C, C  D)
thì

P

là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ.

12


Định nghĩa 2.6. Cho bảng quyết định DT  U , C  D  , P  C và

b đối với P được định

b  C  P . Độ quan trọng của thuộc tính

nghĩa bởi

SIGP  b   dFJ  P, P  D  dFJ  P b , P b  D

2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách
Jaccard mờ
Thuật toán FJ_DBAR xây dựng theo phương pháp heuristic
(phần 1.4) để tìm một tập rút gọn, cách thức xây dựng giống như
thuật toán F_RSAR2 ở phần 2.2 với tập rút gọn xác định theo định
nghĩa 2.5, độ quan trọng thuộc tính xác định theo định nghĩa 2.6.
Áp dụng FJ_DBAR cho Ví dụ 2.1 thu được P  c 4 , c1 
2.3.3. Thử nghiệm và đánh giá kết quả
Luận án lựa chọn thuật toán heuristic tìm một tập rút gọn dựa
trên lượng thông tin tăng thêm GAIN_RATIO_AS_FRS (gọi là
GRAF, sử dụng entropy mờ) khi thêm một thuộc tính vào tập rút
gọn để so sánh với thuật toán FJ_DBAR, kịch bản thử nghiệm như
(phần 2.2.2). Kết quả thử nghiệm cho ở Bảng 2.5 và Bảng 2.6
Bảng 2.5. Kết quả thực nghiệm của FJ_DBAR và GRAF

FJ_DBAR
T
T

Tập dữ liệu

|U|

|C|

GRAF

|R|


t

|R|

T

1

Fisher_Order

47

35

18

0.095

21

0.107

2

Iris

150

4


1

0.002

2

0.003

3

Glass

214

10

6

0.46

8

0.48

4

Sonar

208


60

26

2.053

23

1.980

5

Sensor_Readings_24

5456

24

14

2.095

12

1.986

6

EEG_Eye_State


14980

14

7

2.580

7

2.790

13


Bảng 2.6. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF

FJ_DBAR
T
T

Tập dữ liệu

|U|

1
2
3
4

5
6

Fisher_Order
Iris
Glass
Sonar
Sensor_Readings_24
EEG_Eye_State

47
150
214
208
5456
14980

|C|
35
4
10
60
24
14

GRAF

|R|

Độ chính

xác phân
lớp (%)

|R|

Độ chính
xác phân
lớp (%)

18
1
6
26
14
7

78.72
94.00
80.15
71.63
94.84
81.25

21
2
8
23
12
7


76.59
94.00
81.70
70.67
91.25
81.25

2.4. Kết luận chương 2
Chương 2 của luận án cải tiến phương pháp rút gọn thuộc tính
của bảng quyết định miền giá trị thực trong công trình của Hu, Q.,
để tìm một tập rút gọn không dư thừa thuộc tính, bảo toàn miền
dương mờ. Đóng góp chính của Chương 2 là đề xuất phương pháp
rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng
khoảng cách Jaccard mờ. Thử nghiệm trên một số bộ dữ liệu mẫu
từ kho dữ liệu UCI cho thấy độ chính xác phân lớp của phương
pháp sử dụng khoảng cách Jaccard mờ tốt hơn phương pháp sử
dụng entropy mờ trên một số bộ dữ liệu, thời gian thực hiện nhanh
hơn trên đa số bộ dữ liệu thử nghiệm.
CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG
QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG
CÁCH PHÂN HOẠCH MỜ
3.1. Đặt vấn đề
Chương 3 của luận án đề xuất độ đo khoảng cách giữa hai
phân hoạch mờ và ứng dụng rút gọn thuộc tính của bảng quyết định
miền giá trị thực. Các kết quả chính trong chương này được công
bố trong công trình [CCN4].
14


3.2. Khoảng cách phân hoạch mờ và các tính chất

Mệnh đề 3.1. Cho hai tập mờ A, B trên cùng tập đối tượng U. Khi đó
, B
  A
 B
  2 A  B

d NF A
.
là một độ đo khoảng cách giữa A và B



Định



3.1.

U   x1 , x2 ,..., xn 

Xét



bảng

quyết

định


DT  U , C  D 

với

P ,  R
 Q là hai phân hoạch mờ sinh bởi
và  R

   

P , R
 Q trên P, Q  C . Khi đó:
hai quan hệ tương đương mờ R

 x   x   2 x   x 
 i R P  i R Q
  i R P  i R Q
DNF

n
i 1 

 P và  R
Q .
là khoảng cách phân hoạch mờ giữa  R
 P , R
Q
 R

1


n

n

     

 







 

3.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách
phân hoạch mờ
Định nghĩa 3.1. Cho bảng quyết định miền giá trị thực
P ,  R
 Q là hai phân hoạch mờ sinh ra
DT  U , C  D  với  R

   

P , R
 Q trên P, Q  C . Khi đó,
bởi hai quan hệ tương đương mờ R
khoảng cách phân hoạch mờ giữa hai tập thuộc tính P và Q , ký

hiệu là d NF  P , Q  , được định nghĩa là khoảng cách phân hoạch mờ

giữa hai phân hoạch mờ

P
 R

 



Q ,
 R

 

nghĩa là

 P , R
Q
d NF  P, Q   DNF  R

     .

Mệnh đề 3.4. Cho bảng quyết định miền giá trị thực DT  U , C  D 
 là quan hệ tương đương mờ xác định
với U   x1 , x2 ,..., xn  và R
trên miền giá trị tập thuộc tính điều kiện, khi đó khoảng cách phân
hoạch mờ giữa hai tập thuộc tính C và C  D dựa trên ma trận
tương đương mờ được xác định như sau:

1
d NF  C, C D  
n

 x    x    x 
  i R C  i R C  i D

n
i 1 

n



15







Định nghĩa 3.2. Cho bảng quyết định miền giá trị thực
DT  U , C  D 

 là quan hệ tương đương mờ xác
với B  C và R

định trên miền giá trị tập thuộc tính điều kiện. Nếu:
1) d NF  B , B  D   d NF  C , C  D 

2) b  B, d NF ( B  b , B  b  D))  d NF (C, C  D)
thì B là một tập rút gọn của C theo khoảng cách phân hoạch mờ.
Định nghĩa 3.3. Cho bảng quyết định miền giá trị thực
DT  U , C  D 

với B  C và b  C  B . Độ quan trọng của thuộc

tính b đối với B được định nghĩa bởi
SIGB  b  d NF  B, B  D   d NF  B  b , B  b  D

Thuật toán NF_DBAR xây dựng theo phương pháp heuristic
(phần 1.4) để tìm một tập rút gọn, cách thức xây dựng giống như
thuật toán F_RSAR2 ở phần 2.2 với tập rút gọn xác định theo định
nghĩa 3.2, độ quan trọng thuộc tính xác định theo định nghĩa 3.3.
Áp dụng NF_DBAR cho Ví dụ 2.1 thu được P  c 4 , c1 
3.4. Thử nghiệm và đánh giá kết quả
Luận án chọn thuật toán FA_FPR (tìm tập rút gọn dựa trên
miền dương mờ) và thuật toán FA_FSCE (tìm tập rút gọn dựa trên
entropy mờ) để so sánh với NF_DBAR, kịch bản thử nghiệm như ở
phần 2.2.2. Kết quả thử nghiệm cho ở Bảng 3.2 và Bảng 3.3.
Bảng 3.2. Kết quả thực nghiệm của FA_FSCE, FA_FPR, NF_DBAR
T
T

Bộ số liệu

C

FA_ FSCE


FA_FPR

NF_DBAR

R

t

R

t

R

t

1

Fisher_Order

35

22

0.198

21

0.193


18

0.079

2

Iris

4

2

0.002

2

0.003

1

0.002

3

Glass

10

6


0.029

7

0.036

7

0.024

4

Sonar

60

8

2.012

12

2.889

13

2.433

5


Sensor_Readings_24

24

12

1.963

15

2.465

14

2.005

6

EEG_Eye_State

14

7

3.659

7

4.069


7

3.046

16


Bảng 3.3. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR, NF_DBAR
FA_ FSCE
T
T

Bộ số liệu

1
2
3
4
5
6

Fisher_Order
Iris
Glass
Sonar
Sensor_Readings24
EEG_Eye_State

U


47
150
214
208
5456
14980

C
35
4
10
60
24
14

R

22
2
6
8
12
7

Độ chính
xác phân
lớp C4.5
(%)
79.87
94.00

80.15
75.40
91.25
81.25

FA_FPR
R

21
2
7
12
15
7

Độ chính
xác phân
lớp C4.5
(%)
76.59
94.00
81.56
70.60
95.12
81.25

NF_DBAR
Độ chính
R
xác phân

18
1
7
13
14
7

lớp C4.5
(%)
78.72
94.67
81.56
76.25
94.84
81.25

3.5. Kết luận chương 3
Chương 3 của luận án đề xuất một khoảng cách giữa hai phân
hoạch mờ, ứng dụng xây dựng phương pháp rút gọn thuộc tính của
bảng quyết định có miền giá trị thực. Thực nghiệm trên một số bộ
dữ liệu lấy từ kho dữ liệu UCI cho thấy phương pháp đề xuất hiệu
quả hơn các phương pháp sử dụng entropy thông tin mờ và miền
dương mờ trên một số bộ dữ liệu thử nghiệm theo các tiêu chí đánh
giá: Thời gian thực hiện và độ chính xác phân lớp dữ liệu.
CHƯƠNG 4. RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT
TRÊN BẢNG QUYẾT ĐỊNH MỜ
4.1. Đặt vấn đề
Bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định mờ
được giới thiệu lần đầu trong công trình của Jensen, R., và Shen,
Q., với thuật toán FUZZY-QUICKREDUCT. Sinh luật quyết định

thường được thực hiện trên các tập rút gọn với mục tiêu rút ra tập
luật đơn giản và nâng cao chất lượng phân lớp dữ liệu học theo các
luật này.
4.2. Phương pháp rút gọn thuộc tính của bảng quyết định mờ
Trong phần này, luận án trình bày phương pháp heuristic rút
gọn thuộc tính trực tiếp của bảng quyết định mờ dựa trên miền
dương mờ, sử dụng thuật toán F_RSAR1 được công bố trong công
17


trình [CCN2]. Thuật toán F_RSAR1 là cải tiến của thuật toán
FUZZY-QUICKREDUCT để tìm được một tập rút gọn không dư
thừa thuộc tính và bảo toàn miền dương mờ.
 ) và tập thuộc tính
Định nghĩa 4.1. Cho bảng quyết định DT (U , C  D

 C
 . Nếu
P

1) POS


P

)
(D

( x )   POS  ( D ) ( x )
C


, 
2)  p  P
( x )  POS ( D ) ( x )
POSP {p}
 (D)
C

 là một tập rút gọn của C
 dựa trên miền dương mờ.
thì P
 C
 và
), P
Định nghĩa 4.2. Cho bảng quyết định DT  (U,C  D


P
 . Độ quan trọng của thuộc tính b đối với tập thuộc tính P
b  C

được định nghĩa
SIGP b  POS




P{b}

( D ) ( x)


 POS ( D ) ( x )
P

Thuật toán F_RSAR1 xây dựng theo phương pháp heuristic
(phần 1.4) để tìm một tập rút gọn, cách thức xây dựng giống như
thuật toán F_RSAR2 ở phần 2.2 với tập rút gọn xác định theo định
nghĩa 4.1, độ quan trọng thuộc tính xác định theo định nghĩa 4.2.
 ) như sau:
Ví dụ 4.1. Cho bảng quyết định mờ D T  (U , C  D
Bảng 4.1. Bảng quyết định mờ chơi thể thao
c1


C
1

c

c4


C
2

c

2

c3


c6

c7

c8

d1

d2

d3

u1

0.3

0.7

0

0.2

0.7

0.1

0.3

0.7


0.1

0.9

0

u2

1

0

0

1

0

0

0.7

0.3

0.8

0.2

0


u3

0

0.3

0.7

0

0.7

0.3

0.6

0.4

0

0.2

0.8

u4

0.8

0.2


0

0

0.7

0.3

0.2

0.8

0.6

0.3

0.1

u5

0.5

0.5

0

1

0


0

0

1

0.6

0.8

0

u6

0

0.2

0.8

0

1

0

0

1


0

0.7

0.3

TT

5


C
3

18


D


u7

1

0

0

0.7


0.3

0

0.2

0.8

0.7

0.4

0

u8

0.1

0.8

0.1

0

0.9

0.1

0.7


0.3

0

0

1

u9

0.3

0.7

0

0.9

0.1

0

1

0

0

0


1

Áp dụng F_RSAR1 tìm được một tập rút gọn là P  {C1 ,C3 } .
4.3. Phương pháp sinh luật quyết định của bảng quyết định mờ
Trong phần này, luận án trình bày phương pháp sinh luật
quyết định từ bảng quyết định mờ đã rút gọn thuộc tính sử dụng
khoảng cách Jaccard mờ tính trực tiếp giữa hai tập mờ. Kết quả của
phần này được công bố trong công trình [CCN5].
Cho U là tập hữu hạn các đối tượng và các tập mờ A, B  U .
Theo chương 2, khoảng cách Jaccard mờ tính trực tiếp của hai tập
mờ được xác định như sau:
, B
)  1
DFJ ( A

A  B

A  B


 1

 min( 
 max(


A

(u ),  B (u ))



A

(u ),  B (u ))

uU

uU

 D
 . Mỗi phần tử u U
Cho bảng quyết định mờ DT  U , C





 theo một luật quyết định mờ có dạng
được phân vào một lớp dj  D
 is
IF ( C
i

Ti11

 is
AND …AND ( C
k


k

T
ik )) THEN ( D

is

dj )

Phương pháp sinh luật quyết định từ bảng quyết định mờ bao
gồm các bước:
- Phân nhóm các đối tượng của bảng quyết định mờ theo giá
trị cao nhất của từng biến ngôn ngữ của thuộc tính quyết định.
- Tính khoảng cách Jaccard mờ giữa các biến ngôn ngữ của
thuộc tính quyết định với các biến ngôn ngữ của các thuộc tính điều
kiện theo từng phân nhóm.

19


- Đưa ra các tham số ngưỡng [ ,  ] [0,1] phù hợp để sinh ra
các luật quyết định. Những luật cần dùng thêm tham số  được xác
định như sau:
 is d
Rule k: IF MF (Rule i) <  And …MF (Rule j) <  Then D
k

với MF (Rule i) = MF (Condition Part of Rule i) là giá trị hàm
thuộc phần điều kiện của luật i. Khả năng phân lớp dữ liệu của bảng
quyết định theo các tập luật quyết định cho mỗi đối tượng là


D
( d i ) = MF(Rule i)

Thuật toán FJ_RBAR: Thuật toán tìm một tập luật quyết định của
bảng quyết định mờ đã rút gọn thuộc tính.
  {C
 ,..., C
 } của bảng quyết định mờ
Đầu vào: Tập rút gọn P
1
p
đã rút gọn thuộc tính và các tham số ngưỡng  , 
Đầu ra: Tập luật quyết định Rules.
k ,..., T
k } ;
  {d ,..., d} ; T
(Ck )  {T
1. Rule  ; k=0; D
1
i
1
s


2. For each u U Do phân nhóm d j  D ;
 Do
3. For each d  D
k


k

j

4. Begin
5.

For each ci  C Do

6.

Begin

7.

Tính DFJ (dj , ci ) ;

8.

If

9.

End;

10.

// Sinh ra các luật quyết định mờ
For each c  W (c ) Do Rule j  c   d ;


DFJ ( dj , ci )   AND ci  min{T
(Ci )}

i

i

11. End;
12. For each k  C  W Do Tính Rule k ;
13. Return Rules;
20

i

Then

j

W (ci )  {ci } ;


Độ phức tạp tính toán của FJ_RBAR là O ( C D U ) , với |C| là
số biến ngôn ngữ của tất cả các thuộc tính điều kiện của bảng quyết
định, |D| là số biến ngôn ngữ của thuộc tính quyết định, |U| là số
đối tượng của bảng dữ liệu.
Ví dụ 4.2. Cho bảng quyết định mờ, phân nhóm như ở Bảng 4.2,
tìm một tập luật quyết định phân lớp được thực hiện như sau:
Bảng 4.2. Bảng quyết định mờ chơi thể thao đã rút gọn thuộc tính

c1



C
1
c
2

c3

c7

c8

d1

d2

d3

u2

1

0

0

0.7

0.3


0.8

0.2

0

u7

1

0

0

0.2

0.8

0.7

0.4

0

u4

0.8

0.2


0

0.2

0.8

0.6

0.3

0.1

u1

0.3

0.7

0

0.3

0.7

0.1

0.9

0


u5

0.5

0.5

0

0

1

0.6

0.8

0

u6

0

0.2

0.8

0

1


0

0.7

0.3

u8

0.1

0.8

0.1

0.7

0.3

0

0

1

u9

0.3

0.7


0

1

0

0

0

1

u3

0

0.3

0.7

0.6

0.4

0

0.2

0.8


TT

Phân
nhóm 1

Phân
nhóm 2

Phân
nhóm 3

-


C
3


D

Trong mỗi phân nhóm, tính khoảng cách Jaccard mờ giữa

các biến ngôn ngữ của các thuộc tính như ở Bảng 4.3.
Bảng 4.3. Khoảng cách Jaccard mờ giữa các biến ngôn ngữ của Bảng 4.2


C
C
Quyết

định

1

c1

3

c2

c3

c7

c8

d1
d

0.25

0.904762

1

0.47619

0.333333

2


0.666667

0.416667

0.72

0.875

0.241379

d3

0.857143

0.357143

0.714286

0.178571

0.75

Tập luật quyết định sinh ra từ các tham số ngưỡng (α=0.245;
β=0.9) như sau:
21


 is “ d ”
- Rule 1: IF MF (Rule 2) <  AND MF (Rule 3) <  THEN D

1
 is d
 is c THEN D
- Rule 2: IF C
3
8
2

 is d
 is NOT c AND C
 is c THEN D
- Rule 3: IF C
1
1
3
7
3

Thử nghiệm đánh giá độ chính xác phân lớp dữ liệu theo tập
luật quyết định sinh ra từ các thuật toán MRBFA, MRBBA và
FJ_RBAR, thuật toán FJ_RBAR sử dụng dữ liệu đầu vào là các tập
tập rút gọn thu được từ F_RSAR1, đầu vào của các thuật toán là bộ
dữ liệu ở phần 2.2.2 sau khi đã mờ hóa thể hiện ở Bảng 4.4.
Bảng 4.4. Kết quả thực nghiệm của MRBFA, MRBBA và FJ_RBAR
T
T
1
2
3
4

5
6

Tập dữ liệu

Fisher_Order
Iris
Glass
Sonar
Sensor_Readings_24
EEG_Eye_State

MRBFA

MRBBA

FJ_RBAR

Độ chính xác
phân lớp

Độ chính
xác phân lớp

Độ chính xác
phân lớp

Tham số
ngưỡng


0.7842 ± 0.0482

0.7725 ± 0.0411

0.7512 ± 0.0512

(α=0.28; β=0.91)

0.8607 ± 0.0275
0.5432 ± 0.0696

0.8108 ± 0.0268
0.5353 ± 0.0787

0.9174 ± 0.0231
0.8232 ± 0.0895
0.8532 ± 0.0521

0.9168 ± 0.0249
0.8203 ± 0.0723
0.8412 ± 0.0542

0.9071 ± 0.0326
0.4658 ± 0.0884
0.9182 ± 0.0255
0.9152 ± 0.0912
0.7932 ± 0.0512

(α=0.23; β=0.82)
(α=0.15; β=0.85)

(α=0.3; β=0.75)
(α=0.18; β=0.9)
(α=0.25; β=0.75)

4.4. Kết luận chương 4
Chương 4 giới thiệu một phương pháp rút gọn thuộc tính và
sinh luật quyết định của bảng quyết định mờ. Phương pháp sinh luật
quyết định được thực hiện trên bảng quyết định mờ sau khi đã rút
gọn thuộc tính nên tập luật thu được đơn giản hơn một số phương
pháp khác. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu
UCI cho thấy độ hỗ trợ phân lớp dữ liệu của tập luật thu được của
phương pháp đề xuất tương đương với một số phương pháp khác.
KẾT LUẬN
1)

Những kết qủa chính của luận án:
(1) Với bài toán tìm một tập rút gọn của bảng quyết định miền
giá trị thực, luận án đạt được những kết quả sau:
22


- Cải tiến phương pháp sử dụng miền dương mờ để tìm một
tập rút gọn không dư thừa thuộc tính và bảo toàn miền dương mờ.
- Xây dựng khoảng cách Jaccard mờ và ứng dụng rút gọn
thuộc tính của bảng quyết định.
- Đề xuất khoảng cách giữa hai phân hoạch mờ và ứng dụng
xây dựng phương pháp rút gọn thuộc tính của bảng quyết định.
Thử nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI cho
thấy các phương pháp sử dụng khoảng cách mờ tỏ ra có ưu thế hơn
về thời gian thực hiện và độ chính xác phân lớp dữ liệu so với các

phương pháp sử dụng miền dương mờ và entropy mờ.
(2) Với bài toán rút gọn thuộc tính và sinh luật quyết định của
bảng quyết định mờ, luận án đạt được kết quả sau:
- Cải tiến phương pháp rút gọn thuộc tính dựa trên miền
dương mờ để tìm được một tập rút gọn không dư thừa và bảo toàn
miền dương mờ.
- Đề xuất phương pháp sinh luật quyết định của bảng quyết
định mờ sử dụng khoảng cách Jaccard mờ trực tiếp giữa các biến
ngôn ngữ của thuộc tính điều kiện và quyết định. Thực nghiệm trên
một số bộ dữ liệu lấy từ kho dữ liệu UCI cho thấy phương pháp đề
xuất cho độ chính xác phân lớp dữ liệu tương đương với một số
phương pháp khác đã công bố.
2)
Hướng phát triển của luận án:
(1) Đối với bảng quyết định có miền giá trị thực, tiếp tục
nghiên cứu mối liên hệ giữa các tập rút gọn. Từ đó, hoàn thiện việc
phân loại và so sánh các phương rút gọn thuộc tính của bảng quyết
định có miền giá trị thực theo tiếp cận tập thô mờ.
(2) Đối với bảng quyết định mờ, nghiên cứu các phương pháp
hiệu quả để rút gọn thuộc tính và sinh luật quyết định. Xây dựng

23


×