Tải bản đầy đủ (.pdf) (23 trang)

Rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô mờ (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (945.46 KB, 23 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-------------------------------------

NGUYỄN QUANG HUY

RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành

: Khoa học máy tính

Mã số

: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2017


Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. NGUYỄN LONG GIANG

Phản biện 1: .....……………………………………………………………
.....…………………………………………………………… …………....
.....…………………………………………………………… …………....

Phản biện 2: .…..…………………………………………………………..


.....…………………………………………………………… …………....
.....…………………………………………………………… …………....

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn thông
Vào lúc: ............ giờ ......... ngày ............ tháng ............. năm ...................

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông


Mục lục

MỤC LỤC

MỤC LỤC .................................................................................................................. iii
LỜI MỞ ĐẦU ............................................................................................................. 1
Chương 1: Cơ sở lý thuyết ......................................................................................... 2
1.1

Lý thuyết tập thô ............................................................................................. 2

1.2

Lý thuyết tập mờ ............................................................................................. 3

1.3

Lý thuyết tập thô mờ ....................................................................................... 4


1.3.1

Quan hệ tương đương mờ ........................................................................ 5

1.3.2

Ma trận tương đương mờ ......................................................................... 5

1.4

Rút gọn thuộc tính trong bảng quyết định ...................................................... 6

1.4.1

Tổng quan về rút gọn thuộc tính .............................................................. 6

1.4.2

Rút gọn thuộc tính theo tiếp cận tập thô .................................................. 7

1.4.3

Các phương pháp heuristic rút gọn thuộc tính phổ biến .......................... 8

Chương 2: Rút gọn thuộc tính trong bảng quyết định sử dụng độ đo khoảng
cách mờ ...................................................................................................................... 10
2.1

Xây dựng độ đo khoảng cách mờ theo tiếp cận tập thô mờ.......................... 10


2.1.1

Định nghĩa khoảng cách ......................................................................... 10

2.1.2

Khoảng cách Jaccard giữa hai tập mờ .................................................... 10

2.2

Thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ............................... 11

2.2.1

Định nghĩa tập rút gọn dựa trên khoảng cách mờ .................................. 11

2.2.2

Định nghĩa độ quan trọng của thuộc tính ............................................... 11

2.3

Thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ............................... 12

Chương 3: Thử nghiệm và đánh giá kết quả ......................................................... 14


Mục lục
3.1


Phát biểu bài toán .......................................................................................... 14

3.2

Mục tiêu thử nghiệm ..................................................................................... 14

3.3

Số liệu, công cụ và môi trường thử nghiệm .................................................. 14

3.4

Đánh giá kết quả thử nghiệm ........................................................................ 15

3.4.1

Thử nghiệm 1 ......................................................................................... 15

3.4.2

Thử nghiệm 2: ........................................................................................ 16

KẾT LUẬN ............................................................................................................... 19


1

LỜI MỞ ĐẦU
Thời gian gần đây, phương pháp tiếp cận dựa trên tập thô mờ dần được nhiều
nhóm nghiên cứu quan tâm và mở rộng ứng dụng trong bài toán rút gọn thuộc tính,

sinh luật quyết định. Mục đích của rút gọn thuộc tính trong bước tiền xử lý dữ liệu là
loại bỏ các thuộc tính dư thừa nhằm tăng tính hiệu quả của các thuật toán trích lọc luật,
khai phá tri thức. Một phương pháp truyền thống dựa trên lý thuyết tập thô được đánh
giá là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên
bảng quyết định. Tuy nhiên, phương pháp này phải được thực hiện trên các bảng quyết
định với miền giá trị thuộc tính rời rạc, nghĩa là ta phải thực hiện các phương pháp rời
rạc hóa dữ liệu trước khi áp dụng các phương pháp rút gọn thuộc tính theo tiếp cần tập
thô. Do đó, nó làm giảm thiểu độ chính xác phân lớp của bảng quyết định. Lý thuyết
tập thô mờ được xem là công cụ hiệu quả để giải quyết bài toán rút gọn trực tiếp trên
bảng quyết định có miền giá trị thuộc tính liên tục. Ưu điểm dễ thấy của phương pháp
đó là không cầ n thông qua bước rời ra ̣c hóa dữ liê ̣u như các kỹ thuâ ̣t này trong tâ ̣p thô
truyề n thố ng nên giảm thiể u đươ ̣c sự mấ t mát thông tin.
Với mục tiêu nghiên cứu các phương pháp rút gọn thuộc tính nhằm nâng cao độ
chính xác phân lớp của bảng quyết định, học viên chọn đề tài nghiên cứu “Rút gọn
thuộc tính trong bảng quyết định theo tiếp cận tập thô mờ”. Luận văn này trình bày về
phương pháp rút go ̣n thuô ̣c tiń h của bảng quyết định sử dụng khoảng cách Jaccard mờ.
Bố cục luận văn được chia làm 3 chương:
 Chương 1. Cơ sở lý thuyết
Trình bày các lý thuyết cơ bản về tập thô, tập mờ và tập thô mờ.
 Chương 2. Rút gọn thuộc tính trong bảng quyết định sử dụng độ đo khoảng
cách mờ
Sử dụng độ đo khoảng cách mờ theo tiếp cận tập thô mờ, ở đây là khoảng cách
Jaccard mờ, dùng để rút gọn thuộc tính, từ đó xây dựng thuật toán
 Chương 3. Thử nghiệm và đánh giá kết quả
Áp dụng thuật toán xây dựng được ở chương 2 để giải các bài toán thử nghiệm có
đầu vào là bộ dữ liệu từ UCI và đầu ra là tập các thuộc tính sau khi rút gọn.


2


CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1 Lý thuyết tập thô
Định nghĩa 1.1. Hệ thông tin là một cặp IS  U , A trong đó U là tập hữu hạn các
đối tượng gọi là tập vũ trụ; A là tập hữu hạn, khác rỗng các thuộc tính. Với mọi

u U , a  A , ta ký hiệu giá trị của thuộc tính a tại đối tượng u là u  a  . Nếu
B  b1 , b2 ,..., bk   A là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị bi(u)

bởi B(u). Như vậy, nếu u và v là hai đối tượng thì ta viết B(u)=B(v) nếu bi(u)=bi(v)
với mọi i  1,..., k .
Xét hệ thông tin IS  U , A . Mỗi tập con các thuộc tính P  A , tồn tại một
quan hệ hai ngôi trên U, ký hiệu là IND  P  , xác định bởi
IND( P)  {(u, v) U U | a  P, a(u )  a(v)}

(1.1)

IND  P  được gọi là quan hệ P-không phân biệt được. Dễ thấy rằng đây là một quan

hệ tương đương trên U . Nếu (u, v)  IND( P) thì hai đối tượng u và v không phân biệt
được bởi các thuộc tính trong P . Quan hệ tương đương IND  P  xác định một phân hoạch
trên U, ký hiệu là U / IND  P  hay U / P , cụ thể:





U / P   a  P : U / IND a

(1.2)


với A  B   X  Y : X  A, Y  B, X  Y   .
Ký hiệu lớp tương đương trong phân hoạch U / P chứa đối tượng u là u  P , khi đó





u  P  v U  u, v   IND  P  .

Cho hệ thông tin IS  U , A và tập đối tượng X  U . Với một tập thuộc tính

B  A cho trước, chúng ta có các lớp tương đương của phân hoạch U / B . Trong lý


3
thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương của U / B
(còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của một số
hữu hạn các lớp tương đương của U / B . Có hai cách xấp xỉ tập đối tượng X thông
qua tập thuộc tính B, được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là
lượt là BX và BX , được xác định như sau :










BX  u U u  B  X , BX  u U u  B  X  

(1.3)

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập BX
bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính B. Từ
hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BN B  X   BX  BX : B-miền biên của X , U  BX : B-miền ngoài của X.

Dễ thấy B-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn Bmiền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các lớp của
phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
BX 

Y U / B Y  X  ,

BX 

Y U / B Y  X  

(1.4)

Trong trường hợp BN B  X    thì X được gọi là tập rõ, ngược lại X được
gọi là tập thô.

1.2 Lý thuyết tập mờ
Lý thuyết tập mờ (Fuzzy set theory) là sự mở rộng của lý thuyết tập hợp cổ
điển nhằm biểu diễn những tri thức không chính xác. Để xem một phần tử có là thành
viên của tập A hay không, ta gán cho phần tử đó giá trị là 1 nếu nó chắc chắn thuộc
về A, gán giá trị 0 khi phần tử đó chắc chắn không thuộc về tập A. Nói một cách
khác, ta có thể xây dựng một hàm thành viên (hàm thuộc) để đánh giá xem một phần

tử có thuộc về một tập hợp hay không
1 if u  A

 A (u)  

0 if u  A

u U

(1.5)


4
Rõ ràng, hàm thuộc  A sẽ xác định tập con cổ điển A trên tập vũ trụ U với  A
chỉ nhận giá trị {0,1}. Ngược lại lý thuyết tập mờ cho phép đánh giá nhiều mức độ
khác nhau về một phần tử có thể thuộc về một tập hợp, hàm thành viên để xác định
mức độ một phần tử u thuộc về một tập A là 0   A (u)  1, u U .
Định nghĩa 1.2. Cho U là một vũ trụ tham chiếu, tập con mờ A (hay còn gọi là tập
mờ A) trên U được xác định bởi hàm thuộc  A . Mỗi phần tử u của U, gán cho một
giá trị  A (u) , với 0   A (u)  1 . Nói cách khác, tập con mờ A trên U được xác định
bởi ánh xạ  A : U  [0,1] . Với U  u1, un ,..., un  , tập mờ A trên U được biểu diễn:

A  { A (u1) / u1,  A (u2 ) / u2 ,...,  A (un ) / un}, ui U , i  1..n

(1.6)

Lực lượng của tập mờ A được ký hiệu và xác định

A    A (u )


(1.7)

uU

Định nghĩa 1.3. Cho U là tập vũ trụ hữu hạn các đối tượng và F (U  U ) là một tập
mờ thực sự trên U U . Quan hệ

R

được gọi là một quan hệ mờ trên U U nếu

R  F (U U ) , trong đó R( x, y ) đo độ liên hệ giữa x U và y  U .
Nếu hai phần tử x, y U có liên hệ với nhau theo quan hệ

R

với cấp độ  thì ta

viết R( x, y)   . Nếu U  {u1, u2 ,...un} thì quan hệ mờ hai ngôi trên U có thể được
biểu diễn bằng ma trận vuông cấp n, ký hiệu M ( R) mà phần tử  ij nằm trên hàng i
và cột j là mức độ liên hệ giữa ui và u j , tức là  ij  R(ui , u j ) .

M ( R)  ij ; i, j  1..n
Việc cho một quan hệ hai ngôi

R

(1.8)

trên U tương đương với việc cho một ma


trận M ( R) .

1.3 Lý thuyết tập thô mờ
Tuy lý thuyết tập mờ và lý thuyết tập thô có những điểm khác biệt, song
chúng đều là các mô hình biểu diễn tính không chắc chắn, trong đó lý thuyết tập thô


5
đặc trưng cho tính không rõ ràng và lý thuyết tập mờ đặc trưng cho tính thô sơ, vì
vậy kết hợp hai mô hình này là một lẽ tự nhiên trong tiến trình mở rộng lý thuyết tập
thô. Việc kết hợp cho phép hai lý thuyết này hỗ trợ cho nhau nhằm biểu diễn tốt hơn
tính không chắc chắn. Tập thô mờ đã được ứng dụng trong nhiều bài toán phân tích
dữ liệu, điển hình là bài toán rút gọn thuộc tính và sinh luật quyết định.

1.3.1 Quan hệ tương đương mờ
Cho bảng quyết định miền giá trị thực DT  U , C  D  , một quan hệ R xác
định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn
các điều kiện sau với mọi x, y, z U
1) Tính phản xạ (reflexive): R  x, x   1 ;
2) Tính đối xứng (symetric): R  x, y   R  y, x  ;





3)Tính bắc cầu max-min (max-min transitive): R  x, z   min R  x, y  , R  y, z  ;
Cho hai quan hệ tương đương mờ R P và RQ xác định trên tập thuộc tính P và Q,
khi đó với mọi x, y U ta có:
1) R P  RQ  R P  x, y   RQ  x, y  ;



 R  x, y   min R

(1.9)


 x, y  ;

2) R PQ  R P  RQ  R  x, y   max R P  x, y  , RQ  x, y  ;
3) R PQ  R P  RQ

P

 x, y  , R Q

4) R P  RQ  R P  x, y   RQ  x, y  .

(1.10)
(1.11)
(1.12)

1.3.2 Ma trận tương đương mờ
Cho bảng quyết định miền giá trị thực DT  U , C  D  với U   x1 , x2 ,..., xn 
và R P là quan hệ tương đương mờ xác định trên tập thuộc tính P  C . Quan hệ R P

 

được biểu diễn bởi ma trận tương đương mờ M R P   pij  nn như sau:



6

 p11
p
M ( R P )   21
 ...

 pn1

p12
p22
...
pn 2

...
...
...
...

p1n 
p2 n 

... 

pnn 

(1.13)

với pij  R P  xi , x j  là giá trị của quan hệ giữa hai đối tượng xi và x j trên tập thuộc tính


P , pij  0,1 , xi , x j U ,1  i, j  n .
Công thức sau để xây dựng các ma trận tương đương mờ trực tiếp từ các thuộc
tính của bảng quyết định có miền giá trị thực:

p  xi   p  x j 
1  4*
, if
pij  
pmax  pmin

0, otherwise

p  xi   p  x j 
pmax  pmin

 0.25

(1.14)

với p  xi  là giá trị của thuộc tính p tại đối tượng xi , pmax , pmin tương ứng là giá trị
lớn nhất, nhỏ nhất của thuộc tính p. Dễ thấy, giá trị các phần tử của ma trận tương
đương mờ thuộc đoạn [0,1], nếu pmax  pmin (tử thức và mẫu thức đều bằng 0) thì
định nghĩa pij  1 . Khi đó sử dụng quan hệ tương đương mờ ở công thức (1.14) và quan
hệ tương đương ở công thưc (1.15) là như nhau

pij  1 nếu x j   xi  P và pij  0 nếu x j   xi  P

(1.15)


Nói cách khác, lớp tương đương  xi  P có thể xem là lớp đương đương mờ,

 

 

ký hiệu là  xi  P , với hàm thuộc  xi  x j  1 nếu x j   xi  P và  xi  x j  0 nếu
 P
 P

x j   xi  P .
1.4 Rút gọn thuộc tính trong bảng quyết định
1.4.1 Tổng quan về rút gọn thuộc tính
Rút gọn thuộc tính là bài toán quan tro ̣ng trong bước tiền xử lý số liệu với mục
tiêu là giảm số chiều dữ liệu (số thuộc tính) bằng cách loại bỏ dữ liệu dư thừa nhằm


7
nâng cao hiệu quả của các thuật toán khai phá dữ liệu và học máy. Rút gọn thuộc tính
của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất của tập thuộc tính điều
kiện mà bảo toàn thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct).
Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc
(filter) và đóng gói (wrapper). Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc
tính độc lập với các thuật toán khai phá sử dụng sau này. Các thuộc tính được chọn
chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Ngược lại với cách
tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp
dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ chính xác của
kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính. Các hướng tiếp
cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu diễn.


Hình 1.1. Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói

1.4.2 Rút gọn thuộc tính theo tiếp cận tập thô
Lý thuyết tập thô được xem là công cụ hiệu quả để giải quyết bài toán rút gọn
thuộc tính và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay. Các phương
pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực hiện trên các bảng
quyết định có miền giá trị rời rạc, nghĩa là các bảng quyết định thu được sau khi thực
hiện bước rời rạc hóa dữ liệu. Đối với một bảng quyết định có thể có nhiều tập rút
gọn khác nhau. Tuy nhiên, thực tế thường không đòi hỏi tìm tất cả các tập rút gọn mà
chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ.


8
Phương pháp heuristic tìm một tập rút gọn tốt nhất bao gồm các bước: Định nghĩa tập
rút gọn, định nghĩa độ quan trọng của thuộc tính và sau đó xây dựng thuật toán
heuristic tìm một tập rút gọn tốt nhất. Phương pháp rút gọn thuộc tính heuristic được
mô hình hóa như sau:
Tập thuộc tính
ban đầu

1. Định nghĩa tập rút gọn

2. Định nghĩa
Độ quan trọng của thuộc tính

3. Xây dựng thuật toán heuristic tìm một tập rút
gọn tốt nhất

Tập rút gọn


Hình 1.2. Mô hình phương pháp heuristic rút gọn thuộc tính

Các thuật toán heuristic tìm tập rút gọn thường được xây dựng theo hai hướng
tiếp cận khác nhau: Hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên
xuống (top-down).
Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập
rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân lớp
của tập dữ liệu sau khi rút gọn.

1.4.3 Các phương pháp heuristic rút gọn thuộc tính phổ biến


9
Mỗi phương pháp rút gọn thuộc tính đều định nghĩa một tập rút gọn dựa trên
tiêu chuẩn của phương pháp đó. Cho đến nay, có rất nhiều phương pháp heuristic rút
gọn thuộc tính theo hướng tiế p câ ̣n lý thuyế t tâ ̣p thô được công bố. Dựa trên viê ̣c so
sánh các tâ ̣p rút go ̣n kế t quả, có thể phân loa ̣i các phương pháp rút go ̣n thuô ̣c tin
́ h
trong bảng quyế t đinh
̣ thành ba nhóm:
 Nhóm phương pháp tìm tập rút gọn miề n dương (hay còn gọi là nhóm phương
pháp tìm tập rút gọn Pawlak): Sử du ̣ng khái niê ̣m miề n dương đinh
̣ nghiã tâ ̣p rút go ̣n.
Đây có thể coi là nhóm phương pháp cơ bản nhất của rút gọn thuộc tính theo tiếp cận
tập thô.
 Nhóm phương pháp tìm tập rút gọn Entropy Shannon (hay còn gọi là nhóm
phương pháp Entropy Shannon): Sử du ̣ng Shannon entropy, sử dụng các phép toán
đa ̣i số quan hê ̣ để định nghĩa tập rút gọn.
 Nhóm phương pháp tìm tập rút gọn Entropy Liang (hay còn gọi là nhóm
phương pháp Entropy Liang): Bao gồm các phương pháp sử du ̣ng entropy Liang,

phương pháp sử dụng ma trâ ̣n phân biê ̣t, phương pháp sử dụng đô ̣ khác biê ̣t tri thức
đinh
̣ nghiã tâ ̣p rút go ̣n.
Đối với những bảng quyết định có miền giá trị thuộc tính là các giá trị số
(real-valued) cần được rời rạc hóa dữ liệu trước khi áp dụng các phương pháp rút gọn
thuộc tính theo tiếp cận tập thô truyền thống. Do đó, về mặt định tính các phương
pháp rời rạc hóa dữ liệu làm giảm độ chính xác phân lớp của bảng quyết định. Để rút
gọn thuộc tính trên các bảng quyết định có miền giá trị số, lý thuyết tập thô mờ tỏ ra
hiệu quả hơn.


10

CHƯƠNG 2: RÚT GỌN THUỘC TÍNH TRONG BẢNG
QUYẾT ĐỊNH SỬ DỤNG ĐỘ ĐO KHOẢNG CÁCH MỜ

2.1 Xây dựng độ đo khoảng cách mờ theo tiếp cận tập thô mờ
2.1.1 Định nghĩa khoảng cách
Một khoảng cách trên tập hợp U là một ánh xạ d : U  U  0,   thỏa mãn
các điều kiện sau với mọi x, y, z U .
1) d  x, y   0 , d  x, y   0 khi và chỉ khi

x y;

2) d  x, y   d  y, x  ;
3) d  x, y   d  y, z   d  x, z  .

2.1.2 Khoảng cách Jaccard giữa hai tập mờ
Định nghĩa 2.3. Cho U là tập hữu hạn các đối tượng và


A, B  U

. Khoảng

cách Jaccard để đo đô ̣ tương tự hay đô ̣ “gầ n nhau” giữa hai tâ ̣p hơ ̣p hữu ha ̣n, đươ ̣c
đinh
̣ nghiã như sau

DJ ( A, B)  1 

A B
A B

(2.1)

Hệ số Jaccard đo độ tương tự giữa hai tập hợp A và B được định nghĩa
J ( A, B ) 

A B
A B

Bổ đề 2.1. Cho ba số thực a, b, m với a  b . Khi đó, ta có:
a  b  min  a, m   min  b, m 

(2.2)


11
Bổ đề 2.2. Cho ba tập mờ A, B, C trên cùng tập đối tượng U. Khi đó ta có:
(1) Nếu A  B thì B  B  C  A  A  C


(2.3)

(2) Nếu A  B thì C  C  A  C  C  B

(2.4)

(3) A  A  B  C  C  A  C  C  B

(2.5)

Định lý 2.1.
Cho U là tập hữu hạn các đối tượng và A, B là tập các tập con của U . Khi đó

DFJ ( A, B)  1 

A B

(2.6)

A B

là khoảng cách Jaccard mờ giữa A, B và biểu thức
J ( A, B) 

A B

(2.7)

A B


được gọi hệ số Jaccard mờ giữa A và B

2.2 Thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ
2.2.1 Định nghĩa tập rút gọn dựa trên khoảng cách mờ
Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực DT  U , C  D  và tập
thuộc tính P  C . Nếu
1) d FJ  P, P  D   d FJ  C , C  D 

(2.16)

2) p  P, d FJ ( P   p ,  P   p  D)  d FJ (C , C  D)

(2.17)

thì P là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ.

2.2.2 Định nghĩa độ quan trọng của thuộc tính
Định nghĩa 2.6. Cho bảng quyết định DT  U , C  D  , P  C và b  C  P . Độ quan
trọng của thuộc tính b đối với P được định nghĩa bởi:


12
SIGP  b   d FJ  P, P  D   d FJ  P  b , P  b  D 

(2.18)

2.3 Thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ
Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute Reduction) Thuật
toán heuristic tìm một tập rút gọn sử dụng khoảng cách Jaccard mờ.

Đầu vào: Bảng quyết định giá trị thuộc tính số DS  U , C  D  , quan hệ tương
đương mờ R .
Đầu ra: Một tập rút gọn tốt nhất P .
1.

P   ; M ( R P )  0 ; d FJ  ,   D   1 ;

2.

Tính ma trận tương đương mờ M ( RC ) , M (IND(D)) ;

3.

Tính khoảng cách mờ d FJ  C , C  D  ;

// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất
4.

While d FJ  P, P  D   d FJ  C , C  D  do

5.

Begin

6.

For each a  C  R

7.


Begin

8.

Tính d FJ  P  a , P  a  D  ;

9.

Tính SIGP  a   d FJ  P, P  D   d FJ  P  a , P  a  D  ;

10.

End;





11. Chọn am  C  P sao cho SIGP  am   Max SIGP  a  ;
aC  P

12. P  P  am  ;
13. Tính d FJ  P, P  D  ;
14. End;
//Loại bỏ các thuộc tính dư thừa trong P nếu có
15. For each
16. Begin

aP



13





17.

Tính d FJ P  a ,  P  a  D ;

18.

If d FJ  P  a ,  P  a  D   d FJ C , C  D  then P  P  a ;

19. End;
20. Return P ;
Thuật toán FJ_DBAR tìm được một tập rút gọn và kiểm tra tính dư thừa của
tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một thuộc tính là
2

O( U ) với U số lượng đối tượng, C là số lượng thuộc tính điều kiện; độ phức tạp
2

tính toán của M ( RC ) là O( C U ) . Thuật toán có hai vòng lặp lồng nhau theo số
lượng của thuộc tính điều kiện. Do vậy, độ phức tạp tính toán của FJ_DBAR là
3

2


O( C U ) .


14

CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Bài toán thử nghiệm có đầu vào là bộ dữ liệu từ UCI và đầu ra là tập các thuộc
tính sau khi rút gọn.

3.1 Phát biểu bài toán
Xây dựng chương trình thử nghiệm thuật toán tìm tập rút gọn thuộc tính sử
dụng khoảng cách Jaccard mờ (FJ_DBAR).

3.2 Mục tiêu thử nghiệm
Đánh giá thời gian thực hiện, tập rút gọn và độ chính xác phân lớp dữ liệu.

3.3 Số liệu, công cụ và môi trường thử nghiệm
 Dữ liệu đầu vào sử dụng 6 bộ dữ liệu có giá trị thuộc tính số lấy từ UCI. Một
số bộ dữ liệu được chỉnh sửa (như: xóa cột ID hoặc số thứ tự, đưa cột thuộc
tính đích về cuối cùng) để phù hợp với chương trình thử nghiệm.
 Mô phỏng thuật toán trên ngôn ngữ C#, sử dụng thư viện .NET trên bộ Visual
Studio 2013
 Cấu hính máy tính thử nghiệm: Windows 10 64bit, Bộ xử lý Pentium Core i7,
8GB Ram.
Bảng 3.1. Các bộ số liệu thử nghiệm

STT

Bộ dữ liệu


Số đối
tượng

Số thuộc tính

Số
lớp

1

Banknote authentication

1372

4

2

2

Wine recognition

178

13

3

3


Image Segmentation

2100

19

7

4

Wisconsin diagnostic breast cancer (wdbc)

569

30

2


15
5

Ionosphere

351

34

2


6

Sonar, mines vs. rocks

208

60

2

3.4 Đánh giá kết quả thử nghiệm
Để đánh giá kết quả thử nghiệm thuật toán, học viên chọn thuật toán FA_FPR
(tìm tập rút gọn dựa trên miền dương mờ) để so sánh với thuật toán FJ_DBAR (tìm
tập rút gọn dựa trên khoảng cách Jaccard mờ). Các tiêu chí đánh giá là thời gian thực
hiện, số thuộc tính trong tập rút gọn và độ chính xác phân lớp dữ liệu.

3.4.1 Thử nghiệm 1
Trong thử nghiệm này, học viên chạy thực nghiệm 2 thuật toán rút gọn
FA_FPR và FJ_DBAR trên 6 tập dữ liệu. Do chương trình thử nghiệm sử dụng bộ
nhớ đệm cho các biến mảng để lưu các tập mẫu, nên các lần chạy sau sẽ nhanh hơn
lần chạy đầu tiên. Do đó, mỗi bộ dữ liệu sẽ được chạy 3 lần và lấy thời gian trung
bình của 3 lần chạy.
Bảng 3.2 là kết quả thử nghiệm về thời gian thực hiện và số lượng thuộc tính
của tập rút gọn của hai thuật toán trên 6 bộ số liệu được chọn với U là số đối tượng,
C là số thuộc tính, R là số thuộc tính của tập rút gọn với mỗi thuật toán, t là thời

gian thực hiện (đơn vị là giây).
Bảng 3.2. Kết quả thực nghiệm của thuật toán FA_FPR và FJ_DBAR


TT

Bộ số liệu

U

FA_FPR

FJ_DBAR

R

t

R

t

C

1

Banknote authentication

1372

4

4


2.61

3

1.72

2

Wine recognition

178

13

13

0.95

13

0.13

3

Image Segmentation

2100

19


15

288.4

18

67.63

3

wdbc

569

30

22

20.7

30

13.17


16
Ionosphere

5


Sonar,

6

351

34

24

9.04

17

4.20

208

60

20

13.18

58

10.01

mines vs. rocks


Hình 3.1 là biểu đồ so sánh thời gian thực hiện của của hai thuật toán trên 6 bộ dữ
liệu cụ thể.
350
300
250
200
150
100
50

0

FA_FPR

FJ_DBAR

Hình 3.1. Thời gian thực hiện của thuật toán FA_FPR và FJ_DBAR

3.4.2 Thử nghiệm 2:
Thử nghiệm 2 được tiến hành để đánh giá khả năng phân lớp của tập rút gọn
thu được bởi các thuật toán nói trên. Để thực hiện đánh giá, học viên sử dụng độ
chính xác phân lớp (Classification Accuracy) qua thuật toán phân lớp C4.5 (J48)
trong WEKA [ sử dụng phương pháp 10-fold
cross-validation để đánh giá độ chính xác phân lớp.
Kết quả thử nghiệm được mô tả ở bảng 3.3.


17
Bảng 3.3. Độ chính xác phân lớp C4.5 của FA_FPR và FJ_DBAR
Độ chính


FA_FPR

FJ_DBAR

xác phân
Độ

lớp C4.5
TT

Bộ số liệu

U

C

của bảng
quyết

R

xác phân

authentication

xác phân
lớp C4.5
(%)


(%)

(%)
Banknote

R

lớp C4.5

định gốc

1

Độ chính

chính

1372

4

98.8338

4

x

3

55.5394


2

Wine recognition

178

13

39.8876

13

x

13

x

3

Image Segmentation

2100

19

96.1905

15


92.3256

18

96

4

wdbc

569

30

93.6731

22

81.1565

30

x

5

Ionosphere

351


34

90.8832

24

88.8682

17

87.4644

208

60

71.6346

20

57.4351

58

65.6626

Sonar,

6


mines vs. rocks
Độ chính xác phân lớp trung bình

81.8505

79.9464

72.2537

Hình 3.2 là biểu đồ so sánh độ chính xác phân lớp của hai thuật toán này
100
80
60
40
20
0

Tập gốc

FA_FPR

FJ_DBAR

Hình 3.2. Độ chính xác phân lớp C4.5 của thuật toán FA_FPR và FJ_DBAR


18
Như vậy, kết quả thực nghiệm trên một số bộ dữ liệu mẫu cho thấy theo tiêu
chí tập rút gọn thì cả hai thuật toán đều tương đương nhau; theo tiêu chí độ chính xác

phân lớp thì thuật toán FA_FPR cho kết quả tốt hơn một chút so thuật toán sử dụng
FJ_DBAR; theo tiêu chí thời gian thực hiện thì thuật toán FJ_DBAR lại tỏ ra nhanh
hơn so với FA_FPR.


19

KẾT LUẬN
1. Những kết quả đạt được của luận văn
Luận văn giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định
theo tiếp cận tập thô mờ với các nội dung chính: Tổng hợp các nghiên cứu liên quan
đến rút gọn thuộc tính theo tiếp cận tập thô mờ; xây dựng phương pháp rút gọn thuộc
tính sử dụng khoảng cách Jaccard mờ và thử nghiệm tính hiệu quả của phương pháp
trên các số liệu mẫu.
2. Hướng phát triển luận văn
Đối với bài toán rút gọn thuộc tính, sinh luật quyết định theo tiếp cận tập thô
mờ, việc cải tiến các phương pháp đã có, đề xuất các phương pháp mới và mở rộng
ứng dụng vẫn đang được các nhà nghiên cứu quan tâm và xây dựng. Luận văn này
tuy đạt được một số kết quả nêu trên, nhưng vẫn còn nhiều hạn chế do điều kiện về
mặt thời gian và phạm vi nghiên cứu của đề tài. Hướng nghiên cứu tiếp theo của luận
văn là nghiên cứu các phương pháp rút gọn thuộc tính sử dụng khoảng cách mờ khác,
sau đó tìm hiểu mối liên hệ giữa các tập rút gọn. Từ đó, hoàn thiện việc phân loại và
so sánh các phương pháp rút gọn thuộc tính của bảng quyết định có miền giá trị thực
theo tiếp cận tập thô mờ.



×