Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (934.96 KB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-------------------------------

NGUYỄN VĂN THIỆN

MỘT SỐ PHƯƠNG PHÁP LAI GHÉP TRONG RÚT GỌN
THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04

TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH
VÀ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2018

Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học 1: PGS.TS. Nguyễn Long Giang
Người hướng dẫn khoa học 2: TS. Nguyễn Như Sơn

Phản biện 1: PGS.TS. Lê Hoàng Sơn
Phản biện 2: PGS.TS. Nguyễn Hà Nam
Phản biện 3: PGS.TS. Đỗ Văn Thành

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại
Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công
nghệ Việt Nam vào hồi … giờ ..’, ngày … tháng … năm 201….

Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam

Danh mục các công trình của tác giả
1

Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Về phương
pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận
giá trị số theo tiếp cận tập thô mờ”, Chuyên san Các công trình nghiên cứu,
phát triển và ứng dụng CNTT&TT, Tạp chí thông tin khoa học công nghệ của
Bộ thông tin và Truyền thông, Tập V-2, số 16 (36), 12-2016, Tr 40-49.

2

Nguyen Van Thien, Janos Demetrovics, Vu Duc Thi, Nguyen Long Giang,
Nguyen Nhu Son, “A Method to Construct an Extension of Fuzzy
Information Granularity Based on Fuzzy Distance”, Serdica Journal of
Computing 10 (2016), Sofia, Bulgarian Academy of Sciences, No 1, 2016,
pp. 13-30.

3

Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về một phương
pháp rút gọn thuộc tính trong bảng quyết định có miền giá trị liên tục theo

tiếp cận tập thô mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XVIII: Một số vấn đề
chọn lọc của Công nghệ thông tin và truyền thông-TP HCM,05-06/11/2015.

4

Nguyễn Văn Thiện, Nguyễn Như Sơn, Nguyễn Long Giang, Cao Chính
Nghĩa, “Về một phương pháp xây dựng độ phân hạt mờ mở rộng dựa trên
khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX - Một số vấn đề
chọn lọc của CNTT và TT, Hà Nội, 01-02/10/2016, Tr. 371-376.

5

Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phương
pháp rút gọn thuộc tính trực tiếp trên bảng quyết định sử dụng khoảng cách
mờ”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và
ứng dụng CNTT (FAIR’9), Cần Thơ, 04-05/08/2016, Tr. 825-835.

6

Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Fuzzy Partition
Distance based Attribute Reduction in Decision Tables”, IJCRS'2018:
International Joint Conference on Rough Sets 2018, Quy Nhon, Viet Nam,
August 20-24, 2018 (Accepted)

7

Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Phương pháp
gia tăng rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách phân
hoạch mờ”, Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc của
CNTT và TT, Thanh Hóa, 27-28/07/2018, Tr. 296- 302.

MỞ ĐẦU
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề xuất là sự
kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ dựa trên một quan hệ
tương đương mờ (fuzzy equivalent relation) được xác định trên miền giá trị thuộc tính. Từ khi
xuất hiện, lý thuyết tập thô mờ là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính
trực tiếp trên bảng quyết định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) nhằm
nâng cao độ chính xác của mô hình phân lớp. Các nghiên cứu liên quan đến rút gọn thuộc tính
theo tiếp cận tập thô mờ khá sôi động trong mấy năm gần đây, bao gồm các phương pháp
chính như phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận
phân biệt mờ [34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33,
55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] . Gần đây, một số nhà nghiên cứu đề
xuất các phương pháp mở rộng dựa trên các độ đo khác nhau được định nghĩa [14, 19, 21, 30,
33, 35, 46, 47, 59, 68, 85, 90, 100]. Tuy nhiên, giống như các phương pháp rút gọn thuộc tính
theo tiếp cận tập thô truyền thống, hầu hết các phương pháp rút gọn thuộc tính theo tiếp cận
tập thô mờ đều là các phương pháp filter, nghĩa là độ chính xác của mô hình phân lớp được
đánh giá sau khi tìm được tập rút gọn. Tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn
độ đo mà không bảo đảm có độ chính xác phân lớp cao nhất. Do đó, tập rút gọn của các
phương pháp filter chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp. Với mục tiêu
tối ưu số lượng thuộc tính của tập rút gọn và nâng cao độ chính xác phân lớp so với các
phương pháp filter đã công bố, luận án nghiên cứu hướng tiếp cận lai ghép filter-wrapper.
Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật. Việc
áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình tập
thô mở rộng gặp nhiều thách thức. Trường hợp các bảng quyết định bị thay đổi, các thuật toán
này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian
tính toán tăng lên đáng kể. Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện
thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện. Vì vậy, các nhà
nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Các thuật toán gia tăng có
khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định

kích thước lớn bằng giải pháp chia nhỏ bảng quyết định thành từng phần. Theo tiếp cận tập thô
truyền thống và tập thô dung sai, các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút
gọn của bảng quyết định thay đổi khá sôi động và tập trung vào các trường hợp: bổ sung và
loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung và loại bỏ thuộc tính
[31, 38, 49, 54, 86, 87, 88, 89]. Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây
dựng các công thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng
tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc
tính. Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm
tập rút gọn trên bảng quyết định theo tiếp cận tập thô mờ trong các trường hợp: bổ sung và loại
bỏ tập thuộc tính [15, 16], bổ sung tập đối tượng [97, 98, 99]. Các thuật toán gia tăng tìm tập
rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán
không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn. Tuy nhiên, các thuật
toán nêu trên đều theo hướng tiếp cận filter truyền thống. Do đó theo tiếp cận tập thô mờ, luận

1

án nghiên cứu các thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số
thuộc tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp.
Mục tiêu của luận án tập trung nghiên cứu hai nội dung chính. Thứ nhất là đề xuất các
thuật toán lai ghép filter-wrapper tìm tập rút gọn của bảng quyết định sử dụng độ đo khoảng
cách mờ cải tiến và các độ đo khác theo tiếp cận tập thô mờ nhằm giảm thiểu số lượng thuộc
tính của tập rút gọn và nâng cao độ chính xác của mô hình phân lớp. Thứ hai là đề xuất các
thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định thay đổi sử dụng độ đo
khoảng cách mờ theo tiếp cận tập thô mờ nhằm giảm thiểu thời gian thực hiện và nâng cao độ
chính xác so với các thuật toán gia tăng khác.
Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:
1) Đề xuất hai thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định theo tiếp cận
tập thô mờ: Thuật toán sử dụng hàm thuộc mờ và thuật toán sử dụng khoảng cách mờ. Độ đo
khoảng cách mờ được xây dựng là mở rộng của độ đo khoảng cách trong công trình [48]. Các

đóng góp này được trình bày ở chương 2 của luận án và được công bố ở công trình 1, 2, 4, 5, 6.
2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định trong
trường hợp bổ sung tập đối tượng và loại bỏ tập đối tượng sử dụng độ đo khoảng cách mờ được
xây dựng. Các đóng góp này được trình bày ở chương 3 của luận án và được công bố ở công
trình 7.
Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết luận và danh
mục các tài liệu tham khảo.
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô truyền thống, mô hình tập
thô mờ và tổng quan về tiếp cận filter-wrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày
các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên
quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần
đây. Trêm cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên cứu
cùng với tóm tắt các kết quả đạt được.
Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là đề xuất thuật toán filter-wrapper
tìm tập rút gọn sử dụng hàm thuộc mờ; thứ hai là xây dựng một độ đo khoảng cách mờ và đề
xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ được xây dựng. Cả hai đề
xuất đều nhằm mục tiêu tối thiểu hóa số thuộc tính của tập rút gọn và nâng cao độ chính xác của
mô hình phân lớp so với các phương pháp filter trước đây.
Chương 3 đề xuất hai thuật toán gia tăng filter-wrapper; thuật toán gia tăng filter-wrapper
thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung tập thuộc tính; thuật toán
gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng quyết định trong trường hợp loại bỏ tập
thuộc tính. Cả hai thuật toán đề xuất đều sử dụng độ đo khoảng cách mờ đề xuất ở chương 2 và
đều có mục tiêu là giảm thiểu thời gian thực hiện so với thuật toán không gia tăng và nâng cao
độ chính xác phân lớp so với các thuật toán gia tăng khác đã công bố.
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển và những
vấn đề quan tâm của tác giả.

2

Chƣơng 1. TỔNG QUAN
1.1. Một số khái niệm trong lý thuyết tập thô mờ
1.1.1. Quan hệ tương đương mờ
Định nghĩa 1.1. [32, 71] Cho bảng quyết định DS  U , C  D  , một quan hệ R xác định trên
miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn các điều kiện sau
với mọi x, y, z U
1) Tính phản xạ (reflexive): R  x, x   1 ;
2) Tính đối xứng (symetric): R  x, y   R  y, x  ;
3)Tính bắc cầu max-min (max-min transitive): R  x, z   min R  x, y  , R  y, z  ;

với R  x, y  là giá trị quan hệ giữa hai đối tương x và y.
Mệnh đề 1.1. [72] Cho bảng quyết định DS  U , C  D  và quan hệ tương đương mờ R . Ký
hiệu R P , R Q tương ứng là quan hệ R xác định trên tập thuộc tính P, Q. Khi đó, với mọi x, y U
ta có:
1) R P  RQ  R P  x, y   RQ  x, y 


 R  x, y   min R



2) R PQ  R P  RQ  R  x, y   max R P  x, y  , RQ  x, y 
3) R PQ  R P  RQ

P

 x, y  , RQ  x, y 

4) R P  RQ  R P  x, y   RQ  x, y 
1.1.2. Ma trận tương đương mờ

Định nghĩa 1.2. Cho bảng quyết định DS  U , C  D  với U  x1 , x2 ,..., xn  và R P là quan
hệ tương đương mờ xác định trên tập thuộc tính P  C . Khi đó, ma trận tương đương mờ
biểu diễn R P , ký hiệu là M  R P    pij nn , được định nghĩa như sau:
 p11
p
M ( R P )   21
 ...

 pn1

p12
p22
...
pn 2

...
...
...
...

p1n 
p2 n 

... 

pnn 

với pij  R P  xi , x j  là giá trị của quan hệ giữa hai đối tượng xi và x j trên tập thuộc tính P,

pij  0,1 , xi , x j U ,1  i, j  n .

Như vậy, giá trị các phần tử của ma trận tương đương mờ M  R P  phụ thuộc vào quan hệ

tương đương mờ R P được chọn
1.1.3. Phân hoạch mờ
Định nghĩa 1.3. Cho bảng quyết định DS  U , C  D  với P  C , U  x1 , x2 ,..., xn  và
quan hệ tương đương mờ trên P. Khi đó phân hoạch mờ trên U sinh bởi

RP ,

RP

là

ký hiệu là   R P  ,

được xác định như sau

 

 R P  U / R P   xi P i 1   x1 P ,...,  xn P 
n

(1.8)

với  xi P  pi1 / x1  pi 2 / x2  ...  pin / xn là một tập mờ đóng vai trò là một lớp tương đương mờ
(fuzzy equivalent class) của đối tượng xi U .

3

Với lớp tương đương mờ  xi P , hàm thuộc của các của các đối tượng x j U được xác

định bởi  xi   x j   RP  xi , x j   R P  xi , x j   pij và lực lượng của lớp đương đương mờ  xi P
P

n

được tính bởi  xi P   pij .
j 1

1.1.4. Các tập xấp xỉ mờ và miền dương mờ
Định nghĩa 1.4. [66, 70, 85, 87] Cho X là một tập mờ trên U và R P là một quan hệ tương
đương mờ trên tập thuộc tính P  C . Khi đó, tập xấp xỉ dưới mờ R P X và tập xấp xỉ trên mờ
R P X của X là các tập mờ và hàm thuộc của các đối tượng x U được xác định như sau:

R

PX

 x 





sup min F  x  ,inf max 1  F  y  ,  X  y 

FU / R P

yU

(1.9)



sup min  F  x  ,sup min F  y  ,  X  y 
(1.10)
P
yU
FU / R P


với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F là các lớp
tương đương mờ của phân hoạch mờ U / R P .
Với các tập xấp xỉ dưới mờ và xấp xỉ trên mờ xác định bởi Định nghĩa 1.6, bộ

R

 x 
X

được gọi là tập thô mờ.

RP X , RP X

Định nghĩa 1.5 [66] Cho bảng quyết định DS  U , C  D  và R P , RQ tương ứng là hai quan
hệ tương đương mờ xác định trên P, Q  C . Khi đó, miền dương mờ của R Q đối với R P , ký
hiệu là POSR  RQ  , là một tập mờ mà hàm thuộc của x U được xác định như sau:
P

POS  R   x   sup R
X U / R
RP

Q

Q

PX

 x

(1.11)

1.2. Rút gọn thộc tính
1.2.1. Tổng quan về rút gọn thuộc tính
Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với mục tiêu là
loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả của các thuật toán
khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất lượng và tính dễ hiểu của các kết quả thu được.
Các kỹ thuật rút gọn thuộc tính thường được phân thành hai loại: Lựa chọn thuộc tính
(Attribute selection) và biến đổi thuộc tính (Attribute transformation). Trong luận án này,
chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là rút gọn thuộc tính.
1.2.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính
Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính [43, 44]: filter
(lọc) và wrapper (đóng gói). Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với
thuật khai phá dữ liệu sử dụng sau này. Cho đến nay, phần lớn các phương pháp rút gọn thuộc
tính dựa trên lý thuyết tập thô và các mở rộng đều theo hướng tiếp cận này. Cách tiếp cận
wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết
quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính.

Cách tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm là không sử dụng
sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính xác không cao.

4

Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Nhằm kết hợp các ưu điểm của cả hai cách tiếp cận filter và wrapper, một số cách tiếp
cận mới cũng đã được các tác giả đã đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper
[67, 91].
1.3. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ
1.3.1. Các nghiên cứu liên quan
Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết
định gốc theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử
dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29,
30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử
dụng khoảng cách mờ [3, 8, 18] . Gần đây, một số nhà nghiên cứu đề xuất các phương pháp
mở rộng dựa trên các độ đo khác nhau được định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68,
85, 90, 100]. Kết quả thử nghiệm trên các bộ số liệu mẫu cho thấy, các phương pháp rút gọn
thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn
thuộc tính theo tiếp cận tập thô truyền thống.
1.3.2. Các vấn đề còn tồn tại
Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, hầu hết các phương
pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đã công bố là các phương pháp heuristic theo
tiếp cận filter. Nghĩa là, độ chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn.
1) Tập rút gọn của các phương pháp theo hướng tiếp cận filter nêu trên chưa tối ưu về số
lượng thuộc tính và độ chính xác phân lớp.
1.4. Các nghiên cứu liên quan đến phƣơng pháp gia tăng tìm tập rút gọn theo tiếp cận
tập thô mờ
1.4.1. Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận

tập thô truyền thống và tập thô dung sai
Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên quan đến
thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi động và tập trung vào
các trường hợp: bổ sung và loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ
sung và loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88, 89]. Sử dụng độ đo khoảng cách, các tác
giả trong [24, 65] đã xây dựng các công thức gia tăng tính toán khoảng cách, trên cơ sở đó xây
dựng thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ
sung, loại bỏ tập thuộc tính.
1.4.2. Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận
tập thô mờ
Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm
tập rút gọn trên bảng quyết định thay đổi theo tiếp cận tập thô mờ. Zeng và các cộng sự [15]
xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ trong trường hợp bổ sung
và loại bỏ một thuộc tính (tương ứng là FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD). Với
trường hợp bổ sung tập đối tượng, Yang và các cộng sự [98] xây dựng thuật toán gia tăng
IARM tìm tập rút gọn sử dụng quan hệ phân biệt. Yang và các cộng sự [99] đề xuất hai phiên
bản của thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung tập đối tượng: thuật toán
V-FS-FRS-1 và V-FS-FRS-2. Liu và các cộng sự [97] xây dựng công thức tính gia tăng hàm
thuộc mờ trong trường hợp bổ sung tập đối tượng, trên cơ sở đó xây dựng thuật toán gia tăng
tìm tập rút gọn sử dụng hàm thuộc mờ FIAR.

5

1.4.3. Các vấn đề còn tồn tại
1) Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian
thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ
liệu kích thước lớn. Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận lọc truyền
thống (filter). Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số
lượng thuộc tính và độ chính xác phân lớp.

2) Các nghiên cứu liên quan đến phương pháp gia tăng được trình bày ở mục 1.4.3.2 đã
giải quyết bài toán rút gọn thuộc tính trong trường hợp bổ sung tập đối tượng, bổ sung và loại
bỏ tập thuộc tính, cập nhật tập thuộc tính, chưa giải quyết bài toán xóa bỏ tập đối tượng.

Chƣơng 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
SỬ DỤNG HÀM THUỘC MỜ VÀ KHOẢNG CÁCH MỜ
2.1. Mở đầu
Trong chương này, luận án đề xuất hai thuật toán theo hướng tiếp cận lai ghép filterwrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ
chính xác của mô hình phân lớp. Giai đoạn filter tìm các ứng viên cho tập rút gọn dựa vào độ
đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán độ chính xác phân lớp của các
ứng viên và lựa chọn tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất.
(1) Thuật toán filter-wrapper tìm tập rút gọn sử dụng hàm thuộc mờ trong tập thô mờ.
(2) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ. Khoảng cách mờ
được xây dựng là mở rộng của khoảng cách phân hoạch trong công trình [48] và khác các độ
đo khoảng cách mờ trong các công trình [3, 8, 18].
Các kết quả trong chương này được công bố trong các công trình 1, 2, 4, 5, 6.

2.2. Rút gọn thuộc tính sử dụng hàm thuộc mờ
2.2.1. Rút gọn thuộc tính sử dụng hàm thuộc mờ theo tiếp cận filter
1) Hàm thuộc mờ trong tập thô mờ
Cho bảng quyết định DS  U , C  D  với U  u1 ,..., un , C  c1,..., cm  . Với P  C , giả
sử R P là một quan hệ tương đương mờ xác định trên miền giá trị thuộc tính P. Hàm thuộc mờ
của P dựa trên quan hệ R P được định nghĩa trong tập thô mờ như sau [77, 78]

 R  D 

POS

RP

D

 x   xU POS


RP

D

 x

U
U
2) Thuật toán heuristic tìm một tập rút gọn sử dụng độ phụ thuộc mờ của thuộc tính theo
tiếp cận filter.
Thuật toán F_FRSAR (Filter_Fuzzy Rough Set based Attribute Reduction).
Đầu vào: Bảng quyết định DS  U , C  D  , quan hệ tương đương mờ R xác định trên miền
giá trị của các thuộc tính điều kiện.
Đầu ra: Tập rút gọn B của DS
1. B :  ;    D  : 0 ;
P

 

2. Tính ma trận tương đương mờ M RC ;
3. Tính hàm thuộc mờ  RC  D  ;
// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất
4. While  RB  D    RC  D  do
5. Begin
6.

Với mỗi a  C  B tính SIGB  a    R
6

B a

 D   R  D ;
B

7.

Chọn am  C  B sao cho SIGB  am   Max SIGB  a  ;

8.

B  B  am  ;

9.

Tính  R B  D  ;

aC  B

10. End;
// Loại bỏ các thuộc tính dư thừa trong B nếu có
11. Với mỗi a  B
12. Begin
13.
Tính  R B a  D  ;
If  R

14.

B a

 D    R  D  then
C

B : B  a ;

15. End;
16. Return B;
2
2
Độ phức tạp của thuật toán F_FRSAR là O C U





2.2.2. Rút gọn thuộc tính sử dụng hàm thuộc mờ theo tiếp cận filter-wrapper
Xét bảng quyết định DS  U , C  D  với C  a1, a2 ,..., am  và R là quan hệ tương đương
mờ xác định trên miền giá trị thuộc tính. Đặt    R  D  . Theo thuật toán F_FRSAR, giả sử
các thuộc tính ai , ai ,... được thêm vào tập rỗng theo giá trị lớn nhất của độ quan trọng thuộc
C

1

2

tính cho đến khi tồn tại t 1,2,...m sao cho  R

ai , ai ,..., ai
1 2
t



 D    . Kết thúc thuật toán filter

F_FRSAR, ta thu được tập rút gọn B  ai , ai ,..., ai  và độ chính xác phân lớp trên tập dữ liệu
1

2

t

được tính trên B.
Mặt khác, theo định nghĩa miền dương mờ trong lý thuyết tập thô mờ và [76, 77, 78, 79]
ta có  R   D    R   D   ...   R   D    . Với ngưỡng    cho trước, đặt Bk  ai ,..., ai 
ai
1

thỏa mãn  R

ai , ai
1 2

Bk

1

ai ,...,ai
1
t

 D    và  R



Bk  ai
k 1



 D    . Khi đó,

k

Bk được gọi là tập rút gọn xấp xỉ ngưỡng  .

Nếu Bk và Bk  ai ,..., ai  được sử dụng để xây dựng bộ phân lớp, công bố [91] cho thấy, độ
k 1

t

chính xác phân lớp trên Bk  ai ,..., ai  chưa chắc đã tốt hơn trên Bk . Giả sử Bk có độ chính
k 1

t

xác phân lớp tốt hơn Bk  ai ,..., ai  . Khi đó, nếu chọn Bk là kết quả của thuật toán thì Bk có
k 1

t

độ chính xác phân lớp cao hơn, có số lượng thuộc tính ít hơn nên khả năng khái quát hóa và
hiệu năng thực hiện các thuật toán phân lớp sẽ cao hơn. Điều đó dẫn đến hướng tiếp cận lai
ghép tìm tập rút gọn xấp xỉ, là sự kết hợp giữa filter (lọc) và wrapper (gói). Phương pháp filter
tìm ra các tập rút gọn xấp xỉ, phương pháp wrapper kiểm tra độ chính xác phân lớp của các tập
rút gọn xấp xỉ để chọn tập rút gọn có độ chính xác cao nhất. Với hướng tiếp cận này, độ chính
xác phân lớp trên tập rút gọn tìm được cao hơn so với các phương pháp lọc truyền thống. Tuy
nhiên, thời gian thực hiện sẽ lớn hơn vì phải thực hiện các bộ phân lớp.
Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng hàm thuộc mờ như sau:
Thuật toán FW_FRSAR (Filter-Wrapper Fuzzy Rough Set based Attribute Reduction): Thuật
toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng hàm thuộc mờ.
Đầu vào: Bảng quyết định DS  U , C  D  , với C  a1, a2 ,..., an , quan hệ tương đương mờ
R xác định trên miền giá trị thuộc tính điều kiện.
Đầu ra: Tập rút gọn xấp xỉ S x có độ chính xác phân lớp tốt nhất.

// Khởi tạo
1. B :  ;    D   0 ; S :  ;
7

2.

Tính hàm thuộc mờ  RC  D  ;

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất
3. While  R  D    R  D  do
B

4.
5.

C

Begin
Với mỗi a  C  B tính SIGB  a    R

 D   R  D
sao cho SIGB  am   Max SIGB  a  ;
aC  B

Chọn am  C  B

6.

B a

B

B  B  am ; S  S  B;
7.
8. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất

9.

Đặt t  S

//t là số phần tử của S, S chứa các chuỗi thuộc tính được chọn tại mỗi





bước lặp của vòng lặp While, nghĩa là S  ai ,ai , ai ,...,ai , ai ,..., ai  ;

10. Đặt S1  ai , S2  ai , ai ,..., St  ai , ai ,..., ai 
1

1

2

1

2

1

1

2

1

2

t

t

11. For j = 1 to t
12. Begin
13.
Tính độ chính xác phân lớp trên B j bằng một bộ phân lớp sử dụng
pháp 10-fold;
14. End
15. S x  S jo với S jo có độ chính xác phân lớp lớn nhất.
Return S x ;

phương

2.2.3. Thực nghiệm các thuật toán
1) Bộ dữ liệu thử nghiệm
Bảng 2.2. Bộ dữ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR

STT Bộ dữ liệu

1

Ecoli

2

Ionosphere

3

WDBC

4

Wpbc

5
6

Wine
Glass

7

Magic04

8

Pageblocks

Mô tả

Protein Localization
Sites
Johns Hopkins
University Ionosphere
database

Wisconsin diagnostic
breast cancer
Wisconsin Prognostic
Breast Cancer
Wine recognition data
Glass Identification
Database
MAGIC gamma
telescope data 2004
Blocks Classification

336

Số thuộc tính điều kiện
Tất
Thuộc
Thuộc
cả
tính định
tính
danh
thực
(nominal)
(Realvalued)
7
0
7

351

34

0

34

2

569

30

0

30

2

198

33

0

33

2

178
214

13
9

0
0

13
9

3
7

19020

10

0

10

2

5473

10

0

10

5

Số đối
tƣợng

8

Số lớp
quyết
định
8

2) Đánh giá độ chính xác phân lớp của thuật toán filter F_FRSAR với các thuật toán khác
theo tiếp cận tập thô mờ
Bảng 2.4. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR

STT

1
2

Bộ số
liệu

Ecoli
Ionos
phere
Wdbc

Wpbc
Wine
Glass
Magic
04
Pageblocks

3
4
5
6
7
8

U

C

336
351

7
34

Thuật toán
Thuật toán F_FRSAR
GAIN_RATIO_AS_FRS
[45]
R
Độ chính Độ chính R

Độ chính Độ chính
xác phân xác phân
xác phân xác phân
lớp SVM lớp C4.5
lớp SVM lớp C4.5
6
0.814
0.802
7
0.865
0.855
13 0.916
0.904
15
0.937
0.915

569
198
178
214
1902
0

30
33
13
9

17

17
9
7

0.925
0.815
0.910
0.891

0.917
0.804
0.902
0.882

19
19
10
7

0.980
0.825
0.955
0.891

0.975
0.818
0.920
0.882

10

6

0.782

0.765

6

0.782

0.765

5473 10

6

0.852

0.848

7

0.865

0.855

Độ chính xác phân lớp của F_FRSAR cao hơn độ chính xác phân lớp của
GAIN_RATIO_AS_FRS trong [45]. Tập rút gọn của F_FRSAR bảo toàn miền dương mờ và
nhiều thuộc tính hơn so với thuật toán GAIN_RATIO_AS_FRS trong [45].

3) Đánh giá độ chính xác phân lớp của thuật toán filter-wrapper FW_FRSAR với thuật
toán filter F_FRSAR và các thuật toán filter khác theo tiếp cận tập thô mờ
Bảng 2.5. Độ chính xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS

STT

1
2
3
4
5
6
7
8

Tập dữ
liệu

Ecoli
Ionosphere
Wdbc
Wpbc
Wine
Glass
Magic04
Pageblocks

Tập dữ liệu
ban đầu

Thuật toán
FW_FRSAR

U

C

R

336
351
569
198
178
214
19020

7
34
30
33
13
9
10

5
8
6
12
5

4
4

0.901
0.946

5473

10

5

Độ chính
xác phân
lớp

Thuật toán

Thuật toán

F_FRSAR

GAIN_RATIO
_AS_FRS [45]

R

Độ chính
xác phân
lớp

R

Độ chính
xác phân
lớp

0.975
0.867
0.920
0.924
0.886

7
15
19
19
10
7
6

0.855
0.915
0.975
0.818
0.920
0.882
0.765

6

13
17
17
9
7
6

0.802
0.904
0.917
0.804
0.902
0.882
0.765

0.906

7

0.855

6

0.848

Bảng 2.5 cho thấy, số thuộc tính tập rút gọn của thuật toán filter-wrapper FW_FRSAR
nhỏ hơn nhiều, đặc biệt là đối với các bộ dữ liệu Wdbc, Ionosphere. Hơn nữa, độ chính xác của
FW_FPDBAR cao hơn F_DBAR và GAIN_RATIO_AS_FR.
4) So sánh thời gian thực hiện của FW_FRSAR, F_FRSAR và GAIN_RATIO_AS_FRS

9

Bảng 2.6. Thời gian thực hiện FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS
Thuật toán FW_FRSAR
STT Bộ dữ liệu
1
2
3
4
5
6
7
8

Ecoli
Ionosphere
Wdbc
Wpbc
Wine
Glass
Magic04
Pageblocks

Thuật toán

Thuật toán

Thủ tục
Filer

Thủ tục Tổng
Wrapper cộng

F_FRSAR GAIN_RATIO
_AS_FRS
[45]

7
34
30
33
13
9
10

2.38
12.64
22.15
8.56
0.58
0.82
894.26

1.24
6.92
8.74
6.28
1.22
0.66

124.49

3.62
19.56
30.89
14.84
1.80
1.48
1018.75

2.86
14.87
24.12
9.12
0.62
0.88
914.86

2.95
15.04
26.08
9.88
0.74
1.02
948.16

10

98.64

22.16

120.80

112.76

126.28

U

C

336
351
569
198
178
214
19020
5473

Bảng 2.6 cho thấy, thời gian thực hiện thuật toán FW_FRSAR cao hơn hai thuật toán
filter F_FRSAR và GAIN_RATIO_AS_FRS vì phải thực hiện các bộ phân lớp trong giai đoạn
wrapper.

2.3. Rút gọn thuộc tính sử dụng khoảng cách mờ
Trong mấy năm gần đây, nhóm nghiên cứu của Nguyễn Long Giang và cộng sự đã sử
dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định
theo tiếp cận tập thô truyền thống [9, 24, 57, 65] và bảng quyết định không đầy đủ theo tiếp
cận tập thô dung sai [9, 10, 12, 25, 58]. Theo tiếp cận tập thô mờ, nhóm nghiên cứu đã mở

rộng các độ đo khoảng cách đã đề xuất thành các độ đo khoảng cách mờ và đã có một số kết
quả trong việc sử dụng độ đo khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính trên
bảng quyết định có miền giá trị số [3, 8, 18].
Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cách hiệu quả
(có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính, trong phần này chúng
tôi xây dựng độ đo khoảng cách mờ mới (sau đây gọi là khoảng cách mờ) dựa trên độ đo
khoảng cách phân hoạch trong công trình [48]. Sử dụng khoảng cách mờ được xây dựng,
chúng tôi đề xuất phương pháp filter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm
nâng cao độ chính xác phân lớp và giảm thiểu số lượng thuộc tính tập rút gọn

2.3.1. Xây dựng khoảng cách mờ giữa hai tập mờ





Mệnh đề 2.1. Cho hai tập mờ A, B trên tập đối tượng U. Khi đó d A, B  A  B  A  B là một
khoảng cách mờ giữa A và B .

2.3.2. Xây dựng khoảng cách mờ giữa hai phân hoạch mờ

   

Mệnh đề 2.2. Cho bảng quyết định DS  U ,C  D  với U  x1, x2 ,..., xn  và  R P ,  RQ là
hai phân hoạch mờ sinh bởi hai quan hệ tương đương mờ R P , RQ trên P, Q  C . Khi đó:

    

D  R P ,  RQ





1 n
  xi P   xi Q   xi P   xi Q
n 2 i 1

 



 

là một khoảng cách mờ giữa  R P và  RQ , gọi là khoảng cách phân hoạch mờ.
Mệnh đề 2.3. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ tương
đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi đó khoảng cách mờ giữa hai
tập thuộc tính C và C  D được xác định như sau:

   

D  RC ,  RC D







1 n

  xi C   xi C   xi D
n 2 i 1

10



 
D   R  ,     D   R  ,    1

Mệnh đề 2.4. Cho  R P 
P

là một phân hoạch mờ trên

, khi đó ta có:

P

Mệnh đề 2.5. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  , B  C và R là quan
hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Khi đó
D  R B ,  R BD  D  R C ,  R C D

   



   



2.3.3. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter

Định nghĩa 2.1. Cho bảng quyết định DS  U , C  D  với B  C và R là một quan hệ tương
đương mờ xác định trên miền giá trị thuộc tính điều kiện. Nếu
1) D  R B ,  R BD  D  RC ,  RC D

         
2) b  B, D   R    ,   R     D   R  ,  R 
B b

B  b D

CD

C

thì B là một tập rút gọn của C dựa trên khoảng cách mờ.
Định nghĩa 2.2. Cho bảng quyết định DS  U , C  D  với B  C và b  C  B . Độ quan trọng
của thuộc tính b đối với B được định nghĩa bởi
SIGB  b   D   R B  ,   R BD   D   R Bb  ,   R BbD 



 



Độ quan trọng SIGB  b  đặc trưng cho chất lượng phân lớp của thuộc tính b đối với thuộc

tính quyết định D và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán filter
F_FDAR tìm tập rút gọn
Thuật toán F_FDAR (Filter - Fuzzy Distance based Attribute Reduction): Thuật toán filter
tìm tập rút gọn sử dụng khoảng cách mờ.
Đầu vào: Bảng quyết định DS  U , C  D  , quan hệ tương đương mờ R xác định trên
tập thuộc tính điều kiện.
Đầu ra: Một tập rút gọn B
1. B   ; D  R B ,  R BD  1 ;

   



   



2. Tính khoảng cách phân hoạch mờ D  RC ,  RC D ;
// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất
3. While D  R B ,  R BD  D  RC ,  RC D do

   



   

4. Begin
5.
Với mỗi a  C  B tính

   

SIGB  a   D  R B ,  R BD

6.



  D   R

Ba

 ,  R

Chọn am  C  B sao cho SIGB  am   Max SIGB  a  ;



aC  B

B  B  am ;
7.
8. End;
//Loại bỏ các thuộc tính dư thừa trong B nếu có
9. Với mỗi a  B
10. Begin
11.
Tính D  R Ba ,  RBaD ;

 

12.

BaD

 

If D   R    ,  R     D   R  ,  R  then B  B  a ;
B a

B  a D

C

13. End;
11

C D

Return B ;
2
2
Độ phức tạp thời gian của thuật toán F_FDAR là O C U





2.3.4. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper

Xét bảng quyết định DS  U , C  D  với C  a1, a2 ,..., am  và R là quan hệ tương đương

   



mờ xác định trên miền giá trị thuộc tính điều kiện. Đặt   D  RC ,  RC D . Theo thuật
toán F_FDAR, giả sử các thuộc tính ai , ai ,... được thêm vào tập rỗng theo giá trị lớn nhất của
1

độ

quan

trọng

 

thuộc

tính



cho

   .

 

D  Rai1 ,ai2 ,...,ait  ,  Rai1 ,ai2 ,...,ait D



2

đến

khi

tồn

t 1,2,...m

tại

sao

cho

Kết thúc thuật toán, ta thu được tập rút gọn

B  ai1 , ai2 ,..., ait , độ chính xác phân lớp trên tập dữ liệu được tính bởi độ chính xác phân lớp

trên B.
Mặt
khác,
theo

D  Ra  ,  Ra D  D  Ra ,a  ,  Ra

  
i1

ngưỡng



i1

 





i1

i2

 

i1 ,ai2

D

ai1 ,...,ait





đề

  ...  D   R

Bk  ai1 ,..., aik

cho trước, đặt

 

Mệnh



2.6


D   R  ,   R
  

 

 , Rai1 ,...,ait D

thỏa mãn

ta

  Với
Bk D

Bk

có
và

D  R Bk aik 1  ,  R Bk aik 1 D   . Khi đó, Bk được gọi là tập rút gọn xấp xỉ ngưỡng  . Nếu Bk

và Bk  ai ,..., ai  được sử dụng để xây dựng bộ phân lớp, công bố [91] cho thấy, độ chính
k 1

t

xác phân lớp trên Bk  ai ,..., ai  chưa chắc đã tốt hơn trên Bk . Giả sử Bk có độ chính xác
k 1

t

phân lớp tốt hơn Bk  ai ,..., ai  . Khi đó, nếu chọn Bk là kết quả của thuật toán thì Bk có độ
k 1

t

chính xác phân lớp cao hơn, có số lượng thuộc tính ít hơn nên khả năng khái quát hóa và hiệu
năng thực hiện các thuật toán phân lớp sẽ cao hơn. Điều đó dẫn đến hướng tiếp cận lai ghép
tìm tập rút gọn xấp xỉ, là sự kết hợp giữa filter (lọc) và wrapper (gói). Phương pháp filter tìm
ra các tập rút gọn xấp xỉ, phương pháp wrapper kiểm tra độ chính xác phân lớp của các tập rút
gọn xấp xỉ để chọn tập rút gọn có độ chính xác cao nhất. Với hướng tiếp cận này, độ chính xác

phân lớp trên tập rút gọn tìm được cao hơn so với các phương pháp filter truyền thống. Tuy
nhiên, thời gian thực hiện sẽ lớn hơn vì phải thực hiện các bộ phân lớp.
Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ như sau:
Thuật toán FW_FDAR (Filter-Wrapper Fuzzy Distance based Attribute Reduction): Thuật
toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ.
Đầu vào: Bảng quyết định DS  U , C  D  với C  a1, a2 ,..., an , quan hệ tương đương mờ
R trên miền giá trị thuộc tính điều kiện.
Đầu ra: Tập rút gọn xấp xỉ S x có độ chính xác phân lớp tốt nhất.

// Khởi tạo
1. B   ; S :  ; D  R B ,  R BD
2.

      1 ;
Tính khoảng cách mờ D   R  ,   R  ;
C D

C

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn
// Thêm dần vào B các thuộc tính có độ quan trọng lớn nhất
3. While D  R B ,  R BD  D  RC ,  RC D do

   

4.
5.



   

Begin
Với mỗi a  C  B tính

   

SIGB  a   D  R B ,  R BD

  D   R
12



Ba

 ,  R

BaD

 ;

6.

Chọn am  C  B sao cho SIGB  am   Max SIGB  a  ;
aC  B

B  B  am ; S : S  B ;
7.

8. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất

9.

Đặt t  S

// t là số phần tử của S, S chứa các chuỗi thuộc tính được chọn tại mỗi





bước lặp của vòng lặp While, nghĩa là S  ai ,ai , ai ,...,ai , ai ,..., ai  ;

10. Đặt S1  ai , S2  ai , ai ,..., St  ai , ai ,..., ai 
1

1

2

1

2

1

1

2

1

2

t

t

11. For j = 1 to t
12. Begin
13.
Tính độ chính xác phân lớp trên S j bằng một bộ phân lớp và sử dụng phương
pháp 10-fold;
14. End
15. S x  S jo với S jo có độ chính xác phân lớp lớn nhất.
Return S x ;





Độ phức tạp thời gian của thuật toán FW_FDAR là O C * U  O  C * T  với O T  là độ
2

2

phức tạp của bộ phân lớp.

2.3.5. Thực nghiệm các thuật toán
1) Mục tiêu thực nghiệm
1) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter FPDAR trong
[18] về thời gian thực hiện và độ chính xác phân lớp.
2) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter-wrapper
FEBAR trong [91] về thời gian thực hiện và độ chính xác phân lớp.
2) Số liệu thực nghiệm
Bảng 2.8. Bộ dữ liệu thử nghiệm thuật toán FW_FDAR
STT Bộ dữ liệu

Mô tả

1
2
3
4

Lympho
Wine
Libra
WDBC

5
6
7
8

Horse
Heart
Credit

German

Lymphography
Wine
Libras movement
Wisconsin
diagnostic breast
cancer
Horse colic
Statlog (heart)
Credit approval
German credit data

Số thuộc tính điều kiện
Tất
Thuộc
Thuộc
Số đối
cả
tính định tính thực
tƣợng
danh
(Real(nominal) valued)
148
18
18
0
178
13
0

13
360
90
0
90
569
30
0
30

368
270
690
1000

22
13
15
20

15
7
9
13

7
6
6
7

Số lớp
quyết
định
2
3
15
2

2
2
2
2

3) Kết quả so sánh độ chính xác phân lớp
Độ chính xác phân lớp được biểu diễn bởi v   trong đó v là giá trị độ chính xác trung
bình (mean) và  là sai số chuẩn (standard error). Sử dụng bộ phân lớp CART (cây phân lớp,
hồ quy) để tính độ chính xác phân lớp trong giai đoạn wrapper với phương pháp kiểm tra chéo
10-fold.

13

Bảng 2.9. Độ chính xác phân lớp FW_FDAR, FEBAR, FPDAR
STT Bộ dữ liệu

1

Lympho

2

Wine

3

Libra

4

WDBC

5

Horse

6

Heart

7

Credit

8

German

Độ chính xác
ban đầu
Độ

C
chính
xác
18
0.776±
0.008
13
0.910 ±
0.066
90
0.566 ±
0.137
30
0.924 ±
0.037
22
0.829 ±
0.085
13
0.744 ±
0.072
15
0.826 ±
0.052
20
0.692 ±
0.030

Thuật
toán

FW_FDAR
Độ
B
chính
xác
4
0.768 ±
0.085
5
0.893 ±
0.072
7
0.658 ±
0.077
4
0.968 ±
0.058
5
0.816 ±
0.052
3
0.803 ±
0.074
3
0.865 ±
0.028
6
0.716 ±
0.029

Thuật
toán
FEBAR [91]
Độ
B
chính
xác
4
0.768 ±
0.085
5
0.893 ±
0.072
8
0.605 ±
0.103
3
0.952 ±
0.027
4
0.802 ±
0.066
3
0.803 ±
0.074
2
0.846 ±
0.048
5
0.702 ±

0.043

Thuật toán
FPDAR [18]
B Độ
chính
xác
6
0.722 ±
0.062
7
0.886 ±
0.058
26 0.556 ±
0.205
6
0.925 ±
0.644
12 0.798 ±
0.058
12 0.752 ±
0.055
14 0.820 ±
0.078
11 0.684 ±
0.024

Kết quả ở Bảng 2.9 cho thấy, số thuộc tính tập rút gọn của thuật toán đề xuất FW_FDAR
nhỏ hơn nhiều so với thuật toán filter FPDAR . Độ chính xác của FW_FDAR cao hơn FPDAR
trên tất cả các bộ dữ liệu. Với thuật toán filter-wrapper FEBAR [91] sử dụng -entropy mờ, số

lượng thuộc tính tập rút gọn của FW_FDAR xấp xỉ FEBAR, độ chính xác phân lớp của
FW_FDAR xấp xỉ FEBAR.
3) Kết quả so sánh thời gian thực hiện
Bảng 2.10. Thời gian thực hiện FW_FDAR, FEBAR, FPDAR
STT Bộ dữ liệu

1
2
3
4
5
6
7
8

Lympho
Wine
Libra
WDBC
Horse
Heart
Credit
German

Thủ tục Tổng
Wrapper cộng

Thuật
toán
FPDAR

[18]

0.52
1.18
88.26
8.22
2.65
1.78
3.98
8.28

0.34
0.48
48.48
22.32
4.98
1.26
18.02
54.65

Thuật toán FW_FDAR

Thuật toán FEBAR [91]

Thủ
tục
Filer
0.32
0.46
46.28

20.15
4.85
1.22
16.58
52.48

Thủ
tục
Filer
0.38
0.51
55.12
26.38
5.26
1.45
19.26
71.22

Thủ tục Tổng
Wrapper cộng
0.50
1.21
86.18
8.74
2.68
1.52
3.42
8.64

0.82

1.67
132,46
28.89
7.53
2.74
20.00
61.12

0.90
1.69
143.38
34.60
7.91
3.23
23.24
79.50

Bảng 2.10 cho thấy, thuật toán FW_FDAR có thời gian thực hiện nhỏ hơn đáng kể thuật
toán FEBAR [91], chủ yếu là ở thủ tục filter tìm tập rút gọn. Nguyên nhân là thuật toán
FEBAR phải tính miền dương mờ để xác định hệ số , hơn nữa thuật toán FEBAR phải tính
toán các công thức logarit phức tạp trong công thức entropy Shannon. Tuy nhiên, các thuật
toán theo tiếp cận filter-wrapper FW_FDAR và FEBAR [91] có thời gian thực hiện lớn hơn
thuật toán theo tiếp cận filter FPDAR [18] vì phải thực hiện bộ phân lớp để tính độ chính xác
của các tập rút gọn xấp xỉ trong giai đoạn wrapper.
14

Chƣơng 3. PHƢƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG
CÁCH MỜ

3.1. Mở đầu
Với sự tăng trưởng không ngừng về dung lượng dữ liệu, các bảng quyết định ngày càng
có kích thước lớn và luôn thay đổi, cập nhật. Việc áp dụng các thuật toán tìm tập rút gọn theo
tiếp cận truyền thống gặp nhiều thách thức. Do đó, các nhà nghiên cứu đề xuất hướng tiếp cận
tính toán gia tăng tìm tập rút gọn nhằm giảm thiểu thời gian thực hiện và có khả năng thực hiện
trên các bảng quyết định kích thước lớn.
Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm
tập rút gọn trên bảng quyết định thay đổi theo tiếp cận tập thô mờ [15, 16, 97, 99]. Các thuật
toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian thực hiện nhỏ hơn
đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn.
Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận lọc truyền thống (filter). Vì vậy, tập
rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độ chính
xác phân lớp.
Trong chương này, luận án trình bày công thức tính toán gia tăng khoảng cách mờ (được
đề xuất ở mục 2.3 chương 2) trong trường hợp bổ sung và loại bỏ tập đối tượng. Dựa trên công
thức tính toán gia tăng được xây dựng, luận án trình bày thuật toán gia tăng filter-wrapper tìm
tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng.
Kết quả nghiên cứu ở chương này được công bố ở công trình số 7.

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ khi bổ sung tập
đối tượng
3.2.1. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng
Mệnh đề 3.1. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ
tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử đối tượng x được
bổ sung vào U . Khi đó, công thức tính gia tăng khoảng cách phân hoạch mờ là:

   

DU x  RC ,  RC D



2

   

 n 

 DU  RC ,  RC D
 n 1

   n 21   x
2

C

  x C   x D



Mệnh đề 3.2. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ
tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử tập đối tượng gồm
U  xn1, xn2 ,..., xn s 
U,
s
phần
tử
được
bổ
sung

vào
với
MU U ( RC )   pij 

 n  s  n  s 

, MU U ( RD )  d ij 

 n  s  n  s 

tương ứng là trận tương đương mờ và ma

trận tương đương trên C và D Khi đó, công thức tính gia tăng khoảng cách phân hoạch mờ
như sau:

  

DU U  RC ,  RCD
s 1





2

  

   pn i ,n  j 1  min  pn i ,n  j 1 , d n i ,n  j 1 
j i



s
2
 n 

D

R
,

R

C
C

D
 U
2 
ns
 n  s  i1


15

  x



n i C

 

  xni C   xni D   với

3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng
Mệnh đề 3.3. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ
tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, B  C là tập rút gọn dựa
trên khoảng cách phân hoạch mờ. Giả sử tập đối tượng gồm s phần tử U  xn1, xn2 ,..., xns 
được bổ sung vào U . Khi đó ta có:
1) Nếu D  xni   d với mọi i  1..s thì

  


    
với mọi i  1..s thì D   R  ,  R   D   R  ,  R 

DU U  RC ,  RC D

 xni B  xni D



2

s
2

 n 

x
  xn i C   xn i D
 DU  RC ,  RC D 
2   n i C
ns
 n  s  i1
U U

B D

B

U U

C



2) Nếu

C D

Dựa trên Mệnh đề 3.3, thuật toán gia tăng filter-wrapper tìm tập rút gọn sử dụng khoảng
cách phân hoạch mờ khi bổ sung tập đối tượng U được thực hiện như sau:
Thuật toán IFW_FDAR_AdObj (Incremental Filter-Wrapper Algorithm for Fuzzy Distance
based Attribute Reduction When Add Objects).
Đầu vào:
1)

2)

Bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  , quan hệ tương đương mờ R ,
tập rút gọn B  C , tập rút gọn xấp xỉ B0  C có độ chính xác phân lớp tốt nhất
Các ma trận tương đương mờ
MU ( R B )   pijB 

3)

nn

, MU ( RC )   pijC 

nn

, MU ( R D )  dij 

nn

Tập đối tượng bổ sung U  xn1, xn2 ,..., xns 

Đầu ra: Tập rút gọn xấp xỉ Bbest của DS '  U  U , C  D 
Bước 1: Khởi tạo
1. T :  // Chứa các ứng viên tập rút gọn tốt nhất
2. Tính các ma trận tương đương mờ trên tập đối tượng U  U
MU U ( R B )   pijB 

 n  s  n  s 

, MU U ( R D )  dij 

 n  s  n  s 

Bước 2: Kiểm tra tập đối tượng bổ sung
3. Đặt X : U
4. For i  1 to s do
5.

If  xni B

 xni D then

X : X  xni 

6. If X   then Return B0
7. Đặt U : X ; s : U ;

// Tập rút gọn xấp xỉ không thay đổi

//Gán lại tập đối tượng

Bước 3: Thực hiện thuật toán tìm tập rút gọn
8. Tính các khoảng cách phân hoạch mờ ban đầu

   



   

DU  R B ,  R BD ; DU  RC ,  RC D
16



9. Tính khoảng cách phân hoạch mờ bởi công thức gia tăng;

   



   



DU U  R B ,  R BD ; DU U  RC ,  RC D ;

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

   

10. While DU U  R B ,  R BD

  D

U U

  R  ,  R  do
C D

C

11. Begin
12.

For each a  C  B do

13.

Begin

 

 

 bởi công thức gia tăng;

14.

Tính DU U  R Ba ,  R BaD

15.

Tính SIGB  a   DU U  R B , R BD  DU U  R Ba , R BaD

    



 

16.

End;

17.

Chọn a  C  B sao cho SIGB  am   Max SIGB  a  ;

18.

B : B  am  ;

19.

B0 : B0  am 

20.

T : T  B0 ;



aC  B

21. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao hất
22. Đặt t : T



//t là số phần tử của T, T chứa các chuỗi thuộc tính được chọn, nghĩa là


;
23. Đặt T : B  a ; T : B  a , a ;...; T : B  a , a
 





T  B0  ai1 , B0  ai1 , ai2 ,..., B0  ai1 , ai2 ,..., ait
1

0

i1

2

0

i1

i2

t

0

i1

i2

,..., ait



24. For j = 1 to t
25.

Begin

26. Tính độ chính xác phân lớp trên T j bằng một bộ phân lớp sử dụng
10-fold;

phương pháp

27. End
28. Bbest : T jo với T jo có độ chính xác phân lớp lớn nhất.
Return Bbest ;
Độ



phức

tạp





thời

gian

của



thuật



max O B * U *  U  U  , O  C  B  * U *  U  U   O  C  B  * T
2

toán



IFW_FDAR_AdObj

là

Do đó, thuật toán gia tăng

IFW_FDAR_AdObj giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong
trường hợp U lớn hoặc C lớn và B nhỏ.

17

3.2.3. Thực nghiệm thuật toán
1) Mục tiêu thực nghiệm
(1) Đánh giá tính hiệu quả về thời gian thực hiện của thuật toán gia tăng filter-wrapper
IFW_FDAR_AdObj với hai thuật toán không gia tăng FW_FDAR và FEBAR [91]. FEBAR là
thuật toán filter-wrapper tìm tập rút gọn sử dụng -entropy mờ trong [91]. FW_FDAR là thuật
toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ trình bày trong chương 2.
(2) Đánh giá tính hiệu quả về độ chính xác phân lớp của thuật toán gia tăng filter-wrapper
IFW_FDAR_AdObj với thuật toán gia tăng filter IV-FS-FRS-2 [99] và thuật toán gia tăng
filter IARM [98]. IV-FS-FRS-2 và IARM là các thuật toán gia tăng tìm tập rút gọn khi bổ sung
tập đối tượng sử dụng quan hệ phân biệt trong tập thô mờ theo tiếp cận filter.
2) Dữ liệu thử nghiệm
Bảng 3.1. Bộ dữ liệu thử nghiệm thuật toán IFW_FDAR_AdObj

Bộ dữ
STT
Mô tả
liệu

Số
Số
đối
đối
tƣợng
tƣợng ban

đầu

(1)
1
2

(4)
178
360

(5)
88
180

Số thuộc tính điều kiện
Số
Tất Thuộc
Thuộc
đối
cả tính định tính
tƣợng
danh
thực
gia
(nominal) (Realtăng
valued)
(6)
(7) (8)
(9)
90

13 0
13
180
90 0
90

569

284

285

30

0

30

2

368
270

183
135

185
135

22

13

15
7

7
6

2
2

690

345

345

15

9

6

2

1000

500

5000

20

13

7

2

1473

733

740

9

7

2

3

1484

744

740

8

0

8

10

5000

2500

2500

21

0

21

3

3

4
5
6
7
8

9

10

(2)
Wine
Libra

(3)
Wine
Libras
movement
WDBC Wisconsin
diagnostic
breast cancer
Horse
Horse colic
Heart
Statlog
(heart)
Credit
Credit
approval
German German
credit data
Cmc
Contraceptive
Method
Choice
Yeast
Protein

Localization
Sites
Wave
Waveform

Số
lớp
quyết
định
(10)
3
15

3) So sánh thuật toán gia tăng IFW_FDAR_AdObj và hai thuật toán không gia tăng:
FW_FDAR, FEBAR
Để đánh giá tính hiệu quả về thời gian thực hiện của thuật toán gia tăng, chúng tôi sử
dụng tỷ lệ giảm thiểu thời gian, ký hiệu là TTR, được tính như sau:
TTR 

18

TM
*100
Ti

với TM là thời gian thực hiện thuật toán gia tăng IFW_FDAR_AdObj, Ti là thời gian thực hiện
của thuật toán FW_FDAR, FEBAR.
Bảng 3.2. Thời gian thực hiện IFW_FDAR_AdObj, FW_FDAR, FEBAR (s)
STT

1
2
3
4
5
6
7
8
9
10

Tập dữ liệu
Wine
Libra
WDBC
Horse
Heart
Credit
German
Cmc
Yeast
Wave
Trung bình

IFW_FDAR
_AdObj

FW_FDAR

Thời gian

Thời gian

TTR%

Thời gian

TTR%

0,22
6,78
4.08
1,08
0.26
1,86
4.26
3.22
5.68
274.48
30,19

1,67
132,46
28,89
7,53
2,76
20,00
61,12
84,42
134,84

19.058,26
1953,19

13,17
5,11
14,12
14,34
9,42
9,3
6,96
3,81
4,21
1,44
8,19

1,70
143.38
34.60
7.91
3.28
23.26
65.50
92,42
145,68
19.822,46
2034,01

12,94
4,72
11,79

13,65
7,92
7,99
6,50
3,48
3,89
1,38
7,43

FEBAR [91]

Bảng 3.2 cho thấy, với hai thuật toán filter-wrapper, thời gian thực hiện thuật toán
FW_FDAR nhỏ hơn so với thuật toán FEBAR trên tất cả các tập dữ liệu. Thời gian thực hiện
thuật toán gia tăng giảm thiểu đáng kể so với hai thuật toán không gia tăng. Tính trung bình
trên 10 tập dữ liệu, thời gian thực hiện IFW_FDAR_AdObj chỉ bằng 8,19% thuật toán
FW_FDAR và 7,43 thuật toán FEBAR. Với các bộ số liệu lớn như Wave, thời gian thực hiện
của IFW_FDAR_AdObj chỉ bằng 1,44% so với FW_FDAR và 1,38% so với FEBAR. Do đó,
thuật toán gia tăng đặc biệt hiệu quả trên các tập dữ liệu kích thước lớn. Thay vì tìm tập rút
gọn trên toàn bộ tập dữ liệu, chúng ta chia nhỏ tập dữ liệu thành nhiều phần, sau đó lần lượt
thực hiện thuật toán gia tăng khi bổ sung từng phần.
Bảng 3.3 cho thấy, độ chính xác phân lớp của ba thuật toán theo tiếp cận filter-wrapper
xấp xỉ nhau. Số lượng thuộc tính của tập rút gọn của cả ba thuật toán cũng xấp xỉ nhau. Do đó,
thuật toán gia tăng không cải thiện về độ chính xác phân lớp so với các thuật toán không gia
tăng.
Bảng 3.3. Độ chính xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR
Độ chính xác
ban đầu
Bộ dữ
STT
Độ

C
liệu
chính
xác
1
Wine
13
0.910 ±
0.066
2
Libra
90
0.566 ±
0.137
3
WDBC
30
0.924 ±
0.037
4
Horse
22
0.829 ±
0.085
5
Heart
13
0.744 ±
0.072

Thuật
toán Thuật toán
IFW_FDAR_AdObj FW_FDAR
Độ chính B Độ
B
xác
chính
xác
6
0.926
± 5
0.902 ±
0.072
0.072
10
0.582
± 8
0.605 ±
0.077
0.103
6
0.932
± 4
0.915 ±
0.058
0.027
5
0.806
± 4
0.788 ±

0.052
0.066
5
0.812
± 3
0.803 ±
0.074
0.074
19

Thuật
toán
FEBAR [91]
B Độ chính
xác
5
9
6
4
3

0.908
0.058
0.556
0.205
0.925
0.644
0.836
0.058
0.782

0.055

±
±
±
±
±

6

Credit

15

7

German

20

8

Cmc

9

9

Yeast

8

10

Wave

21

0.826 ±
0.052
0.692 ±
0.030
0.426 ±
0.024
0.522 ±
0.045
0.796 ±
0.058

4
6
4
4
8

0.865
± 3
0.028
0.716

± 8
0.029
0.658 ±
4
0.072
0.506 ±
3
0.016
0.812 ±
9
0.022

0.846 ±
0.048
0.702 ±
0.043
0.672 ±
0.002
0.508 ±
0.012
0.818 ±
0.048

0.820 ±
0.078
0.725 ±
0.024
0.686 ±
0.012
0.508 ±

0.014
0.806 ±
0.018

4
8
4
3
9

4) So sánh thuật toán gia tăng IFW_FDAR_AdObj với thuật toán gia tăng IV-FS-FRS-2,
IARM
Bảng 3.4. Thời gian thực hiện IFW_FDAR_AdObj, IV-FS-FRS-2, IARM
STT

Tập dữ liệu

1
2
3
4
5
6
7
8
9
10

Wine
Libra

WDBC
Horse
Heart
Credit
German
Cmc
Yeast
Wave
Trung bình

Thời
gian
IFW_FDAR_A
dObj
0,22
6,78
4.08
1,08
0.26
1,86
4.26
3.22
5.68
274.48
30,19

Thời gian
IV-FS-FRS-2
[99]
0,18

5,76
3,35
0.82
0,22
1,18
3,84
2,72
4,68
238,64
26,13

Thời
gian
IARM [98]
0,16
5,08
3,12
0,86
0,22
1,15
3,46
2,96
4,22
226,26
24,749

Kết quả ở Bảng 3.4 cho thấy, thời gian thực hiện của thuật toán IFW_FDAR_AdObj cao
hơn hai thuật toán IV-FS-FRS-2, IARM, đặc biệt là trên bộ dữ liệu kích thước lớn như Wave.
Bảng 3.5. Độ chính xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM
Độ chính xác Thuật

toán Thuật toán
ban đầu
IFW_FDAR_AdObj IV-FS-FRS-2
[57]
Bộ dữ
STT
liệu
Độ
Độ
chính
Độ
B
B
C
chính
xác
chính
xác
xác
1
Wine
13
0.910 ± 6
0.926
± 7
0.906
0.066
0.072
± 0.016
2

Libra
90
0.566 ± 10
0.582
± 51
0.502±
0.137
0.077
0.020
3
WDBC 30
0.924 ± 6
0.932
± 24
0.895±
0.037
0.058
0.012
4
Horse
22
0.829 ± 5
0.806
± 12
0.788±
0.085
0.052
0.048
5
Heart

13
0.744 ± 5
0.812
± 10
0.766±
0.072
0.074
0.058
6
Credit
15
0.826 ± 4
0.865
± 13
0.828±
0.052
0.028
0.014
7
German 20
0.692 ± 6
0.716
± 12
0.688±
0.030
0.029
0.032
8
Cmc
9

0.426 ± 4
0.658 ±
9
0.489±
20

Thuật
toán
IARM [56]

B
7
48
16
12
11
14
11
9

Độ
chính
xác
0.902 ±
0.056
0.517±
0.014
0.892±
0.014
0.764±

0.023
0.772±
0.014
0.826±
0.014
0.690±
0.015
0.482±

9

Yeast

8

10

Wave

21

0.024
0.522 ± 4
0.045
0.796 ± 8
0.058

0.072
0.506 ±

0.016
0.812 ±
0.022

0.042
0.502±
0.012
0.784±
0.016

7
17

0.012
0.502±
0.012
0.702±
0.024

7
21

Bảng 3.5 trình bày kết quả so sánh về độ chính xác phân lớp và số lượng thuộc tính tập
rút gọn của ba thuật toán. Từ Bảng 3.5 ta thấy, thuật toán filter-wrapper IFW_FDAR_AdObj
có độ chính xác phân lớp cao hơn đáng kể so với hai thuật toán filter là IV-FS-FRS-2, IARM
trên hầu hết các tập dữ liệu, vì thuật toán IFW_FDAR_AdObj luôn chọn tập rút gọn có độ
chính xác phân lớp tốt nhất. Hơn nữa, số thuộc tính tập rút gọn của thuật toán
IFW_FDAR_AdObj nhỏ hơn nhiều hai thuật toán IV-FS-FRS-2 và IARM. Do đó, thời gian
thực hiện và tính khái quát hóa của tập luật phân lớp trên tập rút gọn của thuật toán
IFW_FDAR_AdObj tốt hơn so với hai thuật toán IV-FS-FRS-2 và IARM.

3.3. Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ khi loại bỏ tập
đối tượng
3.3.1. Cập nhật khoảng cách mờ khi loại bỏ tập đối tượng

Mệnh đề 3.4. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ
tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử đối tượng xk U bị
loại bỏ khỏi U. Khi đó, công thức tính khoảng cách phân hoạch mờ như sau:

  

DU xk   RC ,  RC D

   



2

  



2
 n 

 DU  RC ,  RC D 
2
 n 1
 n  1



   

với DU  RC ,  RCD , DU x   RC ,  RC D
k



 x 

k C

  xk C   xk D



(4)

tương ứng là khoảng cách phân hoạch mờ

trên tập đối tượng U , U  x .
Mệnh đề 3.5. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ
tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử tập đối tượng gồm
U  xk , xk 1,..., xk s1
U,
s  n,
s
phần

tử
bị
loại
khỏi
với
MU U ( RC )   pij 

 n  s  n  s 

, MU U ( RD )  d ij 

 n  s  n  s 

tương ứng là trận tương đương mờ và ma

trận tương đương trên C và D Khi đó, công thức cập nhật khoảng cách phân hoạch mờ như
sau:

    

DU U  RC ,  RCD



2

    

2 s1
 n 


D

R
,

R

x
  xk i C   xk i D  
C
C

D
 U
2   k i C
ns
 n  s  i 0





(5)



với    pk i ,k  j  min  pk i ,k  j , d k i ,k  j 
i

j 0

3.3.2. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng

Mệnh đề 3.6. Cho bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  và R là quan hệ
tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, B  C là tập rút gọn dựa
trên khoảng cách phân hoạch mờ. Giả sử tập đối tượng gồm s phần tử U  xk , xk 1,..., xk s1
bị loại khỏi U , s  n , Khi đó ta có:
1) Nếu D  xk i   d với mọi i  0..s  1 thì
21

  


    
với mọi i  0..s thì D   R  ,  R   D   R  ,  R 

DU U  RC ,  RCD

 xk i B  xk i D



2

2 s1
 n 

D


R
,

R

x
  xk i C   xk i D
C
C

D
 U
2   k i C
ns
 n  s  i 0
B D

B

U U

C

U U



2) Nếu

C D

Dựa trên Mệnh đề 3.6, thuật toán filter-wrapper cập nhật tập rút gọn xấp xỉ có độ chính
xác phân lớp tốt nhất sử dụng khoảng cách phân hoạch mờ khi loại bỏ tập đối tượng U được
thực hiện như sau:
Thuật toán UFW_FDAR_DelObj (Updated Filter-Wrapper Algorithm for Fuzzy Distance
based Attribute Reduction when Delete Objects).
Đầu vào:
1)
2)

Bảng quyết định DS  U , C  D  với U  x1, x2 ,..., xn  , quan hệ tương đương mờ R ,
tập rút gọn B  C , tập rút gọn xấp xỉ B0  C có độ chính xác phân lớp tốt nhất
Các ma trận tương đương mờ
MU ( R B )   pijB 

3)

nn

, MU ( RC )   pijC 

nn

, MU ( R D )  dij 

nn

Tập đối tượng loại bỏ U  xk 1, xk 2 ,..., xk s1 gồm s đối tượng với s  n

Đầu ra: Một tập rút gọn xấp xỉ Bbest của DS '  U  U , C  D  có độ chính xác phân lớp tốt
nhất.
1. T :  // Chứa các ứng viên của tập rút gọn xấp xỉ
2. Đặt X : U
3. For i  0 to s  1 do
4.

If  xk i B

 xk i D then

X : X  xk i 

5. If X   then Return B0
6. Đặt U : X ; s  U ;

// Tập rút gọn không thay đổi

//Gán lại tập đối tượng

7. Tính các khoảng cách phân hoạch mờ ban đầu:

   



   

DU  R B ,  R BD ; DU  RC ,  RC D



8. Tính khoảng cách phân hoạch mờ bởi Mệnh đề 9 khi loại U :

   



   

DU U  R B ,  R BD ; DU U  RC ,  RC D

 ;

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

   

9. While DU U  R B ,  R BD

  D

U U

  R  ,  R  do
C

C D

10. Begin

11.

For each a  B do

12.

Begin

13.

 

 

Tính DU U  R Ba ,  R BaD
22

 bởi công thức gia tăng;

Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về