Tải bản đầy đủ (.pdf) (117 trang)

LUẬN ÁN TIẾN SĨ MỘT SỐ PHƯƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.93 MB, 117 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
……..….***…………

NGUYỄN VĂN THIỆN

MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN
THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2018


VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
……..….***…………

NGUYỄN VĂN THIỆN

MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT
GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CÔNG NGHỆ THÔNG TIN

Chuyên ngành : Hệ thống thông tin
Mã số: 9 48 01 04



Ngƣời hƣớng dẫn khoa học:
1. PGS.TS. Nguyễn Long Giang
2. TS. Nguyễn Nhƣ Sơn

Hà Nội – 2018


i

MỤC LỤC
MỤC LỤC...............................................................................................................................................................i
Danh mục các thuật ngữ..................................................................................................................................... iii
Bảng các ký hiệu, từ viết tắt............................................................................................................................... iv
Danh sách bảng ..................................................................................................................................................... v
Danh sách hình vẽ................................................................................................................................................ vi
MỞ ĐẦU ............................................................................................................................................................... 1
Chương 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ . 7
1.1. Một số khái niệm trong lý thuyết tập thô ...................................................................... 7
1.1.1. Hệ thông tin và bảng quyết định ........................................................................7
1.1.2. Quan hệ tương đương ........................................................................................7
1.1.3. Các tập xấp xỉ và tập thô ....................................................................................8

1.2. Một số khái niệm trong lý thuyết tập thô mờ ............................................................... 9
1.2.1. Quan hệ tương đương mờ ..................................................................................9
1.2.2. Ma trận tương đương mờ .................................................................................10
1.2.3. Phân hoạch mờ .................................................................................................12
1.2.4. Các tập xấp xỉ mờ và tập thô mờ .....................................................................15

1.3. Tổng quan về rút gọn thuộc tính.................................................................................. 16

1.3.1. Rút gọn thuộc tính............................................................................................16
1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính .............................................17

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ ............ 19
1.4.1. Rút gọn thuộc tính trên bảng quyết định mờ theo tiếp cận tập thô mờ ............20
1.4.2. Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ. ..22
1.4.3. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo
tiếp cận tập thô mờ .......................................................................................................30

1.5. Tóm tắt các đóng góp của luận án ............................................................................... 35
1.6. Kết luận .......................................................................................................................... 35
Chương 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ
PHỤ THUỘC MỜ VÀ KHOẢNG CÁCH MỜ.................................................................. 36
2.1. Mở đầu ........................................................................................................................... 36


ii

2.2. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ ............................................................ 37
2.2.1. Rút gọn thuộc tính sử dụng độ phụ thuộc theo tiếp cận filter ..........................37
2.2.2. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter....................39
2.2.3. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter-wrapper .....44
2.2.4. Thực nghiệm các thuật toán...............................................................................46

2.3. Rút gọn thuộc tính sử dụng khoảng cách mờ ................................................................. 53
2.3.1. Xây dựng khoảng cách mờ giữa hai tập mờ ....................................................54
2.3.2. Xây dựng khoảng cách mờ giữa hai phân hoạch mờ .......................................57
2.3.3. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter ....................60
2.3.4. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper .............64
2.3.5. Thực nghiệm các thuật toán ...............................................................................67


2.4. Kết luận chương 2 ......................................................................................................... 71
Chương 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ
DỤNG KHOẢNG CÁCH MỜ .................................................................................................................73
3.1. Mở đầu ........................................................................................................................... 73
3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ khi bổ sung tập đối tượng
75
3.2.1. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng ..............75
3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng 78
3.2.3. Thực nghiệm thuật toán ...................................................................................82

3.3. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng ........................ 89
3.3.1. Công thức cập nhật khoảng cách mờ khi loại bỏ tập đối tượng ......................89
3.3.2. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng ................92

3.4. Kết luận chương 3 ......................................................................................................... 96
KẾT LUẬN.........................................................................................................................................................97
Danh mục các công trình của tác giả..............................................................................................................98
Tài liệu tham khảo ..............................................................................................................................................99


iii

Danh mục các thuật ngữ

Thuật ngữ tiếng Việt

Thuật ngữ tiếng Anh

Tập thô


Rough Set

Tập thô mờ

Fuzzy Rough Set

Hệ thông tin

Information System

Bảng quyết định

Decision Tables

Bảng quyết định mờ

Fuzzy Decision Tables

Quan hệ tương đương

Equivalence Relation

Quan hệ tương đương mờ

Fuzzy Equivalence Relation

Phân hoạch mờ

Fuzzy Partition


Ma trận tương đương mờ

Fuzzy Equivalence Matrix

Lớp tương đương mờ

Fuzzy equivalence Classes

Xấp xỉ dưới mờ

Fuzzy Lower Approximation

Xấp xỉ trên mờ

Fuzzy Upper Approximation

Miền dương mờ

Fuzzy Positive Region

Độ phụ thuộc mờ của thuộc tính

Fuzzy Dependency Degree

Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn


Reduct

Phương pháp gia tăng

Incremental Methods

Khoảng cách mờ

Fuzzy Distance

Lọc

Filter

Đóng gói

Wrapper


iv

Bảng các ký hiệu, từ viết tắt
Ký hiệu, từ viết tắt
IS  U , A

Diễn giải
Hệ thông tin

DS  U , C  D 


Bảng quyết định

U

Số đối tượng

C

Số thuộc tính điều kiện trong bảng quyết định

u a

Giá trị của đối tượng u tại thuộc tính a

IND  B 

Quan hệ tương đương trên B

U/P

 u B

Phân hoạch của U trên P
Lớp tương đương chứa u của phân hoạch U / P

R

Quan hệ tương đương mờ R.


RP

Quan hệ tương đương mờ R trên tập thuộc tính P

M RP

 

Ma trận tương đương mờ của R P

 RP

 

Phân hoạch mờ trên R P

 xi P

Lớp tương đương mờ của xi thuộc phân hoạch mờ

 

 RP

 xi P

Lực lượng lớp tương đương mờ  xi P

RP X


Tập xấp xỉ dưới mờ của X đối với R P

RP X

Tập xấp xỉ trên mờ của X đối với R P

 

POSR P RQ

Miền dương mờ của R Q đối với R P

 R  D

Độ phụ thuộc mờ của P đối với D dựa trên quan hệ R P

P

    

D  R P ,  RQ

 

Khoảng cách mờ giữa hai phân hoạch mờ  R P và

 

 RQ



v

Danh sách bảng
Bảng 1.1. Bảng quyết định Ví dụ 1.1 ................................................................................... 14
ản

ảng quyết định mờ ............................................................................................ 21

Bảng 2.1. Bảng quyết định Ví dụ 2.1 ................................................................................... 42
Bảng 2.2. Bộ dữ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR ................................. 47
Bảng 2.3. Độ chính xác phân lớp của F_FRSAR và RSAR ................................................. 49
Bảng 2.4. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR .................... 50
Bảng 2.5. Độ chính xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS ......... 52
Bảng 2.6. Thời gian thực hiện FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS .............. 53
Bảng 2.7. Bảng quyết định Ví dụ 2.3 ................................................................................... 63
Bảng 2.8. Bộ dữ liệu thử nghiệm thuật toán FW_FDAR..................................................... 68
Bảng 2.9. Độ chính xác phân lớp FW_FDAR, FEBAR, FPDAR ........................................ 70
Bảng 2.10. Thời gian thực hiện FW_FDAR, FEBAR, FPDAR ........................................... 71
Bảng 3.1. Bộ dữ liệu thử nghiệm thuật toán IFW_FDAR_AdObj ....................................... 83
Bảng 3.2. Thời gian thực hiện IFW_FDAR_AdObj, FW_FDAR, FEBAR (s) ..................... 85
Bảng 3.3. Độ chính xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR ..................... 86
Bảng 3.4. Thời gian thực hiện IFW_FDAR_AdObj, IV-FS-FRS-2, IARM.......................... 87
Bảng 3.5. Độ chính xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM..................... 88


vi

Danh sách hình vẽ


Hình 1.1. Quy trình rút gọn thuộc tính ............................................................................... 18
Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính .................................... 19
Hình 2.1. Độ chính xác phân lớp của F_FRSAR và RSAR ................................................ 49
Hình 2.2. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR .................. 51


1

MỞ ĐẦU
Với sự phát triển mạnh mẽ của công nghệ thông tin, các cơ sở dữ liệu ngày
càng gia tăng về dung lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều
khó khăn cho việc thực thi các thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm
cách rút gọn số lượng thuộc tính mà không làm mất mát những thông tin cần thiết
phục vụ nhiệm vụ khai phá dữ liệu. Do đó, rút gọn thuộc tính (còn gọi là rút gọn
chiều hay rút gọn đặc trưng) là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu
thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu.
Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với
mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả
của các thuật toán khai phá dữ liệu. Hiện nay có hai cách tiếp cận chính đối với bài
toán rút gọn thuộc tính [43, 44]: filter (lọc) và wrapper (đóng gói). Cách tiếp cận
filter thực hiện việc rút gọn thuộc tính độc lập với thuật khai phá dữ liệu sử dụng
sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc
phân lớp dữ liệu. Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng
cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn
để lựa chọn các tập con thuộc tính.
Lý thuyết tập thô (Rough set) do Pawlak đề xuất [101] là công cụ hiệu quả giải
quyết bài toán rút gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực
hiện lâu nay. Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống
và tập thô dung sai được nghiên cứu khá đầy đủ trong các luận án tiến sĩ [4, 5, 6, 11,
13], bao gồm các phương pháp cơ bản như: phương pháp dựa trên miền dương,

phương pháp sử dụng ma trận không phân biệt được, phương pháp sử dụng entropy
thông tin, phương pháp sử dụng các độ đo trong tinh toán hạt, phương pháp sử dụng
metric (khoảng cách)... Gần đây, luận án tiến sĩ [7] nghiên cứu các phương pháp gia
tăng tìm tập rút gọn của bảng quyết định thay đổi theo tiếp cận tập thô truyền thống.
Tuy nhiên, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống,
tập thô dung sai trong các luận án tiến sĩ nêu trên và các nghiên cứu liên quan đều


2

theo hướng tiếp cận filter và thực hiện trên các bảng quyết định có miền giá trị rời
rạc (bảng quyết định sau khi thực hiện các phương pháp rời rạc hóa dữ liệu). Các
phương pháp rời rạc hóa dữ liệu không bảo toàn sự khác nhau ban đầu giữa các đối
tượng trong dữ liệu gốc. Do đó, các phương pháp rút gọn thuộc tính theo tiếp cận
tập thô, tập thô dung sai được trình bày ở trên giảm thiểu độ chính xác của mô hình
phân lớp trên dữ liệu gốc. Nhằm nâng cao độ chính xác của mô hình phân lớp, các
nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ.
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề
xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ
dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định
trên miền giá trị thuộc tính. Ban đầu, tập thô mờ là công cụ giải quyết bài toán rút
gọn thuộc tính trên bảng quyết định mờ [40, 41, 76, 77, 78, 79, 81]. Về sau, các nhà
nghiên cứu tập trung giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết
định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) theo tiếp cận tập thô
mờ nhằm nâng cao độ chính xác của mô hình phân lớp. Các phương pháp rút gọn
thuộc tính trong bảng quyết định gốc theo tiếp cận tập thô mờ là các nghiên cứu mở
rộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống đã
được nghiên cứu lâu nay. Đây là các phương pháp heuristic theo tiếp cận filter, bao
gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc
tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm

tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính. Việc đánh giá độ chính
xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Cho đến nay,
các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết định gốc
theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử
dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ
[34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33,
55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] . Gần đây, một số nhà nghiên
cứu đề xuất các phương pháp mở rộng dựa trên các độ đo khác nhau được định
nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100]. Kết quả thử nghiệm trên


3

các bộ số liệu mẫu cho thấy, các phương pháp rút gọn thuộc tính theo tiếp cận tập
thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo
tiếp cận tập thô truyền thống. Tuy nhiên, các phương pháp đề xuất đều theo tiếp cận
filter, tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo
đảm có độ chính xác phân lớp cao nhất, nghĩa là tập rút gọn của các phương pháp
filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp. Do đó,
luận án nghiên cứu các thuật toán theo hướng tiếp cận lai ghép filter-wrapper tìm
tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ
chính xác của mô hình phân lớp. Giai đoạn filter tìm các ứng viên cho tập rút gọn
dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán độ chính
xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ chính xác phân
lớp cao nhất.
Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập
nhật. Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống
và các mô hình tập thô mở rộng gặp nhiều thách thức. Trường hợp các bảng quyết
định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định
sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể. Trường hợp

bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng
quyết định sẽ gặp khó khăn về thời gian thực hiện. Do đó, việc chia nhỏ bảng quyết
định để tìm tập rút gọn trên từng phần là giải pháp đặt ra. Tuy nhiên, việc tính toán
tập rút gọn dựa vào các tập rút gọn của từng phần là vấn đề cần giải quyết. Vì vậy,
các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Các
thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực
hiện trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết
định. Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên
quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi
động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng [20, 36, 37, 38,
49, 56, 66, 86, 95, 96, 102], bổ sung và loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88,
89]. Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công


4

thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm
tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập
thuộc tính. Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật
toán gia tăng tìm tập rút gọn trên bảng quyết định theo tiếp cận tập thô mờ trong các
trường hợp: bổ sung và loại bỏ tập thuộc tính [15, 16], bổ sung tập đối tượng [97,
98, 99]. Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có
thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi
trên các bảng dữ liệu kích thước lớn. Tuy nhiên, các thuật toán nêu trên đều theo
hướng tiếp cận filter truyền thống. Tập rút gọn tìm được chưa tối ưu cả về số lượng
thuộc tính và độ chính xác phân lớp. Do đó với hướng nghiên cứu gia tăng, luận án
đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ theo tiếp cận
tập thô mờ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác
của mô hình phân lớp.
Mục tiêu của luận án tập trung nghiên cứu hai vấn đề chính.

1) Nghiên cứu các thuật toán filter-wrapper tìm tập rút gọn sử dụng độ đo
khoảng cách mờ cải tiến và các độ đo khác nhằm giảm thiểu số lượng thuộc tính
của tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình) và cải thiện độ chính
xác của mô hình phân lớp.
2) Nghiên cứu các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng
quyết định thay đổi sử dụng độ đo khoảng cách mờ nhằm giảm thiểu thời gian thực
hiện so với các thuật toán không gia tăng và giảm thiểu số lượng thuộc tính tập rút
gọn (từ đó giảm thiểu độ phức tạp của mô hình), cải thiện độ chính xác của mô hình
phân lớp.
Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:
1) Đề xuất hai thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định
theo tiếp cận tập thô mờ: Thuật toán sử dụng độ phụ thuộc mờ và thuật toán sử dụng
khoảng cách mờ. Độ đo khoảng cách mờ được xây dựng là mở rộng của độ đo
khoảng cách trong công trình [48]. Các đóng góp này được trình bày ở chương 2 của
luận án.


5

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết
định trong trường hợp bổ sung tập đối tượng và loại bỏ tập đối tượng sử dụng độ đo
khoảng cách mờ được xây dựng trong chương 2. Các đóng góp này được trình bày ở
chương 3 của luận án.
Đối tượng nghiên cứu của luận án là các phương pháp rút gọn thuộc tính
theo tiếp cận tập thô mờ và các phương pháp gia tăng rút gọn thuộc tính theo tiếp
cận tập thô mờ.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên cứu
thực nghiệm.
1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính theo
tiếp cận tập thô mờ đã công bố, phân tích ưu điểm, nhược điểm và các vấn đề còn

tồn tại của các nghiên cứu liên quan. Trên cơ sở đó, đề xuất các độ đo cải tiến và
các thuật toán theo hướng tiếp cận lai ghép filter-wrapper. Các đề xuất, cải tiến
được chứng minh chặt chẽ về lý thuyết bởi các định lý, mệnh đề.
2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử
nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ
liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết.
Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết luận
và danh mục các tài liệu tham khảo. Chương 1 trình bày các khái niệm cơ bản về lý
thuyết tập thô truyền thống, mô hình tập thô mờ và tổng quan về tiếp cận filterwrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày các nghiên cứu liên quan
đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương
pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây.
Trêm cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên
cứu cùng với tóm tắt các kết quả đạt được.
Các đóng góp chính của luận án được trình bày trong chương 2, chương 3.
Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là đề xuất thuật toán filterwrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ; thứ hai là xây


6

dựng một độ đo khoảng cách mờ và đề xuất thuật toán filter-wrapper tìm tập rút gọn
sử dụng khoảng cách mờ được xây dựng theo tiếp cận tập thô mờ. Cả hai đề xuất đều
nhằm mục tiêu giảm thiểu số thuộc tính của tập rút gọn, từ đó giảm thiểu độ phức tạp
của mô hình so với các phương pháp filter trước đây.
Chương 3 đề xuất hai thuật toán gia tăng filter-wrapper; thuật toán gia tăng
filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung
tập thuộc tính; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng
quyết định trong trường hợp loại bỏ tập thuộc tính. Cả hai thuật toán đề xuất đều sử
dụng độ đo khoảng cách mờ đề xuất ở chương 2 và đều có mục tiêu là giảm thiểu thời
gian thực hiện so với thuật toán không gia tăng và giảm thiểu số thuộc tính tập rút
gọn, từ đó giảm thiểu độ phức tạp của mô hình so với các thuật toán gia tăng khác đã

công bố.
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển
và những vấn đề quan tâm của tác giả.


7

Chương 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH
THEO TIẾP CẬN TẬP THÔ MỜ
1.1. Một số khái niệm trong lý thuyết tập thô
Lý thuyết tập thô truyền thống do Z.Pawlak [101] đề xuất là công cụ toán
học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn. Phương pháp
tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương đương (hay quan hệ
không phân biệt được) để xấp xỉ tập hợp. Khi đó, mọi tập đối tượng đều được xấp xỉ
bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó. Mỗi tập xấp xỉ được hợp thành
bởi một hoặc nhiều lớp tương đương, là cơ sở để xây dựng các thuật toán rút gọn
thuộc tính và khai phá tri thức từ dữ liệu. Trong phần này, luận án trình bày một số
khái niệm cơ bản trong lý thuyết tập thô truyền thống của Z.Pawlak [101], là cơ sở
nền tảng cho lý thuyết tập thô mờ được trình bày ở phần 1.2.
1.1.1. Hệ thông tin và bảng quyết định

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm n
cột ứng với n thuộc tính và m hàng ứng với m đối tượng. Một cách hình thức, hệ
thông tin là một cặp IS  U , A trong đó U là tập hữu hạn, khác rỗng các đối
tượng, gọi là tập vũ trụ; A là tập hữu hạn, khác rỗng các thuộc tính.
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng
dụng là bảng quyết định. Bảng quyết định DS  U , C  D  là một dạng đặc biệt
của hệ thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau:
Tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D với C  D   .
1.1.2. Quan hệ tương đương


Xét hệ thông tin IS  U , A , mỗi tập con thuộc tính P  A xác định một
quan hệ hai ngôi trên U, ký hiệu là IND  P  , xác định bởi





IND  P    u, v  U U a  P, a u   a  v  .

(1.1)


8

Với a  u  là giá trị thuộc tính a tại đối tượng u. IND  P  gọi là quan hệ P-không
phân biệt được trên U. Dễ thấy rằng IND P  là một quan hệ tương đương trên U. Nếu

 u, v   IND P  thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P.
Quan hệ tương đương IND  P  xác định một phân hoạch trên U, ký hiệu là U / IND  P 
hay U / P , trong đó mỗi thành phần trong phân hoạch U / P là một lớp tương đương. Ký
u là u P , khi đó

hiệu lớp tương đương trong phân hoạch U / P chứa đối tượng

u P  v U u, v   IND  P  . Ký hiệu phân hoạch

sinh bởi thuộc tính a  P là U / a ,

khi đó ta có:

U / P  a  P : U / a

với A  B  X Y :X  A ,Y  B ,X Y   
1.1.3. Các tập xấp xỉ và tập thô

Cho hệ thông tin IS  U , A và tập đối tượng X  U . Với một tập thuộc
tính P  A cho trước, ta thu được các lớp tương đương sinh bởi phân hoạch U / P .
Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương
của U / P , người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của
U / P . Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính P, được gọi là P-

xấp xỉ dưới và P-xấp xỉ trên của X, ký hiệu lần lượt là

PX

và PX , được xác định

như sau:









PX  u U u P  X , PX  u U u P  X  

(1.2)


Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P.

Từ hai tập xấp xỉ nêu trên, ta định nghĩa P-miền biên của X là tập
PN P  X   PX  PX và P-miền ngoài của X là tập U  PX . Dễ thấy, P-miền

biên của X là tập chứa các đối tượng có thể thuộc X, còn P-miền ngoài của X chứa
các đối tượng chắc chắn không thuộc X. Sử dụng các lớp của phân hoạch U / P ,
các xấp xỉ dưới và trên của X có thể viết lại


9

PX 

Y U / P Y  X  ,

Y U / P Y  X  

PX 

(1.3)

Trong trường hợp PN P  X    thì X được gọi là tập rõ, ngược lại X được
gọi là tập thô.
Xét hệ thông tin IS  U , A với P, Q  A , ta gọi tập POS P (Q) 

 PX 
X U / Q


là P-miền dương của Q. Dễ thấy POSP (Q) là tập các đối tượng trong U được phân lớp
đúng vào các lớp của U / Q sử dụng tập thuộc tính P. Rõ ràng, POSP (Q) là tập tất cả
các đối tượng u sao cho với mọi v U mà u  P   v  P  ta đều có u  Q   v  Q  . Nói





một cách hình thức, POS P (Q)  u U u P  u Q .
1.2.

Một số khái niệm trong lý thuyết tập thô mờ
Lý thuyết tập thô truyền thống của Pawlak [101] sử dụng quan hệ tương đương

để xấp xỉ tập hợp. Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D.
Dubois và các cộng sự [22, 23] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ
tập mờ. Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là
công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng
quyết định. Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp
cận tập thô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các
bảng quyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là
rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua
bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp. Luận án
nghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm
cơ bản về mô hình tập thô mờ trên bảng quyết định. Các khái niệm này được sử dụng
trong các chương sau của luận án.
1.2.1. Quan hệ tương đương mờ

Định nghĩa 1.1. [32, 71] Cho bảng quyết định DS  U , C  D  , một quan hệ R

xác định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa
mãn các điều kiện sau với mọi x, y, z U


10

1) Tính phản xạ (reflexive): R  x, x   1 ;
2) Tính đối xứng (symetric): R  x, y   R  y, x  ;
3)Tính bắc cầu max-min (max-min transitive): R  x, z   min R  x, y  , R  y, z  ;
với R  x, y  là giá trị quan hệ giữa hai đối tương x và y.
Mệnh đề 1.1. [72] Cho bảng quyết định DS  U , C  D  và quan hệ tương đương
mờ R . Ký hiệu R P , R Q tương ứng là quan hệ R xác định trên tập thuộc tính P, Q.
Khi đó, với mọi x, y U ta có:
1) R P  RQ  R P  x, y   RQ  x, y 


 R  x, y   min R



2) R PQ  R P  RQ  R  x, y   max R P  x, y  , RQ  x, y 
3) R PQ  R P  RQ

P

 x, y  , RQ  x, y 

4) R P  RQ  R P  x, y   RQ  x, y 
1.2.2. Ma trận tương đương mờ


Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương
mờ giữa các đối tượng của bảng quyết định và được định nghĩa như sau:
Định nghĩa 1.2. Cho bảng quyết định DS  U , C  D  với U  x1 , x2 ,..., xn  và
R P là quan hệ tương đương mờ xác định trên tập thuộc tính P  C . Khi đó, ma

trận tương đương mờ biểu diễn R P , ký hiệu là M  R P    pij nn , được định nghĩa
như sau:
 p11
p
M ( R P )   21
 ...

 pn1

p12
p22
...
pn 2

...
...
...
...

p1n 
p2 n 

... 

pnn 



11

với pij  R P  xi , x j  là giá trị của quan hệ giữa hai đối tượng xi và x j trên tập thuộc
tính P, pij  0,1 , xi , x j U ,1  i, j  n .
Như vậy, giá trị các phần tử của ma trận tương đương mờ M  R P  phụ thuộc
vào quan hệ tương đương mờ R P được chọn. Mặt khác, ma trận tương đương mờ là
cơ sở để xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong
bảng quyết định. Do đó, việc lựa chọn các quan hệ tương đương mờ ảnh hưởng đến kết
quả thực hiện các phương pháp rút gọn thuộc tính. Tiếp theo, luận án liệt kê một số
quan hệ tương đương mờ được sử dụng trong bài toán rút gọn thuộc tính
1) Trong các công trình [54, 68, 76], các tác giả sử dụng quan hệ tương đương
mờ theo công thức (1.4) trên thuộc tính a  C có miền giá trị số

a  xi   a  x j 
a  xi   a  x j 
1  4 *
, if
 0.25
R a  xi , x j   
amax  amin
amax  amin

0, otherwise

(1.4)

với a  xi  là giá trị của thuộc tính a tại đối tượng xi , amax , amin tương ứng là giá trị
lớn nhất, nhỏ nhất của thuộc tính a  C .

2) Trong các công trình [91], các tác giả sử dụng quan hệ tương đương mờ
theo công thức (1.5) trên thuộc tính a  C có miền giá trị thực thuộc đoạn [0, 1].
R a  xi , x j   1  a  xi   a  x j 

(1.5)

Trong trường hợp giá trị thuộc tính a không thuộc đoạn [0, 1], các tác giả sử dụng
một phương pháp tiền xử lý để ánh xạ miền giá trị thuộc tính a về đoạn [0, 1].
Ngoài ra, một số công trình [98] sử dụng quan hệ tương đương mờ
R a  xi , x j   min a  x  , a  y  trên thuộc tính a  C có miền giá trị số thuộc đoạn [0,

1].


12

Trên các thuộc tính a  C có miền giá trị định danh (nominal) hoặc nhị phân
(binary), các tác giả sử dụng quan hệ tương đương. Quan hệ tương đương được xem
là quan hệ tương đương mờ theo công thức (1.6) như sau:
1, if a  xi   a  x j 

R a  xi , x j   

0, f a  xi   a  x j 

(1.6)

1.2.3. Phân hoạch mờ

Mệnh đề 1.2. Cho bảng quyết định DS  U , C  D  và P, Q  C . Giả sử


 

M R P   pij  , M ( RQ )   qij  nn tương ứng là ma trận tương đương mờ của R P ,
nn
R Q , khi đó ma trận tương đương mờ trên tập thuộc tính S  P  Q là:







M ( R S )  M R PQ   sij  với sij  min pij , qij
nn



(1.7)

Chứng minh.
Xét bảng quyết định DS  U , C  D  với P, Q  C . Theo Mệnh đề 1.1 ta
R P  aP R a





R PQ  R P  RQ ,




nghĩa



với

mọi

x, y U

,



R PQ  x, y   min R P  x, y  , RQ  x, y  . Từ đó ta có M  R PQ    sij 
với
nn
sij  min  pij , qij  .

Định nghĩa 1.3. Cho bảng quyết định DS  U , C  D  với P  C , U  x1 , x2 ,..., xn 


RP

RP ,

là quan hệ tương đương mờ trên P. Khi đó phân hoạch mờ trên U sinh bởi


ký hiệu là   R P  , được xác định như sau

 

 R P  U / R P   xi P i 1   x1 P ,...,  xn P 
n

(1.8)

với  xi P  pi1 / x1  pi 2 / x2  ...  pin / xn là một tập mờ đóng vai trò là một lớp tương
đương mờ (fuzzy equivalent class) của đối tượng xi U .


13

Với lớp tương đương mờ  xi P , hàm thuộc của các của các đối tượng x j U
được xác định bởi  xi   x j   RP  xi , x j   R P  xi , x j   pij và lực lượng của lớp
P

n

đương đương mờ  xi P được tính bởi  xi P   pij .
j 1

Gọi

là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương

đương mờ trên các tập thuộc tính, khi đó


được gọi là một không gian phân hoạch

mờ trên U. Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ
tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính. Mỗi tập thuộc tính

P  A xác định một phân hoạch   P   U / R P .
Định nghĩa 1.4. Xét phân hoạch mờ   R P    x1 R ,...,  xn R
P

P

 sinh bởi quan hệ

tương đương mờ R P với  xi RP  pi1 / x1  ...  pin / xn .
1) Nếu pij  0 với i, j  n thì  xi RP  0 và khi đó phân hoạch mờ   R P 

 

được gọi là mịn nhất, ký hiệu là    . Khi đó     x1  ,...,  xn   với

 xi    j1ij / x j , i, j  n, ij  0 .
n

2) Nếu pij  1 với i, j  n thì  xi R  U với i  n và khi đó phân hoạch mờ
P

 

 


 

 R P được gọi là thô nhất, ký hiệu là   . Khi đó     x1  ,...,  xn   với

 xi    j1ij / x j , i, j  n, ij  1 .
n

   

Định nghĩa 1.5 [93]. Xét hai phân hoạch mờ  R P ,  RQ 
được

phận

   R   x 

 RP

Q

i RP

định

nghĩa

, quan hệ thứ tự bộ
như

sau:


  xi RQ , i  n  pij  qij , i, j  n , viết tắt là R P RQ . Dấu

   
.   R    R     R    R  và   R     R  , viết tắt là R

đẳng thức  R P   RQ   xi R   xi R , i  n  pij  qij , i, j  n , viết tắt là
P

R P  RQ

P

Q

P

Q

Q

P

Q

P

RQ .



14

Ví dụ 1.1. Xét bảng quyết định DS  U , C  D  cho ở Bảng 1.1 với
U  u1 , u2 , u3 , u4  , C  c1 , c2 , c3 , c4  .

Bảng 1.1. Bảng quyết định Ví dụ 1.1
U

c1

c2

c3

c4

D

u1

2.5045

5.4072

1.4741

5.9308

0


u2

1.9559

4.0554

7.6407

9.4846

1

u3

4.3517

9.5647

3.4221

4.7597

1

u4

2.7831

9.2830


4.8055

9.8475

1

Giả sử quan hệ tương đương mờ được sử dụng là công thức (1.12), theo Định
nghĩa 1.2, ma trận tương đương mờ của thuộc tính c1 là
0.0841 0 0.5349 
 1
 0.0841
1
0
0 

M ( R c1 ) 
 0
0
1
0 


0
0
1 
0.5349

Trên thuộc tính D, sử dụng quan hệ tương đương mờ theo công thức (1.13) (quan hệ
tương đương). Khi đó, ma trận tương đương mờ của thuộc tính quyết định D là
1

0
M (RD )  
0

0

0
1
1
1

0
1
1
1

0
1
1

1

Theo Định nghĩa 1.3, lớp tương đương mờ của đối tượng x1 là

 x1 c  1/ x1  0.0841/ x2  0 / x3  0.5349 / x4 



lực


lượng

 x1 c

của

1

 x1 Rc



1

 1  0.0841  0  0.5349  1.619 . Phân hoạch mờ của quan hệ R c được xác
1

1

định như sau:

 

 Rc  U / Rc 
1

1

 x  


4

i c1
i 1



 x 

 

với các lớp tương đương mờ của  R c1 là:

1 c1

,  x2 c ,  x3 c ,  x4 c
1

1

1




15

 x1 Rc  1/ x1  0.0841/ x2  0 / x3  0.5349 / x4 
1


 x2 Rc  0.0841/ x1  1/ x2  0 / x3  0 / x4 
1

 x3 Rc  0 / x1  0 / x2  1/ x3  0 / x4 
1

 x4 Rc  0.5349 / x1  0 / x2  0 / x3  1/ x4 
1

1.2.4. Các tập xấp xỉ mờ và tập thô mờ

Cho bảng quyết định DS  U , C  D  . Giả sử R P là một quan hệ tương
đương mờ xác định trên tập thuộc tính P  C . Theo Định nghĩa 1.3,  xi P là một
tập mờ đóng vai trò là một lớp tương đương mờ của đối tượng xi U . Hàm thuộc của
các

 x 

i RP

đối

x j U

tượng

đối

x    x , x   R x , x   p
j


RP

i

j

P

i

j

với

 xi P

xác

định

bởi

với M  R P    pij nn là ma trận tương

ij

đương mờ của R P .
Định nghĩa 1.6. [66, 70, 85, 87] Cho X là một tập mờ trên U và R P là một quan hệ
tương đương mờ trên tập thuộc tính P  C . Khi đó, tập xấp xỉ dưới mờ R P X và

tập xấp xỉ trên mờ R P X của X là các tập mờ và hàm thuộc của các đối tượng x U
được xác định như sau:

R

PX

 x 

R

PX





sup min F  x  ,inf max 1  F  y  ,  X  y 

(1.9)



sup min  F  x  ,sup min F  y  ,  X  y 
yU
FU / R P



(1.10)


FU / R P

 x 

yU

với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F
là các lớp tương đương mờ của phân hoạch mờ U / R P .
Với các tập xấp xỉ dưới mờ và xấp xỉ trên mờ xác định bởi Định nghĩa 1.6, bộ
RP X , RP X

được gọi là tập thô mờ. Dễ thấy rằng, với tập đối tượng bất kỳ X  U ,


16

X được xem như là một tập mờ trên U với hàm thuộc của đối tượng y U được
định nghĩa:  X  y   1 với y  X và  X  y   0 với y  X . Do đó, mô hình tập
thô mờ là xấp xỉ các tập mờ (hoặc tập rõ) bằng các tập xấp xỉ dưới mờ và xấp xỉ
trên mờ.
Trong lý thuyết tập thô truyền thống, khái niệm miền dương được định nghĩa
là hợp của tất cả các tập xấp xỉ dưới. Trong lý thuyết tập thô mờ, miền dương mờ
được định nghĩa như sau.
Định nghĩa 1.7 [66] Cho bảng quyết định DS  U , C  D  và R P , RQ tương ứng là
hai quan hệ tương đương mờ xác định trên P, Q  C . Khi đó, miền dương mờ của

 

R Q đối với R P , ký hiệu là POSR RQ , là một tập mờ mà hàm thuộc của x U

P

được xác định như sau:

POS  R   x   sup R
X U / R
RP

Q

Q

PX

 x

(1.11)

1.3. Tổng quan về rút gọn thuộc tính
1.3.1. Rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng
dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các
thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc
tính mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ
liệu. Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều - dimension reduction,
rút gọn đặc trưng - feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều
nhà nghiên cứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu.

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu

với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính
hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất
lượng và tính dễ hiểu của các kết quả thu được. Các kỹ thuật rút gọn thuộc
tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute


17

selection) và biến đổi thuộc tính (Attribute transformation). Lựa chọn thuộc
tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc
tính ban đầu của tập dữ liệu. Trong khi đó, biến đổi thuộc tính là thực hiện
việc biến đổi các thuộc tính ban đầu thành thành một tập các thuộc tính mới
với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất. Trong luận án
này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là
rút gọn thuộc tính.
1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính

Rút gọn thuộc tính theo tiếp cận lựa chọn thuộc tính, gọi tắt là rút gọn
thuộc tính, là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm M
thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại một cách
tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một tập con thuộc tính tốt
nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thực hiện; nhiều
bài toán liên quan đến vấn đề này là những bài toán NP - khó. Nhìn chung,
một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản:
(1) Tạo lập tập con,
(2) Đánh giá tập con,
(3) Kiểm tra điều kiện dừng,
(4) Kiểm chứng kết quả.
Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các
tập con để đánh giá, lựa chọn. Giả sử có M thuộc tính trong tập dữ liệu ban

đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là 2 M . Với số ứng viên
này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc
không thể. Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lần
lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được
đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất


×