Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 60 trang )

i

ĐẠI HỌC THÁI NGUYÊN
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VŨ VĂN TIỆP

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN GIA TĂNG CHO VIỆC RÚT
GỌN CÁC THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG
ĐẦY ĐỦ

LUẬN VĂN THẠC SĨ KHOA HỌC
KHOA HỌC MÁY TÍNH
HƢỚNG DẪN: GS.TS VŨ ĐỨC THI

THÁI NGUYÊN 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LỜI CẢM ƠN

Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi,
Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội. Người đã tận tình
hướng dẫn và giúp đỡ em hoàn thành luận văn này.
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ thông tin đã
dạy bảo, giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học và quá
trình em làm luận văn.
Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công

nghệ thông tin và truyền thông Thái Nguyên đã tận tình dạy bảo, động viên,
giúp đỡ và tạo điều kiện cho em trong suốt thời gian học tập và nghiên cứu.
Cuối cùng xin chân thành cảm ơn bạn bè, người thân và gia đình luôn
là người đồng hành, động viên, chhia sẻ những khó khăn trong suốt thời
gian hoàn thành luận văn.
Học viên

Vũ Văn Tiệp

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

LỜI CAM ĐOAN
Tôi xin cam đoan đề tài "Nghiên cứu một số thuật toán gia tăng cho
việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ” là công
trình nghiên cứu được tôi thực hiện dưới sự hướng dẫn của giáo viên hướng
dẫn khoa học.
Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy
từ nguồn tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng. Tôi
xin chịu trách nhiệm về luận văn của mình.
Học viên

Vũ Văn Tiệp

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv
MỤC LỤC

LỜI CẢM ƠN ........................................................................................................................................................i
LỜI CAM ĐOAN .............................................................................................................................................. iii
Danh mục các thuật ngữ..................................................................................................................................... vi
Danh sách bảng ...................................................................................................................................................vii
MỞ ĐẦU ............................................................................................................................................................... 1
Chương 1. TỔNG QUAN................................................................................................................................. 4
1.1. Hệ thông tin đầy đủ và mô hình tập thô truyền thống ................................................. 4
1.1.1. Hệ thông tin đầy đủ ............................................................................................4
1.1.2. Bảng quyết định đầy đủ .....................................................................................7
1.1.3. Tập rút gọn và tập lõi .........................................................................................7

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai............................................. 8
1.2.1. Hệ thông tin không đầy đủ .................................................................................9
1.2.2. Bảng quyết định không đầy đủ ........................................................................10

1.3. Rút gọn thuộc tính trong bảng quyết định không đầy đủ .......................................... 11
1.3.1. Tổng quan về các phương pháp rút gọn thuộc tính .........................................11
1.3.2. Phân nhóm các phương pháp rút gọn thuộc tính .............................................14

1.4. Kết luận chương 1 ......................................................................................................... 17
Chương 2. CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG
QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH. 18
2.1. Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng ................................................. 18
2.1.1. Ma trận phân biệt và hàm phân biệt mở rộng ..................................................19
2.1.2. Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng........................................21

2.2. Các thuật toán tiếp cận gia tăng tìm tập rút gọn khi bổ sung, loại bỏ tập thuộc tính
25
2.2.1. Thuật toán tìm tập rút gọn khi bổ sung tập thuộc tính .....................................25
2.2.2. Thuật toán tìm tập rút gọn khi loại bỏ tập thuộc tính ......................................29

2.3. Kết luận chương 2 ...................................................... Error! Bookmark not defined.
Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .................................................. 34
3.1. Bài toán .......................................................................................................................... 34
3.2. Phân tích, lựa chọn công cụ ......................................................................................... 34

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v
3.2.1. Thuật toán tìm tập rút gọn sử

dụng hàm phân biệt mở rộng .............................................

3.2.2. Các thuật toán tìm tập rút gọn khi bổ sung và loại bỏ tập thuộc tính ..............37

3.3. Đánh giá kết quả thử nghiệm ....................................................................................... 39
3.3.1. Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng.
39
3.3.2. Kết quả thử nghiệm thuật toán tìm tập rút gọn khi bổ sung tập thuộc tính .....41
3.3.3. Kết quả thử nghiệm thuật toán tìm tập rút gọn khi loại bỏ tập thuộc tính .......45

KẾT LUẬN.........................................................................................................................................................49
Tài liệu tham khảo ..............................................................................................................................................50
Phụ lục ...................................................................................................................................................................52

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

Danh mục các thuật ngữ
Thuật ngữ tiếng Việt

Thuật ngữ tiếng Anh

Tập thô

Rough Set

Tập thô dung sai

Tolerance Rough Set

Hệ thông tin

Information System

Hệ thông tin đầy đủ

Complete Information System

Hệ thông tin không đầy đủ

Incomplete Information System

Bảng quyết định

Decision Table

Bảng quyết định đầy đủ

Complete Decision Table

Bảng quyết định không đầy đủ

Incomplete Decision Table

Quan hệ không phân biệt được

Indiscernibility Relation

Quan hệ dung sai

Tolerance Relation

Xấp xỉ dưới

Lower Approximation

Xấp xỉ trên

Upper Approximation

Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn

Reduct

Tập lõi

Core

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

Danh sách bảng
Bảng 1.1. Bảng thông tin về bệnh cúm ................................................................................. 6
Bảng 1.2. Bảng quyết định không đầ đủ về các xe hơi ........................................................ 10
Bảng 1.3. Các phương pháp rút gọn thuộc tính trong công trình [3, 8] ............................. 13
Bảng 2.1. Bảng quyết định không đầy đủ mô tả về các tivi................................................. 19
Bảng 2.1. Bảng quyết định không đầy đủ mô tả về các tivi (tiếp theo) ............................... 24
Bảng 2.3. Bảng quyết định không đầy đủ về tivi khi bổ sung tập thuộc tính ...................... 26
Bảng 3.1. Kết quả thực hiện Thuật toán 2.1 và Thuật toán MBAR ..................................... 39
Bảng 3.2. Tập rút gọn của Thuật toán 2.1 và Thuật toán MBAR........................................ 40
Bảng 3.3. Kết quả thực hiện Thuật toán 2.1 trên bộ số liệu ban đầu................................. 42
Bảng 3.4 Kết quả thực hiện Thuật toán 2.1 sau khi lấy ngẫu nhiên 60% số thuộc tính điều
kiện. .............................................................................................................................. 42

Bảng 3.5 Kết quả thực hiện Thuật toán 2.2 tìm tập rút gọn khi bổ sung 40% số thuộc tính
vào. ............................................................................................................................... 43
Bảng 3.6. Kết quả thực hiện Thuật toán 2.1 trên bộ số liệu ban đầu.................................. 45
Bảng 3.7 Kết quả thực hiện Thuật toán 2.1 sau khi loại ngẫu nhiên 40% số thuộc tính
điều kiện. ...................................................................................................................... 46
Bảng 3.8 Kết quả thực hiện Thuật toán 2.3 tìm tập rút gọn khi loại bỏ 40% số thuộc tính
điều kiện. ...................................................................................................................... 47

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [10] đề xuất vào những năm đầu
thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để
giải quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ,
không chắc chắn. Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu
quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao
gồm tiền xử lý số liệu, khai phá dữ liệu và đánh giá kết quả thu được. Rút gọn
thuộc tính và trích lọc luật quyết định (luật phân lớp) là hai ứng dụng chính
của lý thuyết tập thô trong khai phá dữ liệu. Rút gọn thuộc tính thuộc giai
đoạn tiền xử lý dữ liệu còn trích lọc luật thuộc giai đoạn khai phá dữ liệu.
Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa nhằm tím tập
con nhỏ nhất của tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin
phân lớp của bảng quyết định. Dựa trên tập rút gọn thu được, việc sinh luật và
phân lớp đạt hiệu quả cao nhất.
Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên
miền giá trị thuộc tính, gọi là các bảng quyết định không đầy đủ. Trên bảng

quyết định không đầy đủ, Kryszkiewicz [5] đã mở rộng quan hệ tương đương
trong lý thuyết tập thô truyền thống thành quan hệ dung sai và đề xuất mô
hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá
trị thiếu. Dựa trên mô hình tập thô dung sai, một số công trình công bố trong
mấy năm gần đây đã đề xuất một số độ đo không chắc chắn nhằm giải quyết
bài toán rút gọn thuộc tính và trích lọc luật, đáng chú ý là các công bố được
liệt kê trong công trình [8].
Luận văn đặt ra hai mục tiêu chính:
1) Tổng hợp các công bố về các phương pháp rút gọn thuộc tính trong
bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai, trên cơ

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

sở đó nghiên cứu phương pháp gia tăng rút gọn thuộc tính sử dụng hàm phân
biệt mở rộng trong trường hợp bổ sung, loại bỏ tập thuộc tính. Bao gồm:
-

Nghiên cứu phương pháp rút gọn thuộc tính trong bảng quyết định

không đầy đủ sử dụng hàm phân biệt mở rộng, gồm các bước: xây dựng hàm
phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa
trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn
tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng
hàm phân biệt mở rộng.
-

Nghiên cứu hướng tiếp cận gia tăng rút gọn thuộc tính trong bảng

quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong trường hợp bổ
sung, loại bỏ tập thuộc tính.
2) Cài đặt thuật toán rút gọn thuộc tính trong bảng quyết định không đầy
đủ sử dụng hàm phân biệt mở rộng và các thuật toán gia tăng trong trường
hợp bổ sung, loại bỏ tập thuộc tính. Thử nghiệm và đánh giá kết quả trên các
bộ số liệu từ kho dữ liệu UCI.
Đối tượng nghiên cứu của luận văn là các bảng quyết định không đầy đủ
khi bổ sung, loại bỏ tập thuộc tính.
Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc
tính ở bước tiền xử lý số liệu trong quá trình khai phá dữ liệu.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên
cứu thực nghiệm. Về nghiên cứu lý thuyết: tổng hợp và nắm bắt các kết quả
nghiên cứu đã công bố. Về nghiên cứu thực nghiệm: luận văn thực hiện cài
đặt các thuật toán, chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho
dữ liệu UCI [13], so sánh và đánh giá nghiên cứu thực nghiệm với nghiên
cứu lý thuyết.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần
kết luận và danh mục các tài liệu tham khảo.
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak
[10] và mô hình tập thô mở rộng dựa trên quan hệ dung sai, gọi tắt là mô hình
tập thô dung sai [5]. Trình bày tổng quan các kết quả nghiên cứu về các

phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp
cận mô hình tập thô dung sai.
Chương 2 trình bày hai nội dung chính:
- Thứ nhất là phương pháp rút gọn thuộc tính sử dụng hàm phân biệt mở
rộng [14], bao gồm: xây dựng hàm phân biệt mở rộng; định nghĩa tập rút gọn
và độ quan trọng của thuộc tính dựa trên hàm phân biệt mở rộng; xây dựng
thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở
rộng; phân nhóm phương pháp sử dụng hàm phân biệt mở rộng.
- Thứ hai là xây dựng thuật toán theo hướng tiếp cận gia tăng tìm tập rút
gọn của bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong
trường hợp bổ sung, loại bỏ tập thuộc tính [14].
Chương 3 trình bày kết quả thử nghiệm và đánh giá các thuật toán:
bao gồm thuật toán tìm tập rút gọn sử dụng hàm phân biệt mở rộng và thuật
toán gia tăng tìm tập rút gọn sử dụng hàm phân biệt mở rộng trong trường
hợp bổ sung và loại bỏ tập thuộc tính. Thử nghiệm được thực hiện trên các
bộ số liệu mẫu từ kho dữ liệu UCI [13].
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng
phát triển tiếp theo.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4

Chƣơng 1. TỔNG QUAN
Chương này trình bày các khái niệm cơ bản về mô hình tập thô truyền
thống trên các hệ thông tin đầy đủ do Pawlak [10] đề xuất và mô hình tập thô
dung sai trên các hệ thông tin không đầy đủ do Kryszkiewicz [5] đề xuất.
Chương này cũng trình bày tổng quan các kết quả nghiên cứu về các phương

pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô
hình tập thô dung sai.
Hệ thông tin đầy đủ và mô hình tập thô truyền thống

1.1.

1.1.1. Hệ thông tin đầy đủ
Hệ thông tin đầy đủ, gọi tắt là hệ thông tin, là một bảng dữ liệu gồm p
cột ứng với p thuộc tính và n hàng ứng với n đối tượng. Một cách hình thức,
hệ thông tin được định nghĩa như sau.
Định nghĩa 1.1. Hệ thông tin là một bộ tứ IS

U , A,V , f trong đó U là tập

hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính;
V

V

a

với Va là tập giá trị của thuộc tính a A ; f : U A

Va là hàm thông

a A

tin, a A, u U f u, a

Va .

Với mọi u U , a A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là
a u thay vì f u, a . Nếu B

A là một tập con các thuộc tính thì

b1 , b2 ,..., bk

ta ký hiệu bộ các giá trị bi u bởi B u . Như vậy, nếu u và v là hai đối tượng,
thì ta viết B u

B v nếu bi u

Xét hệ thông tin IS

bi v với mọi i 1,..., k .

U , A,V , f , mỗi tập con các thuộc tính P

A xác

định một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
IND P

u, v

U U

a P, a u

a v .

IND P là quan hệ P-không phân biệt được. Dễ thấy rằng IND P là một

quan hệ tương đương trên U. Nếu u, v
Số hóa bởi Trung tâm Học liệu - ĐHTN

IND P thì hai đối tượng u và v không

/>

5

phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương IND P xác định
một phân hoạch trên U, ký hiệu là U / IND P hay U / P . Ký hiệu lớp tương đương
trong
u

P

phân

tượng

u

là

u

P

,

khi

đó

IND P .

v U u, v

Cho hệ thông tin IS
X

đối

hoạch U / P chứa

U , A,V , f , tập thuộc tính B

A và tập đối tượng

U . Trong lý thuyết tập thô truyền thống của Pawlak [10], để biểu diễn tập

X thông qua các lớp tương đương của U / B (còn gọi là biểu diễn X bằng tri
thức có sẵn B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương
đương của U / B . Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính
B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và
BX , được xác định như sau:

BX

u U u

X , BX

B

u U u

X

B

.

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc
tính B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BNB X

BX

BX : B-miền biên của X , U

BX : B-miền ngoài của X.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không
thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc
X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể

viết lại
BX

 Y

U /BY

X , BX

Trong trường hợp BN B X

 Y U /BY

X

.

thì X được gọi là tập chính xác (exact

set), ngược lại X được gọi là tập thô (rough set).
Với B, D

A , ta gọi B-miền dương của D là tập được xác định như sau
POS B ( D)



BX

X U /D

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

Rõ ràng POS B ( D ) là tập tất cả các đối tượng u sao cho với mọi v U mà
u B

ta

v B

POS B ( D)

đều

u U u

u

B

có

u D

v D

.

Nói

cách

khác,

.

D

Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở
Bảng 1.1.
Bảng 1.1. Bảng thông tin về bệnh cúm
U

Đau đầu

Thân nhiệt

Cảm cúm

u1

Có

Bình thường

Không

u2

Có

Cao

Có

u3

Có

Rất cao

Có

u4

Không

Bình thường

Không

u5

Không

Cao

Không

u6

Không

Rất cao

Có

u7

Không

Cao

Có

u8

Không

Rất cao

Không

Ta có: U / {Đau đầu} =

u1 , u2 , u3 , u4 , u5 , u6 , u7 , u8

U / {Thân nhiệt} =
U / {Cảm cúm} =

u1 , u4 , u2 , u5 , u7 , u3 , u6 , u8

u1 , u4 , u5 , u8 , u2 , u3 , u6 , u7

U / {Đau đầu, Cảm cúm} =

u1 , u2 , u3 , u4 , u5 , u8 , u6 , u7

Như vậy, các bệnh nhân u2 , u3 không phân biệt được về đau đầu và cảm
cúm, nhưng phân biệt được về thân nhiệt.
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:
u1 , u2 , u3 , u4 , u5 , u7 , u6 , u8

.

Đặt X {u u (Cảm cúm) = Có} = u2 , u3 , u6 , u7 . Khi đó:
BX

u2 , u3 và BX

tập hợp BN B X
U/D

X1

u2 , u3 , u5 , u6 , u7 , u8 . Như vậy, B-miền biên của X là

u5 , u6 , u7 , u8 . Nếu đặt D = {Cảm cúm} thì

u1, u4 , u5 , u8 ; X 2

u2 , u3 , u6 , u7 , BX 1

Số hóa bởi Trung tâm Học liệu - ĐHTN

u1 , u4 ; BX 2

u2 , u3 ,

/>

7

POS B ( D)



u1 , u2 , u3 , u4 .

BX

X U /D

Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , mô hình tập
thô truyền thống phân chia các tập hợp thành bốn lớp cơ bản:
1) Tập X là B-xác định thô nếu BX

và BX U .

2) Tập X là B-không xác định trong nếu BX

và BX U .

3) Tập X là B-không xác định ngoài nếu BX

và BX U .

4) Tập X là B-không xác định hoàn toàn nếu BX

và BX U .

1.1.2. Bảng quyết định đầy đủ
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều
ứng dụng là bảng quyết định đầy đủ, gọi tắt là bảng quyết định. Bảng quyết
định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác
rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và tập
thuộc tính quyết định. Tức là DS

U,C

D, V , f

với C D

.

Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C, tức
là với mọi u, v U , C u

C v kéo theo D u

D v . Ngược lại thì gọi là không

nhất quán hay mâu thuẫn. Theo định nghĩa miền dương, bảng quyết định là nhất
quán khi và chỉ khi POS C D

U . Trong trường hợp bảng không nhất quán thì

POSC D chính là tập con cực đại của U sao cho phụ thuộc hàm C

D đúng.

1.1.3. Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba
nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute)
và thuộc tính dư thừa (redundant attribute). Thuộc tính lõi là thuộc tính
không thể thiếu trong việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất
hiện trong tất cả các tập rút gọn của bảng quyết định. Thuộc tính dư thừa là
những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc phân lớp
tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút gọn nào
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

của bảng quyết định. Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập
rút gọn nào đó của bảng quyết định.
Với bảng quyết định DS

U,C

D,V , f . Thuộc tính c C được gọi là

không cần thiết (dispensable) trong DS nếu POSC D

POS(C

c )

D ; Ngược

lại, c được gọi là cần thiết (indispensable). Tập tất cả các thuộc tính cần thiết
trong DS được gọi là tập lõi và được ký hiệu là PCORE C . Khi đó, thuộc
tính cần thiết chính là thuộc tính lõi. Như vậy, thuộc tính không cần thiết là
thuộc tính dư thừa hoặc thuộc tính rút gọn.
Nếu tập thuộc tính R C thỏa mãn:
1) POS R ( D) POSC ( D)
2) r R, POS R

r

( D)

POSC ( D)

thì R là một tập rút gọn của C. Tập rút gọn định nghĩa như trên còn gọi là tập
rút gọn Pawlak.
1.2.

Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Mô hình tập thô truyền thống do Pawlak đề xuất [10] là công cụ hiệu

quả để giải quyết bài toán phân lớp trên các hệ thông tin đầy đủ dựa trên quan
hệ tương đương. Tuy nhiên trong thực tế, các hệ thông tin thường thiếu giá trị
trên miền giá trị của thuộc tính, gọi là các hệ thông tin không đầy đủ. Trong
hệ thông tin không đầy đủ, Kryszkiewicz [5] được xem là người đầu tiên mở
rộng quan hệ tương đương thành quan hệ dung sai và xây dựng mô hình tập
thô mở rộng dựa trên quan hệ dung sai, gọi là mô hình tập thô dung sai. Trong
mục này, chúng tôi trình bày các khái niệm cơ bản về mô hình tập thô dung
sai.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

1.2.1. Hệ thông tin không đầy đủ
Xét hệ thông tin IS

U , A,V , f , nếu tồn tại u U và a

A sao cho a u

thiếu giá trị thì IS được gọi là hệ thông tin không đầy đủ. Ta biểu diễn giá trị

thiếu là „*‟ và hệ thông tin không đầy đủ là IIS
Xét hệ thông tin không đầy đủ IIS

U , A,V , f .

U , A,V , f ), với tập thuộc tính P

A

ta định nghĩa một quan hệ nhị phân trên U như sau
SIM P

u, v

U U

a P, a u

a v

a u

'*'

a v

'*' .

Quan hệ SIM P không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng không có tính bắc cầu. SIM P là một quan hệ dung

sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U. Theo
[5], SIM P

 a P SIM

a .

Gọi S P u là tập v U u, v

. S P u là tập lớn nhất các đối

SIM P

tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là
một lớp dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai
sinh bởi quan hệ SIM(P) trên U là U / SIM P , khi đó các lớp dung sai trong
U / SIM P không phải là một phân hoạch của U mà hình thành một phủ của U

vì chúng có thể giao nhau và  u U S P u
sinh bởi các tập con thuộc tính P

U . Ký hiệu tập tất cả các phủ của U

A là COVER U .

Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X
trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX , được xác định
như sau
PX

u U SP u

PX

u U SP u

X
X

u

X SP u

X

 SP u u U

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập
BNP X

PX

PX , và P-miền ngoài của X là tập U

Số hóa bởi Trung tâm Học liệu - ĐHTN

PX .
/>

10

Với các tập xấp xỉ được định nghĩa như trên, mô hình tập thô truyền
thống được mở rộng thành mô hình tập thô dung sai, nghĩa là mô hình tập thô
dựa trên quan hệ dung sai.
1.2.2. Bảng quyết định không đầy đủ
Xét bảng quyết định DS

U,C

D,V , f , nếu tồn tại u U và c C sao

cho c u thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ. Ta
biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là
IDS

U,C

D, V , f

với

d

D, '*' Vd . Không mất tính chất tổng quát, giả

thiết D chỉ gồm một thuộc tính quyết định duy nhất d .
Cho bảng quyết định không đầy đủ IDS
u U,

B

d ,V , f . Với B

U,C

f d v v S B (u ) gọi là hàm quyết định suy rộng, nếu |

(u )

C

C,

(u ) | 1

với mọi u U thì IDS là nhất quán, trái lại IDS là không nhất quán [5].
Tương tự trong bảng quyết định đầy đủ, với B C , miền dương của d đối
với B, ký hiệu là POS B ( d ) , được định nghĩa POS B ( d )

{BX | X

U / {d }} ,

khi đó IDS là nhất quán khi và chỉ khi POSB ( d ) U .
Ví dụ 1.2. Xét bảng quyết định không đầy đủ IDS

U,C

d ,V , f

cho ở

Bảng 1.2, với U {u1 , u2 , u3 , u4 , u5 , u6} , C {a1, a2 , a3 , a4} với a1 (Đơn giá), a2 (Km
đã đi), a3 (Kích thước), a4 (Tốc độ tối đa), d (Gia tốc).
Bảng 1.2. Bảng quyết định không đầ đủ về các xe hơi
Ô tô

Km đã
đi

Đơn giá

Kích
thƣớc

Tốc độ

Gia tốc

u1

Cao

Cao

Đầy đủ

Thấp

Tốt

u2

Thấp

*

Đầy đủ

Thấp

Tốt

u3

*

*

Gọn nhẹ

Cao

Xấu

u4

Cao

*

Đầy đủ

Cao

Tốt

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

Ô tô

Km đã
đi

Đơn giá

Kích
thƣớc

Tốc độ

Gia tốc

u5

*

*

Đầy đủ

Cao

Tuyệt
hảo

u6

Thấp

Cao

Đầy đủ

*

Tốt

Ta có U / d

{ X 1 , X 2 , X 3} với X 1 {u1 , u2 , u4 , u6 }, X 2

Các tập xấp xỉ dưới đối với C là CX1

{u3 }, X 3

u1 , u2 , CX 2

u3 , CX 3

{u5 } .

.

Do đó, POSC ( d ) {u1 , u2 , u3} .
Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính C là
C

C

(u5 )

(u1 )

{Tốt},

C

{Tốt},

(u2 )

{Tốt, Tuyệt hảo},

C

(u6 )

C

(u3 )

{Xấu},

C

(u4 )

{Tốt, Tuyệt hảo},

{Tốt, Tuyệt hảo}.

Do đó, IDS là bảng quyết định không nhất quán.
1.3.

Rút gọn thuộc tính trong bảng quyết định không đầy đủ

1.3.1. Tổng quan về các phƣơng pháp rút gọn thuộc tính
Rút gọn thuộc tính theo tiếp cận tập thô truyền thống của Pawlak [10] là
chủ đề nghiên cứu sôi động trong nhiều năm qua [1]. Tuy nhiên trong các bài
toán thực tế, các hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính,
còn gọi là các hệ thông tin không đầy đủ. Ví dụ, trong các kho dữ liệu thuộc lĩnh
vực y khoa, các bác sỹ thường không thu thập đủ các triệu trứng của các bệnh
nhân để chuẩn đoán bệnh.... Trên hệ thông tin không đầy đủ, các nhà nghiên
cứu quan tâm đến việc xây dựng các mô hình hiệu quả nhằm giải quyết bài
toán rút gọn thuộc tính và trích lọc luật. Một trong những giải pháp hiệu quả

là việc mở rộng mô hình tập thô truyền thống thành mô hình tập thô dung sai
dựa trên quan hệ dung sai do Kryszkiewicz [5] đề xuất. Giống như cách tiếp
cận mô hình tập thô truyền thống, các phương pháp rút gọn thuộc tính trong
bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô dung sai cũng thực
hiện các bước sau đây:
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

12

1) Đưa ra khái niệm tập rút gọn dựa trên một độ đo được xây dựng.
2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng
đóng góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ
quan trọng càng lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng
nhiều và ngược lại.
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo
tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của
thuộc tính).
Cho bảng quyết định không đầy đủ IDS
kiện R

U, A

d

và tập thuộc tính điều

A . Theo tiếp cận mô hình tập thô dung sai, R được gọi là tập rút gọn

của bảng quyết định DS nếu R bảo toàn “khả năng phân lớp” của DS, nghĩa là
việc phân lớp đối tượng dựa trên tập thuộc tính R tương đương với tập thuộc
tính A. Khả năng phân lớp được “lượng hóa” bằng độ chắc chắn của tập luật
quyết định sẽ trình bày ở phần sau. Mỗi phương pháp rút gọn thuộc tính đều đưa
ra một độ đo nhằm lượng hóa khả năng phân lớp và đưa ra định nghĩa tập rút
gọn dựa trên độ đo được chọn.
Kryszkiewicz [5] đưa ra khái niệm đầu tiên về tập rút gọn của bảng
quyết định không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà
bảo toàn hàm quyết định suy rộng của tất cả các đối tượng.
Định nghĩa 2.1. [5] Cho bảng quyết định không đầy đủ IDS
R

U, A

d . Nếu

A thỏa mãn:

(1)

R

(2) R'

u

A

u với mọi u U

R , tồn tại u U sao cho

R'

u

A

u

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều
phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố
[3, 7, 8, 14]. Trong công trình [3, 8], các tác giả đã tổng kết khá đầy đủ các
phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các
tập rút gọn tương ứng.
Bảng 1.3. Các phương pháp rút gọn thuộc tính trong công trình [3, 8]
STT

Phƣơng pháp

Tập rút gọn

1

Phương pháp sử dụng miền

Tập rút gọn dựa trên

dương.

miền dương

Phương pháp sử dụng hàm

Tập rút gọn dựa trên

quyết định suy rộng.

hàm quyết định suy

2

Ký hiệu tập
rút gọn
RP

R

rộng
3

4

5

6

7

8

Phương pháp sử dụng hàm ấn

Tập rút gọn dựa trên

định.

hàm ấn định

Phương pháp sử dụng ma trận

Tập rút gọn dựa trên

phân biệt.

ma trận phân biệt

Phương pháp sử dụng độ đo

Tập rút gọn dựa trên

lượng thông tin.

lượng thông tin

Phương pháp sử dụng ma trận

Tập rút gọn dựa trên

dung sai.

ma trận dung sai

Phương pháp sử dụng metric

Tập rút gọn dựa trên

[7]

metric

Phương pháp sử dụng hàm

Tập rút gọn dựa trên

phân bố.

hàm phân bố

Số hóa bởi Trung tâm Học liệu - ĐHTN

R

RM

RI

RTM

RD

R

/>

14

1.3.2. Phân nhóm các phƣơng pháp rút gọn thuộc tính
Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra
định nghĩa về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn. Do
đó, có thể nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính.
Vì vậy, việc phân nhóm các phương pháp rút gọn thuộc tính cũng dựa vào tập
rút gọn và được thực hiện theo nguyên tắc: các phương pháp có tập rút gọn
như nhau được phân thành một nhóm. Trong công trình [3, 8], các tác giả đã
công bố về mối liên hệ giữa các tập rút gọn và kết quả phân nhóm các phương
pháp rút gọn thuộc tính như sau:
1) Nếu bảng quyết định nhất quán, các tập rút gọn RP , R , R , RM , RI ,
RTM , RD , R là tương đương nhau.

2) Nếu bảng quyết định không nhất quán:
- Tập rút gọn dựa trên hàm quyết định suy rộng ( R ) tương đương với tập
rút gọn dựa trên hàm ấn định R .

- Tập rút gọn dựa trên hàm quyết định suy rộng ( R ) tương đương với tập
rút gọn dựa trên ma trận phân biệt ( RM ).
- Tập rút gọn dựa trên lượng thông tin ( RI ) tương đương với tập rút gọn
dựa trên ma trận dung sai ( RTM ).
- Tập rút gọn dựa trên metric ( RD ) tương đương với tập rút gọn dựa trên
độ đo lượng thông tin ( RI ) [7].
- Tập rút gọn dựa trên miền dương ( RP ) là tập con của tập rút gọn dựa
trên hàm quyết định suy rộng ( R ), nghĩa là: nếu R là một tập rút gọn dựa
trên hàm quyết định suy rộng thì tồn tại RP

R với RP là một tập rút gọn

dựa trên miền dương.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

15

- Tập rút gọn dựa trên hàm quyết định suy rộng ( R ) là tập con của tập
rút gọn dựa trên lượng thông tin ( RI ), nghĩa là: nếu RI là một tập rút gọn dựa
trên lượng thông tin thì tồn tại R

RI với R là một tập rút gọn dựa trên

hàm quyết định suy rộng.
- Tập rút gọn dựa trên hàm quyết định suy rộng ( R ) là tập con của tập
rút gọn dựa trên hàm phân bố ( R ), nghĩa là: nếu R là một tập rút gọn phân
bố thì tồn tại R

R với R là một tập rút gọn dựa trên hàm quyết định suy

rộng.
Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ
không nhất quán được biểu diễn bằng sơ đồ sau:

RI

RP

R

R

RTM RD

RM
R

Hình 1.1. Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ

Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [3, 8] đã
thực hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập
rút gọn của các nhóm. Cụ thể:
Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhóm:
Nhóm 1: Bao gồm tập rút gọn RP .
Nhóm 2: Bao gồm các tập rút gọn R , R , RM .

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

16

Nhóm 3: Bao gồm các tập rút gọn RI , RTM , RD
Nhóm 4: Bao gồm tập rút gọn R .
Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:
Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn
R2 thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho
R1

R2

R3 .

Nếu R4 là một tập rút gọn thuộc nhóm 4 thì tồn tại một tập rút gọn
R2 thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho
R1

R2

R4 .

Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc
tính trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm
tương ứng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

17

1.4.

Kết luận chƣơng 1
Chương 1 trình bày các khái niệm cơ bản nhất về bảng quyết định đầy

đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình
tập thô dung sai.
Chương 2 tiếp theo, luận văn trình bày phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ sử dụng hàm phân biệt mở rộng trong
công trình [14]. Sử dụng hàm phân biệt mở rộng, chương 2 cũng trình bày
các thuật toán theo hướng tiếp cận gia tăng tìm tập rút gọn trong trường hợp
bổ sung, loại bỏ tập thuộc tính.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

18

Chƣơng 2. CÁCH TIẾP CẬN GIA TĂNG RÚT GỌN THUỘC
TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI
BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH.
Chương này trình bày hai nội dung chính như sau:
1) Phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử
dụng hàm phân biệt mở rộng trong công trình [14], bao gồm: xây dựng hàm
phân biệt mở rộng; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa
trên hàm phân biệt mở rộng; xây dựng thuật toán heuristic tìm một tập rút gọn

tốt nhất sử dụng hàm phân biệt mở rộng; phân nhóm phương pháp sử dụng
hàm phân biệt mở rộng.
2) Dựa vào hàm phân biệt mở rộng, chương này trình bày hai thuật toán
theo hướng tiếp cận gia tăng tìm tập rút gọn của bảng quyết định không đầy
đủ.
2.1.

Rút gọn thuộc tính sử dụng hàm phân biệt mở rộng
Trong lý thuyết tập thô truyền thống, Skowron đã đưa ra khái niệm ma

trận phân biệt và hàm phân biệt để tìm tập rút gọn trong bảng quyết định đầy
đủ. Dựa trên hướng tiếp cận này, luận văn trình khái niệm ma trận phân biệt
mở rộng (generalized discernibility function) và hàm phân biệt mở rộng
(generalized discernibility matrix) để tìm tập rút gọn của bảng quyết định
không đầy đủ. Phương pháp heuristic cũng bao gồm các bước: xây dựng ma
trận phân biệt và hàm phân biệt mở rộng, định nghĩa tập rút gọn và độ quan
trọng của thuộc tính sử dụng hàm phân biệt mở rộng, xây dựng thuật toán
heuristic tìm một tập rút gọn tốt nhất sử dụng hàm phân biệt mở rộng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Nghiên cứu một số thuật toán gia tăng cho việc rút gọn các thuộc tính trong bảng quyết định không đầy đủ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về