Nghiên cứu một số phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (908.43 KB, 64 trang )

i

LỜI CẢM ƠN

Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công
nghệ thông tin – Đại học Quốc gia Hà Nội. Người đã tận tình hướng dẫn và giúp đỡ em
hoàn thành luận văn này.
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ thông tin đã dạy bảo, giúp
đỡ và truyền đạt kiến thức cho em trong suốt khóa học và quá trình em làm luận văn.
Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công nghệ thông
tin và truyền thông Thái Nguyên đã tận tình dạy bảo, động viên, giúp đỡ và tạo điều kiện
cho em trong suốt thời gian học tập và nghiên cứu.
Cuối cùng xin chân thành cảm ơn bạn bè, người thân và gia đình luôn là người đồng
hành, động viên, chhia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn.

Học viên

`

Phạm Văn Dương

ii

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài "Nghiên cứu một số phương pháp rút gọn thuộc tính trên
bảng quyết định không đầy đủ và ứng dụng” là công trình nghiên cứu được tôi thực hiện
dưới sự hướng dẫn của giáo viên hướng dẫn khoa học.
Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn
tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng. Tôi xin chịu trách nhiệm

về luận văn của mình.

Học viên

Phạm Văn Dương

iii

MỤC LỤC
LỜI CẢM ƠN ............................................................................................................... i
LỜI CAM ĐOAN ......................................................................................................... ii
MỤC LỤC .................................................................................................................. iii
DANH MỤC CÁC THUẬT NGỮ ................................................................................. v
BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT........................................................................ vi
DANH SÁCH BẢNG ................................................................................................ viii
DANH SÁCH HÌNH .................................................................................................. ix
MỞ ĐẦU ..................................................................................................................... 1
Chương 1: NHỮNG KHÁI NIỆM CƠ BẢN VỀ CÁC PHƯƠNG PHÁP RÚT GỌN
TRONG BẢNG QUYẾT ĐỊNH .................................................................................... 3
1.1. Hệ thông tin đầy đủ và mô hình tập thô truyền thống. ..................................... 3
1.1.1. Hệ thông tin đầy đủ ......................................................................................... 3
1.1.2. Mô hình tập thô truyền thống .......................................................................... 4
1.1.3. Bảng quyết định đầy đủ. .................................................................................. 7
1.1.4. Tập rút gọn và tập lõi ....................................................................................... 7
1.1.5. Ma trận phân biệt .......................................................................................... 9
1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai. ............................... 10
1.2.1. Hệ thông tin không đầy đủ ............................................................................ 10
1.2.2. Mô hình tập thô dung sai ............................................................................... 14
1.2.3. Bảng quyết định không đầy đủ ....................................................................... 17

1.3. Tình hình nghiên cứu các phương pháp rút gọn thuộc tính ........................... 18
1.3.1. Các phương pháp rút gọn đã được nghiên cứu ............................................... 18
1.3.2. Mối liên hệ giữa các khái niệm tập rút gọn .................................................... 19
1.3.3. Phân nhóm và mối liên hệ giữa các phương pháp .......................................... 21
1.3.4. Luật quyết định của bảng quyết định không đầy đủ và các độ đo cổ điển....... 22
1.3.5. Các độ đo đánh giá hiệu năng tập luật và các tính chất .................................. 25

iv

1.3.6. Sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các
tập rút gọn .............................................................................................................. 27
Chương 2. PHƯƠNG PHÁP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH KHÔNG
ĐẦY ĐỦ .................................................................................................................... 31
2.1. Mở đầu ........................................................................................................... 31
2.2. Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất 31
2.2.1. Entropy Liang mở rộng của tập thuộc tính..................................................... 32
2.2.2. Entropy Liang mở rộng có điều kiện ............................................................. 33
2.2.3. Một số tính chất của entropy Liang mở rộng ................................................. 34
2.3. Rút gọn thuộc tính trong hệ quyết định không đầy đủ sử dụng ma trận phân
biệt và hàm phân biệt mở rộng ............................................................................. 37
2.4. Thuật toán rút gọn thuộc tính ........................................................................ 42
Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM.................................... 45
3.1 Cấu trúc lớp chương trình............................................................................... 45
3.2. Thiết kế phần mềm thực nghiệm .................................................................... 47
3.2.1. Yêu cầu hệ thống .......................................................................................... 47
3.2.2. Dữ liệu thử nghiệm ....................................................................................... 47
3.2.3. Chuẩn bị dữ liệu ............................................................................................ 47
3.2.4. Một số giao diện chương trình ....................................................................... 49
3.2.5. Kết quả thực nghiệm ..................................................................................... 51

KẾT LUẬN................................................................................................................ 52
TÀI LIỆU THAM KHẢO........................................................................................... 53
PHỤ LỤC.......................................................................... Error! Bookmark not defined.

v

DANH MỤC CÁC THUẬT NGỮ
Thuật ngữ tiếng Việt

Thuật ngữ tiếng Anh

Tập thô

Rough Set

Hệ thông tin

Information System

Hệ thông tin đầy đủ

Complete Information System

Hệ thông tin không đầy đủ

Incomplete Information System

Bảng quyết định

Decision Table

Bảng quyết định đầy đủ

Complete Decision Table

Bảng quyết định không đầy đủ

Incomplete Decision Table

Xấp xỉ dưới

Lower Approximation

Xấp xỉ trên

Upper Approximation

Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn

Reduct

Tập lõi

Core

Ma trận phân biệt

Indiscernibility Matrix

Hàm phân biệt

Indiscernibility Function

Quan hệ

Relation

Tập tối thiểu của thuộc tính a

Minimal set of the attribute a

Họ các tập tối thiểu của thuộc tính a

Family of all minimal sets of attribute a

vi

BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT
Ký hiệu, từ viết tắt
IS  U , A,V , f 

Diễn giải
Hệ thông tin, hệ thông tin đầy đủ

IIS  U , A,V , f 

Hệ thông tin không đầy đủ

DS  U , C  D, V , f 

Bảng quyết định, bảng quyết định đầy đủ

IDS  U , C  D,V , f 

Bảng quyết định không đầy đủ

U

Số đối tượng

C

Số thuộc tính điều kiện trong bảng quyết định

A

Số thuộc tính trong hệ thông tin

u a

Giá trị của đối tượng u tại thuộc tính a

IND  B 

Quan hệ B  không phân biệt

SIM  B 

Quan hệ dung sai trên tập thuộc tính B

 u B
SB  u 

Lớp tương đương chứa u của quan hệ IND  B 

U/B

U / SIM  B 

Phân hoạch của U sinh bởi tập thuộc tính B .
Phủ của U sinh bởi tập thuộc tính B .

COVER U 

Họ tất cả các phủ của U.

 B (u )

Hàm quyết định suy rộng của đối tượng u đối với B .

BX

B  xấp xỉ dưới của X

BX

B  xấp xỉ trên của X

BN B  X 

B - miền biên của X

POS B  D 

B  miền dương của D

PRED  C 

Họ tất cả các tập rút gọn Pawlak

SRED  C 

Họ tất cả các tập rút gọn sử dụng ma trận phân biệt

ERED  C 

Họ tất cả các tập rút gọn Entropy Liang

MRED  C 

Họ tất cả các tập rút gọn dựa trên metric

PCORE  C 

Tập lõi dựa trên miền dương

SCORE  C 

Tập lõi sử dụng ma trận phân biệt

ECORE  C 

Tập lõi dựa trên entropy Liang có điều kiện

Lớp dung sai của đối tượng u trên quan hệ SIM  B 

vii

MCORE  C 

Tập lõi dựa trên metric

E  P

Entropy Liang của tập thuộc tính P

E (Q P )

Entropy Liang có điều kiện của Q khi đã biết P

IE  P 

Entropy Liang mở rộng của tập thuộc tính P trong hệ

thông tin không đầy đủ
Entropy Liang mở rộng có điều kiện của Q khi đã biết
P trong hệ thông tin không đầy đủ.

IE (Q P)
K  P

Trong hệ thông tin đầy đủ, ký hiệu K  P  là tri thức
sinh bởi tập thuộc tính P. Trong hệ thông tin không
đầy đủ, ký hiệu K  P  là phủ sinh bởi tập thuộc tính P.

d J  K  P  , K Q  

Khoảng cách giữa K  P  và K  Q  trong hệ thông tin
đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp.

dE  K  P  , K Q 

Khoảng cách giữa K  P  và K  Q  trong hệ thông tin
không đầy đủ dựa trên entropy Liang mở rộng

viii

DANH SÁCH BẢNG
Bảng 1.1. Bảng thông tin về bệnh cúm ............................................................................ 5
Bảng 1.2. Bảng quyết định về bệnh cúm .......................................................................... 9
Bảng 1.3. Bảng thông tin về các xe hơi .......................................................................... 13
Bảng 1.4. Bảng quyết định về các xe hơi ........................................................................ 18
Bảng 1.5. Ký hiệu các tập rút gọn trong bảng quyết định không đầy đủ. ......................... 19

Bảng 2.1. Hệ thông tin không đầy đủ về các xe hơi ....................................................... 35
Bảng 2.2. Bảng quyết định không đầy đủ về tivi............................................................ 38

ix

DANH SÁCH HÌNH
Hình 1.1. Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ................ 20
Hình 3.1: Giao diện lớp MaxtrixDiscern ........................................................................ 45
Hình 3.2: Giao diện lớp SqlExecute ............................................................................... 45
Hình 3.3: Giao diện lớp ImportData ............................................................................... 46
Hình 3.4: Giao diện lớp MainForm ................................................................................ 46
Hình 3.5. Dữ liệu adult-stretch gốc ................................................................................ 48
Hình 3.6. Dữ liệu adult-stretch sau khi chuyển đổi ......................................................... 49
Hình 3.7. Giao diện chọn tệp dữ liệu .............................................................................. 50
Hình 3.8. Kết quả thử nghiệm với bộ dữ liệu adult-stretch ............................................. 50
Hình 3.9. Lưu kết quả rút gọn thành dạng tệp................................................................. 51

1

MỞ ĐẦU
Những năm trở lại đây, chúng ta đã chứng kiến sự phát triển mạnh
mẽ và sôi động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý
thuyết tập thô. Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan
tâm nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định.
Các phương pháp chính là: Phương pháp dựa trên miền dương, phương
pháp sử dụng các phép toán trong đại số quan hệ, phương pháp sử dụng ma
trận phân biệt, phương pháp sử dụng entropy mở rộng, phương pháp sử
dụng các độ đo trong tính toán hạt...

Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để
tìm ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng
quyết định không đầy đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập
thuộc tính điều kiện bảo đảm thông tin phân lớp của bảng quyết định đó.
Đối với một bảng quyết định không đầy đủ có thể có nhiều tập rút gọn khác
nhau. Tuy nhiên, trong thực hành thường không đòi hỏi tìm tất cả các tập
rút gọn mà chỉ cần tìm được một tập rút gọn theo một tiêu chuẩn đánh giá
nào đó là đủ.
Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu
đáng kể khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có
khối lượng dữ liệu lớn. Nên em đã lựa chọn đề tài luận văn: “Nghiên cứu
một số phương pháp rút gọn thuộc tính trên bảng quyết định không
đầy đủ và ứng dụng”.
Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính
trong bảng quyết định không đầy đủ.
Đối tượng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các
bảng quyết định không đầy đủ với kích thước trung bình và lớn.
Phương pháp nghiên cứu:

2

- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã được chứng
minh dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố.
- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật
toán.
Ý nghĩa khoa học của đề tài:
- Đây là phương pháp được nhiều nhà khoa học nghiên cứu và đã có
đóng góp trong thực tiễn.
- Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về

các kiến thức cơ bản trong việc rút gọn thuộc tính trên bảng quyết định
không đầy đủ.
Bố cục của luận văn: Gồm phần mở đầu và 3 chương nội dung, phần
kết luận, danh mục tài liệu tham khảo và phụ lục.
Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy
đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình
tập thô dung sai, trình bày một số phương pháp rút gọn thuộc tính trong
bảng quyết định đầy đủ.
Chương 2: Trình bày phương pháp rút gọn trên bảng quyết định
không đầy đủ sử dụng ma trận phân biệt và hàm phân biệt mở rộng.
Chương 3: Chương trình thực nghiệm trình bày các nội dung: Mô tả
dữ liệu, xây dựng chương trình, và kết quả thực nghiệm của thuật toán.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng
phát triển của luận văn.

3

Chương 1: NHỮNG KHÁI NIỆM CƠ BẢN VỀ CÁC PHƯƠNG PHÁP
RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH
1.1. Hệ thông tin đầy đủ và mô hình tập thô truyền thống.
1.1.1. Hệ thông tin đầy đủ
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu
gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tượng. Một cách
hình thức, hệ thông tin được định nghĩa như sau.
Định nghĩa 1.1. Hệ thông tin là một bộ tứ IS  U , A,V , f  trong đó U là tập
hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc
tính; V  UVa với Va là tập giá trị của thuộc tính a  A ; f : U  A  Va là hàm
a A

thông tin, a  A, u  U f  u, a   Va .
Với mọi u U , a  A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là
a  u  thay vì f  u, a  . Nếu B  b1 , b2 ,..., bk   A là một tập con các thuộc tính

thì ta ký hiệu bộ các giá trị bi  u  bởi B  u  . Như vậy, nếu u và v là hai đối
tượng, thì ta viết B  u   B  v  nếu bi  u   bi  v  với mọi i  1,..., k .
Xét hệ thông tin IS  U , A,V , f  . Mỗi tập con các thuộc tính P  A xác
định một quan hệ hai ngôi trên U, ký hiệu là IND  P  , xác định bởi





IND  P    u , v   U  U a  P, a  u   a  v  .

IND  P  là quan hệ P-không phân biệt được. Dễ thấy rằng IND  P  là một

quan hệ tương đương trên U. Nếu  u, v   IND  P  thì hai đối tượng u và v không
phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương IND  P  xác
định một phân hoạch trên U, ký hiệu là U / IND  P  hay U / P . Ký hiệu lớp tương

4

đương trong phân hoạch U / P chứa đối tượng

u là u P , khi đó

u P  v U  u, v   IND  P  .
Định nghĩa 1.2. [10] Cho hệ thông tin IS  U , A,V , f  và P, Q  A . Ta

nói:
1) Phân hoạch U / P

và phân hoạch U / Q là như nhau (viết

U / P  U / Q ), khi và chỉ khi u  U , u P  u Q .

2) Phân hoạch U / P mịn hơn phân hoạch U / Q (viết U / P p U / Q ) khi

và chỉ khi u  U , u P  u Q .
Tính chất 1.1 [10] Xét hệ thông tin IS  U , A,V , f  và P, Q  A .
1) Nếu P  Q thì U / Q p U / P , mỗi lớp của U / P là một lớp hoặc hợp
của một số lớp thuộc U / Q .
2) Với mọi u  U ta có u P Q  u P  u Q .
1.1.2. Mô hình tập thô truyền thống
Cho hệ thông tin IS  U , A,V , f  và tập đối tượng X  U . Với một tập
thuộc tính B  A cho trước, chúng ta có các lớp tương đương của phân hoạch
U / B , thế thì một tập đối tượng X có thể biểu diễn thông qua các lớp tương

đương này như thế nào?
Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tương đương
của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X
bởi hợp của một số hữu hạn các lớp tương đương của U / B . Có hai cách xấp
xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và
B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX , được xác định như sau:









BX  u U u B  X , BX  u  U u B  X   .

5

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc
tính B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BN B  X   BX  BX : B-miền biên của X , U  BX : B-miền ngoài của X.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không
thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc
X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể
viết lại
BX  UY  U / B Y  X  , BX  UY  U / B Y  X   .

Trong trường hợp BN B  X    thì X được gọi là tập chính xác (exact
set), ngược lại X được gọi là tập thô (rough set).
Với B, D  A , ta gọi B-miền dương của D là tập được xác định như sau
POS B ( D) 

U  BX 
X U / D

Rõ ràng POS B ( D) là tập tất cả các đối tượng u sao cho với mọi v  U
mà

u  B  v  B

ta



đều

có

u  D  v  D .

Nói

cách

khác,



POS B ( D )  u  U u B  u D .

Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân
cho ở Bảng 1.1.
Bảng 1.1. Bảng thông tin về bệnh cúm

U

Đau đầu

Thân nhiệt

Cảm cúm

u1

Có

Bình thường

Không

u2

Có

Cao

Có

u3

Có

Rất cao

Có

u4

Không

Bình thường

Không

u5

Không

Cao

Không

u6

Không

Rất cao

Có

6

U

Đau đầu

Thân nhiệt

Cảm cúm

u7

Không

Cao

Có

u8

Không

Rất cao

Không

Ta có: U / {Đau đầu} = u1 , u2 , u3  , u4 , u5 , u6 , u7 , u8 
U / {Thân nhiệt} =

u , u  , u , u , u  , u , u , u 
1

4

2

5

7

3

6

8

u , u , u , u  , u , u , u , u 

U / {Cảm cúm} =

1

4

5

U / {Đau đầu, Cảm cúm} =

8

2

3

6

7

u  , u , u  , u , u , u  , u , u 
1

2

3

4

5

8

6

7

Như vậy, các bệnh nhân u2 , u3 không phân biệt được về đau đầu và
cảm cúm, nhưng phân biệt được về thân nhiệt.
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:

u1  , u 2 , u 3  , u 4  , u 5 , u 7  , u 6 , u 8  .
Đặt X  {u u (Cảm cúm) = Có} = u2 , u3 , u6 , u7  . Khi đó:
BX  u2 , u3  và BX  u2 , u3 , u5 , u6 , u7 , u8 . Như vậy, B-miền biên của X là

tập hợp BN B  X   u5 , u6 , u7 , u8  . Nếu đặt D = {Cảm cúm} thì
U / D   X 1  u1, u4 , u5 , u8  ; X 2  u2 , u3 , u6 , u7  , BX 1  u1 , u4  ; BX 2  u2 , u3  ,
POS B ( D ) 

U  BX   u , u , u , u  .
1

2

3

4

X U / D

Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô
được chia thành bốn lớp cơ bản:
1) Tập X là B-xác định thô nếu BX   và BX  U .
2) Tập X là B-không xác định trong nếu BX   và BX  U .
3) Tập X là B-không xác định ngoài nếu BX   và BX  U .
4) Tập X là B-không xác định hoàn toàn nếu BX   và BX  U .

7

1.1.3. Bảng quyết định đầy đủ.
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều
ứng dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập
thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt
được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là
DS  U , C  D, V , f  với C  D   .

Xét bảng quyết định DS  U , C  D, V , f  với giả thiết u  U , d  D ,

d  u  đầy đủ giá trị DS được gọi là bảng quyết định đầy đủ. Trong luận văn

này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định.
Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C,
tức là với mọi u, v  U , C  u   C  v  kéo theo D  u   D  v  . Ngược lại thì gọi là
không nhất quán hay mâu thuẫn. Theo định nghĩa miền dương, bảng quyết định
là nhất quán khi và chỉ khi POSC  D   U . Trong trường hợp bảng không nhất
quán thì POSC  D  chính là tập con cực đại của U sao cho phụ thuộc hàm C  D
đúng.
1.1.4. Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba
nhóm: thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute)
và thuộc tính dư thừa (redundant attribute). Thuộc tính lõi là thuộc tính
không thể thiếu trong việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi
xuất hiện trong tất cả các tập rút gọn của bảng quyết định. Thuộc tính dư
thừa là những thuộc tính mà việc loại bỏ chúng không ảnh hưởng đến việc
phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện trong bất kỳ tập rút
gọn nào của bảng quyết định. Thuộc tính rút gọn là thuộc tính xuất hiện

8

trong một tập rút gọn nào đó của bảng quyết định. Chúng ta sẽ đưa ra các
định nghĩa chính xác trong phần tiếp theo.
Định nghĩa 1.3. [11] (Tập lõi dựa trên miền dương) Cho bảng quyết
định DS  U , C  D, V , f  . Thuộc tính c  C được gọi là không cần thiết
(dispensable) trong DS dựa trên miền dương nếu POSC  D   POS(C c)  D  ;
Ngược lại, c được gọi là cần thiết (indispensable). Tập tất cả các thuộc tính
cần thiết trong DS được gọi là tập lõi dựa trên miền dương và được ký hiệu
là PCORE  C  . Khi đó, thuộc tính cần thiết chính là thuộc tính lõi.

Theo Định nghĩa 1.3, thuộc tính không cần thiết là thuộc tính dư thừa
hoặc thuộc tính rút gọn.
Định nghĩa 1.4. [11] (Tập rút gọn dựa trên miền dương) Cho bảng
quyết định DS  U, C  D,V, f  và tập thuộc tính R  C . Nếu
1) POS R ( D)  POSC ( D)
2) r  R, POS R r ( D)  POSC ( D)
thì R là một tập rút gọn của C dựa trên miền dương.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak. Ký hiệu
PRED  C 

là họ tất cả các tập rút gọn Pawlak của C. Khi đó

PCORE  C  

I

R.

RPRED  C 

Định nghĩa 1.5. Cho bảng quyết định DS  U , C  D,V , f  và a  C . Ta
nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn
R  PRED  C  sao cho a  R .

Định nghĩa 1.6. Cho bảng quyết định DS  U , C  D, V , f  và a  C . Ta
nói rằng a là thuộc tính dư thừa của DS nếu a  C 

U

R.

RPRED  C 

Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2.

9
Bảng 1.2. Bảng quyết định về bệnh cúm

U

Mệt mỏi

Đau đầu

Đau cơ Thân nhiệt

Cảm
cúm

u1

Có

Có

Có

Bình thường Không

u2

Có

Có

Có

Cao

Có

u3

Có

Có

Có

Rất cao

Có

u4

Có

Không

Có

Bình thường Không

u5

Có

Không

Không

Cao

Không

u6

Có

Không

Có

Rất cao

Có

Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 =
{Đau đầu, Thân nhiệt}. Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và

Thân nhiệt là thuộc lõi duy nhất. Các thuộc tính không cần thiết bao gồm:
 Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn
nào
 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều
có mặt trong một tập rút gọn. Hai thuộc tính này đều không cần
thiết theo nghĩa là, từ bảng dữ liệu, có thể loại bỏ một trong hai
thuộc tính này mà vẫn chuẩn đoán đúng bệnh. Tức là
POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}).
1.1.5. Ma trận phân biệt
Ma trận phân biệt do Andrzej Skowron và các cộng sự [4] đề xuất là
công cụ sử dụng để tìm tập rút của bảng quyết định. Xét bảng quyết định
DS  U , C  D, V , f  với U  u1 , u2 ,..., un  . Ma trận phân biệt của DS , ký hiệu

M   mi j 

n n

, là một ma trận đối xứng mà mỗi phần tử của nó là một tập hợp

các thuộc tính được xác định như sau:

10





 c  C c(ui )  c(u j )

mi j  
 

if

D (ui )  D (u j ),

if

D(ui )  D (u j ) .

Định nghĩa 1.7. [4, 6] (Tập rút gọn dựa trên ma trận phân biệt) Cho
bảng quyết định DS  U , C  D, V , f  , M   mi j nn là ma trận phân biệt của
DS và tập thuộc tính R  C . Nếu
1) R  mi j   với mọi mi j  
2) Với mọi r  R , R  r không thỏa mãn 1)
thì R được gọi là một tập rút gọn của C thu được bởi phương pháp sử dụng
ma trận phân biệt, gọi tắt là tập rút gọn dựa trên ma trận phân biệt. Ký hiệu
SRED  C  là họ tất cả các tập rút gọn của C dựa trên ma trận phân biệt.

Định nghĩa 1.8. [4, 6] (Tập lõi dựa trên ma trận phân biệt) Cho bảng
quyết định DS  U , C  D, V , f  , M   mi j nn là ma trận phân biệt của DS.
Thuộc tính c  C được gọi là không cần thiết (dispensable) trong DS dựa trên
ma trận phân biệt nếu  C  c  mi j   với mọi mi j   . Ngược lại, c được
gọi là cần thiết (indispensable). Tập tất cả các thuộc tính cần thiết trong DS
được gọi là tập lõi dựa trên ma trận phân biệt và được ký hiệu là SCORE  C  .
Theo [6], SCORE  C  

I

R.

RSRED  C 

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai.
1.2.1. Hệ thông tin không đầy đủ
Hệ thông tin là một cặp IS  U , A trong đó U là tập hữu hạn, khác
rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc
tính a  A xác định một ánh xạ: a : U  Va với Va là tập giá trị của thuộc
tính a  A .

11

Với mọi u  U , a  A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là
a  u  Nếu B  b1 , b2 ,..., bk   A là một tập con các thuộc tính thì ta ký hiệu bộ

các giá trị bi  u  bởi B  u  . Như vậy, nếu u và v là hai đối tượng, thì ta viết
B  u   B  v  nếu bi  u   bi  v  với mọi i  1,..., k .

Với hệ thông tin IS  U , A , nếu tồn tại u U và a  A sao cho a  u 
chứa giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy
đủ, trái lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được
ký hiệu là ‘*’ và hệ thông tin không đầy đủ là IIS  U , A .
Xét hệ thông tin không đầy đủ IIS  U , A , với tập thuộc tính P  A ta
định nghĩa một quan hệ nhị phân trên U như sau





SIM  P    u , v   U  U a  P, a  u   a  v   a  u   '*'  a  v   '*' .

Quan hệ SIM  P  không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng không có tính bắc cầu. SIM  P  là một quan hệ dung
sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U. Theo
[7], SIM  P   I

aP

SIM a .

Gọi S P  u  là tập v U  u, v   SIM  P  . S P  u  là tập lớn nhất các đối
tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi
là một lớp dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai
sinh bởi quan hệ SIM(P) trên U là U / SIM  P  , khi đó các lớp dung sai trong
U / SIM  P  không phải là một phân hoạch của U mà hình thành một phủ của

U vì chúng có thể giao nhau và UuU SP  u   U . Ký hiệu tập tất cả các phủ của
U sinh bởi các tập con thuộc tính P  A là COVER U  .

12

Trên COVER U  ta định nghĩa một quan hệ thứ tự bộ phận  COVERU  , p 
như sau.
Định nghĩa 1.9. [7] Cho hệ thông tin không đầy đủ IIS  U , A với P, Q  A .
Ta nói:
1) Phủ

U / SIM  P 

và phủ

U / SIM  Q 

là như nhau (viết

U / SIM  P   U / SIM  Q  ) khi và chỉ khi u U , S P  u   SQ  u  .

2) U / SIM  P  mịn hơn U / SIM  P  (viết U / SIM  P  p U / SIM  Q  ) khi
và chỉ khi u  U , S P  u   SQ  u  .

 COVERU  ,p  ,

phần tử nhỏ nhất gọi là phủ rời rạc





và phần tử lớn nhất gọi là phủ một khối





Trên

  SA  u  SA  u   u , u U

  SA  u  SA  u   U , u U .

Tính chất 1.3. [7] Cho hệ thông tin không đầy đủ IIS  U , A
1) Nếu P  Q  A thì SQ  u   S P  u  với u U .
2) Nếu P  Q  A thì U / SIM  Q  p U / SIM  P  .
3) Nếu P, Q  A thì S PQ  u   S P  u   SQ  u  với u U .
Tương tự hệ thông tin đầy đủ, các tập P-xấp xỉ dưới và P-xấp xỉ trên của X
trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX , được xác định
như sau



 





PX  u  U S P  u   X  u  X S P  u   X



PX  u U S P  u   X    US P  u  u U 

13

Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập
BN P  X   PX  PX , và P-miền ngoài của X là tập U  PX .

Ví dụ 1.3. Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin
không đầy đủ IIS  U , A với U  {u1 , u2 , u3 , u4 , u5 , u6 } , A  {a1 , a2 , a3 , a4 } với a1
(Đơn giá), a2 (Km đã đi), a3 (Kích thước), a4 (Tốc độ tối đa).
Bảng 1.3. Bảng thông tin về các xe hơi

u1

Cao

Cao

Kích
thước
Đầy đủ

u2

Thấp

*

Đầy đủ

Thấp

u3

*

*

Gọn nhẹ

Cao

u4

Cao

*

Đầy đủ

Cao

u5

*

*

Đầy đủ

Cao

u6

Thấp

Cao

Đầy đủ

*

Ô tô

Đơn giá

Km đã đi

Tốc độ tối
đa
Thấp

Ta có U / SIM ( A)  {S A (u1 ), S A (u2 ), S A (u3 ), S A (u4 ), S A (u5 ), S A (u6 )} , với
S A (u1 )  {u1} , S A (u2 )  {u2 , u6 } , S A (u3 )  {u3 } , S A (u4 )  {u4 , u5 }
S A (u5 )  {u4 , u5 , u6 } , S A (u6 )  {u2 , u5 , u6 } .

Với P  a3 , a4  ta có
U / SIM ( P)  {S P (u1 ), S P (u2 ), S P (u3 ), S P (u4 ), S P (u5 ), S P (u6 )} , với
SP (u1)  SP (u2 ) {u1, u2 , u6}, SP (u3 ) {u3}, SP (u4 )  SP (u5 ) {u4 , u5, u6}, SP (u6 ) {u1, u2, u4, u5 ,u6}

Xét

tập

đối

PX  u1, u2 , u4 , u5 , u6  .

tượng

X  {u1 , u2 , u4 , u6 } ,

khi

đó

PX  u1, u2

và

14

1.2.2. Mô hình tập thô dung sai
Trong phần này, tác giả tóm tắt một số khái niệm cơ bản về mô hình tập
thô dung sai do Marzena Kryszkiewicz [7] đề xuất và một số kết quả nghiên
cứu về mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ.
Với mỗi tập con thuộc tính P  A , ta định nghĩa một quan hệ nhị phân trên
U như sau:





SIM  P   u, v U U a P, f  u, a  f  v, a  f  u, a  '*'  f  v, a  '*'

SIM  P  là quan hệ dung sai (tolerance relation) trên U vì chúng có tính phản

xạ, đối xứng nhưng không có tính bắc cầu. Dễ thấy SIM  P   I

aP

SIM a . Ký

hiệu U / SIM  P   S P  u  u U  với S P  u   v U  u, v   SIM  P  . S P  u  là tập
các đối tượng không phân biệt được với u đối với quan hệ dung sai trên tập
thuộc tính P, còn được gọi là một lớp dung sai hay một hạt thông tin. Rõ ràng
các lớp dung sai trong U / SIM  P  không phải là một phân hoạch của U mà
hình thành một phủ của U vì chúng có thể giao nhau, nghĩa là S P  u    với
mọi u  U và UuU SP  u   U .
Với

B  A,



X U ,

B-xấp

 

xỉ



BX  u U SB  u   X  u  X SB  u   X ,





BX  u  U S B  u   X    US B  u  u  U  ,

dưới

của

X

là

tập

B-xấp xỉ trên của X là tập
B-miền biên của X là tập

BN P  X   PX  PX . Với các tập xấp xỉ như vậy, ta gọi B-miền dương đối với

{d} là tập [14] POS B d  

U  BX 

X U /d 

Cho bảng quyết định không đầy đủ IDS  U , A  d  . Với B  A và u  U ,

 B (u )   f d  v  v  S B (u ) được gọi là hàm quyết định suy rộng của IDS. Nếu

|  A (u ) | 1 với mọi u  U thì IDS là nhất quán, trái lại IDS là không nhất

15

quán. Theo định nghĩa miền dương, IDS nhất quán khi và chỉ khi
POS A (d )  U , trái lại IDS là không nhất quán.

Tập rút gọn là khái niệm cốt yếu trong mô hình tập thô dung sai. Trong trường
hợp tổng quát, tập rút gọn là tập con nhỏ nhất của tập thuộc tính điều kiện mà
bảo toàn thông tin phân lớp của bảng quyết định. Tiếp theo, tác giả trình bày
một số khái niệm về tập rút gọn của bảng quyết định không đầy đủ.
Kryszkiewicz [7] đưa ra khái niệm đầu tiên về tập rút gọn, là tập con tối
thiểu của tập thuộc tính điều kiện mà bảo toàn hàm quyết định suy rộng của
tất cả các đối tượng.
Định nghĩa 1.10. [7] Cho bảng quyết định không đầy đủ
IDS  U, A d . Nếu R  A thỏa mãn:

(1)  R  u    A  u  với mọi u  U
(2) R '  R , tồn tại u U sao cho  R  u    A  u 
'

thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng.
Zuqiang Meng và các cộng sự [14] đưa ra khái niệm về tập rút gọn dựa trên
miền dương.
Định nghĩa 1.11. [14] Cho bảng quyết định không đầy đủ
IDS  U, A d . Nếu R  A thỏa mãn:

(1) POS R d   POS A d 
(2) R '  R , POS R d   POS A d 
'

thì R được gọi là một tập rút gọn của IDS dựa trên miền dương.

16

Trong [2], Nguyễn Long Giang và các tác giả đã sử dụng metric để định
nghĩa tập rút gọn và xây dựng thuật toán tìm tập rút gọn của bảng quyết
định không đầy đủ.
Với P  A , giả sử ta có hai phủ



  và

K  P   U / SIM  P   S P  u1  , S P  u 2  ,..., S P u U



  .

K  A   U / SIM  A   S A  u1  , S A  u 2  ,..., S A u U

Khi đó, metric giữa hai phủ là
d E  K  P  , K  A  

1

U

U



S P (ui )  S A (ui )
U

i 1

Định nghĩa 1.12. [2] Cho bảng quyết định không đầy đủ
IDS  U, A d . Nếu R  C thỏa mãn:









1

d E K  R  , K  R  d   d E K  A  , K  A  d 

 2

R '  R, d E K R ' , K R '  d   d E K  A  , K  A  d 

   







thì R được gọi là một tập rút gọn của IDS dựa trên metric.
Cho bảng quyết định không đầy đủ

Định nghĩa 1.13.





IDS  U, A d , R  C , U  u1 ,..., u U , U / d   Y1 ,..., Ym  . Với ui U , đặt

 R  ui   Y1R  ui  ,..., YmR  ui   với Y jR  ui  

Y j  S R  ui 
S R  ui 

, j  1,..., m .

R được gọi là một tập rút gọn phân bố của IDS nếu  R  ui    A  ui  với
i  1,..., U và P '  P , tồn tại u j  U sao cho  R  u j    A  u j  .

Ngoài ra, một số công bố khác đã đề xuất một số khái niệm khác về tập rút

gọn. Huasheng ZOU và cộng sự [5] đưa ra khái niệm tập rút gọn dựa trên

Nghiên cứu một số phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về