Tải bản đầy đủ (.docx) (98 trang)

Nghiên Cứu Một Số Phương Pháp Rút Gọn Thuộc Tính Trong Bảng Quyết Định Không Đầy Đủ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 98 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN
THÔNG

--------------------------------------NGUYỄN QUỲNH LAN

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QU
ĐỦ

Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên, 2013

Số hóa bởi Trung tâm Học liệu

/>

LỜI CẢM ƠN
Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện
Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam. Ngƣời đã tận tình
dày công hƣớng dẫn và giúp đỡ em hoàn thành luận văn này.
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ Thông tin đã dạy bảo,
giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học, trong suốt cả quá trình
em làm luận văn.
Em xin chân thành cảm ơn các Thầy, các Cô ở trƣờng Đại học Công nghệ
Thông tin và Truyền thông Thái Nguyên đã động viên, giúp đỡ và tạo điều kiện cho
em trong suốt thời gian học tập và nghiên cứu.
Cuối cùng xin chân thành cảm ơn bàn bè, ngƣời thân và gia đình luôn là
ngƣời đồng hành, động viên, chia sẻ những khó khăn trong suốt thời gian hoàn


thành luận văn.
Thái Nguyên, tháng 08 năm 2013
Nguyễn Quỳnh Lan


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là sản phẩm tìm hiểu, nghiên cứu của mình.
Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tài
liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng. Tôi xin chịu trách
nhiệm về luận văn của mình.

Học viên
Nguyễn Quỳnh Lan


i

MỤC LỤC

MỤC LỤC...............................................................................................................................i
Danh mục các thuật ngữ........................................................................................................iii
Bảng các ký hiệu, từ viết tắt..................................................................................................iv
Danh sách bảng......................................................................................................................v
MỞ ĐẦU................................................................................................................................1
Chƣơng 1. TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT
ĐỊNH KHÔNG ĐẦY ĐỦ......................................................................................................3
1.1. Bảng quyết định đầy đủ...................................................................................................3
1.2. Hệ thông tin.....................................................................................................................3
1.3. Hệ thông tin đầy đủ và mô hình tập thô truyền thống.....................................................3
1.3.1. Hệ thông tin đầy đủ.............................................................................................3

1.3.2. Mô hình tập thô truyền thống..............................................................................5
1.3.3. Tập rút gọn và tập lõi......................................................................................... 7
1.4. Hệ thông tin không đầy đủ và mô hình tập thô dung sai.................................................9
1.4.1. Hệ thông tin không đầy đủ..................................................................................9
1.4.2. Bảng quyết định không đầy đủ.........................................................................11
1.4.3. Tập rút gọn của bảng quyết định không đầy đủ................................................11
1.5.Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric.................................12
1.5.1. Metric trên họ các tri thức và tính chất.............................................................12
1.5.1.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn........................................12
1.5.1.2. Metric trên họ các tri thức.........................................................................14
1.5.1.3. Một số tính chất của metric trên bảng quyết định.....................................15
1.5.2. Rút gọn thuộc tính trong bảng quyết định sử dụng metric...............................18


i
1.5.2.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric……….……..18
1.5.2.2.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric...19

1.6 Kết luận chƣơng 1……………………………………………………………...27
Chƣơng 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY
ĐỦ….28 2.1 Giới thiệu.......................................................................................................28
2.2. Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất…...……..
29 2.2.1. Entropy Liang mở rộng của tập thuộc tính................................................29
2.2.2. Entropy Liang mở rộng có điều kiện................................................................30
2.2.3. Một số tính chất của entropy Liang mở rộng....................................................32
2.3. Metric trên họ các phủ và các tính chất...................................................................... 37
2.3.1. Metric trên họ các phủ......................................................................................37
2.3.2. Một số tính chất chất của metric.......................................................................40
2.4. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric………...…..43
2.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric.......................43

2.4.2.Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ.........................44
2.5. Kết luận chƣơng 2..................................................................................................... 52
Chƣơng 3. CHƢƠNG TRÌNH THỬ NGHIỆM..................................................................53
3.1 Mô tả dữ liệu..................................................................................................................53
3.2 Xây dựng chƣơng trình.................................................................................................. 57
3.3 Kết quả thực nghiệm......................................................................................................59
3.4 Nhận xét.........................................................................................................................60
KẾT LUẬN..........................................................................................................................61


ii
TÀI LIỆU THAMKHẢO………………………………………………………………….62

PHỤ LỤC…………………………………………………………………………..64


7

Danh mục các thuật ngữ

Thuật ngữ tiếng việt

Thuật ngữ tiếng anh

Tập thô

Rough set

Hệ thông tin


Information system

Hệ thông tin đầy đủ

Complete Information system

Hệ thông tin không đầy đủ

Incomplete Information system

Bảng quyết định

Decision Table

Bảng quyết định đầy đủ

Complete Decision Table

Bảng quyết định không đầy đủ

Incomplete Decision Table

Quan hệ không phân biệt đƣợc

Indiscernibility Relation

Xấp xỉ dƣới

Lower Approximation


Xấp xỉ trên

Upper Lower Approximation

Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn

Reduct

Tập lõi

Core

Ma trận phân biệt

Indiscernibility Matrix

Hàm phân biệt

Indiscernibility Function


Bảng các ký hiệu, từ viết tắt
Ký hiệu, từ viết tắt
IS = (U, A, V, f)
IIS = (U, A, V, f)
DS = (U, C∪D, V, f)


Diễn giải
Hệ thông tin, hệ thông tin đầy đủ
Hệ thông tin không đầy đủ
Bảng quyết định, bảng quyết định đầy đủ

IDS = (U, C∪D, V, f)

Bảng quyết định không đầy đủ

|U|
|C|
|A|
u(a)
IND(B)
SIM(B)
[u]B
SB(u)
U/B
U/SIM(B)
COVER(U)
B(u)

Số đối tƣợng
Số thuộc tính điều kiện trong bảng quyết định
Số thuộc tính trong hệ thông tin
Giá trị của đối tƣợng u tại thuộc tính a
Quan hệ B- không phân biệt
Quan hệ dung sai trên tập thuộc tính B
Lớp tƣơng đƣơng chứa u của quan hệ IND(B)

Lớp dung sai của đối tƣợng u trên quan hệ SIM(B)
Phân hoạch của U sinh bởi tập thuộc tính B
Phủ của U sinh bởi tập thuộc tính B
Họ tất cả các phủ của U
Hàm quyết định suy rộng của đối tƣợng u đối với B
B- xấp xỉ dƣới của X
B- xấp xỉ trên của X
B- miền biên của X
B- miền dƣơng của D
Họ tất cả các tập rút gọn Pawlak
Họ tất cả các tập rút gọn sử dụng ma trận phân biệt
Họ tất cả các tập rút gọn dựa trên metric
Tập lõi dựa trên miền dƣơng
Tập lõi sử dụng ma trận phân biệt
Tập lõi dựa trên metric
Entropy Shannon của tập thuộc tính P
Entropy Shannon có điều kiện của Q khi đã biết P
Entropy Liang mở rộng của tập thuộc tính P trong
hệ thông tin không đầy đủ
Entropy Liang mở rộng có điều kiện của Q khi đã
biết P trong hệ thông tin không đầy đủ
Trong hệ thông tin đầy đủ:là tri thức sinh bởi tập
thuộc tính P. Trong hệ thông tin không đầy đủ là
phủ sinh bởi tâp thuộc tính P
Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin
đầy đủ dựa trên khoảng cách Jaccard giữa hai tập
Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin
không đầy đủ dựa trên entropy Liang mở rộng
Độ quan trọng của thuộc tính b đối với B


BX

BNB(X)
POS B(D)
PRED(C)
SRED(C)
MRED(C)
PCORE (C)
SCORE(C)
MCORE(C)
H(P)
H(Q/P)
IE(P)
IE(Q/P)
K(P)
dj(K(P), K(Q))
dE(K(P), K(Q))
SIGB(b)


DANH SÁCH BẢNG
Bảng 1.1 Bảng thông tin về bệnh cúm..............................................................6
Bảng 1.2. Bảng quyết định về bệnh cúm..........................................................9
Bảng 1.3. Bảng thông tin về các xe hơi...........................................................12
Bảng 1.4. Bảng quyết định về bệnh cảm cúm..................................................19
Bảng 1.5. Bảng quyết định minh họa ví dụ 1.5...............................................22
Bảng 2.1 Bảng hệ thông tin không đầy đủ về các xe hơi................................37
Bảng 2.3. Bảng quyết định không đầy đủ minh họa ví dụ 2.3..........................49
Bảng 2.4. Bảng quyết định không đầy đủ về các xe hơi...................................52
Bảng 3.1. Bảng quyết định không đầy đủ về các xe hơi...................................56

Bảng 3.2. Kết quả thực hiện thuật toán Thuật toán 2.2…………………………65
Bảng 3.3. Tập rút gọn của Thuật toán 2.2……………………………………..65


10

MỞ ĐẦU
Mƣời năm trở lại đây chúng ta đã chứng kiến sự phát triển mạnh mẽ và sôi
động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô.
Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các
phƣơng pháp rút gọn thuộc tính trong bảng quyết định. Các phƣơng pháp chính là:
Phƣơng pháp dựa trên miền dƣơng, phƣơng pháp sử dụng các phép toán trong đại
số quan hệ, phƣơng pháp sử dụng ma trận phân biệt, phƣơng pháp sử dụng entropy
thông tin, phƣơng pháp sử dụng các độ đo trong tính toán hạt...
Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dƣ thừa để tìm ra các
thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng quyết định không đầy
đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảm
thông tin phân lớp của bảng quyết định đó. Đối với một bảng quyết định không đầy
đủ có thể có nhiều tập rút gọn khác nhau. Tuy nhiên, trong thực hành thƣờng không
đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm đƣợc một tập rút gọn theo một tiêu
chuẩn đánh giá nào đó là đủ.
Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kể
khối lƣợng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lƣợng dữ
liệu lớn. Thuật toán khá đơn giản về mặt thực thi. Nên em quyết định lựa chọn đề
tài luận văn: “Nghiên cứu một số phƣơng pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ”.
Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính trong bảng
quyết định đầy đủ từ đó làm cơ sở nghiên cứu tiếp phƣơng pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ.
Đối tƣợng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các bảng

quyết định không đầy đủ với kích thƣớc trung bình và lớn.


Phƣơng pháp nghiên cứu
- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã đƣợc chứng minh dựa vào
các kiến thức cơ bản và các kết quả nghiên cứu đã công bố.
- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán.
Ý nghĩa khoa học của đề tài
-Đây là phƣơng pháp đƣợc nhiều nhà khoa học nghiên cứu và đã có đóng góp
trong thực tiễn.
-Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến
thức cơ bản trong bảng quyết định không đầy đủ.
Bố cục của luận văn: Gồm phần mở đầu và 3 chƣơng nội dung, phần kết
luận, danh mục tài liệu tham khảo và phụ lục.
Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy đủ, bảng
quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai,
trình bày phƣơng pháp xây dựng 1 metric trên họ các tri thức trong hệ thông tin đầy
đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn, trình bày phƣơng pháp
rút gọn thuộc tính trong bảng quyết định đầy đủ.
Chương 2: Trình bày phƣơng pháp xây dựng một metric trên họ các phủ trong
hệ thông tin không đầy đủ dựa trên entropy Liang mở rộng, trình bày phƣơng pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ.
Chương 3: Chƣơng trình thử nghiệm trình bày các nội dung: mô tả dữ liệu,
xây dựng chƣơng trình, và kết quả thực nghiệm của thuật toán.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hƣớng phát
triển của luận văn.


Chƣơng 1. TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ
BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ


1.1. Bảng quyết định đầy đủ
Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng
là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc tính A
đƣợc chia thành hai tập khác rỗng rời nhau C và D, lần lƣợt đƣợc gọi là tập thuộc
tính điều kiện và tập thuộc tính quyết định. Tức là DS = (U, C∪D, V, f) với
C∩D=

.

Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D,
d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS đƣợc
gọi là bảng quyết định không đầy đủ, trái lại DS đƣợc gọi là bảng quyết định đầy
đủ. Trong luận văn này, bảng quyết định đầy đủ đƣợc gọi tắt là bảng quyết định.
1.2. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dƣới dạng 1 bảng dữ liệu gồm p cột
tƣơng ứng với p thuộc tính và n hàng ứng với n đối tƣợng.
1.3. Hệ thông tin đầy đủ và mô hình tập thô truyền thống.
1.3.1. Hệ thông tin đầy đủ
Một cách hình thức, hệ thông tin đƣợc định nghĩa nhƣ sau:
Định nghĩa 1.1.[1] Hệ thông tin là một bộ tứ IS= (U, A, V, f) trong đó U là một tập
hữu hạn, khác rỗng các đối tƣợng, A là một tập hữu hạn, khác rỗng các thuộc tính,


V=
a

V

với Va là tập giá trị các thuộc tính a∈A; f: U x A


Va là hàm thông tin,

a A

mọi a∈A, u∈U f(u,a)∈Va.
Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tƣợng u là a(u) thay
vì f(u,a). Nếu B= {b1, b2, ...,bk}⊆A là một tập con các thuộc tính thì ta ký hiệu bộ
các giá trị bi(u) bởi B(u). Nhƣ vậy, nếu u và v là hai đối tƣợng, thì ta viết
B(u)=B(v),
nếu bi(u)=bi(v) với mọi i= 1,...,k.
Cho hệ thông tin IS = (U, A, V, f), nếu tồn tại u∈U và a∈A sao cho a(u)
thiếu giá trị (missing value) thì IS đƣợc gọi là hệ thông tin không đầy đủ, trái lại IS
đƣợc gọi là hệ thông tin đầy đủ. Chúng ta tự hiểu hệ thông tin đầy đủ đƣợc gọi
tắt là hệ thông tin.
Xét hệ thông tin IS = (U, A, V, f). Mỗi tập con các thuộc tính P⊆A xác định
một quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi:
IND(P)={(u,v) ∈U x U/ a ∈P, a(u)=a(v)}.
IND(P) là quan hệ P – không phân biệt đƣợc. Dễ thấy rằng IND (P) là một
quan hệ tƣơng đƣơng trên U. Nếu (u,v)∈IND(P) thì hai đối tƣợng u và v không
phân biệt đƣợc bởi các thuộc tính trong P. Quan hệ tƣơng đƣơng IND(P) xác định
một phân hoạch U/P chứa đối tƣợng u là [u]p khi đó [u]p= {v∈U/(u,v)∈IND(P)}.
Định nghĩa 1.2.[12] Cho hệ thông tin IS=(U, A, V, f), và P, Q⊆A.
1) Phân hoạch U/P và phân hoạch U/Q là nhƣ nhau (viết U/P=U/Q), khi và chỉ khi
u ∈U, [u]P=[u]Q.


2) Phân hoạch U/P mịn hơn phân hoạch U/Q (viết U/P≼U/Q), khi và chỉ khi
u ∈U, [u]P ⊆[u]Q.
Tính chất 1.1 [12] Xét hệ thông tin IS= ( U,A,V, f ) và P, Q⊆A.

1) Nếu
thuộcP⊆Q
U/Q. thì U/Q≼U/P, mỗi lớp của U/P là một lớp hoặc hợp của một số lớp
2) Với mọi u ∈U ta có [u]P∪Q=[u]p ∩[u]Q.
1.3.2. Mô hình tập thô truyền thống
Cho hệ thông tin IS=(U, A, V, f), và tập đối tƣợng X⊆U. Với một tập thuộc
tính B⊆A cho trƣớc chúng ta có các lớp tƣơng đƣơng của phân hoạch U/B, thế thì
một tập đối tƣợng X có thể biểu diễn thông qua các lớp tƣơng đƣơng này nhƣ thế
nào?
Để biểu diễn X thông qua các lớp tƣơng đƣơng của U/B (còn gọi là biểu diễn
X bằng tri thức có sẵn trong B), ngƣời ta xấp xỉ X bởi hợp của một số hữu hạn các
lớp tƣơng đƣơng của U/B. Có hai cách xấp xỉ tập đối tƣợng X thông qua tập thuộc
tính B, đƣợc gọi là B xấp xỉ dƣới và B xấp xỉ trên của X, ký hiệu lần lƣợt là BX

BX đƣợc xác định nhƣ sau:
B X ={u ∈U /[u]B ⊆X }

BX ={u ∈U /[u]B ∩X ≠ }.

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B. Từ

hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BNB(X) = BX - BX : B miền biên của X, U- BX : B miền ngoài của X.


B miền biên của X là tập chứa các đối tƣợng có thể thuộc hoặc không thuộc
X, còn B miền ngoài của X chứa các đối tƣợng chắc chắn không thuộc X. Sử dụng
các lớp của phân hoạch U/B, các xấp xỉ dƣới và trên của X có thể viết lại


B X = ∪{Y ∈U / B / Y ⊆X }, BX = ∪{Y ∈U / B / Y ∩X ≠ }.

BNB(X) =
thì X đƣợc gọi là tập chính xác (exact set ), ngƣợc lại X đƣợc
gọi là tập thô (rough set).
Với B,D ⊆A, ta gọi B miền dƣơng của D là tập đƣợc xác định nhƣ sau:
POSB(D)=



( BX )

X U/D

Rõ ràng POSB(D) là tập tất cả các đối tƣợng u sao cho với mọi v∈U mà
u(B)=v(B) ta đều có u(D)=v(D). Nói cách khác, POSB(D)={u ∈U /[u]B ⊆ [u]D }.
Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân
Bảng 1.1. Bảng thông tin về bệnh cúm
U
u1
u2
u3
u4
u5
u6
u7
u8

Đau đầu




Không
Không
Không
Không
Không

Thân nhiệt
Bình thƣờng
Cao
Rất cao
Bình thƣờng
Cao
Rất cao
Cao
Rất cao

Cảm cúm
Không


Không
Không


Không

Ta có: U/{Đau đầu}={ {u1, u2, u3}, {u4, u5, u6, u7, u8}}
U/{Thân nhiệt}={{u1, u4}, {u2, u5, u7}, {u3, u6, u8}}

U/{Cảm cúm}={ {u1, u4, u5, u8}, {u2, u3, u6, u7, }}
U/{Đau đầu, Cảm cúm}={ {u1}, {u2, u3}, {u4, u5, u8}, {u6, u7}}


Nhƣ vậy, các bệnh nhân u2, u3 không phân biệt đƣợc về đau đầu và cảm cúm,
nhƣng phân biệt đƣợc về thân nhiệt.
Các lớp không phân biệt đƣợc bởi B={Đau đầu, Thân nhiệt} là:
{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
Đặt X={u/u (Cảm cúm)=Có}={ u2, u3, u6, u7}. Khi đó:
B X ={ u2, u3}
BX ={ u2, u3, u5, u6, u7, u8}. Nhƣ vậy, B miền biên của X là tập hợp

BNB(X)={u5, u6, u7, u8}. Nếu đặt D={Cảm cúm} thì:
U/D ={X1= { u1, u4, u5, u8}; X2={ u2, u3, u6, u7}},
B X 1={ u1, u4}
B X 2 ={ u2, u3}

POSB (D)=



( BX )={ u1, u2, u3, u4}.

X U/D

1.3.3. Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện đƣợc phân thành 3 nhóm:
thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính
dƣ thừa (redundant attribute). Thuộc tính lõi là thuộc tính không thể thiếu trong
việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất hiện trong tất cả các tập rút

gọn của bảng quyết định. Thuộc tính dƣ thừa là những thuộc tính mà việc loại bỏ
chúng không ảnh hƣởng đến việc phân lớp tập dữ liệu, thuộc tính dƣ thừa không
xuất hiện trong bất kỳ rút gọn nào của bảng quyết định. Thuộc tính rút gọn là thuộc
tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định.
Định nghĩa 1.3. (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U,
C∪D, V,f). Thuộc tính c∈C đƣợc gọi là không cần thiết (dispensable) trong DS dựa


trên miền dƣơng nếu POSC(D)=POS(C-{c})(D). Ngƣợc lại, c đƣợc gọi là cần thiết
(indispensable). Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa
trên miền dƣơng và đƣợc ký hiệu là PCORE (C). Khi đó, thuộc tính cần thiết chính
là thuộc tính lõi.
Theo Định nghĩa 1.3 thuộc tính không cần thiết đƣợc gọi là thuộc tính dƣ thừa
hoặc thuộc tính rút gọn.
Định nghĩa 1.4 (Tập rút gọn dựa trên miền dương) Cho bảng quyết định DS=(U,
C∪D, V, f). Và tập thuộc tính R⊆C. Nếu:
1) POSR (D)=POSC (D)
2) Mọi r∈R, POSR-{r} (D)≠POSC (D)
Thì R là một tập rút gọn của C dựa trên miền dƣơng.
Tập rút gọn định nghĩa nhƣ trên còn gọi là tập rút gọn Pawlak. Ký hiệu
PRED(C) là họ tất cả các tập rút gọn Pawlak của C. Khi đó PCORE (C)
=



R.

R PRED(C )

Định nghĩa 1.5. Cho bảng quyết định DS = (U, C∪D, V, f). Và a∈C. Ta nói rằng a

là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R.
Định nghĩa 1.6. Cho bảng quyết định DS = (U, C∪D, V, f). Và a∈C. Ta nói rằng a
là thuộc tính dƣ thừa của DS nếu
a∈C-



R.

R PRED( D )

Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2


Bảng 1.2. Bảng quyết định về bệnh cúm

U

Mệt mỏi







u1
u2
u3
u4

u5
u6

Đầu đầu



Không
Không
Không

Đau cơ




Không


Thân nhiệt
Bình thƣờng
Cao
Rất cao
Bình thƣờng
Cao
Rất cao

Cảm cúm
Không



Không
Không


Bảng này có hai tập rút gọn là R1={Đau cơ, Thân nhiệt}, R2={Đau đầu, thân
nhiệt}. Nhƣ vậy tập lõi là PCORE (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duy
nhất. Các thuộc tính không cần thiết bao gồm:
+Thuộc tính Mệt mỏi là thuộc tính dƣ thừa vì không tham gia vào rút gọn nào
+Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt
trong một tập rút gọn. Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng
dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh.
Tức là:
POS{Đau cơ, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
1.4. Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Trong phần này, em xin trình bày các khái niệm cơ bản về mô hình tập thô mở
rộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do Marzena
Kryszkiewicz [6] đề xuất.
1.4.1. ệ thông tin không đầy đủ


Nhƣ đã trình bày ở trên hệ thông tin IS=(U, A, V, f), nếu tồn tại u∈U và a∈A
sao cho a(u) thiếu giá trị IS đƣợc gọi là hệ thông tin không đầy đủ. Ta biểu diễn giá
trị thiếu là „*‟ và hệ thông tin không đầy đủ là IIS= (U, A, V, f ).
Xét hệ thông tin không đầy đủ IIS = (U, A, V, f ). Với tập thuộc tính P⊆A ta
định nghĩa một quan hệ nhị phân trên U nhƣ sau:
SIM(P)={(u,v)∈U x U/ a∈P, a(u)= a(v) ∨a(u)=‟*‟∨a(v)=‟*‟}.
Quan hệ SIM(P) không phải là quan hệ tƣơng đƣơng vì chúng có tính phản
xạ, đối xứng nhƣng không có tính bắc cầu. SIM (P) là một quan hệ dung sai

(tolerance relation), hay quan hệ tƣơng tự (similarity relation) trên U. Theo
[6], SIM
(P)=∩a∈PSIM({a}).
Gọi SP(u) là tập {v∈U/(u,v)∈SIM (P) }. SP(u) là tập lớn nhất các đối
tƣợng không có khả năng phân biệt đƣợc với u trên tập thuộc tính P, còn gọi là
một lớp dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai sinh
bởi quan hệ SIM (P) trên U là U/ SIM (P), khi đó các lớp dung sai trong U/ SIM
(P) không phải
là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau
và ∪u∈U SP(u)= U. Ký hiệu tập tất các phủ của U sinh bởi các tập con thuộc tính
P⊆A là COVER(U).

Trên COVER(U) ta định nghĩa một quan hệ thứ tự bộ phận (COVER(U),⋞)
nhƣ sau:
Định nghĩa 1.7.[9]Cho hệ thông tin không đầy đủ IIS=(U,A,V,f) với P, Q⊆A. Ta nói:


1) Phủ U/SIM(P) và phủ U/SIM(Q) là nhƣ nhau (viết U/SIM(P) = U/SIM(Q)) khi và
chỉ khi u∈U, SP(u)=SQ(u).
2) U/SIM(P) mịn hơn U/SIM(Q) (viết U/SIM(P)≼U/SIM(Q)) khi và chỉ khi
u∈U, SP(u)⊆SQ(u).

Trên (COVER(U),≼), phần tử nhỏ nhất gọi là phủ rời rạc ω={SA(u)/ SA(u )=
{u}, u∈U} và phần tử lớn nhất gọi là phủ một khối δ={SA(u)/ SA(u )= U, u∈U}.
Tính chất 1.2. [7] Cho hệ thông tin không đầy đủ IIS =(U, A, V, f)
1) Nếu P⊆Q⊆A thì SQ(u)⊆SP(u) với mọi u∈U.

2) Nếu P⊆Q⊆A thì U/SIM(Q)≼U/SIM(P).
3) Nếu P, Q ⊆A thì SP∪Q(u)= SP(u)∩SQ(u) với mọi u∈U.
Tƣơng tự hệ thông tin đầy đủ, các tập P- xấp xỉ dƣới và P- xấp xỉ trên của X

trong hệ thông tin không đầy đủ, ký hiệu lần lƣợt là P X và P X đƣợc xác định nhƣ
sau:
P X = {u∈U/ SP(u) ⊆X}={u∈X/ SP(u) ⊆X}

P X= {u∈U/ SP(u) ∩X≠ }=∪{ SP(u)/u ∈U}

Với các tập xấp xỉ nêu trên, ta gọi P- miền biên của X là tập: BNP(X)= P X P X và P- Miền ngoài của X là tập: U- P X.

Ví dụ 1.3. Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ
IIS = {U, A, V, f}với U={u1, u2, u3, u4, u5, u6}, A={a1, a2, a3, a4} với a1 (Đơn giá),
a2 (KM đã đi), a3 (Kích thƣớc), a4 (Tốc độ tối đa).


Bảng 1.3. Bảng thông tin về các xe hơi
Ô tô
u1
u2
u3
u4
u5
u6

Đơn giá
Cao
Thấp
*
Cao
*
Thấp


Km đã đi
Cao
*
*
*
*
Cao

Kích thƣớc
Đầy đủ
Đầy đủ
Gọn nhẹ
Đầy đủ
Đầy đủ
Đầy đủ

Tốc độ tối đa
Thấp
Thấp
Cao
Cao
Cao
*

U/SIM(A)= {SA(u1), SA(u2), SA(u3), SA(u4), SA(u5), SA(u6)}, với
SA(u1)={u1}, SA(u2)={u2,u6}, SA(u3)={u3},SA(u4)={u4,u5},SA(u5)={u4, u5,u6},
SA(u6)={u2, u5,u6}.
Với P={a3,a4} ta có:
U/SIM(P)={SP(u1), SP(u2), SP(u3), SP(u4), SP(u5), SP(u6)}, với
SP(u1)=SP(u2)={u1,u2, u6}, SP(u3)={u3}, SP(u4)=SP(u5)={u4, u5,u6},

SP(u6)={u1, u2,u4, u5,u6}.
1.4.2. Bảng quyết định không đầy đủ
Nhƣ đã trình bày ở trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại
u∈U và c∈C sao cho c(u) thiếu gái trị thì DS đƣợc gọi là bảng quyết định không
đầy đủ. Ta biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là
IDS=(U, C∪D,V, f) với mọi d∈D, „*‟ Vd. Không mất tính chất tổng quát, giả
thiết D chỉ gồm một thuộc tính quyết định duy nhất {d} [6].
1.4.3. Tập rút gọn của bảng quyết định không đầy đủ


Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định
không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm
quyết định suy rộng của tất cả các đối tƣợng.
Định nghĩa 1.8. [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng
quyết định không đầy đủ IDS=(U. C∪D, V, f) và tập thuộc tính R⊆C. Nếu:
1) R(u)=

C(u)

2) Với mọi R

với mọi u∈U.



R, tồn tại u∈U sao cho

R‟(u)≠ C(u)

Thì R đƣợc gọi là một tập rút gọn của C.Tập rút gọn định nghĩa nhƣ trên còn

gọi là tập rút gọn Kryszkiewic.
1.5. Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric
Các kết quả trong phần này đƣợc tìm hiểu trong tài liệu [3].
1.5.1. ric trên họ các tri thức và các tính chất.
1.5.1.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn.
Định nghĩa 1.9. Cho tập U là tập hữu hạn các đối tƣợng và X, Y U. Biểu thức:
D(X,Y) = 1 - X

Y

X

Y

đƣợc gọi là khoảng cách Jaccard ( Jaccacrd distance)

giữa X và Y và biểu thức: J (X,Y) =

X

Y

X

Y

đƣợc gọi là hệ số Jaccard. Hệ Số Jaccard

đo độ tƣơng tự giữa hai tập hợp X và Y. Hiển nhiên D(X, Y)+J(X,Y)=1.
Định lý 1.1. Cho U là tập hữu hạn các đối tƣợng và P(U) là tập các tập con của U.

Khoảng cách Jaccard là một metric trên P(U), nghĩa là mọi X,Y,Z P(U) thoả mãn
các điều kiện sau:


(P1) D(X,Y)

0, điều kiện D(X,Y) = 0 khi và chỉ khi X=Y.

(P2) D(X,Y) = D(Y,X).
(P3) D(X,Y) + D(Y,Z) D(X,Z).
*Trình bày chứng minh:
Hiển nhiên, D(X,Y) thoả mãn điều kiện (P1) và (P2). Để chứng minh điều kiện
(P3) ( bất đẳng thức tam giác), ta cần chứng minh bất đẳng thức sau:
J( X,Y)+J(Y,Z)

1+J(X,Z)

(1.1)

Giả sử U =N và U={u1, u2 ,...,un }. Ta biểu diễn tập X U bởi một véc tơ N chiều
X
X
X
X
X và v X =0 trong trƣờng hợp ngƣợc lại.
V = ( v , v ,..., v ) với v =1 nếu uk
X

1


2

Đặt
V
XY

n

k

k

= V X V Y , khi đó J(X,Y) đƣợc biểu diễn: J(X,Y)
=

XY

V XX

Nếu
J(X,Y)

J(X,Z) hoặc J(Y,Z)

(1.2)

V
VY
Y


V XY

J(X,Z) thì hiển nhiên (3.1) thoả mãn. Do

đó, ta cần chứng minh (3.1) đối với trƣờng hợp đồng thời J(X,Y) > J(X,Z) và J(Y,Z)
> J(X,Z). Từ (1.2) ta có:

V XY

=

J ( X ,Y )
XX

X
V ) và
(VY

vì phần tử thứ k của
(VY

V

(1.3)

(V

1 J X ,Y

Dễ thấy

(VY

YY

V YY )

J (Y , Z ) YY
(VV)
1 J (Y , Z )

X

Z
V ) 0 hoặc
YY
V

V ) và
(VY
ZZ

VYZ

V

V

XY

XY


Z

0 thoả mãn

V ) là 0 và 1 kết hợp với (1.2) ta có:

XX
J ( X ,Y )
(VV)
1 J X ,Y

YY

J ( X , Z ) XXZZ
(VV)0
1 J X,Z


1

J(X,Y)
1J X ,Y

J (Y , Z )
1J Y , Z

J (Y , Z )
1J Y , Z


J(X,Z)
1J X , Z

V YY

V ZZ (1.4)

J(X,Y)
1J X ,Y

J(X,Z)
1J X , Z

V XX +


Rõ dàng V

V

XX

XY

, sử dụng (1.3) thu đƣợc V

XX

J X ,Y


V XX

(V

J ( X ,Y )
1J X ,Y

+ V YY ) hay

XX

(1.5)

XY

Từ giả thiết J(X,Y) - J(X,Z) > 0 ta có

J ( X ,Y )
J(X,Z
1 J ( X ,Y ) 1 )
J(X,
Z)

> 0.

Do đó từ (1.5)
J ( X ,Y )

J(X,Z)


J ( X ,Y
)

V

XX

J ( X ,Y )

J(X,Z)

(1.6)

YY

V
1 J ( X ,Y ) 1 J ( X , Z )

1 J ( X ,Y ) 1 J ( X , Z )

Tƣơng tự
J (Y , Z )
J(X,Z)
1J (Y , Z )1J ( X , Z )

V ZZ

J (Y , Z )
J (Y , Z )


J(X,Z)

V YY (1.7) 1J (Y , Z )1J ( X , Z )

Từ (1.4), (1.6), (1.7) ta có
1

J ( X ,Y )
J (Y , Z )
1J ( X ,Y )1J (Y , Z )

J (Y , Z )

V YY

J (Y , Z )
J(X,Z)
1J (Y , Z )1J ( X , Z )

J ( X ,Y )

J ( X ,Y )
J(X,Z)
1J ( X ,Y )1J ( X , Z )

V YY

V YY

(1.8)


Nếu V YY =0 thì hiển nhiên (3.1) thỏa mãn. Giả sử V
YY

0 . Khi đó, (1.8) tƣơng

đƣơng với:

1
)

J ( X ,Y

J ( X ,Y
2
)

1 J ( X ,Y )

J (Y ,
Z)

J (Y , Z
2
)

1 J (Y , Z )

J(X,
Z)


J ( X ,Y
)

J (Y , Z )

1 J(X,Z)


×