Tải bản đầy đủ (.pdf) (82 trang)

Nghiên Cứu Một Số Phương Pháp Rút Gọn Thuộc Tính Trong Bảng Quyết Định Không Đầy Đủ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.9 MB, 82 trang )

Header Page 1 of 126.

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN
THÔNG

--------------------------------------NGUYỄN QUỲNH LAN

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP RÚT GỌN
THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY
ĐỦ

Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên, 2013

Số hóa bởi Trung tâm Học liệu
Footer Page 1 of 126.

/>

Header Page 2 of 126.

LỜI CẢM ƠN
Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện
Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam. Ngƣời đã tận tình
dày công hƣớng dẫn và giúp đỡ em hoàn thành luận văn này.
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ Thông tin đã dạy bảo,
giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học, trong suốt cả quá trình


em làm luận văn.
Em xin chân thành cảm ơn các Thầy, các Cô ở trƣờng Đại học Công nghệ
Thông tin và Truyền thông Thái Nguyên đã động viên, giúp đỡ và tạo điều kiện cho
em trong suốt thời gian học tập và nghiên cứu.
Cuối cùng xin chân thành cảm ơn bàn bè, ngƣời thân và gia đình luôn là ngƣời
đồng hành, động viên, chia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn.
Thái Nguyên, tháng 08 năm 2013
Nguyễn Quỳnh Lan

Số hóa bởi Trung tâm Học liệu
Footer Page 2 of 126.

/>

Header Page 3 of 126.

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là sản phẩm tìm hiểu, nghiên cứu của mình.
Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tài
liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng. Tôi xin chịu trách
nhiệm về luận văn của mình.

Học viên
Nguyễn Quỳnh Lan

Số hóa bởi Trung tâm Học liệu
Footer Page 3 of 126.

/>


i

Header Page 4 of 126.

MỤC LỤC

MỤC LỤC...............................................................................................................................i
Danh mục các thuật ngữ........................................................................................................iii
Bảng các ký hiệu, từ viết tắt..................................................................................................iv
Danh sách bảng......................................................................................................................v
MỞ ĐẦU................................................................................................................................1
Chƣơng 1. TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT
ĐỊNH KHÔNG ĐẦY ĐỦ......................................................................................................3
1.1. Bảng quyết định đầy đủ...................................................................................................3
1.2. Hệ thông tin .......... .........................................................................................................3
1.3. Hệ thông tin đầy đủ và mô hình tập thô truyền thống.....................................................3
1.3.1. Hệ thông tin đầy đủ ............................................................................................3
1.3.2. Mô hình tập thô truyền thống..............................................................................5
1.3.3. Tập rút gọn và tập lõi..........................................................................................7
1.4. Hệ thông tin không đầy đủ và mô hình tập thô dung sai.................................................9
1.4.1. Hệ thông tin không đầy đủ..................................................................................9
1.4.2. Bảng quyết định không đầy đủ.........................................................................11
1.4.3. Tập rút gọn của bảng quyết định không đầy đủ................................................11
1.5.Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric.................................12
1.5.1. Metric trên họ các tri thức và tính chất.............................................................12
1.5.1.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn........................................12
1.5.1.2. Metric trên họ các tri thức........................................................................14
1.5.1.3. Một số tính chất của metric trên bảng quyết định....................................15
1.5.2. Rút gọn thuộc tính trong bảng quyết định sử dụng metric..............................18


Số hóa bởi Trung tâm Học liệu
Footer Page 4 of 126.

/>

Header Page 5 of 126.

ii

1.5.2.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric……….……..18
1.5.2.2.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric................19

1.6 Kết luận chƣơng 1……………………………………………………………...27
Chƣơng 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ….28
2.1 Giới thiệu.......................................................................................................................28
2.2. Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất…...…….. 29
2.2.1. Entropy Liang mở rộng của tập thuộc tính......................................................29
2.2.2. Entropy Liang mở rộng có điều kiện................................................................30
2.2.3. Một số tính chất của entropy Liang mở rộng....................................................32
2.3. Metric trên họ các phủ và các tính chất.........................................................................37
2.3.1. Metric trên họ các phủ......................................................................................37
2.3.2. Một số tính chất chất của metric.......................................................................40
2.4. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric………...…..43
2.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric.......................43
2.4.2.Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ.........................44
2.5. Kết luận chƣơng 2.........................................................................................................52
Chƣơng 3. CHƢƠNG TRÌNH THỬ NGHIỆM...................................................................53
3.1 Mô tả dữ liệu..................................................................................................................53
3.2 Xây dựng chƣơng trình...................................................................................................57
3.3 Kết quả thực nghiệm......................................................................................................59

3.4 Nhận xét.........................................................................................................................60
KẾT LUẬN..........................................................................................................................61
TÀI LIỆU THAMKHẢO………………………………………………………………….62

PHỤ LỤC…………………………………………………………………………..64
Số hóa bởi Trung tâm Học liệu
Footer Page 5 of 126.

/>

iii

Header Page 6 of 126.

Danh mục các thuật ngữ

Thuật ngữ tiếng việt

Thuật ngữ tiếng anh

Tập thô

Rough set

Hệ thông tin

Information system

Hệ thông tin đầy đủ


Complete Information system

Hệ thông tin không đầy đủ

Incomplete Information system

Bảng quyết định

Decision Table

Bảng quyết định đầy đủ

Complete Decision Table

Bảng quyết định không đầy đủ

Incomplete Decision Table

Quan hệ không phân biệt đƣợc

Indiscernibility Relation

Xấp xỉ dƣới

Lower Approximation

Xấp xỉ trên

Upper Lower Approximation


Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn

Reduct

Tập lõi

Core

Ma trận phân biệt

Indiscernibility Matrix

Hàm phân biệt

Indiscernibility Function

Số hóa bởi Trung tâm Học liệu
Footer Page 6 of 126.

/>

iv

Header Page 7 of 126.

Bảng các ký hiệu, từ viết tắt

Ký hiệu, từ viết tắt
IS = (U, A, V, f)
IIS = (U, A, V, f)
DS = (U, C∪D, V, f)
IDS = (U, C∪D, V, f)
|U|
|C|
|A|
u(a)
IND(B)
SIM(B)
[u]B
SB(u)
U/B
U/SIM(B)
COVER(U)
B(u)
BX

BX

BNB(X)
POS B(D)
PRED(C)
SRED(C)
MRED(C)
PCORE (C)
SCORE(C)
MCORE(C)
H(P)

H(Q/P)
IE(P)
IE(Q/P)
K(P)

dj(K(P), K(Q))
dE(K(P), K(Q))
SIGB(b)

Diễn giải
Hệ thông tin, hệ thông tin đầy đủ
Hệ thông tin không đầy đủ
Bảng quyết định, bảng quyết định đầy đủ
Bảng quyết định không đầy đủ
Số đối tƣợng
Số thuộc tính điều kiện trong bảng quyết định
Số thuộc tính trong hệ thông tin
Giá trị của đối tƣợng u tại thuộc tính a
Quan hệ B- không phân biệt
Quan hệ dung sai trên tập thuộc tính B
Lớp tƣơng đƣơng chứa u của quan hệ IND(B)
Lớp dung sai của đối tƣợng u trên quan hệ SIM(B)
Phân hoạch của U sinh bởi tập thuộc tính B
Phủ của U sinh bởi tập thuộc tính B
Họ tất cả các phủ của U
Hàm quyết định suy rộng của đối tƣợng u đối với B
B- xấp xỉ dƣới của X
B- xấp xỉ trên của X
B- miền biên của X
B- miền dƣơng của D

Họ tất cả các tập rút gọn Pawlak
Họ tất cả các tập rút gọn sử dụng ma trận phân biệt
Họ tất cả các tập rút gọn dựa trên metric
Tập lõi dựa trên miền dƣơng
Tập lõi sử dụng ma trận phân biệt
Tập lõi dựa trên metric
Entropy Shannon của tập thuộc tính P
Entropy Shannon có điều kiện của Q khi đã biết P
Entropy Liang mở rộng của tập thuộc tính P trong
hệ thông tin không đầy đủ
Entropy Liang mở rộng có điều kiện của Q khi đã
biết P trong hệ thông tin không đầy đủ
Trong hệ thông tin đầy đủ:là tri thức sinh bởi tập
thuộc tính P. Trong hệ thông tin không đầy đủ là
phủ sinh bởi tâp thuộc tính P
Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin
đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp
Khoảng cánh giữa K(P) và K(Q) trong hệ thông tin
không đầy đủ dựa trên entropy Liang mở rộng
Độ quan trọng của thuộc tính b đối với B

Số hóa bởi Trung tâm Học liệu
Footer Page 7 of 126.

/>

v

Header Page 8 of 126.


DANH SÁCH BẢNG
Bảng 1.1 Bảng thông tin về bệnh cúm...............................................................6
Bảng 1.2. Bảng quyết định về bệnh cúm...........................................................9
Bảng 1.3. Bảng thông tin về các xe hơi............................................................12
Bảng 1.4. Bảng quyết định về bệnh cảm cúm...................................................19
Bảng 1.5. Bảng quyết định minh họa ví dụ 1.5................................................22
Bảng 2.1 Bảng hệ thông tin không đầy đủ về các xe hơi.................................37
Bảng 2.3. Bảng quyết định không đầy đủ minh họa ví dụ 2.3..........................49
Bảng 2.4. Bảng quyết định không đầy đủ về các xe hơi...................................52
Bảng 3.1. Bảng quyết định không đầy đủ về các xe hơi...................................56
Bảng 3.2. Kết quả thực hiện thuật toán Thuật toán 2.2…………………………65
Bảng 3.3. Tập rút gọn của Thuật toán 2.2……………………………………..65

Số hóa bởi Trung tâm Học liệu
Footer Page 8 of 126.

/>

1

Header Page 9 of 126.

MỞ ĐẦU
Mƣời năm trở lại đây chúng ta đã chứng kiến sự phát triển mạnh mẽ và sôi
động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô.
Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các
phƣơng pháp rút gọn thuộc tính trong bảng quyết định. Các phƣơng pháp chính là:
Phƣơng pháp dựa trên miền dƣơng, phƣơng pháp sử dụng các phép toán trong đại
số quan hệ, phƣơng pháp sử dụng ma trận phân biệt, phƣơng pháp sử dụng entropy
thông tin, phƣơng pháp sử dụng các độ đo trong tính toán hạt...

Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dƣ thừa để tìm ra các
thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng quyết định không đầy
đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảm
thông tin phân lớp của bảng quyết định đó. Đối với một bảng quyết định không đầy
đủ có thể có nhiều tập rút gọn khác nhau. Tuy nhiên, trong thực hành thƣờng không
đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm đƣợc một tập rút gọn theo một tiêu
chuẩn đánh giá nào đó là đủ.
Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kể
khối lƣợng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lƣợng dữ
liệu lớn. Thuật toán khá đơn giản về mặt thực thi. Nên em quyết định lựa chọn đề
tài luận văn: “Nghiên cứu một số phƣơng pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ”.
Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính trong bảng
quyết định đầy đủ từ đó làm cơ sở nghiên cứu tiếp phƣơng pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ.
Đối tƣợng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các bảng
quyết định không đầy đủ với kích thƣớc trung bình và lớn.

Số hóa bởi Trung tâm Học liệu
Footer Page 9 of 126.

/>

Header Page 10 of 126.

2

Phƣơng pháp nghiên cứu
- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã đƣợc chứng minh dựa
vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố.

- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán.
Ý nghĩa khoa học của đề tài
-Đây là phƣơng pháp đƣợc nhiều nhà khoa học nghiên cứu và đã có đóng góp
trong thực tiễn.
-Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến
thức cơ bản trong bảng quyết định không đầy đủ.
Bố cục của luận văn: Gồm phần mở đầu và 3 chƣơng nội dung, phần kết
luận, danh mục tài liệu tham khảo và phụ lục.
Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy đủ, bảng
quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai,
trình bày phƣơng pháp xây dựng 1 metric trên họ các tri thức trong hệ thông tin đầy
đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn, trình bày phƣơng pháp
rút gọn thuộc tính trong bảng quyết định đầy đủ.
Chương 2: Trình bày phƣơng pháp xây dựng một metric trên họ các phủ trong
hệ thông tin không đầy đủ dựa trên entropy Liang mở rộng, trình bày phƣơng pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ.
Chương 3: Chƣơng trình thử nghiệm trình bày các nội dung: mô tả dữ liệu,
xây dựng chƣơng trình, và kết quả thực nghiệm của thuật toán.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hƣớng phát
triển của luận văn.

Số hóa bởi Trung tâm Học liệu
Footer Page 10 of 126.

/>

3

Header Page 11 of 126.


Chƣơng 1. TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG
QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

1.1. Bảng quyết định đầy đủ
Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng
là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc tính A
đƣợc chia thành hai tập khác rỗng rời nhau C và D, lần lƣợt đƣợc gọi là tập thuộc
tính điều kiện và tập thuộc tính quyết định. Tức là DS = (U, C∪D, V, f) với
C∩D= .

Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D,
d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS đƣợc
gọi là bảng quyết định không đầy đủ, trái lại DS đƣợc gọi là bảng quyết định đầy
đủ. Trong luận văn này, bảng quyết định đầy đủ đƣợc gọi tắt là bảng quyết định.
1.2. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dƣới dạng 1 bảng dữ liệu gồm p cột
tƣơng ứng với p thuộc tính và n hàng ứng với n đối tƣợng.
1.3. Hệ thông tin đầy đủ và mô hình tập thô truyền thống.
1.3.1. Hệ thông tin đầy đủ
Một cách hình thức, hệ thông tin đƣợc định nghĩa nhƣ sau:
Định nghĩa 1.1.[1] Hệ thông tin là một bộ tứ IS= (U, A, V, f) trong đó U là một tập
hữu hạn, khác rỗng các đối tƣợng, A là một tập hữu hạn, khác rỗng các thuộc tính,

Số hóa bởi Trung tâm Học liệu
Footer Page 11 of 126.

/>

4


Header Page 12 of 126.

V=

V

a

với Va là tập giá trị các thuộc tính a∈A; f: U x A

Va là hàm thông tin,

a A

mọi a∈A, u∈U f(u,a)∈Va.
Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tƣợng u là a(u) thay vì
f(u,a). Nếu B= {b1, b2, ...,bk}⊆A là một tập con các thuộc tính thì ta ký hiệu bộ các
giá trị bi(u) bởi B(u). Nhƣ vậy, nếu u và v là hai đối tƣợng, thì ta viết B(u)=B(v),
nếu bi(u)=bi(v) với mọi i= 1,...,k.
Cho hệ thông tin IS = (U, A, V, f), nếu tồn tại u∈U và a∈A sao cho a(u) thiếu
giá trị (missing value) thì IS đƣợc gọi là hệ thông tin không đầy đủ, trái lại IS đƣợc
gọi là hệ thông tin đầy đủ. Chúng ta tự hiểu hệ thông tin đầy đủ đƣợc gọi tắt là hệ
thông tin.
Xét hệ thông tin IS = (U, A, V, f). Mỗi tập con các thuộc tính P⊆A xác định
một quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi:
IND(P)={(u,v) ∈U x U/

a ∈P, a(u)=a(v)}.

IND(P) là quan hệ P – không phân biệt đƣợc. Dễ thấy rằng IND (P) là một

quan hệ tƣơng đƣơng trên U. Nếu (u,v)∈IND(P) thì hai đối tƣợng u và v không
phân biệt đƣợc bởi các thuộc tính trong P. Quan hệ tƣơng đƣơng IND(P) xác định
một phân hoạch U/P chứa đối tƣợng u là [u]p khi đó [u]p= {v∈U/(u,v)∈IND(P)}.
Định nghĩa 1.2.[12] Cho hệ thông tin IS=(U, A, V, f), và P, Q⊆A.
1) Phân hoạch U/P và phân hoạch U/Q là nhƣ nhau (viết U/P=U/Q), khi và
u ∈U, [u]P=[u]Q.

chỉ khi

Số hóa bởi Trung tâm Học liệu
Footer Page 12 of 126.

/>

5

Header Page 13 of 126.

2) Phân hoạch U/P mịn hơn phân hoạch U/Q (viết U/P≼U/Q), khi và chỉ khi
u ∈U, [u]P ⊆[u]Q.
Tính chất 1.1 [12] Xét hệ thông tin IS= ( U,A,V, f ) và P, Q⊆A.
1) Nếu P⊆Q thì U/Q≼U/P, mỗi lớp của U/P là một lớp hoặc hợp của một số
lớp thuộc U/Q.
2) Với mọi u ∈U ta có [u]P∪Q=[u]p ∩[u]Q.
1.3.2. Mô hình tập thô truyền thống
Cho hệ thông tin IS=(U, A, V, f), và tập đối tƣợng X⊆U. Với một tập thuộc tính
B⊆A cho trƣớc chúng ta có các lớp tƣơng đƣơng của phân hoạch U/B, thế thì một tập
đối tƣợng X có thể biểu diễn thông qua các lớp tƣơng đƣơng này nhƣ thế nào?
Để biểu diễn X thông qua các lớp tƣơng đƣơng của U/B (còn gọi là biểu diễn
X bằng tri thức có sẵn trong B), ngƣời ta xấp xỉ X bởi hợp của một số hữu hạn các

lớp tƣơng đƣơng của U/B. Có hai cách xấp xỉ tập đối tƣợng X thông qua tập thuộc
tính B, đƣợc gọi là B xấp xỉ dƣới và B xấp xỉ trên của X, ký hiệu lần lƣợt là BX và
BX đƣợc xác định nhƣ sau:
BX ={u ∈U /[u]B ⊆X }

BX ={u ∈U /[u]B ∩X ≠

}.

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B. Từ

hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BNB(X) = BX - BX : B miền biên của X, U- BX : B miền ngoài của X.

Số hóa bởi Trung tâm Học liệu
Footer Page 13 of 126.

/>

6

Header Page 14 of 126.

B miền biên của X là tập chứa các đối tƣợng có thể thuộc hoặc không thuộc
X, còn B miền ngoài của X chứa các đối tƣợng chắc chắn không thuộc X. Sử dụng
các lớp của phân hoạch U/B, các xấp xỉ dƣới và trên của X có thể viết lại
BX = ∪{Y ∈U / B / Y ⊆X }, BX = ∪{Y ∈U / B / Y ∩X ≠

}.


BNB(X) =
thì X đƣợc gọi là tập chính xác (exact set ), ngƣợc lại X đƣợc
gọi là tập thô (rough set).
Với B,D ⊆A, ta gọi B miền dƣơng của D là tập đƣợc xác định nhƣ sau:
POSB(D)=

( BX )


X U /D

Rõ ràng POSB(D) là tập tất cả các đối tƣợng u sao cho với mọi v∈U mà
u(B)=v(B) ta đều có u(D)=v(D). Nói cách khác, POSB(D)={u ∈U /[u]B ⊆ [u]D }.
Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân
Bảng 1.1. Bảng thông tin về bệnh cúm
U
u1
u2
u3
u4
u5
u6
u7
u8

Đau đầu




Không
Không
Không
Không
Không

Thân nhiệt
Bình thƣờng
Cao
Rất cao
Bình thƣờng
Cao
Rất cao
Cao
Rất cao

Cảm cúm
Không


Không
Không


Không

Ta có: U/{Đau đầu}={ {u1, u2, u3}, {u4, u5, u6, u7, u8}}
U/{Thân nhiệt}={{u1, u4}, {u2, u5, u7}, {u3, u6, u8}}
U/{Cảm cúm}={ {u1, u4, u5, u8}, {u2, u3, u6, u7, }}
U/{Đau đầu, Cảm cúm}={ {u1}, {u2, u3}, {u4, u5, u8}, {u6, u7}}


Số hóa bởi Trung tâm Học liệu
Footer Page 14 of 126.

/>

7

Header Page 15 of 126.

Nhƣ vậy, các bệnh nhân u2, u3 không phân biệt đƣợc về đau đầu và cảm cúm,
nhƣng phân biệt đƣợc về thân nhiệt.
Các lớp không phân biệt đƣợc bởi B={Đau đầu, Thân nhiệt} là:
{u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}.
Đặt X={u/u (Cảm cúm)=Có}={ u2, u3, u6, u7}. Khi đó:
BX ={ u2, u3}

BX ={ u2, u3, u5, u6, u7, u8}. Nhƣ vậy, B miền biên của X là tập hợp

BNB(X)={u5, u6, u7, u8}. Nếu đặt D={Cảm cúm} thì:

U/D ={X1= { u1, u4, u5, u8}; X2={ u2, u3, u6, u7}},
BX 1={ u1, u4}

BX 2 ={ u2, u3}

POSB (D)=




( BX )={ u1, u2, u3, u4}.

X U /D

1.3.3. Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện đƣợc phân thành 3 nhóm:
thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính
dƣ thừa (redundant attribute). Thuộc tính lõi là thuộc tính không thể thiếu trong
việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất hiện trong tất cả các tập rút
gọn của bảng quyết định. Thuộc tính dƣ thừa là những thuộc tính mà việc loại bỏ
chúng không ảnh hƣởng đến việc phân lớp tập dữ liệu, thuộc tính dƣ thừa không
xuất hiện trong bất kỳ rút gọn nào của bảng quyết định. Thuộc tính rút gọn là thuộc
tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định.
Định nghĩa 1.3. (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U,
C∪D, V,f). Thuộc tính c∈C đƣợc gọi là không cần thiết (dispensable) trong DS dựa

Số hóa bởi Trung tâm Học liệu
Footer Page 15 of 126.

/>

8

Header Page 16 of 126.

trên miền dƣơng nếu POSC(D)=POS(C-{c})(D). Ngƣợc lại, c đƣợc gọi là cần thiết
(indispensable). Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa
trên miền dƣơng và đƣợc ký hiệu là PCORE (C). Khi đó, thuộc tính cần thiết chính
là thuộc tính lõi.
Theo Định nghĩa 1.3 thuộc tính không cần thiết đƣợc gọi là thuộc tính dƣ thừa

hoặc thuộc tính rút gọn.
Định nghĩa 1.4 (Tập rút gọn dựa trên miền dương) Cho bảng quyết định DS=(U,
C∪D, V, f). Và tập thuộc tính R⊆C. Nếu:
1) POSR (D)=POSC (D)
2) Mọi r∈R, POSR-{r} (D)≠POSC (D)
Thì R là một tập rút gọn của C dựa trên miền dƣơng.
Tập rút gọn định nghĩa nhƣ trên còn gọi là tập rút gọn Pawlak. Ký hiệu
PRED(C) là họ tất cả các tập rút gọn Pawlak của C. Khi đó PCORE (C)
=



R.

R PRED ( C )

Định nghĩa 1.5. Cho bảng quyết định DS = (U, C∪D, V, f). Và a∈C. Ta nói rằng a
là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R.

Định nghĩa 1.6. Cho bảng quyết định DS = (U, C∪D, V, f). Và a∈C. Ta nói rằng a
là thuộc tính dƣ thừa của DS nếu a∈C-



R.

R PRED ( D )

Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2


Số hóa bởi Trung tâm Học liệu
Footer Page 16 of 126.

/>

9

Header Page 17 of 126.

Bảng 1.2. Bảng quyết định về bệnh cúm
Mệt mỏi







U
u1
u2
u3
u4
u5
u6

Đầu đầu




Không
Không
Không

Đau cơ




Không


Thân nhiệt
Bình thƣờng
Cao
Rất cao
Bình thƣờng
Cao
Rất cao

Cảm cúm
Không


Không
Không


Bảng này có hai tập rút gọn là R1={Đau cơ, Thân nhiệt}, R2={Đau đầu, thân
nhiệt}. Nhƣ vậy tập lõi là PCORE (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duy

nhất. Các thuộc tính không cần thiết bao gồm:
+Thuộc tính Mệt mỏi là thuộc tính dƣ thừa vì không tham gia vào rút gọn nào
+Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt
trong một tập rút gọn. Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng
dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh.
Tức là:
POS{Đau cơ, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
1.4. Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Trong phần này, em xin trình bày các khái niệm cơ bản về mô hình tập thô mở
rộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do Marzena
Kryszkiewicz [6] đề xuất.
1.4.1. Hệ thông tin không đầy đủ

Số hóa bởi Trung tâm Học liệu
Footer Page 17 of 126.

/>

Header Page 18 of 126.

10

Nhƣ đã trình bày ở trên hệ thông tin IS=(U, A, V, f), nếu tồn tại u∈U và a∈A
sao cho a(u) thiếu giá trị IS đƣợc gọi là hệ thông tin không đầy đủ. Ta biểu diễn giá
trị thiếu là „*‟ và hệ thông tin không đầy đủ là IIS= (U, A, V, f ).
Xét hệ thông tin không đầy đủ IIS = (U, A, V, f ). Với tập thuộc tính P⊆A ta
định nghĩa một quan hệ nhị phân trên U nhƣ sau:
SIM(P)={(u,v)∈U x U/ a∈P, a(u)= a(v) ∨a(u)=‟*‟∨a(v)=‟*‟}.
Quan hệ SIM(P) không phải là quan hệ tƣơng đƣơng vì chúng có tính phản xạ,

đối xứng nhƣng không có tính bắc cầu. SIM (P) là một quan hệ dung sai (tolerance
relation), hay quan hệ tƣơng tự (similarity relation) trên U. Theo [6], SIM
(P)=∩a∈PSIM({a}).

Gọi SP(u) là tập {v∈U/(u,v)∈SIM (P) }. SP(u) là tập lớn nhất các đối tƣợng
không có khả năng phân biệt đƣợc với u trên tập thuộc tính P, còn gọi là một lớp
dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ
SIM (P) trên U là U/ SIM (P), khi đó các lớp dung sai trong U/ SIM (P) không phải
là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau
và ∪u∈U SP(u)= U. Ký hiệu tập tất các phủ của U sinh bởi các tập con thuộc tính
P⊆A là COVER(U).
Trên COVER(U) ta định nghĩa một quan hệ thứ tự bộ phận (COVER(U),⋞)
nhƣ sau:
Định nghĩa 1.7.[9]Cho hệ thông tin không đầy đủ IIS=(U,A,V,f) với P, Q⊆A. Ta nói:

Số hóa bởi Trung tâm Học liệu
Footer Page 18 of 126.

/>

11

Header Page 19 of 126.

1) Phủ U/SIM(P) và phủ U/SIM(Q) là nhƣ nhau (viết U/SIM(P) = U/SIM(Q))
khi và chỉ khi

u∈U, SP(u)=SQ(u).

2) U/SIM(P) mịn hơn U/SIM(Q) (viết U/SIM(P)≼U/SIM(Q)) khi và chỉ khi

u∈U, SP(u)⊆SQ(u).
Trên (COVER(U),≼), phần tử nhỏ nhất gọi là phủ rời rạc ω={SA(u)/ SA(u )=
{u}, u∈U} và phần tử lớn nhất gọi là phủ một khối δ={SA(u)/ SA(u )= U, u∈U}.
Tính chất 1.2. [7] Cho hệ thông tin không đầy đủ IIS =(U, A, V, f)
1) Nếu P⊆Q⊆A thì SQ(u)⊆SP(u) với mọi u∈U.
2) Nếu P⊆Q⊆A thì U/SIM(Q)≼U/SIM(P).
3) Nếu P, Q ⊆A thì SP∪Q(u)= SP(u)∩SQ(u) với mọi u∈U.
Tƣơng tự hệ thông tin đầy đủ, các tập P- xấp xỉ dƣới và P- xấp xỉ trên của X trong
hệ thông tin không đầy đủ, ký hiệu lần lƣợt là P X và P X đƣợc xác định nhƣ sau:
P X = {u∈U/ SP(u) ⊆X}={u∈X/ SP(u) ⊆X}

P X= {u∈U/ SP(u) ∩X≠

}=∪{ SP(u)/u ∈U}

Với các tập xấp xỉ nêu trên, ta gọi P- miền biên của X là tập: BNP(X)= P X P X và P- Miền ngoài của X là tập: U- P X.

Ví dụ 1.3. Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ
IIS = {U, A, V, f}với U={u1, u2, u3, u4, u5, u6}, A={a1, a2, a3, a4} với a1 (Đơn giá),
a2 (KM đã đi), a3 (Kích thƣớc), a4 (Tốc độ tối đa).

Số hóa bởi Trung tâm Học liệu
Footer Page 19 of 126.

/>

12

Header Page 20 of 126.


Bảng 1.3. Bảng thông tin về các xe hơi
Ô tô
u1
u2
u3
u4
u5
u6

Đơn giá
Cao
Thấp
*
Cao
*
Thấp

Km đã đi
Cao
*
*
*
*
Cao

Kích thƣớc
Đầy đủ
Đầy đủ
Gọn nhẹ
Đầy đủ

Đầy đủ
Đầy đủ

Tốc độ tối đa
Thấp
Thấp
Cao
Cao
Cao
*

U/SIM(A)= {SA(u1), SA(u2), SA(u3), SA(u4), SA(u5), SA(u6)}, với
SA(u1)={u1}, SA(u2)={u2,u6}, SA(u3)={u3},SA(u4)={u4,u5},SA(u5)={u4, u5,u6},
SA(u6)={u2, u5,u6}.
Với P={a3,a4} ta có:
U/SIM(P)={SP(u1), SP(u2), SP(u3), SP(u4), SP(u5), SP(u6)}, với
SP(u1)=SP(u2)={u1,u2, u6}, SP(u3)={u3}, SP(u4)=SP(u5)={u4, u5,u6},
SP(u6)={u1, u2,u4, u5,u6}.
1.4.2. Bảng quyết định không đầy đủ
Nhƣ đã trình bày ở trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại
u∈U và c∈C sao cho c(u) thiếu gái trị thì DS đƣợc gọi là bảng quyết định không đầy
đủ. Ta biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là IDS=(U,
C∪D,V, f) với mọi d∈D, „*‟ Vd. Không mất tính chất tổng quát, giả thiết D chỉ
gồm một thuộc tính quyết định duy nhất {d} [6].
1.4.3. Tập rút gọn của bảng quyết định không đầy đủ

Số hóa bởi Trung tâm Học liệu
Footer Page 20 of 126.

/>


13

Header Page 21 of 126.

Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định
không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm
quyết định suy rộng của tất cả các đối tƣợng.
Định nghĩa 1.8. [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng
quyết định không đầy đủ IDS=(U. C∪D, V, f) và tập thuộc tính R⊆C. Nếu:

1)

R(u)=

C(u)

với mọi u∈U.

2) Với mọi R‟ R, tồn tại u∈U sao cho

R‟(u)≠

C(u)

Thì R đƣợc gọi là một tập rút gọn của C.Tập rút gọn định nghĩa nhƣ trên còn
gọi là tập rút gọn Kryszkiewic.
1.5. Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric
Các kết quả trong phần này đƣợc tìm hiểu trong tài liệu [3].
1.5.1. Metric trên họ các tri thức và các tính chất.

1.5.1.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn.
Định nghĩa 1.9. Cho tập U là tập hữu hạn các đối tƣợng và X, Y U. Biểu thức:

D(X,Y) = 1 -

X

Y

X

Y

đƣợc gọi là khoảng cách Jaccard ( Jaccacrd distance)

giữa X và Y và biểu thức: J (X,Y) =

X

Y

X

Y

đƣợc gọi là hệ số Jaccard. Hệ Số Jaccard

đo độ tƣơng tự giữa hai tập hợp X và Y. Hiển nhiên D(X, Y)+J(X,Y)=1.
Định lý 1.1. Cho U là tập hữu hạn các đối tƣợng và P(U) là tập các tập con của U.
Khoảng cách Jaccard là một metric trên P(U), nghĩa là mọi X,Y,Z P(U) thoả mãn

các điều kiện sau:

Số hóa bởi Trung tâm Học liệu
Footer Page 21 of 126.

/>

14

Header Page 22 of 126.

(P1) D(X,Y)

0, điều kiện D(X,Y) = 0 khi và chỉ khi X=Y.

(P2) D(X,Y) = D(Y,X).
(P3) D(X,Y) + D(Y,Z) D(X,Z).
*Trình bày chứng minh:
Hiển nhiên, D(X,Y) thoả mãn điều kiện (P1) và (P2). Để chứng minh điều kiện
(P3) ( bất đẳng thức tam giác), ta cần chứng minh bất đẳng thức sau:
J( X,Y)+J(Y,Z)

1+J(X,Z)

(1.1)

Giả sử U =N và U={u1, u2 ,...,un }. Ta biểu diễn tập X U bởi một véc tơ N chiều
V X = ( v1X , v2X ,..., vnX ) với vkX =1 nếu uk X và vkX =0 trong trƣờng hợp ngƣợc lại.

Đặt V XY = V X V Y , khi đó J(X,Y) đƣợc biểu diễn: J(X,Y) =

Nếu J(X,Y)

J(X,Z) hoặc J(Y,Z)

V XX

V XY
(1.2)
V YY V XY

J(X,Z) thì hiển nhiên (3.1) thoả mãn. Do

đó, ta cần chứng minh (3.1) đối với trƣờng hợp đồng thời J(X,Y) > J(X,Z) và J(Y,Z)
> J(X,Z). Từ (1.2) ta có:
V XY =

J ( X ,Y )
(V XX
1 J X ,Y

V YY )

(1.3)

Dễ thấy ( V Y V X ) và ( V Y V Z ) 0 hoặc V YY V YZ V XY V XY

0 thoả mãn

vì phần tử thứ k của ( V Y V X ) và ( V Y V Z ) là 0 và 1 kết hợp với (1.2) ta có:
V


YY

YY
XX
J (Y , Z )
J ( X ,Y )
J(X ,Z)
(V
V ZZ )
(V
V YY )
(V XX V ZZ ) 0
1 J (Y , Z )
1 J X ,Y
1 J X,Z

1

J ( X ,Y )
1 J X ,Y

J (Y , Z )
1 J Y,Z

J (Y , Z )
1 J Y,Z

J(X ,Z)
1 J X ,Z


V YY

J(X , Z)
1 J X,Z

V XX +

V ZZ (1.4)

Số hóa bởi Trung tâm Học liệu
Footer Page 22 of 126.

J ( X ,Y )
1 J X ,Y

/>

15

Header Page 23 of 126.

V XY , sử dụng (1.3) thu đƣợc V XX

Rõ dàng V XX
V XX

J X ,Y

XY


J ( X ,Y )
( V XX + V YY ) hay
1 J X ,Y

(1.5)

Từ giả thiết J(X,Y) - J(X,Z) > 0 ta có

J ( X ,Y )
J (X ,Z)
> 0.
1 J ( X ,Y ) 1 J ( X , Z )

Do đó từ (1.5)
J ( X ,Y )
J(X,Z)
V XX
1 J ( X ,Y ) 1 J ( X , Z )

J ( X ,Y )

J ( X ,Y )
J(X,Z)
V YY (1.6)
1 J ( X ,Y ) 1 J ( X , Z )

Tƣơng tự
J (Y , Z )
J(X ,Z)

V ZZ
1 J (Y , Z ) 1 J ( X , Z )

J (Y , Z )

J (Y , Z )
J(X ,Z)
V YY (1.7)
1 J (Y , Z ) 1 J ( X , Z )

Từ (1.4), (1.6), (1.7) ta có
1

J ( X ,Y )
J (Y , Z )
V YY
1 J ( X , Y ) 1 J (Y , Z )

J (Y , Z )

J ( X ,Y )

J ( X ,Y )
J(X ,Z)
V YY
1 J ( X ,Y ) 1 J ( X , Z )

J (Y , Z )
J(X,Z)
V YY

1 J (Y , Z ) 1 J ( X , Z )

(1.8)

Nếu V YY =0 thì hiển nhiên (3.1) thỏa mãn. Giả sử V YY

0 . Khi đó, (1.8) tƣơng

đƣơng với:
J ( X , Y ) J ( X , Y )2
1 J ( X ,Y )

1

J (Y , Z ) J (Y , Z ) 2
1 J (Y , Z )

J(X , Z)

J ( X , Y ) J (Y , Z )
1 J(X , Z)

J ( X , Y ) J (Y , Z ) 1 J ( X , Z ). Do đó, đẳng thức (1.1) đƣợc chứng minh.

1.5.1.2. Metric trên họ các tri thức
Cho hệ thông tin IS=(U,A,V,f), mỗi tập thuộc tính P
(knowledge) K(P)={[u i ] p ui

U} trên U. Ký hiệu họ tất cả các tri thức trên U là


Số hóa bởi Trung tâm Học liệu
Footer Page 23 of 126.

A xác định một tri thức

/>

16

Header Page 24 of 126.

(U). Dựa vào khoảng cách Jaccard giữa hai tập, định lý sau xây dựng một metric
trên

(U).

Định lý 1.2. Ánh xạ d:

(U) x

d j (K(P),K(Q)) = 1- 1
U

[0, ) xác định bởi:

(U)

ui
ui


U

i 1

ui
ui

p

p

Q

là một metric trên

(U)

Q

*Trình bày chứng minh:

(P1) d j (K(P),K(Q)) =1-

1
U

ui
ui

U


i 1

ui
ui

p

p

=

Q

1
U

U

1
i 1

Q

Áp dụng Định lý 1.1 với hai tập hợp [ui]p và [ui]Q với ui
ui

1

ui


khi ui
ui

P

p

ui

Q

P

ui

Q

ui

Q

Ui

p

Ui

Ui


p

Ui

Q

Q

U ta có

0. Do đó, dJ(K(P),K(Q)) 0. dJ(K(P),K(Q)) = 0 khi và chỉ

= ui

P

ui

Q

ui

P

ui

Q

ui


P

ui

Q

ui

P

ui

Q

với mọi

U , nghĩa là K(P) = K(Q).

(P2) Theo định nghĩa d J ( K ( P), K (Q)) d J ( K (Q), K ( P)) với mọi
K ( P), K (Q)

(U ).

(P3) Từ Định lý 1.1, d J ( K ( P), K (Q)) d J ( K (Q), K ( R)) d J ( K ( P), K ( R)) . Từ
(P1), (P2), (P3) kết luận d J ( K ( P ), K (Q )) là một metric trên (U ).

1.5.1.3. Một số tính chất của metric trên bảng quyết định
Với bảng quyết định DS=(U,C D,V , f ), Mệnh đề 1.1 sau đây xây dựng công
thức tính khoảng cách giữa hai tri thức K(C) và K(C D) dựa vào các phân hoạch
U/C và U/D.

Số hóa bởi Trung tâm Học liệu
Footer Page 24 of 126.

/>

17

Header Page 25 of 126.

Mệnh đề 1.1. Cho bảng quyết định DS=(U,C D,V , f ), giả sử U/C ={ C1 , C2 ,..., Cm }
và U/D={ D1 , D2 ,..., Dn }. Ta có:

d J ( K (C ), K (C

n

m

i 1

J 1

Di

D)) 1

2

CJ


.

U CJ

*Trình bày chứng minh:
Giả sử Di

n

m

ti và

sj

U . Ta có

ti

j 1

i 1

Di

CJ

Di

Cj


Di

Cj

ui 2

ui1

D

ui1

C

ui1

D

ui1

C

2

Di

=

Cj


ui 2

C j Di

Cj

C

uis j

=

Cj

j 1

n
i 1

j 1

Di

m

1
U

Cj

Cj

j 1

n
i 1

uik

sj

m

Cj

m
j 1

Di

uisj

D

= sj

C

uik


sj

C

=

uik

D

C

.
C

+

uik

D

uik

C

uik

ti

C


. Vì vậy

C

C

uik

D

C

=

uik

k 1

C

D

2

ti

n

uik


=
i 1

Cj
Cj

D

uik

k 1

uik

U
C

ui

=

ui

i 1

C

ui


D

C

C

2

= 1-

1
U

Số hóa bởi Trung tâm Học liệu
Footer Page 25 of 126.

C

uis j

D

uisj

k 1

uik

k 1


ui1

ui1

uís j

...

C

D

uis j

C

Di

ui1

...

C

ui 2

D

D


2

m

=

uis j

+….+

ui 2

D

ui 2

Cj

ui 2

D

ui 2

1-

C j = sj và Di = ti, khi đó

Cj ={ui1, ui2, .....uisj}với Di


U

i 1

ui
ui

C

ui

C D

C

ui

C D

= d j (K(C), K(C

D)).

/>

×