Một số phương pháp rút gọn thuộc tính trong bảng quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.55 MB, 78 trang )

ðẠI HỌC THÁI NGUYÊN
TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THÔNG

HOÀNG THỊ NGỌC MAI

MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ðỊNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Thái Nguyên - Năm 2013

ðẠI HỌC THÁI NGUYÊN
TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THÔNG

HOÀNG THỊ NGỌC MAI

MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ðỊNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ ðức Thi

Thái Nguyên - Năm 2013
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

MỤC LỤC

LỜI CẢM ƠN I
LỜI CAM ðOAN II
DANH MỤC CÁC THUẬT NGỮ III
BẢNG CÁC KÝ HIỆU IV
DANH SÁCH BẢNG VI
LỜI MỞ ðẦU 1
Chương 1. KHÁI QUÁT VỀ TẬP THÔ VÀ RÚT GỌN THUỘC TÍNH 5

1.1. Hệ thông tin 5
1.2. Tập thô 7
1.3. Bảng quyết ñịnh 9
1.4. Tập rút gọn và lõi 9
1.5. Ma trận phân biệt và hàm phân biệt 10
1.6. Mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính. 11
1.6.1. Entropy trong hệ thông tin và các tính chất. 12
1.6.2. Tập rút gọn dựa trên entropy thông tin 14
1.6.3. Mối liên hệ của tập rút gọn dựa trên Shannon entropy 15
1.6.4. Mối liên hệ của tập rút gọn dựa trên ñộ khác biệt giữa các tri thức 19
1.7. Sự thay ñổi các ñộ ño ñánh giá hiệu năng bảng quyết ñịnh khi rút gọn thuộc
tính. 22
1.7.1. Luật quyết ñịnh và các ñộ ño cổ ñiển 23
1.7.2. ðộ ño hiệu năng cải tiến của bảng quyết ñịnh 24
1.7.3. ðề xuất ñộ ño hiệu năng mới của bảng quyết ñịnh 25
1.7.4. Sự thay ñổi các ñộ ño khi thực hiện các phương pháp rút gọn thuộc tính 29
1.8. Kết luận Chương 1 31
Chương 2. MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG
QUYẾT ðỊNH. 32
2.1. Mở ñầu 32
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2.2. Thuật toán tìm tập rút gọn sử dụng Liang entropy 39
2.2.1. Tập rút gọn dựa trên Liang entropy với phân hoạch cải tiến 40
2.2.2. Thuật toán tìm tập rút gọn sử dụng Liang entropy 43
2.3. Thuật toán tìm tập rút gọn sử dụng metric 48
2.3.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn 49
2.3.2. Metric trên hệ thông tin 50
2.3.3. Tập rút gọn dựa trên metric 51

2.3.4. Thuật toán tìm tập rút gọn sử dụng metric 54
2.3.5. Thuật toán tìm tập rút gọn theo ngưỡng chắc chắn của bảng quyết ñịnh 59
2.4. Kết luận Chương 2 61
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 62
3.1. Bài toán 62
3.2. Phương pháp 62
3.3. Xây dựng chương trình thử nghiệm 63
3.4. Kết quả thử nghiệm 64
3.5. Kết luận chương 3 65
KẾT LUẬN 66
TÀI LIỆU THAM KHẢO 67

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
I

LỜI CẢM ƠN
Tôi xin chân thành cảm ơn ñến:
- Trường ðại học Công nghệ thông tin và Truyền thông, ðại học Thái
Nguyên
- Viện Công nghệ Thông tin và các thầy cô giáo ñã trực tiếp giảng dạy,
hướng dẫn tôi trong quá trình học tập và ñịnh hướng quan trọng trong việc
hình thành ý tưởng nghiên cứu.
Tôi xin chân thành cảm ơn Chi bộ, BGH, BCH Công ñoàn, Tổ Khoa
học tự nhiên và cán bộ giáo viên, nhân viên Trường THPT Bình ðộ ñã ñộng
viên, giúp ñỡ, tạo ñiều kiện thuận lợi cho tôi trong quá trình học tập và nghiên
cứu.
ðặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc ñến GS.TS Vũ ðức Thi,
người thầy ñã trực tiếp hướng dẫn và giúp ñỡ tôi hoàn thành luận văn tốt

nghiệp.
Cuối cùng xin chân thành cảm ơn những người thân và gia ñình ñã luôn
chia sẻ mọi khó khăn và là chỗ dựa vững chắc về vật chất, tinh thần ñể tôi
hoàn thành chương trình khóa học cũng như trong suốt thời gian hoàn thành
luận văn.
Mặc dù ñã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn
những hạn chế nhất ñịnh nên luận văn không tránh khỏi thiếu sót. Mong nhận
ñược các ý kiến phê bình, góp ý của Hội ñồng chấm luận văn, các thầy cô
giáo và ñồng nghiệp ñể công trình nghiên cứu ñược hoàn chỉnh hơn.
Thái Nguyên, tháng 01 năm 2013
Tác giả

Hoàng Thị Ngọc Mai
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
II

LỜI CAM ðOAN

Tôi xin cam ñoan luận văn này là công trình do tôi tổng hợp và nghiên cứu.
Trong luận văn có sử dụng một số tài liệu tham khảo như ñã nêu trong
phần tài liệu tham khảo.

Tác giả Luận văn

Hoàng Thị Ngọc Mai

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
III

DANH MỤC CÁC THUẬT NGỮ

Tập thô Rough Set
Hệ thông tin Information System
Hệ thông tin ñầy ñủ Complete Information System
Bảng quyết ñịnh Decision Table
Bảng quyết ñịnh ñầy ñủ Comple Decision Table
Bảng quyết ñịnh không nhất quán Inconsistent Decision Table
Quan hệ không phân biệt ñược Indiscernibility Relation
Rút gọn thuộc tính Attribute Reduction
Tập rút gọn Reduct
Tập lõi Core
Shannon entropy Entropy
Liang entropy Entropy mới của Jiye Liang trong [28]

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
IV

BẢNG CÁC KÝ HIỆU

(
)
, , ,
IS U A V f

=

Hệ thông tin
( , , , )
DS U C D V f
= ∪

Cho bảng quyết ñịnh
U

Số ñối tượng
C

Số thuộc tính ñiều kiện trong bảng quyết ñịnh
(
)
u a

Giá trị ñối tượng của
u
của thuộc tính
a

[
]
B
u

Lớp tương ñương chứa
u

của quan hệ
(
)
IND B

(
)
B
S u

Lớp dung sai của ñối tượng
u
trên quan hệ
(
)
SIM B

/
U B

Phân hoạch
U
sinh bởi tập thuộc tính
B

BX

B
- xấp xỉ dưới của
X

BX

B
- xấp xỉ trên của
X

(
)
B
BN X

B
- miền biên của
X

(
)
B
POS D

B
- miền dương của
D

(
)
PRED C

Tập tất cả các rút gọn dựa trên miền dương

(
)
HRED C

Tập tất cả các rút gọn dựa trên Shannon entropy
(
)
SRED C

Tập tất cả các rút gọn của phương pháp ma trận phân biệt

(
)
ERED C

Tập tất cả các rút gọn dựa trên Liang entropy
(
)
NERED C

Tập tất cả các rút gọn dựa trên Liang entropy với phân
hoạch cải tiến.
(
)
MRED C

Tập tất cả các rút gọn dựa trên metric
(
)
KRED C

Tập tất cả các rút gọn dựa trên ñộ ño lượng tri thức khác
nhau.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
V

(
)
P
CORE C

Tập lõi dựa trên miền dương
(
)
H
CORE C

Tập lõi dựa trên Shannon entropy
(
)
S
CORE C

Tập lõi của phương pháp ma trận phân biệt.
(
)
E
CORE C

Tập lõi dựa trên Liang entropy.
(
)
M
CORE C

Tập lõi dựa trên metric
(
)
K
CORE C

Tập lõi dựa trên ñộ ño lượng tri thức khác nhau.
(
)
H P

Shannon entropy của tập thuộc tính
P

(
)
\
H Q P

Shannon entropy có ñiều kiện của
Q
khi ñã biết
P

(
)
E P

Liang entropy của tập thuộc tính
P

(
)
\
E Q P

Liang entropy có ñiều kiện của
Q
khi ñã biết
P

(
)
K P

Tri thức sinh bởi tập thuộc tính
P

(
)
(
)
(
)

,
d K P K Q

Metric giữa hai tri thức
(
)
K P
và
(
)
K Q
trên hệ thông tin
ñầy ñủ sử dụng khoảng cách Jaccard giữa hai tập hợp.
(
)
(
)
(
)
,
DQP K P K Q

Lượng tri thức khác nhau giữa
(
)
K P
và
(
)
K Q

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
VI

DANH SÁCH BẢNG

Bảng 1.1. Bảng thông tin về bệnh cúm 6
Bảng 1.3. Bảng quyết ñịnh minh họa Ví dụ 1.3 18
Bảng 1.4. Bảng quyết ñịnh minh họa Ví dụ 1.4 46
Bảng 2.1. Bảng quyết ñịnh minh họa Ví dụ 2.1. 46
Bảng 2.2. Bảng quyết ñịnh về bệnh cảm cúm 53
Bảng 2.3. Bảng quyết ñịnh minh họa Ví dụ 2.5 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1

LỜI MỞ ðẦU

1. Tính cấp thiết của ñề tài
Hiện nay, trên thế giới có rất nhiều thuật toán khai phá tri thức bằng
cách phân lớp và rời rạc dữ liệu như: Sử dụng cây quyết ñịnh, phương pháp
thống kê, các mạng nơ ron, thuật toán di truyền, Trong một vài năm gần ñây,
lý thuyết tâp thô ñược nhiều nhóm nghiên cứu hoạt ñộng trong lĩnh vực tin
học nói chung và khai phá tri thức nói riêng nghiên cứu và áp dụng trong thực
tế. Lý thuyết tập thô ñược xây dựng trên nền tảng toán học vững chắc giúp
cung cấp những công cụ hữu ích ñể giải quyết những bài toán phân lớp dữ
liệu và khai phá luật, Lý thuyết tập thô do Zdzisaw Pawlak ñề xuất vào

những năm ñầu thập niên tám mươi của thế kỉ hai mươi - ñược xem là công
cụ hữu hiệu ñể giải quyết các bài toán phân lớp, phát hiện luật… chứa dữ liệu
mơ hồ, không chắc chắn. Từ khi xuất hiện, lý thuyết tập thô ñã ñược sử dụng
hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức,
bao gồm rời rạc hóa dữ liệu, rút gọn thuộc tính, trích lọc các tri thức tiềm ẩn
trong dữ liệu dưới dạng các mẫu, các luật quyết ñịnh.
Trong lý thuyết tập thô, dữ liệu ñược biểu diễn thông qua một hệ thống
thông tin
(
)
,
IS U A
=
với
U
là tập các ñối tượng và
A
là tập các thuộc tính.
Mỗi tập thuộc tính
B A
⊆
xác ñịnh một quan hệ tương ñương
(
)
IND B
trên
U

còn gọi là quan hệ không phân biệt ñược.
Rút gọn thuộc tính là bài toán quan trọng nhất trong lý thuyết tập thô. Mục

tiêu của bài toán rút gọn thuộc tính trong bảng quyết ñịnh là loại bỏ (tối ña)
các thuộc tính dư thừa mà phần thuộc tính còn lại cũng chứa ñầy ñủ thông tin
của bảng. Dựa vào tập thuộc tính rút gọn thu ñược, việc sinh luật và phân lớp
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2

ñạt hiệu quả cao nhất. ðối với một bảng quyết ñịnh có thể có nhiều tập rút
gọn khác nhau. Tuy nhiên, trong thực tế thường không ñòi hỏi tìm tất cả các
tập rút gọn mà chỉ cần tìm ñược một tập rút gọn “tốt nhất” theo một tiêu
chuẩn ñánh giá nào ñó là ñủ. Vì vậy, phần lớn các phương pháp rút gọn thuộc
tính ñều ñề xuất các thuật toán heuristic tìm tập rút gọn theo một tiêu chuẩn
tối ưu ñặt ra.
Trong mấy năm gần ñây chứng kiến sự phát triển mạnh mẽ và sôi ñộng
của các nghiên cứu về rút gọn thuộc tính. Phần lớn các nghiên cứu này ñều
tập trung vào ba phương pháp: phương pháp dựa trên miền dương; phương
pháp sử dụng các ñộ ño không chắc chắn và phương pháp sử dụng ma trận
phân biệt.
Lĩnh vực nghiên cứu ñộ ño không chắc chắn của tri thức trong mấy năm
gần ñây tập trung vào hai hướng tiếp cận chính là entropy thông tin và hạt tri
thức.
Một lớp ñặc biệt của các hệ thông tin ñóng vai trò quan trọng trong nhiều
ứng dụng là bảng quyết ñịnh. Bảng quyết ñịnh
DS
là một hệ thống thông tin
với tập thuộc tính
A
ñược chia thành hai tập con khác rỗng rời nhau
C
và

D
.
Nói cách khác,
(
)
,
DS U C D
= ∪
với
C D
∩ = ∅
. Bảng quyết ñịnh là nhất quán
khi phụ thuộc hàm
C D
→

là ñúng. ðối với bảng quyết ñịnh nhất quán, tập
con các thuộc tính ñiều kiện
R C
⊆
ñược gọi là một tập rút gọn của bảng quyết
ñịnh nếu
R
là tập tối thiểu thỏa mãn phụ thuộc hàm
R D
→
. Nếu xem bảng
quyết ñịnh là quan hệ
r
trên tập thuộc tính

C D
∪
và
D
chỉ chứa một thuộc
tính duy nhất
{
}
d
thì khái niệm tập rút gọn trong bảng quyết ñịnh tương
ñương với khái niệm tập tối thiểu của thuộc tính
{
}
d

trên quan hệ. Khi ñó, các
bài toán liên quan ñến tập rút gọn trong bảng quyết ñịnh có thể giải quyết
bằng các kết quả liên quan ñến tập tối thiểu của một thuộc tính trên quan hệ
trong lý thuyết cơ sở dữ liệu quan hệ.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3

Xuất phát từ những lý do trên, tôi chọn và nghiên cứu ñề tài luận văn:
“Một số phương pháp rút gọn thuộc tính trong bảng quyết ñịnh”.
2. Mục tiêu của luận văn
Mục tiêu của luận văn là tìm hiểu một số vấn ñề liên quan ñến phương
pháp rút gọn thuộc tính trong hệ thông tin và xây dựng chương trình thử
nghiệm một số thuật toán liên quan ñến tập rút gọn trong bảng quyết ñịnh.
3. Các ñóng góp của luận văn

Luận văn ñã có hai ñóng góp chính sau:
Thứ nhất là nghiên cứu mối liên hệ giữa các tập rút gọn của các phương
pháp rút gọn thuộc tính, tìm hiểu các ñộ ño cải tiến ñánh giá hiệu năng bảng
quyết ñịnh và nghiên cứu sự thay ñổi của các ñộ ño này khi thực hiện các
phương pháp rút gọn thuộc tính.
Thứ hai là xây dựng toán heuristic tìm tập rút gọn của bảng quyết ñịnh
ñầy ñủ sử dụng Liang entropy và metric.
4. Bố cục luận văn
Luận văn ñược viết trong ba chương, gồm 66 trang
Chương một khái quát về tập thô và rút gọn thuộc tính.
Chương hai trình bày kết quả nghiên cứu về ba vấn ñề. Thứ nhất nghiên
cứu mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính,
bao gồm phương pháp dựa trên miền dương, phương pháp sử dụng các ñộ ño
không chắc chắn (entropy thông tin, hạt tri thức) và phương pháp sử dụng ma
trận phân biệt. Thứ hai là tìm hiểu các ñộ ño cải tiến ñánh gia hiệu năng của
bảng quyết ñịnh và nghiên cứu sự thay ñổi của các ñộ ño này khi thực hiện
các phương pháp rút gọn thuộc tính. Thứ ba là ñề xây dựng chương trình thử
nghiệm thuật toán heuristic (Thuật toán 2.2, Thuật toán 2.4 và Thuật toán
2.5). Thuật toán 2.5 tìm tập rút gọn Pawlak sử dụng Liang entropy, Thuật toán
2.4 tìm tập rút gọn trong bảng quyết ñịnh sử dụng metric, Thuật toán 2.5 là
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4

cải tiến của Thuật toán 2.4 tìm tập rút gọn theo tham số là ngưỡng chắc chắn
của bảng quyết ñịnh. Các thuật toán trên ñều có ñộ phức tạp tính toán trong
thời gian ña thức và hiệu quả hơn các thuật toán khác ñã công bố.
Chương 3 Chương trình thử nghiệm xây dựng bảng quyết ñịnh dựa trên
Thuật toán 2.4 tìm tập rút gọn sử dụng metric ñã trình bày trong Chương 2.
Kết quả thử nghiệm của chương trình thực hiện trên công cụ mã nguồn mở

NetBeans IDE 7.1.2
Cuối cùng, phần kết luận nêu những ñóng góp của luận văn, hướng
phát triển và những vấn ñề quan tâm của tác giả.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5

Chương 1. KHÁI QUÁT VỀ TẬP THÔ VÀ RÚT GỌN THUỘC TÍNH

1.1. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu
gồm
P
cột ứng với
P
thuộc tính và
n
hàng ứng với
n

ñối tượng. Một cách
hình thức, nó ñược ñịnh nghĩa như sau:
ðịnh nghĩa 1.1. Hệ thống thông tin là một bộ tứ
(
)
, , ,
IS U A V f
=
trong ñó
U

là
tập hữu hạn, khác rỗng các ñối tượng;
A
là tập hữu hạn, khác rỗng các thuộc
tính;
a
a A
V V
∈
=
∏
với
a
V
là tập giá trị của thuộc tính
a A
∈
;
f
là hàm thông tin,
với mọi
a A
∈
và
u U
∈
hàm
f
cho giá trị
(

)
,
a
f u a V
∈
.
Với mỗi
u U
∈
,
a A
∈
, ta kí hiệu giá trị của ñối tượng
u
tại thuộc tính
a

là
(
)
u a
thay vì
(
)
,
f u a
. Nếu
{
}
1 2

, , ,
k
B b b b A
= ⊆
là một tập con các thuộc tính
thì ta sẽ ký hiệu bộ các giá trị
(
)
i
u b
bởi
(
)
u B
. Như vậy, nếu
u
và
v
là hai ñối
tượng, thì ta sẽ viết
(
)
(
)
u B v B
=
nếu
(
)
(

)
i i
u b v b
=
với mọi
1, ,
i k
=
.
Cho hệ thông tin
(
)
, , ,
IS U A V f
=
. Với mỗi tập con các thuộc tính
p A
⊆
,
tồn tại một quan hệ hai ngôi trên
U
, ký hiệu là
(
)
IND P
, xác ñịnh bởi
(
)
(
)

(
)
(
)
{
}
, | , , ,
IND P u v U U a P f u a f v a
= ∈ × ∀ ∈ =
.
(
)
IND P
ñược gọi là quan hệ
B
- không phân biệt ñược. Dễ thấy rằng ñây là
một quan hệ tương ñương trên
U
. Nếu
(
)
(
)
,
v u IND B
∈
thì hai ñối tượng
u
và
v

không phân biệt bởi các thuộc tính trong
B
. Ký hiệu phân hoạch của
U

sinh bởi quan hệ tương ñương
(
)
IND P
là
(
)
/
U IND P
, viết tắt là
/
U P
. Mỗi
phần tử trong
/
U P
là một lớp tương ñương hay một khối. Ký hiệu lớp tương
ñương
/
U P
chứa ñối tượng
u
là
[
]

P
u
, khi ñó,
[
]
(
)
(
)
{
}
| ,
P
u v U u v IND P
= ∈ ∈
.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6

ðịnh nghĩa 1.2. [11, 12] Cho hệ thống thông tin
(
)
, , ,
IS U A V f
=
với
,
P Q A
⊆

.
Ta nói:
1)
/ /
U P U Q
=
khi và chỉ khi
[
]
[
]
,
P Q
u U u u
∀ ∈ =

2)
/ /
U P U Q
≤
khi và chỉ khi
[
]
[
]
,
P Q
u U u u
∀ ∈ ⊆
;

3)
/ /
U P U Q
<
khi và chỉ khi
[
]
[
]
,
P Q
u U u u
∀ ∈ ⊆
và tồn tại
v
sao cho
[
]
[
]
P Q
v v
⊆

Tính chất 1.1. [11, 12] Xét hệ thống thông tin
(
)
, , ,
S U A V f
=

và
,
P Q A
⊆
.
Nếu
P Q
⊆
thì
/ /
U Q U P
≤
.
Tính chất 1.2. [11, 12] Xét hệ thông tin IS = (U, A, V, ƒ) và
,
P Q A
⊆
. Với mọi
u U
∈
ta có
[
]
[
]
[
]
P Q P Q
u u u
∪

= ∩
.

Ví dụ 1.1. Xét hệ thông tin
(
)
, , ,
IS U A V f
=
biểu diễn các triệu chứng cúm của
bệnh nhân cho ở Bảng 1.1 với
(
)
1 2 3 4 5 6 7 8
, , , , , , ,
U u u u u u u u u
=
,
(
)
1 2 3
, ,
C a a a
=
với
1
a

(ðau ñầu),
2

a
(Thân nhiệt),
3
a
(Cảm cúm).
U

ðau ñầu Thân nhiệt Cảm cúm
1
u

Có Bình thường Không
2
u

Có Cao Có
3
u

Có Rất cao Có
4
u

Không Bình thường Không
5
u

Không Cao Không
6
u

Không Rất cao Có
7
u

Không Cao Có
8
u

Không Rất cao Không
Bảng 1.1. Bảng thông tin về bệnh cúm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7

Ta có
{
}
{
}
{
}
{
}
1 1 2 3 4 5 6 7 8
/ , , , , , , ,
U a u u u u u u u u
=
,

{
}
{
}
{
}
{
}
{
}
2 1 4 2 5 7 3 6 8
/ , , , , , , ,
U a u u u u u u u u
=
,

{
}
{
}
{
}
{
}
3 1 4 5 8 2 3 6 7
/ , , , , , ,
U a u u u u u u u u
=
,

{
}
{
}
{
}
{
}
{
}
{
}
{
}
{
}
1 2 1 2 3 4 5 7 6 8
/ , , , , , , ,
U a a u u u u u u u u
=

Như vậy, các bệnh nhân
2 3
,
u u
không phân biệt nhau về ñau ñầu
(
)
1

a
và
cảm cúm
(
)
3
a
, nhưng phân biệt ñược về thân nhiệt
(
)
2
a
.
1.2. Tập thô
Cho hệ thông tin
(
)
, , ,
IS U A V f
=
và tập ñối tượng
X U
⊆
. Với một tập
thuộc tính
B A
⊆
cho trước, chúng ta có các lớp tương ñương của phân hoạch
/
U B

, thế thì một tập ñối tượng
X
có thể biểu diễn thông qua các lớp tương
ñương này như thế nào?
Trong lý thuyết tập thô, ñể biểu diễn
X
thông qua các lớp tương ñương
của
/
U B
(còn gọi là biểu diễn
X
bằng tri thức sẵn có
B
), người ta xấp xỉ
X

bởi hợp của một số hữu hạn các lớp tương ñương của
/
U B
. Có hai cách xấp
xỉ tập ñối tượng
X
thông qua thuộc tính
B
, ñược gọi là
B
-xấp xỉ dưới và
B
-

xấp xỉ trên của
X
, ký hiệu lần lượt là
BX
và
BX
ñược xác ñịnh như sau:
[
]
{
}
|
B
BX u U u X
= ∈ ⊆
,
[
]
{
}
|
B
BX u U u X
= ∈ ∩ ≠ ∅
.
Tập
BX
bao gồm tất cả các phần tử của
U
chắc chắn thuộc vào

X
, còn
tập
BX
bao gồm các phần tử của
U
có khả năng ñược phân loại vào
X
dựa
vào tập thuộc tính
B
. Từ hai tập xấp xỉ nêu trên, ta ñịnh nghĩa các tập
(
)
B
BN X BX BX
= −
:
B
- miền biên của
X
.
U BX
−
:
B
-miền ngoài của
X

Dễ thấy

B
- miền biên của
X
là tập chứa các ñối tượng có thể thuộc
X
,
còn miền
B
- miền ngoài của
X
chứa các ñối tượng chắc chắn không thuộc
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8

X
. Sử dụng các lớp của phân hoạch
/
U B
, các xấp xỉ dưới và trên của
X
có
thể viết lại.
{
}
/ |
BX Y U B Y X
= ∈ ⊆
U
.

{
}
/ |
BX Y U B Y X
= ∈ ∩ = ∅
U
.
Trong trường hợp
(
)
B
BN X
= ∅
,
X
ñược gọi là tập rõ, ngược lại
X
ñược
gọi là tập thô.
Với
,
B D A
⊆
, ta gọi
B
- miền dương của
D
là tập ñược xác ñịnh như sau
(
)

/
B
X U D
POS D BX
∈
=
U

Rõ ràng
(
)
B
POS D
là tập tất cả ñối tượng
u
sao cho với mọi
v U
∈
mà
(
)
(
)
u B v B
=
ta ñều có
(
)
(
)

u D v D
=
. Nói cách khác,
(
)
[
]
[
]
{
}
|
B
B D
POS D u U u u
= ∈ ⊆
.
Ví dụ 1.2. Xét hệ thông tin
(
)
, , ,
IS U A V f
=
ở Ví dụ 1.1. Với
{
}
1 2
,
B a a
=

và
{
}
2 3 6 7
, , ,
X u u u u
=
ta có
{
}
{
}
{
}
{
}
{
}
{
}
{
}
1 2 3 4 5 7 6 8
/ , , , , , , ,
U B u u u u u u u u
=
. Do ñó,
{
}
2 3

,
BX u u
=
và
{
}
2 3 5 6 7 8
, , , , ,
BX u u u u u u
=
. Như vậy,
B
-miền biên của
X
là tập
hợp
{
}
5 6 7 8
( ) , , ,
B
BN X u u u u
=
.
Nếu ñặt
{
}
3
D a
=

thì
{
}
{
}
{
}
1 1 4 5 8 2 2 3 6 7
/ , , , , , , ,
U D X u u u u X u u u u
= = =
.
{
}
{
}
1 1 4 2 2 3
, , ,
BX u u BX u u
= =
. Do ñó,
{
}
1 2 3 4
/
OS ( ) ( ) , , ,
B
X U D
P D BX u u u u

∈
= =
U
.
Với các khái niệm của tập xấp xỉ ñối với phân hoạch
/
U B
, các tập thô
ñược chia thành bốn loại như sau:
1) Tập
X
là
B
- xác ñịnh thô nếu
BX
≠ ∅
và
BX U
≠

2) Tập
X
là
B
- không xác ñịnh trong nếu
BX
= ∅
và
BX U
≠

3) Tập
X
là
B
- không xác ñịnh ngoài nếu
BX
≠ ∅
và
BX U
=

4) Tập
X
là
B
- không xác ñịnh hoàn toàn nếu
BX
≠ ∅
và
BX U
=
.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9

1.3. Bảng quyết ñịnh
Một lớp ñặc biệt của các hệ thống thông tin có vai trò quan trọng trong

nhiều ứng dụng là bảng quyết ñịnh.
Bảng quyết ñịnh là một dạng ñặc biệt của hệ thông tin, trong ñó tập các
thuộc tính A bao gồm hai tập con rời nhau: tập các thuộc tính ñiều kiện
C
và
tập các thuộc tính quyết ñịnh
D
. Như vậy, bảng quyết ñịnh là một hệ thống
thông tin
( , , , )
DS U C D V f
= ∪
trong ñó
C D
∩ = ∅
.
Bảng quyết ñịnh
DS
ñược gọi là nhất quán khi và chỉ khi phụ thuộc
hàm
C D
→
nghiệm ñúng, nghĩa là với mọi
, , ( ) ( )
u v U u C v C
∈ =
kéo theo
( ) ( )
u D v D
=

. Ngược lại,
DS
là không nhất quán. Dễ thấy bảng quyết ñịnh
DS

là nhất quán khi và chỉ khi
( )
C
POS D U
=
. Trong trường hợp bảng không nhất
quán thì
( )
C
POS D

chính là tập con cực ñại của
U
sao cho phụ thuộc hàm
C D
→
ñúng.
1.4. Tập rút gọn và lõi
Trong bảng quyết ñịnh, các thuộc tính ñiều kiện ñược chia thành ba
nhóm: thuộc tính lõi, thuộc tính cơ bản (hay thuộc tính rút gọn) và thuộc tính
dư thừa (hay thuộc tính không cần thiết).
- Thuộc tính lõi là thuộc tính cần thiết và cốt yếu, không thể thiếu trong
việc phân lớp chính xác tập dữ liệu.
- Thuộc tính dư thừa là những thuộc tính không cần thiết, nghĩa là có
thể loại bỏ các thuộc tính như vậy mà không ảnh hưởng ñến việc phân lớp dữ

liệu.
- Thuộc tính cơ bản là thuộc tính nằm trong một tập rút gọn nào ñó.
Ta sẽ ñưa ra các ñịnh nghĩa chính xác như sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10

ðịnh nghĩa 1.3. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
, thuộc tính
a C
∈

ñược gọi là cần thiết nếu
{ }
( )
( ) OS ( )
C
C a
POS D P D
−
≠
. Tập tất cả các thuộc tính cần
thiết trong
DS
ñược gọi là tập lõi và kí hiệu là
( )
P

CORE C
.
ðịnh nghĩa 1.4. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
. Nếu
R C
⊆
thỏa
mãn:
1)
( ) ( )
R C
POS D POS D
=

2)
'
( ) ( )
C
R
POS D POS D
≠
với
'
R R
∀ ⊂

thì

R
là một rút gọn của
C

Tập rút gọn ñịnh nghĩa như trên gọi là một tập rút gọn dựa trên miền
dương theo Pawlak. ðịnh nghĩa 1.4 cho thấy,
R
là tập rút gọn nếu nó là tập
tối thiểu thỏa mãn
( ) ( )
R C
POS D POS D
=
. Có thể tồn tại nhiều tập rút gọn của
C
.
Ta kí hiệu
(
)
P
PRED C
là tập tất cả các rút gọn theo Pawlak của
C
. Khi ñó,
( )
( )
P
R PRED C
CORE C R
∈

=
I
.
Từ ñịnh nghĩa về tập lõi và tập rút gọn, ta ñịnh nghĩa thuộc tính dư thừa
và thuộc tính cơ bản trong bảng quyết ñịnh như sau:
ðịnh nghĩa 1.5. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
và
a C
∈
. Ta nói
rằng
a
là thuộc tính cơ bản của
C
nếu tồn tại một rút gọn
( )
R PRED C
∈
sao cho
a R
∈
.
ðịnh nghĩa 1.6. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
và

a C
∈
. Ta nói
rằng
a
là thuộc tính dư thừa của
C
nếu
( )R PRED C
a C R
∈
∈ −
U
.
1.5. Ma trận phân biệt và hàm phân biệt
Người ñầu tiên xây dựng phương pháp rút gọn thuộc tính trong bảng
quyết ñịnh là Skowron. Ông ñã ñưa ra khái niệm ma trận phân biệt và hàm
phân biệt, từ ñó ñưa ra phương pháp tìm tập rút gọn sử dụng hàm phân biệt.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11

ðịnh nghĩa 1.7. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
, ma trận phân biệt
của DS là ma trận
(
)

ij
M m
=
cấp
n n
×
, trong ñó mỗi phần tử
ij
m
là một tập con
các thuộc tính ñiều kiện, xác ñịnh như sau:
( )
(
)
{
}
( ) ( )
( ) ( )
, , ,

k k i k j k i j
ij
i j
c c C f u c f u c if u D u D
m
if u D u D

∈ ≠ ≠

=


∅ =



ðịnh nghĩa 1.8. [6] Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
,
(
)
ij
M m
=
là ma
trận phân biệt của
DS
và tập thuộc tính
B C
⊆
. Nếu
b B
∈
thỏa mãn
{
}
(
)
ij

B b m
− ∩ ≠ ∅
với mọi
ij
m
≠ ∅
thì
b
ñược gọi là thuộc tính dư thừa trong
B
,
trái lại
b
ñược gọi là không dư thừa (cần thiết) trong
B
. Tập tất cả các thuộc
tính không dư thừa (cần thiết) trong
C
ñược gọi là tập lõi và ký hiệu là
(
)
S
CORE C
.
ðịnh nghĩa 1.9. [7, 18] Cho bảng quyết ñịnh
{
}
( , , , )
DS U C d V f
= ∪

,
(
)
ij
M m
=

là ma trận phân biệt của
DS
. Nếu
R C
⊆
thỏa mãn
1)
ij
B m
∩ ≠ ∅
với mọi
ij
m
≠ ∅

2) Với mọi
{
}
,
b B B b
∈ −
không thỏa mãn (1)
thì

B
ñược gọi là một rút gọn của
C
.
Ký hiệu
(
)
SRED C
là tập tất cả các rút gọn của
C
theo phương pháp ma
trận phân biệt. Ta có:
(
)
( )
S
R SRED C
CORE C R
∈
=
I
.
1.6. Mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc
tính.
Phần này trình bày kết quả nghiên cứu về mối liên hệ giữa tập rút gọn
sử dụng các ñộ ño tính không chắc chắn (Shannon entropy và ñộ ño sự khác
nhau giữa các tri thức) với tập rút gọn dựa trên miền dương và sử dụng ma
trận phân biệt.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12

1.6.1. Entropy trong hệ thông tin và các tính chất.
Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
và
,
P Q C
⊆
. Giả sử
{
}
{
}
1 2 1 2
/ , , , , / , , ,
p q
U P X X X U Q Y Y Y
= =
,
{
}
1 2
/ , , ,
m
U C C C C
=
và

{
}
1 2
/ , , ,
n
U D D D D
=

1.6.1.1. Shannon entropy trong hệ thông tin và các tính chất
ðịnh nghĩa 1.10. Shannon entropy của tập thuộc tính
P
ñược ñịnh nghĩa bởi:
( ) ( ) ( )
2
1
log
p
i i
i
H P p X p X
=
= −
∑
với
( )
| |
,| |
| |
i
i

X
p X X
U
=
biểu diễn lực lượng của tập
X
và giả thiết
2
0.log 0 0
=

Nếu
/
U P U
=
thì
(
)
H P
ñạt giá trị nhỏ nhất là 0, còn nếu
{
}
i i
X u
=
với
,
i
u U
∈

1, ,
i U
=
thì
(
)
H P
ñạt giá trị lớn nhất
2
log | |
U
. Vì vậy ta có
2
0 ( ) log | |
H P U
≤ ≤
.
Mệnh ñề 1.1. [16, 17] (Tính ñơn ñiệu) Nếu
P Q
≤
thì
(
)
(
)
H P H Q
≥

ðịnh nghĩa 1.11. Shannon entropy có ñiều kiện của

D
khi ñã biết
C
ñược
ñịnh nghĩa
( ) ( )
( ) ( )
2
1 1
| | log |
m n
i j i j i
i j
H D C p C p D C p D C
= =
= −
∑ ∑
với
( )
|
i j
j i
i
C D
p D C
C
=
I
.
Trong công thức tính

(
)
|
H D C
nếu
i j
C D
⊆
ta luôn có
(
)
| 1
j i
p D C
=
. Vì
vậy, nếu bảng quyết ñịnh là nhất quán, ta luôn có
(
)
| 0
H D C
=
, trái lại
(
)
| 0
H D C
>
. Do ñó, entropy có ñiều kiện
(

)
|
H D C
là một trong những ñộ ño
không chắc chắn trong bảng quy ñịnh.
Mệnh ñề 1.2. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
. Nếu
Q P C
⊆ ⊆
thì
(
)
(
)
| |
H D Q H D P
≥
. Dấu ñẳng thức xảy ra khi
, / ,
i j i j
X X U P X X
∀ ∈ ≠
, nếu
(
)
/
i j t

X X Y U Q
∪ ⊆ ∈
thì
j k
i k
i j
X D
X D
X X
∩
∩
=
với mọi
1, , .
k n
=

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13

Mệnh ñề 1.2 cho thấy tập thuộc tính ñiều kiện càng ít (phân hoạch sinh
bởi tập thuộc tính càng thô) thì Entropy có ñiều kiện của
D
ñối lập với tập
thuộc tính ñó càng lớn, nghĩa là các ñối tượng không nhất quán càng nhiều.
1.6.1.2. Liang Entropy trong hệ thông tin và các tính chất
ðể cải tiến công thức tính toán Shannon entropy, Jiye Liang và các
cộng sự [9] ñề xuất ñộ ño entropy mới, gọi là Liang entropy.
ðịnh nghĩa 1.12. Liang Entropy của tập thuộc tính

P
ñược ñịnh nghĩa bởi:
( )
1 1
1
c
p p
i
i i i
i i
X
X X X
E P
U U U U
= =
 
= = −
 
 
 
∑ ∑

với
c
i
X
là phần bù của
i
X
trong

U
,
c
i i
X U X
= −
. Nếu
/
U P U
=
thì
(
)
E P
ñạt giá
trị nhỏ nhất là 0, còn nếu
{
}
i i
X u
=
với
, 1, ,
i
u U i U
∈ =
thì
(
)
E P

ñạt giá trị lớn
nhất là
1 1/
U
−
. Vì vậy ta có
(
)
0 1 1/
E P U
≤ ≤ −
.
ðịnh nghĩa 1.13. Liang Entropy có ñiều kiện của
D
khi ñã biết
C
ñược ñịnh
nghĩa bởi:
1 1 1 1
| | | | | | | |
( | )
| | | | | | | |
c
m n m n
i j i j i j i i j
i j i j
C D C D C D C C D
E D C
U U U U
= = = =

∩ ∩ ∩ − ∩
= =
∑ ∑ ∑ ∑

Giống như Shannon entropy có ñiều kiện, các tác giả ñã chứng minh
tính phản ñơn ñiệu của Liang entropy có ñiều kiện.
Mệnh ñề 1.3. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
. Nếu
Q P C
⊆ ⊆
thì
( | ) ( | )
E D Q E D P
≥
. Dấu ñẳng thức xảy ra khi
, | ,
i j i j
X X U P X X
∀ ∀ ∈ ≠
, nếu
( ) /
i j t
X X Y U Q
∪ ⊆ ∈
thì
| || | 0
c

k i k j
D X D X
∩ ∩ =
và
| || | 0
c
k j k i
D X D X
∩ ∩ =
với mọi
1,2, ,
k n
=
.
Chú ý: ñiều kiện bằng nhau
( | ) ( | )
E D Q E D P
=
của Mệnh ñề 2.3 tương
ñương với
i
X
và
j
X
ñều thuộc một khối
/
k
D U D
∈

.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14

1.6.2. Tập rút gọn dựa trên entropy thông tin
1.6.2.1. Tập rút gọn dựa trên Shannon entropy
ðịnh nghĩa 1.14. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
, thuộc tính
a C
∈

gọi là cần thiết nếu
{
}
( | ) ( | )
H D C H D C a
≠ −
, trái lại thuộc tính
a
gọi là không
cần thiết (dư thừa). Tập tất cả các thuộc tính cần thiết trong
DS
ñược gọi là
tập lõi và ký hiệu là
( )
H

CORE C
.
ðịnh nghĩa 1.15. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
. Nếu
R C
⊆
thỏa
mãn:
1)
( | ) ( | )
H D R H D C
=

2)
{
}
(
)
( | ) ( | )
r R H D R r H D C
∀ ∈ − ≠

thì
R
là một rút gọn của
C
dựa trên Shannon entropy.

Ký hiệu
(
)
HRED C
là tập tất cả các rút gọn của
C
dựa trên Shannon
entropy.
(
)
( )
.
H
R HRED C
CORE C R
∈
=
I

1.6.2.2. Tập rút gọn dựa trên Liang entropy
ðịnh nghĩa 1.16. Cho bảng quyết ñịnh
( , , , )
DS U C D V f
= ∪
, thuộc tính
a C
∈

gọi là cần thiết nếu
(

)
{
}
(
)
| |
E D C E D C a
≠ −
, trái lại thuộc tính
a
gọi là không
cần thiết (dư thừa) dựa trên Liang entropy. Tập tất cả các thuộc tính cần thiết
trong
DS
dựa trên Liang entropy ñược gọi là tập lõi và ký hiệu là
(
)
E
CORE C
.
ðịnh nghĩa 1.17. Cho bảng quyết ñịnh
(
)
, , ,
DS U C D V f
= ∪
. Nếu
R C
⊆
thỏa

mãn:
1)
(
)
(
)
| |
E D R E D C
=

2)
{
}
(
)
( | ) ( | )
r R E D R r E D C
∀ ∈ − ≠

thì
R
là một rút gọn của
C
dựa trên Liang entropy. Ký hiệu
( )
ERED C
là
tập tất cả các rút gọn của
C
dựa trên Liang entropy.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15

1.6.3. Mối liên hệ của tập rút gọn dựa trên Shannon entropy
1.6.3.1. Mối liên hệ giữa tập rút gọn Shannon entropy và tập rút gọn của
Pawlak
Cho bảng quyết ñịnh
(
)
, , ,
DS U C D V f
= ∪
, trong ñó Wang và các cộng sự
ñã chứng minh rằng với
B C
⊆
, nếu
( | ) ( | )
H D B H D C
=
thì
( ) ( )
B C
POS D POS D
=

nhưng chiều ngược lại không ñúng nếu
DS
không nhất quán. Hơn nữa, nếu

thuộc tính
a A
∈
là dư thừa dựa trên Shannon entropy thì
a
cũng dư thừa dựa
trên miền dương của Pawlak và chiều ngược lại không ñúng nếu
DS
không
nhất quán, nghĩa là
( ) ( )
P H
CORE C CORE C
⊆
. Dựa vào một số kết quả trong
[15], trong [3] chứng minh ñịnh lý sau về mối liên hệ giữa tập rút gọn dựa
trên Shannon entropy với tập rút gọn Pawlak.
ðịnh lý 1.1. [3] Cho bảng quyết ñịnh
(
)
, , ,
DS U C D V f
= ∪
, nếu
H
R
là một tập
rút gọn của C dựa trên Shannon entropy
(
)

( )
H
R HRED C
∈ thì tồn tại một rút
gọn
P
R
của C dựa trên miền dương
(
)
( )
P
R PRED C
∈ sao cho
P H
R R
⊆

Nếu bảng quyết ñịnh
DS
nhất quán, khái niệm tập rút gọn dựa trên
miền dương và tập rút gọn dựa trên Shannon entropy là tương ñương nhau.
Ví dụ 1.3. Xét bảng quyết ñịnh
(
)
, , ,
DS U C D V f
= ∪
với
{

}
1 2 3 4 5 6 7
, , , , , ,
U u u u u u u u
=
,
{
}
1 2 3
, ,
C a a a
=
và
{
}
D d
=
cho ở Bảng 1.3.
U

1
a

2
a

3
a

d

1
u

0 1 1 0
2
u

0 1 1 1
3
u

0 1 0 0
4
u

0 1 0 1
5
u

0 1 0 1
6
u

1 0 0 1
7
u

1 0 1 1
Bảng 1.3. Bảng quyết ñịnh minh họa Ví dụ 1.3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Một số phương pháp rút gọn thuộc tính trong bảng quyết định

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về