Tải bản đầy đủ (.pdf) (55 trang)

Phát hiện tập luật khẳng định và phủ định dựa vào lý thuyết tập thô và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 55 trang )

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
1
LỜI CẢM ƠN
Để hoàn thành đồ án này tác giả đã nhận được sự chỉ bảo tận tình,
cùng những yêu cầu nghiêm khắc của thầy giáo TS. Nguyễn Đức Thuần.
Em xin bày tỏ lòng biết ơn sâu sắc tới thầy vì đã hướng dẫn và chỉ bảo tận
tình để em có thể hoàn thành đồ án này.
Em xin cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã giúp
đỡ và tạo điều kiện cho em trong quá trình thực hiện đồ án cũng như trong
toàn khóa học.
Tác giả cũng xin chân thành cảm ơn tình cảm của bạn bè trong suốt
quá trình học tập, rèn luyện tại trường Đại học Nha Trang.


Nha Trang, tháng 06 năm 2011

Hàng Nguyên Huy
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
2
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN





































Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
3
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN






































Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
4
MỤC LỤC
LỜI CẢM ƠN 1
DANH MỤC BẢNG BIỂU 6
DANH MỤC HÌNH ẢNH 7
LỜI MỞ ĐẦU 8
CHƯƠNG 1 9
TÌM HIỂU LÝ THUYẾT TẬP THÔ 9
1.1) Hệ thống thông tin 9
1.2) Quan hệ không phân biệt được 9
1.3) Tập thô 11
1.4) Các tính chất của xấp xỉ 13
1.5) Độ chính xác của xấp xỉ 14
1.6) Bảng quyết định 15
1.7) Rút gọn và nhân 16
1.8) Ma trận phân biệt được và hàm phân biệt được 17
1.8.1) Ma trận phân biệt được 17
1.8.2) Hàm phân biệt được 18
1.9) Luật quyết định 19
1.10) Phụ thuộc độ k 20
1.11) Kết luận 21
CHƯƠNG 2 22
LUẬT KHẲNG ĐỊNH VÀ LUẬT PHỦ ĐỊNH 22
2.1) Giới thiệu 22
2.2) Các khái niệm cơ bản 23

2.2.1) Công thức 23
2.2.2) Độ chính xác và độ phủ của phân lớp 24
2.2.3) Luật nguyên tố 25
2.2.4) Luật khẳng định 25
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
5
2.2.5) Luật loại trừ và luật phủ định 26
2.3) Một số kết quả đạt được 28
2.3.1) Luật khẳng định 28
2.3.2) Luật phủ định 30
2.3.3) Mở rộng luật phủ định 31
2.3.4) Luật tối thiểu 33
2.3.5) Mối tương quan giữa luật khẳng định và phủ định 35
2.4) Bài toán xác định loại luật 39
2.4.1) Phát biểu 39
2.4.2) Các dạng bài toán xác định loại luật 39
2.5) Kết luận 40
CHƯƠNG 3 41
CHƯƠNG TRÌNH THỬ NGHIỆM 41
3.1) Tổ chức dữ liệu 41
3.2) Các kết quả đạt được 42
3.2.1) Luật nguyên tố 42
3.2.2) Luật tối thiểu 43
3.2.3) Xác định luật 45
3.3) Kết luận và hướng phát triển đề tài 45
Tài liệu tham khảo 47
PHỤ LỤC 48
1) Bộ dữ liệu NTU Data 48
2) Các bộ dữ liệu UCI 50



Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
6
DANH MỤC BẢNG BIỂU

Bảng 1.1: Bảng dữ liệu bệnh cúm 10
Bảng 1.2: Một hệ thông tin đơn giản 12
Bảng 1.3: Bảng quyết định 15
Bảng 1.4: Hệ thông tin dùng để minh họa ma trận phân biệt được 18
Bảng 1.5: Ma trận phân biệt được của hệ thông tin ở bảng 1.4 18
Bảng 1.6: Một hệ thông tin để tìm hàm phân biệt được 19
Bảng 1.7: Ma trận phân biệt được của hệ thông tin ở bảng 1.6 19
Bảng 1.8: Hệ thông tin dùng để minh họa phụ thuộc độ k 21
Bảng 2.1: Một hệ thống thông tin đơn giản 23
Bảng 2.2: Danh sách các thuộc tính của NTU Data 29
Bảng 2.3: Kết quả tìm luật khẳng định nguyên tố trên các bộ dữ liệu 30
Bảng 2.4: Kết quả tìm luật phủ định nguyên tố trên các bộ dữ liệu 31
Bảng 3.1: Bảng 2.1 sau khi được xử lý 41
Bảng 3.2: Kết quả sinh luật nguyên tố trên các bộ dữ liệu 43
Bảng 3.3: Kết quả sinh luật tối thiểu có 2 công thức trên các bộ dữ liệu 44
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
7
DANH MỤC HÌNH ẢNH


Hình 1.1: Minh họa tập thô 12
Hình 2.1: Giản đồ Venn cho luật khẳng định. 26
Hình 2.2: Giản đồ Venn cho luật loại trừ 26
Hình 2.3: Giản đồ Venn cho luật phủ định. 27
Hình 2.4: Giản đồ Venn cho các loại luật 28

Hình 2.5: Giản đồ Venn cho luật phủ định. 32
Hình 2.6: Giản đồ Venn cho luật phủ định mở rộng 33
Hình 2.7: Giản đồ Venn cho κ nhỏ nhưng độ trùng lắp lớn. 35
Hình 2.8: Giản đồ Venn cho α nhỏ nhưng độ trùng lắp lớn. 36
Hình 2.9: Giản đồ Venn cho độ trùng lắp nhỏ 36
Hình 3.1: Sơ đồ lớp lớp MyList 42
Hình 3.2: Giao diện chương trình sinh luật nguyên tố ứng với bộ dữ liệu
Nursery 43
Hình 3.3: Giao diện chương trình sinh luật tối thiểu với bộ dữ liệu NTU
Data 44
Hình 3.4: Giao diện chương trình kiểm tra luật 45

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
8
LỜI MỞ ĐẦU

Lý thuyết tập thô (rough set theory) – do Z. Pawlak đề xuất vào
những năm đầu thập niên tám mươi của thế kỷ hai mươi – đã thu hút được
nhiều sự quan tâm nghiên cứu và được áp dụng ngày càng rộng rãi trong
nhiều lĩnh vực. Lý thuyết này được phát triển trên một nền tảng toán học
vững chắc và cung cấp những công cụ hữu ích để giải quyết các bài toán
phân tích dữ liệu, phát hiện luật… Hiện nay, có nhiều công trình nghiên
cứu nhắm vào các hướng khai thác dữ liệu (data mining) và khám phá tri
thức (knowledge discovery) từ dữ liệu thô để biến thành thông tin, từ thông
tin thành tri thức và vận dụng tri thức đó vào cuộc sống. Một trong những
hướng khai thác dữ liệu là dựa vào lý thuyết tập thô nhằm làm rõ các mối
quan hệ của dữ liệu mang tính mơ hồ, phân lớp theo các thuộc tính quan
trọng, tinh giảm dữ liệu thừa, phát sinh các luật quyết định…
“Phát hiện tập luật khẳng định và phủ định dựa vào lý thuyết tập
thô và ứng dụng” là đề tài em nghiên cứu dưới sự hướng dẫn của thầy giáo

TS. Nguyễn Đức Thuần. Vì thời gian có hạn và kiến thức còn hạn chế nên
đồ án còn nhiều thiếu sót, rất mong nhận được ý kiến đóng góp của thầy cô,
bạn bè để em có thể hoàn thiện đề tài này.
Đồ án gồm 3 chương: Chương 1 trình bày lý thuyết tập thô, chương
2 trình bày luật khẳng định và luật phủ định, chương 3 trình bày chương
trình cài đặt thử nghiệm và cuối cùng là tài liệu tham khảo và phụ lục.
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
9
CHƯƠNG 1
TÌM HIỂU LÝ THUYẾT TẬP THÔ

1.1) Hệ thống thông tin
Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng
biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có
thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung
cấp). Bảng này được gọi là một hệ thống thông tin. Hình thức hơn, hệ thống
thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng
gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc
tính. Với mỗi
u U

và a ∈ A, ta ký hiệu u(a) là giá trị của đối tượng u tại
thuộc tính a. Nếu gọi I
a
là tập tất cả giá trị của thuộc tính a, thì u(a) ∈ I
a
với
mọi u ∈ U. Bây giờ, nếu B = {b
1
, b, , b

k
} ⊆ A, ta ký hiệu bộ các giá trị u(b
i
)
bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu
u(b
i
) = v(b
i
), với mọi i =1, 2, , k.
1.2) Quan hệ không phân biệt được
Xét hệ thống thông tin S = (U, A), với mỗi tập thuộc tính B ⊆ A
tạo ra một quan hệ hai ngôi trên U, ký hiệu IND(B)
IND(B) =
{( , ) | ( ) ( ), }
u v U U u a v a a B
∈ × = ∀ ∈

IND(B) được gọi là quan hệ B_không phân biệt được. Dễ kiểm chứng đây
là một quan hệ tương đương trên U. Với mọi đối tượng u ∈ U, lớp tương
đương của u trong quan hệ IND(B) được kí hiệu bởi [u]
B
. Tập thương xác
định bởi quan hệ IND(B) được ký hiệu U/IND(B) hay U/B, tức là
U/IND(B)= U/B = {[u]
B
| u ∈ U}.
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
10
Ví dụ 1.1: Xét hệ thống thông tin cho ở bảng 1.1

U Đau đầu Đau cơ Nhiệt độ Cúm
x
1
Không Có Cao Có
x
2
Có Không Cao Có
x
3
Có Có Rất cao Có
x
4
Không Có
Bình
thường
Không
x
5
Có Không Cao Không
x
6
Không Có Rất cao Có
Bảng 1.1: Bảng dữ liệu bệnh cúm
Trong đó: U = {x
1
, x
2
, x
3
, x

4
, x
5
, x
6
}.
A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}.
Trong bảng, các bệnh nhân x
2
, x
3
và x
5
không phân biệt được đối với
thuộc tính Đau đầu, bệnh nhân x
3
và x
6
không phân biệt được đối với thuộc
tính Đau cơ, Cúm và bệnh nhân x
2
, x
5
không phân biệt được đối với thuộc tính
Đau đầu, Đau cơ và Nhiệt độ.
Do đó:
IND({Đau đầu}) = {{x
1
, x
4

, x
6
}, {x
2
, x
3
, x
5
}},
IND({Đau cơ}) = {{x
1
, x
3
, x
4
, x
6
}, {x
2
, x
5
}},
IND({Nhiệt độ}) = {{x
1
, x
2
, x
5
}, {x
3

, x
6
}, {x
4
}},
IND({Cúm}) = {{x
1
, x
2
, x
3
, x
6
}, {x
4
, x
5
}},
IND({Đau đầu, Đau cơ}) = {{x
1
, x
4
, x
6
}, {x
2
, x
5
}, {x
3

}}.


Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
11
1.3) Tập thô
Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho
xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ:
Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B⊆ A,
ký hiệu R = IND(B), ta có 2 tập con sau:
[
]
[ ]
( ) { | }
( ) { | }
B
B
R X u U u X
R X u U u X
= ∈ ⊆
= ∈ ∩ ≠ ∅

( ), ( )
R X R X
lần lượt gọi là R-xấp xỉ dưới và R- xấp xỉ trên của tập X.
Tập
( )
R X
bao gồm tất cả các phần tử của U chắc chắn thuộc vào X.
Tập

( )
R X
bao gồm các phần tử của U có khả năng được phân loại
vào những phần tử thuộc X ứng với quan hệ R.
Từ hai tập xấp xỉ người ta định nghĩa các tập:
BN
B
(X) =
( ) ( )
R X R X

: B- miền biên của X.
POS
B
(X) =
( )
R X
: B-vùng dương của X.
NEG
B
(X) =
( )
U R X

: B-vùng âm của X.
Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên và
dưới của X có thể viết lại:
( )
R X
=

∪{W ∈ U/B | W ⊆ X}

( )
R X
=
∪{W ∈ U/B | W

X ≠

}
Trong trường hợp BN
B
(X) ≠ ∅, X được gọi là tập thô, ngược lại X
được gọi là tập rõ.
Ví dụ 1.2: Xét hệ thông tin S = (U, A) ở bảng 1.2
U = {x
1
, x
2
, x
3
, x
4
, x
5
, x
6
, x
7
, x

8
},
A = {a, b, c, d, e}

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
12
U a b c d e
x
1
1 0 2 2 0
x
2
0 1 1 1 2
x
3
2 0 2 1 1
x
4
1 1 0 2 2
x
5
1 0 2 0 1
x
6
2 2 0 1 1
x
7
2 1 1 1 2
x
8

0 1 1 0 1
Bảng 1.2: Một hệ thông tin đơn giản
Với B = {a, b, c} ta có phân hoạch sau:
U/B = {{x
1
, x
5
}, {x
2
, x
8
}, {x
3
}, {x
4
}, {x
6
}, {x
7
}}
= {E
1
, E
2
, E
3
, E
4
, E
5

, E
6
}.
Với tập X = {x
2
, x
3
, x
4
} ta có các xấp xỉ, miền biên, miền ngoài là:
XR
= E
3
∪ E
4
= {x
3
, x
4
},
X
R
= E
2
∪ E
3
∪ E
4
= {x
2

, x
3
, x
4
, x
8
},
BN
B
(X) =
XR

X
R
= {x
2
, x
8
}.
NEG
B
(X) = U –
X
R
= E
1
∪ E
5
∪ E
6

= {x
1
, x
5
, x
6
, x
7
}.

Hình 1.1: Minh họa tập thô
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
13
Đối với một hệ thống thông tin S = (U, A), B, D ⊆ A, ký hiệu R =
IND(B), người ta gọi B-miền khẳng định dương của D là tập được xác định
như sau:
/
( ) ( ( ))
B
V U D
POS D R V

=
U

Rõ ràng
( )
B
POS D
là tập tất cả các đối tượng u sao cho với mọi

v U



( ) ( )
u B v B
=
ta đều có
( ) ( )
u D v D
=
. Nói cách khác,
[
]
[
]
( ) { | }
B
B D
POS D u U u u
= ∈ ⊆
.
Ví dụ 1.3: Xét hệ thông tin cho ở bảng 1.2
Đặt D = {e}, B = {b}.
U/B = {{x
1
, x
3
, x
5

}, {x
2
, x
4
, x
7
, x
8
}, {x
6
}},
U/D = {{x
1
}, {x
2
, x
4
, x
7
}, {x
3
, x
5
, x
6
, x
8
}}.
Với V = {x
1

} =>
)(VR
= Ø.
V = {x
2
, x
4
, x
7
} =>
)(VR
= Ø.
V = {x
3
, x
5
, x
6
, x
8
} =>
)(VR
= {x
6
}.
Do đó POS
B
(D) = {x
6
}.

1.4) Các tính chất của xấp xỉ
Cho một hệ thống thông tin S = (U, A), ∀X, Y ⊆ U và B ⊆ A.
Đặt R = IND(B). Khi đó:
(1L)
( )
R U U
=

(1H)
( )
R U U
=

(2L)
( )R
∅ = ∅

(2H)
( )R
∅ = ∅

(3L)
( )
R X X


(3H)
( )
R X X



(4L)
( ) ( ) ( )
R X Y R X R Y
∩ = ∩

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
14
(4H)
( ) ( ) ( )
R X Y R X R Y
∪ = ∪

(5L)
( ) ( )
RR X R X
=

(5H)
( ) ( )
RR X R X
=

(6)
( )
R U X U RX
− = −


( )

R U X U RX
− = −

(7L)
( ) ( )
X Y R X R Y
⊆ ⇒ ⊆

(7H)
( ) ( )
X Y R X R Y
⊆ ⇒ ⊆

(8L)
( ( )) ( )
R U R X U R X
− = −

(8H)
( ( )) ( )
R U R X U R X
− = −

(9L)
/ , ( )
K U R R K K
∀ ∈ =

(9H)
/ , ( )

K U R R K K
∀ ∈ =

Tính chất (3L), (4L) và (8L) là những tính chất đặc trưng cho phép xấp
xỉ dưới, điều đó có nghĩa là những tính chất khác của phép xấp xỉ dưới có thể
suy dẫn từ ba tính chất này. Tương tự, (3H), (4H) và (8H) là những tính chất
đặc trưng của phép xấp xỉ trên.
1.5) Độ chính xác của xấp xỉ
Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và
B⊆A, đặt R = IND(B), đại lượng đo sự chính xác của tập xấp xỉ X đối với
phân hoạch trên B là giá trị
( )
( ( ))
( )
( ( ))
( )
R
R X
Card R X
X
Card R X
R X
α
= =

Trong đó card(X) = |X| là lực lượng (số phần tử) của tập X. Rõ ràng
0 ( ) 1
R
X
α

≤ ≤
. Nếu
( ) 1
R
X
α
=
, ta nói X là chính xác đối với R, còn
( ) 1
R
X
α
<
, X được gọi là thô đối với R.

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
15
Ví dụ 1.4: Xét hệ thông tin S = (U, A) ở bảng 1.2
Với B = {a, b, c} và X = {x
2
, x
3
, x
4
} thì độ chính xác của X trên B là:
α
B
(X
1
) =

2
1
4
2
},,,{
},{
|)(|
|)(|
8432
43
===
xxxx
xx
XR
XR

1.6) Bảng quyết định
Bảng quyết định là một hệ thống thông tin có dạng T = (U, A), trong đó
tập thuộc tính A được chia thành hai tập thuộc tính rời nhau C và D, C được
gọi là tập thuộc tính điều kiện, còn D là tập thuộc tính quyết định. Tức là
T=(U, C ∪ D), với C ∩ D = ∅. Trong trường hợp không sợ bị nhầm lẫn người
ta còn ký hiệu T = (U, C, D).
Ví dụ 1.5: Hệ thống thông tin S = (U, A) biểu diễn cơ sở tri thức về bệnh
cúm được thể hiện trong bảng 1.1 là một bảng quyết định T = (U, C ∪ D)
Trong đó: U = {x
1
, x
2
, x
3

, x
4
, x
5
, x
6
},
A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}.
Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Nhiệt độ}
Tập thuộc tính quyết định D = {Cúm}.
U Đau đầu Đau cơ Nhiệt độ Cúm
x
1
Không Có Cao Có
x
2
Có Không Cao Có
x
3
Có Có Rất cao Có
x
4
Không Có
Bình
thường
Không
x
5
Có Không Cao Không
x

6
Không Có Rất cao Có
Bảng 1.3: Bảng quyết định

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
16
1.7) Rút gọn và nhân
Xét một bảng quyết định T = (U, C ∪ D).
Tập thuộc tính R ⊆ C được gọi là một rút gọn của C nếu
POS
R
(D)=POS
C
(D).
Nhân của tập thuộc tính điều kiện C ký hiệu CORE(C) được định
nghĩa:
CORE(C) = ∩RED(C)
Ở đây, RED(C) là tập hợp tất cả rút gọn của C.
Ngoài ra, người ta cũng định nghĩa rút gọn C-miền khẳng định
dương của D:
Nếu B ⊆ C thỏa:
{ }
1. ( ) ( )
2. , ( ) ( )
B C
C C a
POS D POS D
a B POS D POS D

=

∀ ∈ ≠

B được gọi là rút gọn C-miền khẳng định dương của D.
Ví dụ 1.6: Xét hệ thông tin S = (U, A) ở bảng 1.3
Cho D = {Cúm}, C = {Đau đầu, Đau cơ,Nhiệt độ}.
Ta có:
U/D = {{x
1
, x
2
, x
3
, x
6
}, {x
4
, x
5
}},
U/C = {{x
1
}, {x
2
, x
5
}, {x
3
}, {x
4
}, {x

6
}}
=> POS
C
(D) = {x
1
, x
3
, x
4
, x
6
}
Đặt R
1
= {Đau đầu, Đau cơ}

C
=> U/R
1
= {{x
1
, x
4
, x
6
}, {x
2
, x
5

}, {x
3
}}
=> POS
R1
(D) = {x
3
} ≠ POS
C
(D).
Vậy R
1
không phải là rút gọn của C.
Đặt R
2
= {Đau đầu, Nhiệt độ}

C
=> U/R
2
= {{x
1
}, {x
2
, x
5
}, {x
3
}, {x
4

}, {x
6
}}
=> POS
R2
(D) = {x
1
, x
3
, x
4
, x
6
} = POS
C
(D).
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
17
Vậy R
2
là 1 rút gọn của C.
Đặt R
3
= {Đau cơ, Nhiệt độ}

C
=> U/R
3
= {{x
1

}, {x
2
, x
5
}, {x
3
}, {x
4
}, {x
6
}}
=> POS
R3
(D) = {x
1
, x
3
, x
4
, x
6
} = POS
C
(D).
Vậy R
3
là 1 rút gọn của C.
Đặt R
4
= {Đau đầu}


C
=> U/R
4
= {{x
1
, x
4
, x
6
}, {x
2
, x
3
, x
5
}}
=> POS
R4
(D) = Ø ≠ POS
C
(D).
Vậy R
4
không phải là rút gọn của C.
Đặt R
5
= {Đau cơ}

C

=> U/R
5
= {{x
1
, x
3
,

x
4
, x
6
}, {x
2
, x
5
}}
=> POS
R5
(D) = Ø ≠ POS
C
(D).
Vậy R
5
không phải là rút gọn của C.
Đặt R
6
= {Nhiệt độ}

C

=> U/R
6
= {{x
1
, x
2
,

x
5
}, {x
3
, x
6
}, {x
4
}}
=> POS
R6
(D) = {x
3
, x
4
,

x
6
} ≠ POS
C
(D).

Vậy R
6
không phải là rút gọn của C.
Do đó: RED(C) = {{Đau đầu, Nhiệt độ}, {Đau cơ, Nhiệt độ}}
=> CORE(C) = {Đau đầu, Nhiệt độ} ∩ {Đau cơ, Nhiệt độ}
= {Nhiệt độ}.
1.8) Ma trận phân biệt được và hàm phân biệt được
1.8.1) Ma trận phân biệt được
Xét bảng quyết định T = (U, C ∪ D), với U = {u
1
, u
2
, , u
n
}. Ma trận
phân biệt được của T ký hiệu M(T) =
ij
( )
n n
m
×
là một ma trận đối xứng, trong
đó mỗi phần tử của nó là một tập thuộc tính được xác định như sau:
ij
{ | ( ) ( )} , ( ) ( )
, ( ) ( )

i j i j
i j
c C u c u c u D u D

m
u D u D
∈ ≠ ≠


=

∅ =



Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
18
Ví dụ 1.7: Cho hệ thống thông tin S = (U, C

D) ở bảng 1.4 với:
U = {1, 2, 3, 4}, C = {a, b, c}, D = {d}.






Bảng 1.4: Hệ thông tin dùng để minh họa ma trận phân biệt được
Hệ thông tin trên sẽ có ma trận phân biệt được kích thước 4 × 4 được
mô tả ở bảng 1.5:
1 2 3 4
1

{b, c}


∅ ∅
2 {b, c}

Ø {a, b}

{b, c}

3

{a, b}


{a, c}

4

{b, c}

{a, c}


Bảng 1.5: Ma trận phân biệt được của hệ thông tin ở bảng 1.4.

1.8.2) Hàm phân biệt được
Hàm phân biệt được
f
Τ
là một hàm boole, được xác định từ ma trận
phân biệt M(T) như sau:

ij
( ) )
(
i
i j
f u m
Τ

=


, với mỗi
i
u U


trong đó, mỗi thuộc tính được đặt tương ứng một biến logic cùng tên và
(1) ∨m
ij
là biểu thức tuyển của tất cả các biến c ∈ m
ij
, nếu m
ij

≠∅,
(2)
∨m
ij
= true, nếu m
ij

= ∅ và u
i
(D) = u
j
(D),
(3)
∨m
ij
= false, nếu m
ij
= ∅ và u
i
(D) ≠ u
j
(D).
U a b c
d
1 1 0 1 1
2 1 1 2 0
3 0 0 2 1
4 1 0 1 2
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
19
Ví dụ 1.8: Xét hệ thông tin S = (U, C

D) ở bảng 1.6.
U = {o
1
, o
2

, o
3
, o
4
, o
5
},
C = {a, b, c, d}, D = {e}.
A B c d e
o
1
1 0 2 1 0
o
2
0 0 1 2 1
o
3
2 0 2 1 0
o
4
0 0 2 2 2
o
5
1 1 2 1 0
Bảng 1.6: Một hệ thông tin để tìm hàm phân biệt được
Ma trận phân biệt được của hệ thông tin ở bảng 1.6 như sau:
o
1
o
2

o
3
o
4
o
5

o
1


{a, c, d}


{a, d}


o
2

{a, c, d}



{a, c, d}

{c} {a, b, c, d}

o
3




{a, c, d}


{a, d} {a, b}
o
4

{a, d} {c} {a, d}


{a, b, d}
o
5



{a, b, c, d}

{a, b} {a, b, d}



Bảng 1.7: Ma trận phân biệt được của hệ thông tin ở bảng 1.6.
Hàm phân biệt cho hệ thông tin này là:
)()()()(
)()()()(
dbabadadcba

cdcatruedatruedcaf
∨∨∧∨∧∨∧∨∨∨
∧∧∨∨∧∧∨∧∧∨∨=
Τ

1.9) Luật quyết định
Cho T = (U, C ∪ D) là một bảng quyết định, giả sử U/C={X
1
, X
2
, , X
m
}
và U/D = {Y
1
, Y
2
, , Y
n
}. Nếu X
i
∩ Y
j
≠ ∅, ký hiệu des(X
i
), des(Y
j
) lần lượt là
các mô tả của các lớp tương đương ứng với X
i

, Y
j
. Một luật quyết định xác định
bởi X
i
, Y
j

có dạng:
: ( ) ( )
ij i j
Z des X des Y


Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
20
Độ đo độ chắc chắn và độ hỗ trợ của luật quyết định Z
ij
được định
nghĩa như sau:
( ) /
ij i j i
Z X Y X
µ
= ∩

( ) /
ij i j
s Z X Y U
= ∩


Ở đây |.| là bản số hay lực lượng của một tập hợp. Rõ ràng giá trị của
( ), ( )
ij ij
Z s Z
µ
của luật quyết định Z
ij

rơi vào đoạn
1
,1
U
 
 
 
. Để thuận tiện
trong trình bày ký hiệu |Z
ij
| được sử dụng thay cho
i j
X Y

.
1.10) Phụ thuộc độ k
Cho hệ thống thông tin S = (U, A), X, Y ⊆ A. Chúng ta nói rằng tập
thuộc tính Y phụ thuộc độ k ∈ [0,1] vào tập thuộc tính X, ký hiệu
k
X Y
→

,
với k được xác định như sau:
( )
( ( ))
( )
X
X
POS Y
card POS Y
k
card U U
= =



U
YUV
X
VRYPOS
/
)()(

=

Nên



=
YUV

U
VR
k
/
)(

Khi
0
X Y
→
, chúng ta sẽ viết X → Y và
1
X Y
→
được viết X → Y.
Dễ thấy rằng phụ thuộc độ k là sự tổng quát hóa của phụ thuộc hàm và
1
X Y
→
là phụ thuộc hàm đã biết trong CSDL quan hệ.
Ví dụ 1.9: Xét hệ thống thông tin S = (U, C

D) ở bảng 1.8:
U = {u
1
, u
2
, u
3
, u

4
, u
5
, u
6
, u
7
, u
8
, u
9
},
C = {a, b}, D = {c}.
Đặt B = {b}.


Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
21
U
a b c
u
1
1 1 1
u
2
1 2 2
u
3
2 1 1
u

4
2 2 2
u
5
3 3 3
u
6
3 1 3
u
7
1 3 3
u
8
2 3 3
u
9
3 2 2
Bảng 1.8: Hệ thông tin dùng để minh họa phụ thuộc độ k
Ta có:
IND(C) = {{u
1
}, {u
2
}, {u
3
}, {u
4
}, {u
5
}, {u

6
}, {u
7
}, {u
8
}, {u
9
}}
IND(D) = {{u
1
, u
3
}, {u
2
, u
4
, u
9
}, {u
5
, u
6
, u
7
, u
8
}}
=> POS
C
(D) = {u

1
, u
2
, u
3
, u
4
, u
5
, u
6
, u
7
, u
8
, u
9
}
=>
1
9
9
)(
===
U
DPOS
k
C

Vậy D → C.

IND(B) = {{u
1
, u
3
, u
6
}, {u
2
, u
4
, u
9
}, {u
5
, u
7
, u
8
}}
=> POS
B
(D) = {u
2
, u
4
, u
5
,

u

7
, u
8
, u
9
}.
=> k = 6/9 = 2/3.
Vậy D phụ thuộc một phần vào B với độ phụ thuộc là k = 2/3.
1.11) Kết luận
Chương này đã trình bày một số khái niệm cơ bản nhất trong lý
thuyết tập thô như hệ thống thông tin, bảng quyết định, quan hệ không phân
biệt được, luật quyết định, phụ thuộc độ k… Đây là cơ sở để ta tìm các luật
quyết định ở chương tiếp theo.
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
22
CHƯƠNG 2
LUẬT KHẲNG ĐỊNH VÀ LUẬT PHỦ ĐỊNH
2.1) Giới thiệu
Các phương pháp sinh luật được phân thành hai lớp: - Lớp các luật
tất định (deteministic rules) và Lớp các luật xác suất (probabilistic rules).
Luật tất định và luật xác suất đều có dạng if X then Y. Xét U là tập vũ trụ,
ký hiệu tập các đối tượng thỏa điều kiện X là C, tập các đối tượng thỏa kết
luận Y của luật là D.
Nếu C ⊆ D thì luật if X then Y là luật tất định. Trong trường hợp C
không là tập con của D, C ∩ D ≠ ∅ và |C ∩ D| / |C| ≥ δ, δ là ngưỡng thể
hiện độ khít của sự trùng lắp của 2 tập hợp, luật if X then Y là luật xác suất.
Cả hai lập luận để rút trích luật tất định và luật xác suất là lập luận khẳng
định (positive reasoning).
Tuy nhiên, trong một số lĩnh vực ngoài lập luận khẳng định còn cần
thiết phải lập luận bác bỏ (negative reasoning), nhất là trong lĩnh vực y tế.

Mỗi luật phủ định cũng có dạng if X then Y, nhưng Y là một hạng tử phủ
định (negative term). Ví dụ, một bệnh nhân than nhức đầu nhưng không có
triệu chứng tim đập mạnh, thì đau nửa đầu không nên chẩn đoán với độ xác
suất cao.
Cơ chế của lập luận đưa ra quyết định là một thủ tục gồm 2 giai
đoạn: Lập luận loại trừ và lập luận chấp nhận. Do đó, luật phủ định đóng
một vai trò quan trọng trong việc hạn chế không gian tìm kiếm nghiệm.
Ngoài ra, luật phủ định còn phản ánh quá trình tư duy của các chuyên gia
và nhanh chóng đưa ra quyết đinh nhờ sự tương tác giữa người và máy.
Trong bài viết này, tác giả trình bày một số kết quả mở rộng luật
khẳng định và phủ định của Tsumoto [2]. Các kết quả được kiểm thử tính
Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
23
đúng đắn thông qua xử lý một số bộ dữ liệu UCI và dữ liệu hỗ trợ chất
lượng dạy và học tại Đại học Nha Trang.
Cấu trúc chương 2 gồm các mục: Mục 2 trình bày các khái niệm cơ
sở về tập thô, luật khẳng định, luật phủ định; mục 3 trình bày một số kết
quả mới đạt được; mục 4 trình bày cách xác định loại luật; mục 5 là kết
luận.
2.2) Các khái niệm cơ bản
2.2.1) Công thức
Trong các phần trình bày sau, tác giả sử dụng các ký pháp liên quan
đến tập thô do Z. Pawlak trình bày trong [1]. Các ký pháp này được minh
họa bằng một tập dữ liệu nhỏ thể hiện ở bảng 2.1.
Cho U là một tập hữu hạn khác rỗng được gọi là tập vũ trụ, A là tập
khác rỗng hữu hạn các thuộc tính. a: U

V
a
với a ∈ A, V

a
là miền giá trị
thuộc tính a. Một bảng quyết định là một hệ thống thông tin S= (U,A∪{d}),
với bảng 2.1 ta có: U = {1, 2, 3, 4, 5, 6}, A = {Age, Location, Nature,
Prodrome, Nausea, M1} và d = Class. Đối với thuộc tính Location ∈ A,
miền trị của Location được xác định V
Location
= {Occular, Whole, Lateral}.
Ví dụ 2.1:
No

Age Location

Nature Prodrome

Nausea

M1

Class
1
2
3
4
5
6
50 – 59

40 – 49


40 – 49

40 – 49

40 – 49

50 – 59

Occular
Whole
Lateral
Whole
Whole
Whole
Persistent
Persistent
Throbbing

Throbbing

Radiating
Persistent
No
No
No
Yes
No
No
No
No

Yes
Yes
No
Yes
Yes

Yes

No
No
Yes

Yes

M.c.h
M.c.h
Migra
Migra
M.c.h
Pyscho

Bảng 2.1: Một hệ thống thông tin đơn giản.

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
24
Một công thức nguyên tố (atomic formula) xác định trên B ⊆ A∪{d}
và V là một biểu thức có dạng [a = v], a ∈ B, v ∈ V
a
. Với bảng 2.1 thì
[Location = Occular] là 1 công thức. Ký hiệu F(B, V) là tập nhỏ nhất chứa

tất cả các công thức nguyên tố xác định trên B và đóng đối với các phép
toán hội, tuyển và phủ định.
Với mỗi f ∈ F(B, V), f
S
là tập các phần tử của S thỏa f, được định
nghĩa như sau:
1. Nếu f = [a = v] thì f
S
= {s ∈ U | a(s) = v}.
2. (f

g)
S
= f
S

I
g
S
; (f

g)
S
= f
S

U
g
S
; (

¬
f)
S
= U – f
S

Ví dụ 2.2: f = [Location = Whole] => f
S
= {2, 4, 5, 6}
g = [Location = Whole]

[Nausea = No]
=> g
S
= {2, 4, 5, 6}
I
{1, 2, 5} = {2, 5}.
2.2.2) Độ chính xác và độ phủ của phân lớp

Định nghĩa 2.1: Cho R, D là các công thức thuộc F(B, V), D là một
công thức xác định trên tập thuộc tính quyết định d. Độ chính xác, độ phủ
của phân lớp xác định bởi R → D (không nhầm lẫn ta ký hiệu D thay cho
D
S
) được biểu diễn lần lượt theo các công thức:
))|((
||
||
)( RDP
R

DR
D
S
S
R
==
I
α
(2.1)
))|((
||
||
)( DRP
D
DR
D
S
R
==
I
κ
(2.2)
Trong đó, |S|, P(S) lần lượt là bản số và xác suất của S.
Ví dụ 2.3: Xét bảng 2.1
Với R = [Nausea = Yes] => R
S
= {3, 4, 6}.
D = [Class = Migra] => D = {3, 4}.
=> R
S


I
D = {3, 4}
=> α
R
(D) = 2/3; κ
R
(D) = 1

Đồ án tốt nghiệp GVHD: TS. Nguyễn Đức Thuần
25
2.2.3) Luật nguyên tố

Đinh nghĩa 2.2:
Luật R → D được gọi là luật nguyên tố, nếu R là một công thức
nguyên tố.
2.2.4) Luật khẳng định

a) Định nghĩa 2.3: Luật khẳng định
Luật R → D, với R =

j
[a
j
= v
k
] được gọi là luật khẳng định nếu
α
R
(D) = 1.

Nhận xét: Luật R → D là luật khẳng định ⇔ R
S
⊆ D
S
.
Ví dụ 2.4: Xét bảng 2.1
Với R = [Age = 50 – 59]

[Location = Whole]
⇒ R
S
= {1, 6}

{2, 4, 5, 6} = {6}
D = [Class = Psycho] ⇒ D
S
= {6}
⇒ α
R
(D) = 1/1 = 1
Ta có luật khẳng định:
[Age = 50 – 59]

[Location = Whole] → [Class = Psycho].
b) Định nghĩa 2.4: Luật khẳng định nguyên tố
Một luật khẳng định đồng thời cũng là luật nguyên tố được gọi là
luật khẳng định nguyên tố.
Ví dụ 2.5: Xét bảng 2.1
Với R = [Nausea = No] ⇒ R
S

= {1, 2, 5}
và D = [Class = M.c.h] ⇒ D
S
= {1, 2, 5}
⇒ α
R
(D) = 3/3 = 1, R là công thức nguyên tố.
⇒ Luật khẳng định nguyên tố:
[Nausea = No] → [Class = M.c.h].

×