iii
MỤC LỤC
O
.....................................................................................................i
.........................................................................................................ii
MỤC LỤC ............................................................................................................ iii
Danh mục các thu t ng ......................................................................................... vi
Danh mục các ký hi u, t viết t t ...........................................................................vii
Danh sách b ng ....................................................................................................viii
Danh sách hình vẽ ................................................................................................... x
MỞ ẦU ................................................................................................................ 1
1
Ở LÝ THUYẾT ........................................................................... 12
ế
1.1. M t s
...................................................12
1.1.1. H thông tin .................................................................................................. 12
1.1.2.
...................................................................... 12
1.1.3.
.............................................................................................. 13
1.1.4. B ng quyế
nh............................................................................................ 14
1.2. M t s khái ni m v t p rút g n.........................................................................16
1.2.1. T p rút g n d a trên mi
...................................................................... 16
1.2.2. T p rút g n d a trên ma tr n phân bi t .............................................................. 17
1.2.3. T p rút g n d a trên entropy Shannon ............................................................... 18
1.2.4. T p rút g n d a trên µ-metric .......................................................................... 19
ế
1.3.
1.4. M t s thu
1.5.
............................................21
.......................................................................................24
1.4.1.
...................................................................................... 24
1.4.2.
µ-metric ........................................................ 24
1.4.3.
µ-metric................................... 25
ế
1 ...............................................................................................26
2
ẾP CẬ
Ậ
21
ă
Ậ
O
Ế
ỔI............................................................ 27
...................................................................................................................27
iv
2.2.
ổi ....................................................29
221
µ-metric khi thêm m
ng ..................................................... 29
222
µ-metric khi xóa m
ng ....................................................... 32
223
µ-metric khi c p nh t m
23
ă
ổi 39
dụng µ-metric khi t
2.2.1. Thu
ă
p rút g n khi thêm t
2.2.2. Thu
ă
p rút g n khi c p nh t t
24
25
ng ................................................ 34
ng ............................. 39
ng ........................ 43
.................................................................................47
2.4.1. Th c nghi m thu
ă
p rút g n khi thêm t
2.4.2. Th c nghi m thu
ă
p rút g n khi c p nh t t
ế
ng ... 59
2.................................................................................................64
ẬP RÚT G
ng 3. TIẾP CẬ
Ậ
31
ng ......... 47
O
Ế
ỔI.......................................................... 66
...................................................................................................................66
3.2. Thu t toá
ă
ụ
p rút g
µ-metric khi t p thu c tính thay
ổi .........................................................................................................................67
321
µ-metric khi thêm t p thu c tính
322
µ-metric khi xóa t p thu
323
ă
324
u ki n ......................................... 69
dụng µ-metric khi t p thu
í
ổi .. 70
.................................................................................. 74
ă
3.3. Thu
thu
í
u ki n....................................... 67
í
p rút g
ụ
p
ổi ...............................................................................................81
3.3.1. T p rút g n d a trên hàm quyế
nh m r ng và các tính ch t ....................... 82
3.3.2. Ma tr n phân bi t m r ng và hàm phân bi t m r ng .................................... 84
3.3.3. Thu t toán tìm t p rút g n s dụng hàm phân bi t m r ng ............................ 85
3.3.4. Thu
ă
p rút g n s dụng hàm phân bi t m r ng khi bổ sung
t p thu c tính ................................................................................................ 88
3.3.5. Thu
ă
n s dụng hàm phân bi t m r ng khi lo i b t p
thu c tính ..................................................................................................... 90
336
............................................................................ 93
v
34
Ế
ế
3.................................................................................................98
Ậ ......................................................................................................... 100
Danh mục các công trình c a tác gi .................................................................... 102
Tài li u tham kh o ............................................................................................... 103
Phụ lục ................................................................................................................ 110
vi
D
mụ
t uật
ữ
Thuật ngữ tiếng Việt
Thuật ngữ tiếng Anh
B ng quyế
Decision Table
nh
B ng quyế
ng
Dynamic Decision Table
B ng quyế
nh nh t quán
Consistant Decision Table
ch c ch n c a b ng quyế
chính xác phân l p
nh
Certainty Measure
Classification Accuracy
µ-metric
µ-Metric
hỗ tr c a b ng quyế
ng
nh
Support Measure
Object
Hàm phân bi t m r ng
Generalized Discernibility Function
Hàm quyế
Generalized Decision Function
nh m r ng
H thông tin
Information System
H
ng
Lu t quyế
nh
Dynamic Information System
Decision Rule
Ma tr n phân bi t m r ng
Generalized Discernibility Matrix
Mi
Positive Region
ă
Tiếp c n
Incremental Approach
Quan h
Indiscernibility Relation
Rút g n thu c tính
Attribute Reduction
T p chính xác
Crisp Set
T p lõi
Core
T p rút g n
Reduct
T p thô
Rough Set
Thu c tính
Attribute | Feature
Thu c tính không th lo i b
Indispensable Attribute
X px
Lower Approximation
X p x trên
i
Upper Approximation
vii
D
BN B
X
mụ
ký
B - mi n biên c a X
POSB D
B - mi
BX
B-x px
BX
B - x p x trên c a
aD
ic a
B ng quyế
K
P
ệu, từ v ết tắt
X
X
nh
C u trúc tri th c sinh b i t p thu c tính P
ch c ch n c a b ng quyế
nh DT
chính xác phân l p
hỗ tr c a b ng quyế
phụ thu c c a t p thu
u a
Giá tr thu c tính
a
c
nh DT
í
D
ng
iv iC
u
Hàm phân bi t m r ng
Hàm quyế
nh m r ng
H thông tin
Kho ng cách µ-metric trên b ng quyế
u B
L p
a
ĩ
M
a thu
nh DT
í
iv it pB
U /B
Phân ho ch c a U sinh b i quan h IND(B)
IN D B
Quan h
B - không phân bi
H (Q | P )
Shannon e
u ki n c a Q
H
P
|X|
Shannon entropy c a t p thu c tính P
L
IN D B
ng u c a quan h
ng c a t p h p X
c
ết P
viii
D
b
ế
ch táo ............................................................... 15
B ng 2.1. B ng quyế
nh g c .............................................................................. 31
B ng 2.2. B ng quyế
ng ................................................ 32
B ng 2.3. B ng quyế
ng .............................................. 34
B
11
s
B ng 2.4. B ng quyế
nh c p nh t m
ng................................................ 39
B ng 2.5. Các b s li u th nghi m ..................................................................... 49
B ng 2.6. T p rút g n c a thu t toán MBAR và thu t toán MIR_AdObjs .............. 51
B
27
AP, AQ , , g
c a thu t toán MBAR và thu t toán
MIR_AdObjs ......................................................................................................... 52
B ng 2.8. So sánh th i gian th c hi n (s) thu t toán MBAR và thu t toán
MIR_AdObjs ......................................................................................................... 53
B
29
chính xác phân l p c a MBAR và MIR_AdObjs ................. 55
B ng 2.10. Kết qu th c hi n Thu t toán MIR_AdObjs và thu t toán GIARC-L ... 57
B
2 11
a thu t toán MIR_AdObjs và thu t toán GIARC-L. ......... 58
B
2 12
chính xác phân l p c a GIARC-L và MIR_AdObjs ........... 59
B ng 2.13. B s li u th c nghi m ........................................................................ 60
B ng 2.14. T p rút g n c a thu t toán MBAR và thu t toán MIR_UpObjs ............ 61
B
2 15
a thu t toán MBAR và thu t toán MIR_UpObjs ............. 61
B ng 2.16. So sánh th i gian th c hi
chính xác phân l p c a ARED-L và
MIR_UpObjs ......................................................................................................... 63
B ng 3.1. B ng quyế
ă
p thu
í
u ki n P............................... 69
B ng 3.2. Mô t các b d li u th nghi m............................................................ 75
B ng 3.3. T p rút g n c a thu t toán MIR_AdAt và MBAR.................................. 76
B ng 3.4. Kết qu
a thu t toán MIR_AdAt và MBAR........................ 77
B ng 3.5. T p rút g n c a thu t toán MIR_AdAt và DIA_RED. ........................... 79
B
36
chính xác phân l p c a DIA_RED và MIR_AdAt ............... 81
B ng 3.7. Mô t các b d li u th nghi m............................................................ 94
ix
B ng 3.8. T p rút g n c a thu t toán MIR_AdAt và GDF_IR_AdAt ..................... 95
B
39
a thu t toán MIR_AdAt và GDF_IR_AdAt ....................... 96
B
3 10
chính xác phân l p c a GDF_IR_AdAt và MIR_AdAt ...... 97
x
D
s
ì
vẽ
Hình 2.1. Th i gian tìm rút g n c a hai thu t toán MBAR và MIR_AdObjs .......... 50
Hình 2.2. Th i gian tìm rút g n c a hai thu t toán MBAR và MIR_AdObjs theo các
ă
............................................................................... 54
Hình 2.3. Th i gian tìm rút g n c a thu t toán MBAR và thu t toán MIR_UpObjs
.............................................................................................................................. 62
Hình 3.1. Th i gian tìm rút g n c a hai thu t toán MIR_AdAt và MBAR ............. 77
Hình 3.2. L
Hình 3.3. L
ng t p rút g n c a hai thu t toán DIA_RED và MIR_AdAt ....... 80
ng t p rút g n c a hai thu
ă
DF_
_
MIR_AdAt ............................................................................................................ 94
1
MỞ ĐẦU
í
ụ
í
ă
Xu t phát t s
ế
í
ế
ụ
í :
í
í
;
(
í
í
:
í
í
G
í
í
.
í
í
ẽ
ă
í
ế
í
.
Giảm kích thước tập thuộc tính
í
G
í
í
í
ĩ
í
hi u qu cho
í
í
í
í
ụ
[27]
í
í
ế
ổ í
í
í
ế
(hay í
ụ
í
)
í
trong
ổ
F
Attribute Selection)
ụ
,
ụ
.
2
í
l a
í
ụ
ỗ
í
ế
í
í
ế
í
ế
í
í
í
l a
[20], [27]:
;
í
;
;
ế
Phân loại các phương pháp lựa chọn thuộc tính
ến nay
c
ế
t nhi u
ĩ
áp dụng thành công trong nhi
ă
phân l p và bi u di
thu t toán l a
c ụ
n d li u,
n, x lý và tìm kiếm
… Có th chia các
:
c (Filter)
thu c tính thành hai l
và l
ế
(Wrapper)
í
ế
ụ
í
ụ
ụ
ng tin c a thu c tính và l
tiêu chu n ch n thu c tính mà không s dụng các tri th c phân l p c a d li u. D
ến lý thuyết thông tin và
ng
í
thiết
chi phí tính toán th p, b
m là
c các thông tin c n
i v i các kỹ thu t khai phá tri th c.
các
thu c tính
ă
ụ
ụ
[22]:
ụ
;
;
ụ
ụ
cụ th c a mô hình
í
ụ
;
í
C
ĩ
ă
í
ụ
;
ụ
ụ
í
d a trên tác vụ
3
khó kh thi trong th c ti n,
c bi t khi s
í
í
ụ ụ
ng thu c tính l
–
.
Lý thuyết tập thô và lựa chọn thuộc tính
Z
Khái ni m t p thô (rough sets) l
ă
1982
[33]
t h th
cg
w
“ ý thuyết t p thô –
ĩ
u, lý thuyết t
”
t công cụ toán h c m
ĩ
phân tích d li u không hoàn h
ế
w
và không ch c ch n). D
í
s
c u. Ý
n c a lý thuyết t
ng ng c a r t nhi u nhà nghiên
c hình thành d a trên gi thiết mỗ
ng mang tin (d li u, tri th c) trong t
rụ
u có liên h v
i
i
c hình thành b i nh ng thông tin gi ng nhau là không phân bi
i góc
ế
c mang ch a trong chúng.
í
M t quan h g i là quan h không phân bi t
toán h c c a lý thuyết t p thô. Mỗi t p h p các
là m t t
í
không phân bi t
và t o thành m t h t tri th
n (nguyên t ). M t t p h p g i là
(crisp) nếu nó là h p c a m t s t
cl it ph
i là t p
ng biên – g m các ph n t không th phân l p
thô (rough). Mỗi t
chính xác v i các tri th c
hi n có và
t p x p x trên và t p x p x
i. X p x
nh b i hai t p chính xác –
i c a m t t p h p bao g
i
ng có khả năng thuộc
ng chắc chắn thuộc, còn x p x trên ch a t t c
v t p
g i
Mi n biên c a t p thô chính là ph n khác nhau gi a x p x trên và x p x
ết lu n t d li
i. Các t p x p x
thô là m t trong nh
nh, suy lu n quy n p và
ế
nh n d ng m u. Trong không gian
í
ết t p
n n t ng cho trí tu nhân t o và khoa h c nh n th c,
c bi t cho h c máy, phát hi n tri th c, phân tích quyế
ế
D
ụ
:
í
4
í
ế
ế
ụ
ế
í
ỗ
ế
.
D
ác
ến nay
ng nghiên c u ng dụng lý thuyết t
ụ
ĩ
: Phân l p, l a ch n thu c tính, rút g n s chi u c a h thông tin,
phân cụm, gi m nhi u d li
…
d li u quan h , phân tích h thông tin không
ĩ
í
l a
ế
ă
ế
.
í
ế
í
l a
í
ế
ẽ
;
ế
ế
í
í
L a ch n thu
ếp c n lý thuyết t p thô
í
g i là rút g n thu c tính.
í
í
ế
M t
có th có nhi u t p thu c tính rút g n (t nay
g i ng n g n là t p rút g n) và mỗi t p rút g
thu c tính
u có th thay thế
ế
. Vi c tìm t t c các rút g n
minh là bài toán NP - khó [41]. T
nào là t t nh ?
tr l i câu h i này, c
í
c ch ng
ế
t yếu n y sinh câu h i t p rút g n
t ra nh ng tiêu chu
rút g n. Trong nhi u nghiên c
thu
c cho t p
t p
i ta dùng tiêu chu n s
nh. T p rút g n t t nh t sẽ có s
ng
ng thu c tính ít nh t;
có nhi u t p rút g n có s thu c tính bé nh t, tiêu chu
là t p có ít thu c tính
tính
có kh
.
ă
t t nh t
t
í
ụ
c tìm kiế
ng dụng th c tế, ch c n tìm ra m t t p rút g
ụ
g n t t nh t [41].
t p t i thi u thu c
p thu c tính g c. M c dù có th
c t p rút g n t t nh
cao, may m n là v
nh sẽ
í
ế
ế
.
ng r t
“
”
mà không c n tìm t p rút
5
Trong ba th p kỷ g
ế
ế
r t
í
pháp rút g n thu
ng th y
nh t d
dụng làm tiêu chu
í
ng kết qu
c tính [22].
ch c ch n), ch
iv
i tính ch t c
c ki m ch ng trên m t s
í
thu c thu
í
heuristic
t p rút g n
ng phân l
phụ
hỗ tr c a t p lu t quyết
nh.
D
ế
thu c tính, các t
dụ
í
trong [2], [4]
ế
:1
ba
[12], [16],
[28], [36]; 2
ụ
-
Shannon
entropy ([30], [43], [45], [47], [50], [51], [52], [53])
([1], [18], [19], [55]), kho ng cách metric ([2], [3], [6], [9], [13], [14]); 3
-
ụ
Liang entropy ([25], [29]),
([43], [54], [59])
rút g
hỗ tr c a t p thu c tính
ph c a t p lu t sinh b i t p rút g n) gi m d n t
3.
y, nếu ch xét v khía c
dụ
1 ến nhóm
hỗ tr c a t p lu
c ma tr n phân bi t t
dụng nh
iv i
m t mô hình d li u, c n ph i xem xét thêm nh ng yếu t khác n a, chẳng h n
ph m vi ng dụng ho c chi phí tính toán
c khi quyế
nh ch n l
pháp.
Rút gọn thuộc tính đối với hệ thông tin động
M c dù
ỹ
thông tin
c
xu t tìm t p rút g n
c p
trên. Song
ĩ
các nghiên c
ế
v n còn khá khiêm t n. V
ổi, bài toán rút g n thu c tính c
qu ?
ến rút g n thu c tính trong h
c gi i quyế
t ra là: Khi h thông
ế nào cho hi u
6
:
M t h thông tin biế
ế
ng v
: ổ
í
thu
;
;
ế
ế
V
ụ
c
ế
ế
trên
ế
ổi c a d li u sẽ ng n l i
, chu kỳ
ẽ
ụ
ế
ế
ổ
ế
thêm ho c xóa m t t p h p m u trong phân lo i text là ho
nh ng ng dụ
n nh
D
ế
í
ụ
ế
b
xu t
ế
các
ă
dụng các tính toán g c [9], [15], [17],
[21], [23], [26], [37], [38], [48], [49], [60] t
ă
nh t chúng khi h
m th i gian th c hi n thu t toán.
í
i toàn b t p rút g n mà tìm cách c p
c bổ sung ho c lo i b t
gi m thi
ng ho c t p thu c
th i gian th c hi n và có th th c hi n trên các b ng
í
c l n. Trong các công trình [15], [17], [37], [60] các tác gi
ă
phân bi t khi bổ sung t
d ng các công th
p rút g n d a trên mi
í
ă
Shannon entropy, Liang
;
ổ
ă
ng thu
ă
í
n
ng m i. Trong công trình [26], các tác gi
entropy, entropy tổ h p) khi bổ sung, lo i b các
thu
iv i
c nghiên c
n thu c tính
là
quyế
hi u qu
ổi theo chu kỳ c
bổ sung vào ngân hàng nh
í
nh.
c p nh t
nh ng h thông tin có nhu c
í
ng theo chu kỳ trên
ng xã h i Twitter, Facebook b i ngôn ng s dụng trên
ổ
m
ổi
Ví dụ, nh
í
p rút g n. Trong công trình [38], các tác gi
p rút g n mi
ng h p giá tr thu
trình nêu trên, các tác gi
[49]
í
dụ
phụ thu c c a
ổi, c p nh t. Trong các công
u minh ch ng b ng th c nghi m r
ia
7
ă
i gian th c hi n gi m thi
í
c bi t trên các b d li
c l n.
T nh ng nghiên c u v
xu
ă
ti m c n
thu c tính trên h
ă
so v
ng tiếp c n gia
ă
n
ng:
Tiệm cận gia tăng trong rút gọn thuộc tính trên hệ thông tin động là phương
pháp tìm cơ chế tái sử dụng các kết quả tính để cập nhật tập rút gọn nhằm giảm
thời gian tính toán và đảm bảo các yêu cầu về hiệu năng của tập rút gọn.
ă
ế
ế
và
c í
ế
thao tác í
ụ
y
.
làm tiêu chu n l a ch n thu c tính
ă
ổi so v
ĩ
c
p rút
ổi b n ch t. Nói m
g
ă
ă
p rút g n kết qu v i hi
g c trên m
dụng
c hi n l i thu t toán
ng. D
d li u biế
2], [4]
ế
V y, trên
ă
í
ụ
;
;
:
c
;
ỗ
[2], [4]. T
ụ
m trên,
ẽ
ụ
ụ
ĩ
nh
trong các
ế
ế
ĩ
ỗ
l n nh t. Tuy
ế
nhiên,
ổ
[2], [4]
D
2
3 ẽ
í
:
ế
2 ẽ
l a ch n
ụ
ỗ
ế
c
8
ă
2
ch yếu s dụng entropy.
[26], [49], các
,
ế
ế
ụ
ă
ế
p í
| | | | | || |
í
kh
ế
[26].
ế
í
ế
ă
í
ế
í
[49]
| |
| | | |
| |
| | | |
ă
trong [26], [49]
ế
ế
ă
i v i các thu t toán
Liang entropy [26], [49], b ng quyế
nh rút g
s dụng
hỗ tr th
is
14]
dụng m t s
í
l
c p nh t t p thu c tính rút g n trên b ng quyế
dụng kho ng cách metric
sẽ gi i quyết bài toán
c xây d ng trong [14].
th c a b ng quyế
ng h p biế
c nghiên c u trong lu n án g m:
;
ă
ng theo tiếp c n
; ổ
í
ng cụ
ổ
;
;
í
Động cơ, mục tiêu và kết quả nghiên cứu
ă
ụ
nh t
: 1)
metric [14]
ế
ă
ụ
ụ
ụ
metric trong [14] ch
kh
p
ế
ph c t p tính toán. 2)
ế
í [3], [5], [9], [14] trong khi ti
thác và s dụng các metric có th còn r t l n b
nên có
ỹ
ă
khai
c s dụng r t
9
ĩ
phổ biến trong nhi
ă
c [10]. 3) S dụ
c p nh t t p rút g
ến m c dù trong [9]
c nghiên c
ă
xu t m t metric
ế
tron
có
hỗ tr nh
[14] và Shannon entropy [2], [4]
bi t. 4) Trong các nghiên c
trên h
i t p rút g n s dụng metric
i ch gi i quyế
ă
xu
ng, h u hết các tác gi m
ng c a d li u, s biế
ng h
c
n thu c tính
ến m t khía c nh biến
xu
ng có th ch xét trong t
ng [15], [17], [21],
[26], [37], [48], [60] ho c ch xét trong t p thu c tính [38], [49] ch
trình nào xem xét toàn di n trên c t p thu c tính và t
ng.
14]
b n lý do trên, tác gi cho r ng s dụng metric xây d ng
ă g rút g n thu c tính sẽ có ba
ỹ
s dụ
í
metr
; Thứ hai, kế th a nh
ế
c
mc
c ch ng minh trong v
gi i quyết bài toán rút g n trên b ng quyế
ĩ
trong ph
ỗ
nh
c a t p lu t quyết
ổ biến là
dụ
entropy thông tin, ma tr n phân bi t; ph m vi ng dụng c
ch h n chế trên b ng quyế
ĩ
n s dụng metric
:
nh
m: Thứ nhất,
không
nh nh t quán
dụ
ụng phù h p cho các b ng quyế
n
nh không nh t quán; Thứ ba,
gi m th i gian c p nh t t p rút g n so v i vi c th c hi n l i thu t toán g c s dụng
í
V
h
ụ
ế
:
í
1)
ế
ế
.
2) Xây d ng và ch ng minh các công th c c p nh
và hàm phân bi t m r
quyế
nh:
ế
ng h p biế
n (metric
ng c a b ng
10
Thêm/Xóa t
ng
C p nh t t
ng
Thêm/Xóa t p thu c tính
ă
3) Xây d ng thu
biế
ng
ng h p
trên
ă
4) Tiến hành m t s th c nghi m so sánh v
ă
m ts
u qu c
ă
1) Xây d ng các công th c c p nh t metric và các thu
ng khi thêm/xóa/cập nhật đối
rút g n thu c tính trong b ng quyế
t ợng.
2) Xây d ng các công th c c p nh t metric, c p nh t ma tr n phân bi t m
ă
r ng và các thu
n thu c tính trong b ng quyết
ng khi thêm/xóa thuộc tính.
u c a lu n án là nghiên c u
í
ế
nh lý, m
trong lu
và
lý thuyết:
d a trên
í
kiến th
hi
.
t
th c nghi m.
c ch ng minh ch t chẽ, logic
n và các kết qu nghiên c u
í
trên lý thuyết
gb
nghiên c u th c nghi m: lu n án th c
ch y th nghi m
thu t toán v i d li u
UCI, so sánh và
ết qu th c nghi m so v i kết qu nghiên c u lý thuyết, t
í
n c a kết qu nghiên c u.
Bố cục của luận án g m ph n m
và danh mục các tài li u tham kh o.
ế
và s dụ
ế
u và ba
1
i dung, ph n kết lu n
í
ến trong
í
; M ts
metric [14] và rút g n thu c tính s dụng metric
dụ
ết lu n
n thu c tính s
n
ỗ
trong
tác gi
trong lu n án.
11
a lu
2
2
c trình
3
ế
kết qu nghiên c u
ế
ổ
2
m ts
v
minh h
3
í
n và hi u qu c
i quyế
nh - khi t p thu c tính
ng h p biế
u ki n
.
ổi th hai c a b ng quyết
c bổ sung ho c lo i b b ng cách s dụng hai
: Metric và Hàm phân bi t m r ng. M t s th c nghi m trên các b
s li
c th c hi
i v i các thu
ă
n và hi u qu c
Trong ph n kết lu n
tri n tiếp theo c a tác gi .
nh
xu t nh m minh h a cho tính
xu t.
a lu
ng
phát
12
C
Một số k
1.1.
1. CƠ SỞ LÝ T UYẾT
ệm
b
về ý t u ết tậ t
Lý thuyết t
ă
w
c Z.
1982 33]
34] ă
c bổ
xu t, lý thuyết t
l
u tiên
1998
c nhi u s chú ý t gi i nghiên c u khoa h c và
ến nay, các nghiên c u trên n n t ng lý thuyết t p thô và t p trung vào các
t
ng dụng c a lý thuyết t p thô trong khai phá d li u có th nói vô cùng phong phú.
Các khái ni
ng khái ni
c a lý thuyết t p thô truy n th ng.
1.1.1. Hệ thông tin
H thông tin
là công cụ bi u di n tri
th
i d ng m t b ng d li u g m p c t ng v i p thu c tính và n hàng ng v i
n
ng. M t cách hình th c, h thông tin
Đ
ĩ
ĩ 1.1 ([33]). H thông tin là m t b
h n, khác rỗ
ế ;
ng
ỗ
U là t p h u
; A là t p h u h n, khác rỗng các thu c tính
í
í
m i
tính a
là
u a
thay vì
. Nếu
u U , a A
, ta ký hi u giá tr thu c
B b1 , b 2 , ..., b k A
thu c tính thì ta ký hi u b các giá tr { u b i }b i u B
ng, thì ta viết u B v B nếu u b i v bi v i m i
là m t t p con các
y, nếu u và v là hai
i 1, ..., k
.
, u a
u ch a giá tr khác rỗng thì h thông tin
ĩ 1.2 ([33]). Xét h thông tin
, v i mỗi t p con các thu c tính
Nếu v i m i
u U
và
a A
c g i là hệ thông tin đầy đủ.
1.1.2.
Đ
P A
ệ không
ệ
, m t quan h hai ngôi trên U, ký hi u là
IN D P
u , v U
IN D P
nh b i:
U a P, u a v a
c g i là quan h P - không phân bi
c.
13
D
t quan h
thì
ng u và v không phân bi
IN D P
trong P. Quan h
ế
U / IN D P
ho ch
U /P
U. Nếu
nh m t phân ho ch trên U, ký hi u là
U /P
. Ký hi u l p
u P
ng u là u P
ch
c b i các thu c tính
vU
phân
u, v
ỗ
ỗ
K(P)
và
(knowledge granule) ho c t
[22].
ĩ 1.3 ([34]). Cho h thông tin
1) Phân ho ch
nếu
.
í
|
Đ
IN D P
u U ,
u P
u
2) Phân ho ch
hay phân ho ch
U /P
và
và phân ho ch
ết
một số lớp của
U /Q
2) Với mọi
U / P U /Q
),
.
Q
U /P
mn
(finer) phân ho ch
(coarser) phân ho ch
U /Q
P Q
. Ta nói:
U /Q
Tính chất 1.1 ([34]). Xét hệ thông tin
1) Nếu
P,Q A
thì
U /Q
U / P
U /P
và
, mỗi lớp của
U /Q
nếu
(viết
u U ,
U / P
u P
U /Q
u
Q
)
.
P, Q A
U /P
là một lớp hoặc hợp của
.
ta có u P Q
u U
u u
P
Q
.
1.1.3.
Cho h thông tin
B A
và t
ng
c, chúng ta có các l
X U
. V i m t t p thu c tính
a phân ho ch
:
?
Trong lý thuyết t
U /B
bi u di n X thông qua các l
a
(còn g i là bi u di n khái ni m X b ng tri th c có sẵn B
i ta x p x X
b i h p c a m t s h u h n các l
a
ng X thông qua t p thu c tính B
c a X, ký hi u l n
t là
BX
BX u U
và
u B
U /B
c g i là B-xấp xỉ dưới và B-xấp xỉ trên
:
BX
X
. Có hai cách x p x t p
,
BX u U
u B
X .
14
p
còn t p
bao g m t t c các ph n t c a U ch c ch n thu c vào X,
BX
ă
bao g m các ph n t c a U có kh
BX
c phân lo i vào X d a vào
ĩ
t p thu c tính B. T hai t p x p x nêu trên, ta
BN B
X
B-miền biên c a X ,
BX BX
p
D th y B-miền biên c a X là t p ch
miền ngoài c a X ch
ng có th thu c X, còn B-
ng ch c ch n không thu c X.
ng h p
l iX
B-miền ngoài c a X.
U BX
BN B
X
c g i là tập chính xác (crisp)
,X
c
c g i là tập thô (rough).
V i
B,D A
, ta g i B-mi
a D là t
BX
POSB (D )
X U / D
ĩ
mà
vU
mi
u B
POSB (D ) u U
v B
u B
u
D
u
u D
có
b ng quyế
C và t p các thu c tính quyế
v i
B ng quyế
nh). B ng quyế
C D
cl i
nh t quán khi và ch khi
í
u ki n
ế
c g i là nh t quán khi và ch khi phụ
ĩ
i m i
u, v U , u C
v C kéo theo
là không nh t quán. D th y b ng quyế
POSC
D U .
nh
C D
ế
;D
là
ng h p b ng không nh t quán
i c a U sao cho phụ thu c hàm
11
í
nh là m t h thông tin,
nhau: t p các thu
ế
ế
12 ;
khác,
.
D chính là t p con c
Ví dụ 1.1. B
cách
ế
nh
vD.
POSC
Nói
nh D.
thu c hàm C D nghi
thì
.
.
p thu c tính A bao g m hai t p con
u D
vD
sao cho v i m i
c bi t c a các h thông tin có vai trò quan tr ng trong nhi u ng
ế
dụng là
ta
ng
ịnh
1.1.4. B ng quy
M tl
t pt tc
1
ch}
2
3 …
15
U/C = {{u1}, {u2, u5}, {u3}, {u4}, {u6, u8}, {u7},{u9, u10}, {u11}, {u12}};
2
6
5
8; 9
í
10
í
í
í
U/D = {{u1, u2, u4, u6, u7, u8, u10, u11}, {u3, u5, u9, u12}}
1
2
3
4
5
6
í
ế
11
ế
10
10 D ≠ 9 D
B ng 1.1.
Id
ị
M u
u1
thu ho ch táo
t
To
u2
Thu hoạch
Yes
Yes
u3
Xanh
u4
Xanh
No
To
Yes
u5
No
u6
Yes
u7
To
Yes
u8
Yes
u9
No
u10
Yes
u11
Yes
u12
Xanh
No
9
16
1.2.
Một số khái niệm về tập rút gọn
1.2.1. T p rút gọn dựa trên miề d ơ
Trong b ng quyế
í
nh, không ph i m i thu
i v i tác vụ phân l p t
ng. Các thu
í
u ki n trong b ng quyết
c chia thành thu c tính lõi và thu c tính không c n thiết d
tr
i v i phân l p. Thuộc tính lõi là thu c tính c t yếu, không th thiếu trong
vi c phân l p chính xác t p d li u. Thuộc tính không cần thiết
w
Đ
ĩ
dụng mi
ĩ 1.4 ([33]). Cho b ng quyế
a) là thu c
ến vi c phân l p d li u.
tính mà vi c lo i b thu c tính này không
Z
quan
í
a và thu c tính lõi
nh
. Thu c tính
ếu
c g i là không c n thiết trong DT d a trên mi
PO SC D
P O S ( C c ) D
ĩ
;
c l i, c
í
ổi mi
c g i là c n thiết.
a là thu c tính mà khi lo i b sẽ không làm thay
a t p thu c tính quyế
ổi m t lu t quyế
nh t quán c a b ng quyế
D
ĩ
D
nh t
ổ
nh.
T p t t c các thu c tính c n thiết trong DT
d
c tính này không làm
c ký hi u là
c g i là t p lõi d a trên mi n
c tính c n thiế
c g i là
thu c tính lõi.
Rút g n thu c tính chính là tìm cách lo i b t
c n thiết mà v
ă
m b o kh
ĩ
1.5 ([33]). Cho b ng quyế
:
R C
í
D
p
ĩ :
rút g n theo mi
Đ
p c a t p thu
ng thu c tính không
1)
POSR (D ) POSC (D )
2)
r R , P O S R r ( D ) P O S C ( D )
t t p rút g n c a C d a trên mi
nh
T p thu c tính
17
ĩ
1
u ki
ch n c a các lu t phân l
u ki n t p rút g n R b
;
p thu c tính g
t p rút g n R không ch a thu
í
mb
trong
w
i là t p rút g
ế
u
PRED C
⋂
rút g n Pawlak c a C
ĩ
2
th a.
ĩ
T p rút g
u ki
ch c
là h t t c các t p
.
p rút g n b o toàn mi
rút g n thu c tính khác d a trên nh ng nguyên t c b
í
u có mụ
n là gi m s
ng thu c tính và b o toàn các
thông tin c n thiết ch a trong d li u. Ví dụ, trong [35] Z.Pawlak và A.Skowron
ĩ
p rút g
1.5 b
u ki n b o toàn hàm quyế
ch c ch n (kh
nh m r ng và ch
ă
ĩ 15
nh m r ng; Ho
u ki n 1)
u ki n b o toàn kho ng cách gi a phân b entropy c a
ng b t kỳ
g
u ki n này
n l p) c a t p thu c tính g c. T p rút
g n này g i là t p rút g n b o toàn hàm quyế
c
ĩ
u ki n 1) c
c t p rút g n b o toàn entro
…
ụ thu
u là nh
1.2.2. T p rút gọn dựa trên ma tr n phân biệt
Ma tr n phân bi t do A. Skowron và các c ng s
dụ
nh
v i
M mi j
thu
n n
ụ
xu
tìm t
U u 1 , u 2 , ..., u n
, là m t ma tr
43]
b ng quyết
. Ma tr n phân bi t c a
, ký hi u
i x ng mà mỗi ph n t c a nó là m t t p h p các
í
mi j
cC
ui (c ) u j (c )
if
u i ( D ) u j ( D ),
if
ui (D ) u j (D ) .
ế
ĩ