Báo cáo nghiên cứu khoa học: " XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG" pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (183.83 KB, 11 trang )

39
TẠP CHÍ KHOA HỌC, Đại học Huế, Số 50, 2009

XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG

Hoàng Thị Lan Giao
Trường Đại học Khoa học, Đại học Huế
Nguyễn Thị Lan Anh
Trường Đại học Sư phạm, Đại học Huế
TÓM TẮT
Trên thực tế, các cơ sở dữ liệu thường không đầy đủ vì nhiều nguyên nhân. Có nhiều
tác giả (Kononenko,Pyle, Quinlan, Lobo…) đã đề xuất các cách xử lý khác nhau. Bài báo này
đư
a ra m
ột cách tiếp cận trên cơ
s
ở mở rộng quan hệ Không phân biệt được trong lý thuyết tập
thô, đó là quan hệ đặc trư
ng ñ
ược đề xuất bởi Jerzy W. Grzymala-Busse. Một thuật toán sinh
luật quyết định trên bảng quyết định không đầy đủ - thuật toán NewLEM2 - cũng được chúng
tôi xây dựng bằng cách sử dụng quan hệ đặc trưng này.
I. Mở đầu
Bài báo này s
ử dụng kỹ thuật xử lý thông tin không đầy đủ dựa vào quan hệ đặc
tr
ưng - là một mở rộng của quan hệ không phân biệt được - do Jerzy W. Grzymala -
Busse

đề xuất. Theo hướng tiếp cận này, giá trị thuộc tính thiếu trên hệ thống thông tin
không
đầy đủ được chia làm hai loại: giá trị bị mất và giá trị điều kiện không quan trọng.
Trên c
ơ sở quan hệ đặc trưng, ba loại xấp xỉ: xấp xỉ đơn, xấp xỉ khái niệm, xấp xỉ tập
con
được xây dựng để xấp xỉ cho một tập khái niệm và dùng xấp xỉ khái niệm để sinh
lu
ật. Trong bài báo này, chúng tôi đề xuất một thuật toán để tìm phủ địa phương của một
t
ập khái niệm cho trước, trên cơ sở đó sinh luật quyết định mô tả các đối tượng thuộc
t
ập hợp này.
II. Hệ thống thông tin - Quan hệ đặc trưng
2.1. H
ệ thống thông tin
H
ệ thống thông tin là một cặp A = (U,A) trong đó U là một tập hữu hạn khác
r
ỗng các đối tượng được gọi là tập vũ trụ; A là một tập hữu hạn khác rỗng các thuộc tính
sao cho v
ới mọi a ∈ A, a : U
→
V
a
(V
a
được gọi là tập giá trị của a), kí hiệu a(u) (hoặc
u(a)) là giá trị của đối tượng u tại thuộc tính a.
2.2.Bảng quyết định

B
ảng quyết định là một hệ thống thông tin có dạng DT = (U, C ∪ D) trong đó C ∩
D = ∅. D g
ọi là tập thuộc tính quyết định (hay quyết định) và C là tập thuộc tính điều
ki
ện. Không mất tính tổng quát, có thể xét tập thuộc tính quyết định D chỉ gồm một phần

40
tử d. Lúc đó, bảng quyết định DT sẽ được viết dưới dạng DT = (U, C∪{d}) (hay
để cho đơn giản là DT = (U,C,d) ), d∉C.
Tuy nhiên, trên th
ực tế, tập dữ liệu thu được thường không đầy đủ mà bị thiếu
m
ột số giá trị thuộc tính trên một số đối tượng nào đó - tức là chứa giá trị thiếu - vì
nhi
ều lí do khác nhau. Một hệ thống thông tin như thế được gọi là hệ thống thông tin
không
đầy đủ - tương ứng ta có bảng quyết định không đầy đủ.
Trên b
ảng quyết định không đầy đủ, giá trị thuộc tính bị thiếu được chia làm hai
lo
ại [3,4,6,7]:
Giá tr
ị bị mất, giá trị này được kí hiệu là “?”: ban đầu, giá trị tại thuộc tính đó
c
ủa đối tượng đang xét vẫn có và có ảnh hưởng đến việc phân lớp quyết định của đối
t
ượng. Tuy nhiên, vì lý do nào đó mà giá trị này bị xóa đi và hiện tại chúng ta không thể
xác
định được.

Giá tr
ị điều kiện không quan trọng, giá trị này được kí hiệu là “*”: giá trị ban
đầu của đối tượng trên thuộc tính đang xét không được lưu lại do không có ý nghĩa
trong vi
ệc ra quyết định phân lớp đối tượng đó.
Cho b
ảng quyết định không đầy đủ DT = (U,C,D). Với thuộc tính a∈C,
v∈V
a
, kí hiệu t = (a,v) là cặp thuộc tính-giá trị; [t]: khối (block) của t, là tập tất cả các
đối tượng trong U có giá trị trên thuộc tính a bằng v. Lúc đó, nếu tồn tại một đối tượng x
sao cho a(x) = ?, ngh
ĩa là giá trị của x tại thuộc tính a bị mất, thì x không thuộc vào bất
k
ỳ một khối [(a,v)] nào với mọi giá trị v của a; nếu tồn tại một đối tượng x sao cho a(x)
= *, ngh
ĩa là giá trị của x tại thuộc tính a là điều kiện không quan trọng, thì x thuộc vào
m
ọi khối [(a,v)] với mọi giá trị v của a.
B
ảng 1 là một ví dụ của bảng quyết định không đầy đủ.
Bảng 1: Bảng quyết định không đầy đủ
U Temperature Headache Nausea Flu
1 high ? no
yes
2 Very-high Yes yes
yes
3 ? No no
no
4 high Yes yes

yes
5 high ? yes
no
6 Normal Yes no
no
7 Normal No yes
no
8 * Yes *
yes
Với bảng quyết định cho ở Bảng 1, ta có các khối của các cặp thuộc tính - giá
tr
ị:

41
[(Temperature, high)] = {1,4,5,8}
[(Temperature, Very-high)] = {2,8}
[(Temperature, Normal)] = {6,7,8}
[(Headache,yes)] = {2,4,6,8}
[(Headache,no)] = {3,7}
[(Nausea,yes)] = {2,4,5,7,8}
[(Nausea,no)] = {1,3,6,8}
Cho x ∈U; B⊆C. T
ập đặc trưng K
B
(x) của đối tượng x được định nghĩa:
[
]
I
*)(?,)(,

)(,()(
≠≠∈
=
xaxaBa
B
xaaxK

Ví d
ụ, với Bảng 1 đã cho:
K
C
(1) = K(1,Temperature) ∩ K(1, Headache) ∩ K(1,Nausea)
= {1,4,5,8} ∩ U ∩ {1,3,6,8} = {1,8}
T
ương tự, ta có:
K
C
(2) = {2,8}
K
C
(3) = {3}
K
C
(4) = {4,8}
K
C
(5) = {4,5,8}
K
C
(6) = {6,8}

K
C
(7) = {7}
K
C
(8) = {2,4,6,8}
J.W.Grzymala-Busse
đã mở rộng quan hệ B-không phân biệt được lên hệ thống
thông tin không
đầy đủ thành quan hệ đặc trưng R(B) được định nghĩa như sau:
R(B) = {(x,y) ∈
∈∈
∈U
2


 y∈
∈∈
∈K
B
(x)}, ở đây B ⊂ C
R(B) có tính ph
ản xạ, nhưng nói chung không có tính đối xứng và tính bắc cầu.
T
ập đặc trưng của X theo quan hệ đặc trưng R(B) cũng có thể xác định:
K
B
(x) = {y


 (x,y) ∈
∈∈
∈ R(B)}
III. X
ấp xỉ trên, xấp xỉ dưới
Cho X ⊆U. X
được gọi là tập khái niệm nếu ∀x,y∈X, d(x) = d(y).
Trên b
ảng quyết định không đầy đủ, với X⊆U là một tập khái niệm và quan hệ
đặc trưng R(B), người ta xây dựng ba cách xấp xỉ tập X như sau :
3.1. X
ấp xỉ đơn: xây dựng các tập xấp xỉ dựa vào các tập đơn
B-x
ấp xỉ dưới đơn của X là tập hợp:
{
}
U
XxKUx
B
xXB
⊆∈
=
)(,
)(

B-x
ấ
p x
ỉ
trên

đơ
n c
ủ
a X là t
ậ
p h
ợ
p:
{
}
U
∅≠∩∈
=
XxKUx
B
xXB
)(,
)(

42
3.2. Xấp xỉ tập con
: xây d
ự
ng các t
ậ
p x
ấ
p x
ỉ

d
ự
a vào các t
ậ
p con c
ủ
a U
B-X
ấ
p x
ỉ
d
ướ
i t
ậ
p con c
ủ
a X:
U
XxKUx
B
B
xKXB
⊆∈
=
)(,
)()(

B-X
ấ

p x
ỉ
trên t
ậ
p con c
ủ
a X:
U
≠∅∩∈
=
XxKUx
B
B
xKXB
)(,
)()(

Vì quan h
ệ

đặ
c tr
ư
ng R(B) có tính ph
ả
n x
ạ
nên v
ớ
i m

ỗ
i t
ậ
p khái ni
ệ
m X, B-x
ấ
p
x
ỉ
d
ướ
i
đơ
n và B-x
ấ
p x
ỉ
trên
đơ
n l
ầ
n l
ượ
t là các t
ậ
p con c
ủ
a B-x
ấ

p x
ỉ
d
ướ
i t
ậ
p
con và B-x
ấ
p x
ỉ
trên t
ậ
p con c
ủ
a X.
IV. Xấp xỉ khái niệm:

đượ
c
đị
nh ngh
ĩ
a b
ằ
ng cách thay không gian U trong
đị
nh
ngh
ĩ

a c
ủ
a x
ấ
p x
ỉ
t
ậ
p con b
ằ
ng t
ậ
p khái ni
ệ
m X.

B-x
ấ
p x
ỉ
d
ướ
i khái ni
ệ
m c
ủ
a X:
U
XxKXx
B

B
xKXB
⊆∈
=
)(,
)()(

B-x
ấ
p x
ỉ
trên khái ni
ệ
m c
ủ
a X:
U
∅≠∩∈
=
XxKXx
B
B
xKXB
)(,
)()(

V
ớ
i B
ả

ng 1 và hai t
ậ
p khái ni
ệ
m X
1
, X
2

đượ
c xác
đị
nh X
1
= {1,2,4,8} và X
2
= {3,5,6,7}
thì:
T
ậ
p C-x
ấ
p x
ỉ
d
ướ
i
đơ
n và t
ậ

p C-x
ấ
p x
ỉ
trên
đơ
n t
ươ
ng
ứ
ng c
ủ
a X
1
và X
2
là:

=)(
1
XC
{1,2,4};
=)(
1
XC {1,2,4,5,6,8}

=)(
2
XC
{3,7}; =)(

2
XC {3,5,6,7,8}
T
ập C-xấp xỉ dưới tập con và C-xấp xỉ trên tập con của X
1
, X
2
lần lượt là:

=)(
1
XC
{1,2,4,8}; =)(
1
XC {1,2,4,5,6,8}

=)(
2
XC
{3,7}; =)(
2
XC {3,4,5,6,7,8}
T
ập C-xấp xỉ dưới khái niệm và C-xấp xỉ trên khái niệm của X
1
, X
2
:
=)(
1

XC
{1,2,4,8}; =)(
1
XC {1,2,4,6,8}
=)(
2
XC
{3, 7}; =)(
2
XC {3,4,5,6,7,8}
Ta d
ễ dàng nhận thấy rằng B-xấp xỉ dưới khái niệm và B-xấp xỉ dưới tập con của
X là nh
ư nhau; B-xấp xỉ trên khái niệm là tập con của B-xấp xỉ trên tập con, đồng thời
là t
ập nhỏ nhất chứa tập X.

43
Theo [3], B-xấp xỉ khái niệm thích hợp cho việc sinh luật nhất.
Trong tr
ường hợp bảng quyết định đang xét là đầy đủ, ba loại xấp xỉ đơn, xấp xỉ
t
ập con và xấp xỉ khái niệm là trùng nhau. Nhưng đối với bảng quyết định không đầy đủ
thì
điều này chưa chắc đúng.
V. Sinh luật trên bảng quyết định
Theo [3], quá trình sinh luật trên bảng quyết định không đầy đủ sử dụng khối
thu
ộc tính-giá trị bao gồm các bước: tính các khối thuộc tính - giá trị, tính tập đặc trưng
và quan h

ệ đặc trưng, tính các tập xấp xỉ, các khối thuộc tính - giá trị kiểu liên tục (nếu
có), sinh lu
ật; trong đó bước sinh luật được thực hiện bằng thuật toán LEM2. Thuật toán
này khai phá không gian tìm ki
ếm là các bộ thuộc tính-giá trị, tìm ra một phủ địa
ph
ương, chính là tập các thành phần điều kiện của tập luật mô tả tập đối tượng đang xét.
Tuy nhiên, theo [10,11], ta có th
ể làm giảm độ phức tạp của quá trình khai phá
lu
ật bằng cách rút gọn bảng quyết định trước khi tiến hành quá trình sinh luật. Như vậy,
thay vì th
ực hiện việc tính các khối thuộc tính-giá trị, tính tập đặc trưng, quan hệ đặc
tr
ưng,… và sinh luật trên một bảng dữ liệu lớn, ta chỉ tiến hành trên bảng nhỏ hơn, đơn
gi
ản hơn.
Ngoài ra,
để cải thiện tốc độ thực hiện thuật toán, trong bài báo này chúng tôi sẽ
đề xuất một thuật toán mới cũng nhằm tìm kiếm một phủ địa phương mô tả tập khái
ni
ệm cho trước là thuật toán NewLEM2.
Cho V là t
ập xấp xỉ dưới hoặc tập xấp xỉ trên khác rỗng của một tập khái niệm
có giá tr
ị thuộc tính quyết định là w.
V
ới một tập các bộ thuộc tính-giá trị bất kỳ T = {t = (a,v)}, ký hiệu
Khi
đó, tập V được gọi là phụ thuộc vào tập T nếu và chỉ nếu

[
]
VT ⊆≠∅
.
T
được gọi là phức cực tiểu (minimal complex) của V nếu và chỉ nếu V phụ
thu
ộc vào T và không tồn tại T’ con của T sao cho V phụ thuộc vào T’.
Ph
ức cực tiểu T của tập xấp xỉ V chính là phần điều kiện của một luật quyết định
đúng với các đối tượng x thuộc [T].
G
ọi τ là họ các tập khác rỗng thuộc tính-giá trị, τ ≠ ∅. τ được gọi là phủ địa
ph
ương (local covering) của V khi và chỉ khi thỏa mãn các điều kiện sau:
M
ỗi phần tử T của τ là một phức cực tiểu của V
∪
T
∈τ
[T] = V và τ cực tiểu, nghĩa là τ có số phần tử nhỏ nhất.
Nh
ư vậy, τ chính là tập nhỏ nhất gồm các phức cực tiểu mô tả một cách đầy đủ
t
ập xấp xỉ V của tập khái niệm X và việc đi tìm τ chính là đi tìm phần điều kiện của tập
các lu
ật quyết định mô tả tập V. Thuật toán NewLEM2 trình bày dưới đây làm nhiệm vụ
đi tìm tập τ đó.
[
]

[
]
I
T
t
tT
∈
=

44
Ta thấy rằng, tập xấp xỉ khái niệm của một tập khái niệm X chính bằng hợp của
nh
ững tập đặc trưng K
C
(x) của các đối tượng x trong X mà K
C
(x) ⊆ V và một phức cực
ti
ểu nếu đúng với một đối tượng x thì cũng đúng với các đối tượng khác thuộc cùng tập
đặc trưng của nó. Vì vậy, thay vì tìm T bằng cách “nhặt” từng bộ thuộc tính-giá trị t sao
cho [t] ch
ứa nhiều x
i
thuộc V nhất như trong thuật toán LEM2, chúng ta sẽ tìm T cho cả
m
ột tập đặc trưng; đồng thời, thay vì tìm t trong tập tất cả các cặp thuộc tính-giá trị thì
ch
ỉ cần tìm trong số các cặp thuộc tính-giá trị tương ứng với các thuộc tính điều kiện mà
giá tr
ị của đối tượng ứng với tập đặc trưng đang xét tại thuộc tính đó là xác định bằng

thu
ật toán NewLEM2.
Thu
ật toán NewLEM2 là một cải tiến của thuật toán LEM2, cũng nhằm mục
đích xây dựng phủ tối tiểu các phức cực tiểu của một tập xấp xỉ khái niệm của một tập
khái ni
ệm, tức là đi tìm tất cả các vế trái của các luật quyết định mô tả tập (xấp xỉ) khái
ni
ệm đó. Với mỗi x thuộc V mà lớp đặc trưng của nó là con của V, ta sẽ rút gọn tập
thu
ộc tính mô tả K
C
(x), tức là đi tìm C’ ⊂ C nhỏ nhất mà K
C’
(x) ⊆ V. Sau đó, loại khỏi
C’ nh
ững bộ t thừa. C’ chính là T: phức cực tiểu mô tả K
C’
(x). Quá trình tìm phức cực
ti
ểu được tiếp tục với các x còn lại trong V cho tới khi mọi đối tượng đều được miêu tả
b
ởi một phức cực tiểu tương ứng nào đó.
Thu
ật toán cụ thể như sau:
Thuật toán NewLEM2
Input: T
ập xấp xỉ khái niệm V của tập khái niệm X;
Output: Ph
ủ địa phương

τ
của V;
1.
Begin
2.

G := V;
3.
τ
:=
∅
;
4.
while
G
≠∅

5.
begin
6.

T :=
∅
;
7.

Ch
ọ
n x
∈

G
đầ
u tiên sao cho K
C
(x)
⊆
V và
GxK
C
∩)(
là l
ớ
n nh
ấ
t.
8.

TV(x):={t = (a,a(x))

(a
∈
C) và (a(x) xác
đị
nh)};
9.
while
T =
∅
or [T]
⊄

V
10.
begin
11.

Ch
ọ
n m
ộ
t b
ộ
t
∈
TV(x)
đầ
u tiên sao cho Gt
∩
][ là l
ớ
n
nh
ấ
t;
ư
u tiên ch
ọ
n b
ộ
t
∈

TV(x) sao cho v
ớ
i m
ọ
i (y
∈
[T])
và (y
∉
V) thì y
∉
[t]
12.

T := T
∪
{t} ;
13.

G :=[t]
∩
G ;
14.

TV(x):= TV(x)-T ;
15.
end
{while 9}

45

16.
for
m
ỗ
i t
∈
T
do

17.
if
[T –{t}]
⊆
V
then
T := T –{t};
18.
τ
:=
τ

∪
{T};
19.

G :=
[
]
U
τ

∈
−
T
TV
;
20.
end
{while 4};
21.
for
m
ỗ
i T
∈

τ

do

22.
if

{ }
[
]
VS
TS
=
−∈
U

τ

then

τ
:=
τ
- {T};
23.
end
{procedure}.
Chứng minh tính đúng đắn của thuật toán:
(i) V phụ thuộc T : [T] ⊆ V
Vì T = {t = (a,v)
 a(x) =v, a∈C, v∈V
a
, v≠*, v≠? } và K
C
(x) =
I
ñònh xaùc a(x)
Ca
xaa
∈
)](,[ , do
đó, khi TV(x) = ∅, ta sẽ có [T] = K
C
(x). Mà K
C
(x) ⊆ V.

V
ậy [T] ⊆ V.
(ii)
T cực tiểu
T
ừ dòng 16,17 => T cực tiểu.
(iii)
[
]
U
τ
∈T
T = V
Theo (i), ∀T ∈τ, [T] ⊆ V =>
[
]
U
τ
∈T
T ⊆ V.
M
ặt khác, cứ mỗi lần thực hiện vòng lặp từ dòng 4-20, ta thu được [T]
= K
C’
(x) với C’⊂ C và K
C
(x) ⊆ V, ∀x ∈V.
=>
U
Vx

C
VxK
∈
⊇)(
'
( Vì K
C
(x) ⊆ K
C’
(x) và
U
Vx
C
VxK
∈
=)( ) hay
[
]
U
VT ⊇
V
ậy
[
]
U
τ
∈T
T = V.
(iv) τ
ττ

τ
cực tiểu.
T
ừ dòng 21, 22 => τ cực tiểu.
Ví d
ụ, xét bảng quyết định không đầy đủ ở Bảng 1, tập khái niệm X= {1,2,4,8}.
T
ập xấp xỉ dưới khái niệm V =
{
}
8,4,2,1)(
=XC . Quá trình sinh luật bằng thuật toán
NewLEM2 nh
ư sau:
Ta có các t
ập đặc trưng của các đối tượng thuộc V là K
C
(1) = {1,8}; K
C
(2) =
{2,8}; K
C
(4) = {4,8}; K
C
(8) = {2,4,6,8}.
§ Đầu tiên, khởi gán G := V = {1,2,4,8}; τ := ∅;

46
§ Thực hiện vòng lặp ngoài cùng (dòng 4-20):
•

T := ∅;
•
Trong số các x∈G mà K
C
(x) ⊆ V, ta chọn x = 1 vì đây là phần tử đầu
tiên có
GxK
C
∩
)(
lớn nhất.
•
TV(1) = {(Temperature,high), (Nausea,no)}
•
Lúc này, T = ∅, bắt đầu thực hiện vòng lặp trong (dòng 9-15):
−
Vì
GhigheTemperatur ∩)],[(
= 3 >
GnoNausea ∩)],[(
= 2
− chọn t = (Temperature,high)
−
T = T ∪ {t} = {(Temperature,high)};
−
G = [t] ∩ G = {1,4,5,8}∩{1,2,4,8} = {1,4,8};
−
TV(1) = {(Nausea,no)};
•
[T] = {1,4,5,8}⊄ V nên tiếp tục thực hiện vòng lặp từ dòng 9-15:

T
ương tự như trên, ta chọn được t = (Nausea,no)
⇒ T = {(Temperature,high), (Nausea,no)}; G = {1,8}; [T] = {1,8}⊆ V
⇒ τ = {{(Temperature,high), (Nausea,no)}};
§ Đến đây, G =
[
]
U
τ
∈
−
T
TV
= {2,4}≠∅ nên chúng ta tiếp tục vòng lặp ngoài
(4-20):
•
T := ∅;
•
Trong số hai phần tử của G, chọn x = 2 vì
GK
C
∩
)2(
=
GK
C
∩
)4(
=1
và 2 là phần tử đầu tiên.

•
TV(2) = {(Temperature,Very-high),(Headache,yes), (Nausea,yes)}
•
T = ∅, bắt đầu thực hiện vòng lặp trong (dòng 9-15):
− Chọn t = (Headache,yes) vì
GyesHeadache ∩)],[(
= 2, lớn
nh
ất
−
T = T ∪ {t} = {(Headache,yes)}
−
G = [t] ∩G = {2,4}
−
TV(2) = {(Temperature,Very-high), (Nausea,yes)}
•
[T] = {2,4,6,8} ⊄ V, tiếp tục thực hiện vòng lặp trong:
Ch
ọn t = (Nausea,yes); T = {(Headache, yes),
(Nausea,yes)}; G = {2,4}, [T] = {2,4,8} ⊆ V

47
⇒ τ = {{(Temperature,high), (Nausea,no)}, {(Headache,yes),
(Nausea,yes)} };
§ Lúc này, G =
[
]
U
τ
∈

−
T
TV
= ∅, thoát khỏi vòng lặp.
§ Loại bỏ T dư thừa khỏi τ (dòng 21-22), kết quả thu được τ =
{{(Temperature,high), (Nausea,no)}, {(Headache,yes), (Nausea,yes)} }
V
ậy, tập luật chắc chắn gồm 2 luật:
§ (Headache,yes) ∧
∧∧
∧(Nausea,yes) 

 (Flu,yes)
§ (Temperature, high)
∧
∧∧
∧(Nausea,no) 

 (Flu,yes)
Trong trường hợp sử dụng thuật toán LEM2, tập luật chắc chắn tương ứng với
t
ập khái niệm X ={1,2,4,8} [3] là:
§ (Temperature, high) ∧
∧∧
∧(Headache,yes) 

 (Flu,yes)
§ (Temperature,Very high) 

 (Flu,yes)

§ (Temperature, high)
∧
∧∧
∧(Nausea,no) 

 (Flu,yes)
Nh
ận xét:
T
ập luật chắc chắn sinh ra cho tập X ={1,2,4,8} của bảng quyết định không đầy
đủ trên bằng cách dùng thuật toán NewLEM2 tốt hơn so với dùng thuật toán LEM2: số
l
ượng luật ít hơn, đúng với nhiều đối tượng hơn.
G
ọi n là số phần tử của tập V, m là số thuộc tính điều kiện của bảng quyết định
không
đầy đủ đang xét ( m = card(C)).
Theo [8], ta có
độ phức tạp tính toán của thuật toán LEM2 là O(mn
2
).
Bây gi
ờ, ta sẽ tính độ phức tạp tính toán của thuật toán NewLEM2: vòng lặp
ngoài cùng (t
ừ dòng 4 đến dòng 20) sẽ được thực hiện tối đa là n lần. Ở phần tính phức
T (b
ắt đầu từ dòng 9), tương ứng với mỗi đối tượng x, thuật toán phải thực hiện tối đa là
m l
ần vì phải kiểm tra hết mọi cặp thuộc tính-giá trị (a,a(x)) trong TV(x), a ∈ C
(card(TV(x)) ≤ m). T

ại bước loại bỏ t dư thừa (tương ứng ở dòng 16-17), do T có tối đa
m c
ặp thuộc tính-giá trị nên bước này có độ phức tạp tính toán là O(m). Từ dòng 21-22
(lo
ại T dư thừa), độ phức tạp tính toán là O(n
2
) vì τ có tối đa n phần tử, ứng với mỗi
ph
ần tử phải kiểm tra n-1 lần (dòng 22). Lúc đó, độ phức tạp tính toán của thuật toán
NewLEM2 là O(n
2
).
Ở đây, chúng ta cần để ý một điều là việc tính các tập đặc trưng K
C
(x), x∈V
được thưc hiện trước khi tiến hành bước sinh luật quyết định cho dù sử dụng thuật toán
LEM2 hay NewLEM2. Vì v
ậy, để tiện cho việc so sánh độ phức tạp tính toán của hai
thu
ật toán này, chúng ta có thể xem độ phức tạp tính toán của bước tính K
C
(x) trong
thu
ật toán NewLEM2 là 1.

48
Như vậy, độ phức tạp tính toán của thuật toán NewLEM2 là O(n
2
) bé hơn độ
ph

ức tạp tính toán của thuật toán LEM2 là O(mn
2
). Tuy nhiên, trong thực tế, khi sử
d
ụng thuật toán NewLEM2, chúng ta có thể rút gọn thời gian tìm kiếm các bộ t (dòng 9
đến 15) đi n lần so với LEM2. Điều này có ý nghĩa rất lớn vì các cơ sở dữ liệu thực
th
ường chứa rất nhiều đối tượng, nghĩa là n rất lớn.
Thu
ật toán LEM2 và NewLEM2 chỉ mới sinh ra phần điều kiện của tập luật
ch
ắc chắn (nếu tập đối tượng dùng để huấn luyện là xấp xỉ dưới) hoặc có thể chấp nhận
được (nếu dùng tập xấp xỉ trên để huấn luyện). Trường hợp sinh luật chắc chắn, giá trị
quy
ết định của các luật sinh ra từ một tập khái niệm chính là giá trị quyết định của các
đối tượng thuộc tập hợp đó. Tuy nhiên, trong trường hợp dùng tập xấp xỉ trên để sinh
lu
ật thì giá trị quyết định của từng luật được xác định: trong số các đối tượng thỏa phần
điều kiện của luật đang xét, xác định số lượng của từng nhóm đối tượng có giá trị quyết
định giống nhau, giá trị quyết định của luật chính là quyết định của nhóm có số phần tử
l
ớn nhất.
VI. Kết luận
Dựa vào các khái niệm của lý thuyết tập thô nguyên thủy và quan hệ đặc trưng,
chúng tôi
đã đưa ra một thuật toán tìm phủ địa phương cho một tập khái niệm và sinh
lu
ật cho tập hợp này. Thuật toán có độ phức tạp tính toán bé hơn thuật toán do
Grzymala-Busse
đưa ra, nên hiệu quả hơn về thời gian tính toán và chất lượng của tập

lu
ật cũng có thể tốt hơn.
TÀI LIỆU THAM KHẢO
21.

Nguy
ễ
n Th
ị
Lan Anh, Nghiên c
ứ
u các ph
ươ
ng pháp m
ở
r
ộ
ng quan h
ệ
không phân bi
ệ
t
đượ
c trên h
ệ
th
ố
ng thông tin không
đầ
y

đủ
, Lu
ậ
n v
ă
n th
ạ
c s
ĩ
khoa h
ọ
c ngành Khoa h
ọ
c
máy tính,
Đạ
i h
ọ
c Hu
ế
, 2008.
22.

Hoàng Th
ị
Lan Giao, C
ơ
s
ở
d

ữ
li
ệ
u v
ớ
i thông tin không
đầ
y
đủ
, Lu
ậ
n v
ă
n th
ạ
c s
ĩ
khoa
h
ọ
c ngành Tin h
ọ
c, Tr
ườ
ng
Đạ
i h
ọ
c Bách khoa Hà N
ộ

i, 1998.
23.

Grzymala-Busse J.W, Data with Missing Attribute Values: Generalization of
Indiscernibility Relation and Rule Induction, Transactions on Rough Sets, Lecture
Notes in Computer Science Journal Subline, Springer-Verlag, vol.1 (2004),

78-95.
24.

Grzymala-Busse J.W. Three Approaches to Missing Attribute Values-A Rough Set
Perspective, Workshop on Foundations of Data Mining, associated with the fourth IEEE
International Conference on DataMining, Brighton, UK, 2004.
25.

Grzymala-Busse J.W. Chapter 13 Rule Induction, Data Mining and Knowledge
Discovery Handbook, Springer US, Part II, (2005), 277-294.
26.

Grzymala-Busse J.W. Rough Set Strategies to Data with Missing Attribute Values,
Proceedings of the Workshop on Foundations and New Directions in Data Mining,

49
associated with the third IEEE International Conference on Data Mining, November 19-
22, Melbourne, FL, USA, (2003), 56-63.
27.

Grzymala-Busse J.W., Siddhaye S. Rough Set Approaches to Rule Induction from
Incomplete Data, Proceedings of the IPMU'2004, the 10th International Conference on
Information Processing and Management of. Uncertainty in Knowledge-Based Systems,

Perugia, Italy, July 4-9, vol.2, (2004), 923-930.
28.

Leifler O. Comparison of LEM2 and a Dynamic Reduct Classification Algorithm,
Master’s thesis, performed in Artificial Intelligence & Integrated Computer Systems
Division Dept. of Computer and Information Science at Linkopings universitet, (2002).
29.

Pawlak Z. Rough Sets, International Journal of Computer and Information Sciences,
grammars.grlmc.com, 1982.
30.

Skowron A. Rough Sets and Boolean Reasoning, Granular computing: an emerging
paradigm, (2001), 95-124.
31.

Skowron A., Zhong N. Rough Sets in KDD
,
Tutorial Notes, 2000.

DEALING WITH INCOMPLETE DATA BASED
ON CHARACTERISTIC RELATION
Hoang Thi Lan Giao
College of Sciences, Hue University
Nguyen Thi Lan Anh
College of Pedagogy, Hue University
SUMMARY
The databases in practice usually contain missing values for several reasons. Many
methods dealing with this value have been developed. In this article, we present an approach

which is based on the extention of Indiscernibility Relation in Rough Sets known as the
Characteristic Relation of Jerzy W. Grzymala-Busse. Using this relation, we propose new
algorithm - NewLEM2 - which induces decision rules in incomplete decision table.

Báo cáo nghiên cứu khoa học: " XỬ LÝ THÔNG TIN KHÔNG ĐẦY ĐỦ DỰA VÀO QUAN HỆ ĐẶC TRƯNG" pptx

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về