Báo cáo nghiên cứu khoa học: "Xây dựng cây quyết định đa trị dựa trên tập thô." pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (163.55 KB, 8 trang )

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007

57
XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ

Nguyễn Thị Minh Tâm
(a)

Tóm tắt. Bài báo này giới thiệu một cách tiếp cận để xây dựng cây quyết định đa
trị có khả năng chịu lỗi dựa trên mô hình tập thô có độ chính xác thay đổi. Một khái
niệm mới về quan hệ tơng đơng với độ chính xác đợc đa ra trong lý thuyết tập
thô có độ chính xác thay đổi và đợc áp dụng để xây dựng cây quyết định đa trị.

I. GIớI THIệU
Hiện nay, các phơng pháp phân lớp đang đợc quan tâm nghiên cứu trong
nhiều lĩnh vực: khai phá dữ liệu, thống kê, học máy, Mục đích phân lớp là phân
loại các đối tợng dựa trên giá trị của các thuộc tính ban đầu và thuộc tính nhãn.
Trong bài báo này chúng tôi đa ra một trong những cách tiếp cận mới để lựa chọn
thuộc tính là xây dựng cây quyết định dựa trên lý thuyết tập thô.
Lý thuyết tập thô đợc Pawlak đề xuất, đã trở thành một công cụ toán học để
giải quyết với những thông tin mờ, không chắc chắn. Lý thuyết tập thô tổ hợp các
quan hệ không phân biệt (quan hệ tơng đơng) thành các tập xấp xỉ của các đối
tợng dựa trên tập xấp xỉ trên và xấp xỉ dới ([8]).
Một trong những vấn đề của lý thuyết tập thô là phân lớp, nhng các lớp
trong lý thuyết tập thô phải là chính xác và chắc chắn. Trong thực tế, hai điểm lân
cận có thể không giống nhau về cơ bản do thiếu các đặc trng dẫn đến việc phân lớp

không chắc chắn. Bằng cách tổ hợp xác suất các luật quyết định, mô hình tập thô có
độ chính xác thay đổi cho phép phân lớp từng phần. Khi một đối tợng đợc phân lớp
bằng lý thuyết tập thô, nếu thông tin về đối tợng đầy đủ và chắc chắn thì đó là
phân lớp đúng, còn mô hình tập thô có độ chính xác thay đổi phân lớp đối tợng với
một độ chính xác nào đó ([11]).
II. Lý THUYếT TậP THÔ
ở
đây ta chỉ xét mô hình tập thô gồm tập các đối tợng U của hệ thông tin,
các kết quả thu đợc từ mô hình này chỉ có thể áp dụng đợc cho tập đối tợng thuộc
mô hình đó.
Giả sử ta có tập đối tợng có các nhãn lớp để chỉ ra lớp mà mỗi đối tợng
thuộc vào lớp đó. Ta gọi nhãn lớp là thuộc tính quyết định và các thuộc tính còn lại
là thuộc tính điều kiện.
Định nghĩa 1. Nếu S = (U, A {d}) là bảng quyết định, trong đó A là tập
thuộc tính điều kiện, d là tập thuộc tính quyết định, ta xác định hàm:

A
(u) = {i: tồn tại u IND(A)u và d(u) = i}
(u IND(A)u tức là u không phân biệt đợc với u theo tập thuộc tính A).
Bảng quyết định S là nhất quán nếu card(
A
(u)=1 với mọi uU, ngợc lại thì S là
không nhất quán.

Nhận bài ngày 14/9/2007. Sửa chữa xong 27/11/2007.

Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64

58
Tơng tự ta định nghĩa:

A
(u,i) = {u U}: u IND(A)u & d(u) = i trong đó u U & i
A
(u)
( )
(
)
(
)
( )( )
( )

=
uj
A
A
A
A
iucard
iucard
iu

,
,
, u U & i
A
(u)

A
(u) = {i:
A
(u,i) } u U.
Bảng quyết định S là nhất quán với độ chính xác nếu card(
A
(u) = 1 u U, ngợc
lại thì S là không nhất quán với độ chính xác .
Định nghĩa 2. Nếu

X)|Pr(Y YX X Y , thì ta nói X đợc chứa
với độ chính xác

trong Y hay Y chứa X với độ chính xác

(01).
Định nghĩa 3. Cho (U, R) là một không gian xấp xỉ, trong đó U là tập đối
tợng khác rỗng, R là họ quan hệ tơng đơng trên U. U/R = {E
1
, E
2
, , E
n

} là các
lớp tơng đơng của R, với mọi X U, các xấp xỉ trên và xấp xỉ dới với độ chính xác
đợc định nghĩa nh sau:

i) Tập xấp xỉ trên của X theo quan hệ R với độ chính xác

:

{ }
( )

=

==
i
EX
R
XEXRUEXPOSXR

|Pr
i
E|/)( .
ii) Tập xấp xỉ dới theo quan hệ R của X với độ chính xác

:
{ }
( )

=

==
1|Pr
i
1
E|/)(
i
EX

R
XEXRUEXNONNEGXR .
Tập
XR

là tập các phần tử của U đợc phân lớp là phần tử của X với xác
suất . Tri thức cho trớc đợc biểu diễn bằng các thuộc tính từ R; XR

là tập các
phần tử của U đợc phân lớp thuộc X hoặc -X với xác suất 1-, 01.
iii)
(
)
XRXRBN
R

= đợc gọi là miền biên của X có độ chính xác . Nó
bao gồm tất cả đối tợng không thể phân lớp rõ ràng thuộc vào tập X. Một tập đợc
gọi là thô nếu miền biên của nó khác rỗng, ngợc lại tập đó đợc gọi là tập chính xác.

Hình 1. Xấp xỉ trên và xấp xỉ dới của một tập
Tập hiện tại

Xấp xỉ trên

Xấp xỉ d

ới

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007

59
Định nghĩa 4. Nếu B là tập con của tập thuộc tính A của bảng quyết định
nhất quán có độ chính xác : S = (U,A{d}), thì B đợc gọi là quan hệ rút gọn của S
có độ chính xác

khi và chỉ khi là tập tối thiểu có tính chất:
A
(u) =
B
(u) với mọi
uU.
- Đặt tập các quan hệ rút gọn của S có độ chính xác là RED

(S, A{d}).
- Đặt tập các thuộc tính cần thiết thuộc A có độ chính xác là CORE

(S,
A{d}) thì CORE

(S, A{d}) = RED

(S, A{d}).

Định nghĩa 5. Nhân tố quan trọng của một thuộc tính C
j
trong C đợc định
nghĩa nh sau: importance-factor = 1 -
)(
)(
dCcard
CdCcard
j
+

+
.
Định nghĩa 6. Giả sử P, Q là 2 họ các quan hệ tơng đơng của tập đối
tợng U. Ký hiệu U/IND(P) = {X
1
, X
2
, , X
n
}; U/IND(Q) = {Y
1
, Y
2
, , Y
m
}
Đặt

)(/

|
PINDUx
ijji
j
YXXH

=

,

)(/
1
|
PINDUx
ijjm
j
YXXH

+

=

,
thì {H
1
, H
2
, , H
m+1
} đợc gọi là suy rộng của P với độ chính xác

có quan hệ với Q,
đợc ký hiệu là GENQ

(P)
và có thể gọi {H
1
, H
2
, , H
m+1
} là một phép tách của tập
đối tợng U.
III. CÂY QUYếT ĐịNH ĐA TRị
3.1. Tập dữ liệu huấn luyện đa trị
Bảng 1 là ví dụ minh hoạ tập dữ liệu huấn luyện đa trị. Mỗi bản ghi của tập
dữ liệu có 4 thuộc tính thông thờng và một thuộc tính nhãn lớp. Thuộc tính maker,
performance, color là thuộc tính có giá trị phi số còn thuộc tính price là thuộc tính có
giá trị số. Thuộc tính nhãn lớp gồm 3 giá trị A, B, C. Sản phẩm p3 là một ví dụ về

dữ liệu đa trị bởi nó có 2 giá trị đối với thuộc tính color: yellow và green.
Bảng 1. Tập dữ liệu huấn luyện đa trị
Id maker

price performance

color Class label

p1 A $100

not good yellow A,B,C
p2 B $880

good yellow B,C
p3 A $370

not good yellow, green A
p4 C $1230

good blue B
p5 B $910

good yellow, blue B,C
p6 B $770

not good yellow A,B,C
p7 B $590

not good yellow, green A,B
p8 C $1350

good green A,B,C
p9 C $1250

good yellow, green A,B,C
p10 B $1140

good yellow, green A
p11 A $340

not good yellow, blue A,C
p12 C $1300

good yellow A,B
p13 B $1090

good blue C
p14 B $810

good green A
p15 B $520

not good yellow, blue, green C

Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64

60

3.2. Cây đa trị
Một cây quyết định đa trị tơng ứng với tập dữ liệu trong bảng 1 đợc minh
hoạ ở hình 2. Trong cây này, mỗi nút trong tơng đơng với một thuộc tính, mỗi
nhánh của thuộc tính số tơng đơng với một khoảng giá trị, mỗi nhánh của thuộc
tính phi số tơng đơng với một giá trị, các nút lá là các nhãn.
Sau khi cây quyết định đa trị đợc xây dựng, ta có thể phân lớp một đối tợng
thông qua cây đó. Ví dụ trong bảng 1 ta có sản phẩm p7 với thuộc tính maker = B,
price = '590, performance = not good và color = green, yellow. Bắt đầu với thuộc
tính price = 590 ta đi dọc theo nhánh 477 - 599 và nhận đợc thuộc tính color. Tiếp
tục đi theo nhánh green ta nhận đợc hai nhãn A, B và đi theo nhánh yellow ta
nhận đợc nhãn C. Hợp các nhãn này lại ta đợc kết quả dự đoán là A, B, C.
Việc lựa chọn thuộc tính đa trị tốt nhất khác với lựa chọn thuộc tính đơn trị
theo phơng pháp truyền thống:
- Đối với dữ liệu đa trị, việc nhóm đầy đủ nghĩa là mỗi nút con xấp xỉ có cùng
nhiều nhãn, trong khi đối với dữ liệu đơn trị thì mỗi nút con xấp xỉ có cùng một
nhãn.
- Trong phân lớp bản ghi, một bản ghi có thuộc tính đa trị đi đến nhiều
nhánh trong khi một bản ghi đơn trị chỉ đi đến một nhánh.

3.3. Giải thuật cơ bản xây dựng cây quyết định đa trị
Các giải thuật xây dựng cây quyết định thờng tránh xây dựng những cây lớn
bởi vì chúng sẽ sinh ra nhiều luật, điều này sẽ không hiệu quả trong việc dự đoán
price

performanc
e

color

A,B,C

A,C

A

B,C

C

A,B,C

A

C

C

A,B

A

A,B,C

blue

green

yello
w

good

not good

100~224

225~349

350~474

475~599

725~849

850~974

975~109
1100~1224

1225~1350

Hình 2.

Ví dụ về cây quyết định đa trị

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007

61
phân lớp. Vì vậy việc xây dựng cây quyết định nhỏ để đa ra các luật tốt nhất là vấn
đề có tầm quan trọng.
Giải thuật:
Input: Tập dữ liệu huấn luyện đa trị D.
Output: Cây quyết định đa trị T.
Begin
1. Khởi tạo cây T và đặt tất cả các bản ghi của T ở gốc.

2. while (các nút lá trong T là nút NONSTOP)
3. for mỗi thuộc tính i của nút NONSTOP do
4. for mỗi khoảng giá trị của thuộc tính i do
5. đánh giá độ tốt đối với cách chia của thuộc tính i;
6. for mỗi nút lá NONSTOP do
7. lấy cách chia tốt nhất đối với nút lá này;
8. tách các bản ghi và phát triển cây thêm 1 mức theo cách chia tốt nhất;
9. xác định các nút có thể dừng, đánh dấu chúng là các nút STOP và xác
định tập nhãn kết quả của chúng.
10. return T.
End;
Các bớc 3-5 và bớc 9 là các bớc điều kiện. Bớc 3-5 xác định nút lá và các nhánh
của nó. Bớc 9 xác định nút lá.
IV. XÂY DựNG CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ
4.1. Giải thuật
RS_DTA (Rough Set base Decision Tree Algorithm)
Input: Bảng quyết định S = (U, A {d}).
Output: Cây quyết định đa trị T.
Procedure Khởi tạo cây có biến T là cây rỗng. Nhãn ở gốc là tập các đối tợng U
và tập các thuộc tính điều kiện hiện tại A (Current Condition
Attributes Set - CCAS). Trạng thái của nút gốc là unready.
while (có nút lá mang trạng thái unready) do
begin for (mỗi nút lá nhãn N là unready của cây T)
begin if (tồn tại 1 đối tợng u nhãn N có
A
(u) = ) then
begin prinf (bảng quyết định là không nhất quán với độ chính xác );
return;
end
if (mọi đối tợng đang gán nhãn N có cùng

A
(u)) then
begin Thay thế tập đối tợng tại N bằng cái chung của nó:
A
(u);
Thay đổi trạng thái của N là ready;
end
else
begin Tính P = CORE

(N, CCAS {d});
if P = | P = CCAS then
begin P = thuộc tính từ tập CCAS có importance factor cao
nhất;

Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64

62
end
Tính GEND

(P);
CCAS = CCAS \ P;
Thay thế nhãn của nút N bằng P và đánh dấu là ready;
Tạo m+1 nút mới N
1
, N

2
, , N
m+1
với trạng thái unready là các cây con
của nút N, trong đó N
i
= H
i
, i = 1,2, ,m+1 và gán nhãn chúng với
CCAS.
end
end
end
return T
4.2. Ví dụ minh hoạ
Giả sử ta có bảng quyết định nh trong bảng 2.
Dễ nhận thấy bảng trên là không nhất quán vì tồn tại u
9

IND u
10

và
d(u
9
)d(u
10
), do đó không thể phân lớp cho các đối tợng này nh các đối tợng ở
bảng 1. Tuy nhiên các đối tợng trên nhất quán với một độ chính xác nào đó, giả sử
= 0,6. Từ bảng 2 ta có:

U/IND(C) = { {1}, {2, 4,18, 21, 22}, {3, 7, 9, 10, 14}, {5}, {6}, {8}, {11}, {12}, {13}, {15},
{16}, {17}, {19}, {20} }.
U/IND(D) = { {1, 2, 3, 4, 7, 9, 12, 14, 18, 20}, {5, 6, 8, 10, 11, 13, 15, 16, 17, 19, 21, 22}}
P = CORE

(N, CCAS {d}) = {C1,C4}
U/P = { {1, 12, 13}, {2, 4, 16, 18, 21, 22}, {3, 7, 9, 10, 14, 20}, {5, 19}, {6, 8,1 5}, {11, 17}}
Tính GEND

(P): H1 = {3, 7, 9, 10, 14, 20}; H2 = {5, 6, 8, 11, 15, 17, 19};
H3 = {1, 2, 4, 12, 13, 16, 18, 21, 22}
Bảng 2. Ví dụ về bảng quyết định
Các thuộc tính điều kiện
Thuộc tí
nh
quyết định

Tập đối
tợng U
C1 C2 C3 C4 Lớp (D)
1 high high high normal

H
2 high high high good H
3 low or less than zero low normal

good H
4 high high high good H
5 middle high high normal

F
6 low or less than zero middle

high normal

F
7 low or less than zero low normal

good H
8 low or less than zero low normal

normal

F
9 low or less than zero low normal

good H
10 low or less than zero low normal

good F
11 middle low normal

good F
12 high middle

high normal

H

Đại học Vinh Tạp chí khoa học, tập XXXVI, số 4A-2007

63
13 high low normal

normal

F
14 low or less than zero low normal

good H
15 low or less than zero middle

normal

normal

F
16 high middle

normal

good F
17 middle middle

high good F
18 high high high good H
19 middle high normal

normal

F
20 low or less than zero middle

high good H
21 high high high good F
22 high high high good F
áp dụng giải thuật RS_DTA, tập đối tợng U đợc phân lớp dựa vào H1,H2,H3 và
xây dựng cây quyết định nh sau:

V. KếT LUậN
Việc xây dựng cây quyết định dựa trên lý thuyết tập thô truyền thống chỉ

thực hiện đối với các bảng quyết định nhất quán (bảng 1). Trên đây chúng tôi đã đa
ra một cách tiếp cận tập thô để xây dựng cây quyết định đa trị nhằm quản lý các hệ
thông tin đa trị và đa ra một giải thuật xây dựng cây quyết định dựa trên mô hình
tập thô có độ chính xác thay đổi có khả năng chịu lỗi. Cho dù tồn tại sự không nhất
quán trong bảng quyết định nhng giải thuật vẫn có thể đa ra kết quả khá vừa ý.
So với giải thuật ID3 [9] thì cây quyết định xây dựng dựa trên giải thuật RS_DTA có
cấu trúc đơn giản hơn và có các luật tốt hơn.

Tập đối tợng
U
C1: low or less than
zero
C4: good
{3,7,9,10,14,20}
C1: high

C4: good
{1,2,4,12,13,16,18,
21,22}
C1: low or less than zero

C4: normal
Hoặc C1:middle
{5,6,8,11,15,17,19}
H

F

C3: hig
h

{1,2,4,12,18,
21,22}
C3: normal

{13,16}
H

F

Hình 3.

Cây quyết định đa trị xây dựng bởi giải thuật RS_DTA

Nguyễn Thị Minh Tâm CÂY QUYếT ĐịNH ĐA TRị DựA TRÊN TậP THÔ, tr. 57-64

64

TàI LIệU THAM KHảO

[1] Hồ Cẩm Hà, Một cách tiếp cận mở rộng cơ sở dữ liệu quan hệ với thông tin không
đầy đủ, Luận án tiến sĩ Toán học, Trờng ĐHBK Hà Nội, 2002.
[2] Nguyễn Đăng Khoa, Nghiên cứu một vài khía cạnh của lý thuyết tập thô và ứng
dụng, Luận án tiến sĩ Toán học, Trờng ĐHBK Hà Nội, 2002.
[3] N. T. Thuy, N. N. Hieu, A framework for knowledge discovery in multivalued
tables using rough set approach, Proceeding of Joint Workshop of Vietnamese

Society of AI, SIGKBS-JSAI, ICS-IPSJ and IEICE-SIGAI on Active Mining,
Hanoi, Vietnam, 2004.
[4] H. T. Bao, Introduction To Knowledge Discovery And Data Mining,
, 2000.
[5] Chang-Ling Hsu, Multi-valued and Multi-labeled Decision Tree Classifiers For
Data Mining, PhD Thesis in Information Management, China, 2004.
[6] Jin Mao Wei, Rough Set based approach to selection of node, Yangs Scientific
Research Institute, 2002.
[7] X. Liu, H. Huang, W. Xu, A Contribution to Decision Tree Construction Based on
Rough Set Theory, Springer-Verlag Berlin, 2004.
[8] Z. Pawlak, Rough Sets, Theoretical Aspects of Reasoning about Data. Dordrecht,
Kluwer, 1991.
[9] J. R. Quinlan, Induction of decision trees, In: Machine Learning, 1986.
[10] Sonajharia Minz, Rajni Jain, Rough Set based Decision Tree Model for
Classification, Springer-Verlag Berlin, 2003.
[11] W. Ziarko, Variable Precision Rough Set Model, Journal of computer and
System Sciences, 46, 1993, 3959.
[12] Y. Zhao, H. Zhang, Q. Pan, Classification Using the Variable Precision Rough
Set, Springer-Verlag Berlin, 2003
.

SUMMARY

A Multivariate Decision Tree Construction Based on Rough Set

This paper presented an approach to construct multivariate decision tree,
which has the ability of fault tolerance, based on the variable precision rough sets
model. A new concept of generalization of one equivalence relation with precision
is introduced in the variable precision rough sets model and used for construction of

multivariate decision tree.

(a)
Khoa Công Nghệ Thông Tin, Trờng Đại học Vinh.

Báo cáo nghiên cứu khoa học: "Xây dựng cây quyết định đa trị dựa trên tập thô." pdf

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về