Luan van Tap Tho Pawlak va luat cau noi lop

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (659 KB, 44 trang )

(1)<div class='page_container' data-page=1>

Lời Cảm Ơn

Khụng th núi ht bng lời lòng biết ơn sâu sắc của em đến ng-ời Thầy h-ớng dẫn Cô
Tạ Thị Thu Ph-ợng, ng-ời đã tận tình h-ớng dẫn và động viên em v-ợt qua những khó khăn
trong học thuật để có đ-ợc kết quả này. Từ Cơ, em đã học đ-ợc nhiều điều q giá trong học
tập và ứng xử đời th-ờng. Em cũng nhận đ-ợc sự truyền thụ kiến thức, góp ý và định h-ớng
ban đầu của Thầy Đặng Ph-ớc Huy về nội dung của khóa luận. Và Thầy Huỳnh Đình Dũng,
Thầy đã cung cấp cho em cơ sở dữ liệu về Bảng Tuần Hồn Các Ngun Tố Hóa Học để
hồn thành mơ hình thử nghiệm. Kính xin ghi nhận tất cả những đặc ân đó của Quý Thầy.

Em xin chân thành cảm ơn các Thầy Cơ trong khoa Tốn - Tin Học tr-ờng Đại Học
Đà Lạt đã cung cấp cho em rất nhiều kiến thức và môi tr-ờng học tập khoa học trong những
năm vừa qua, đặc biệt là Bộ Mơn Tốn Ư0ng Dụng và Tin Học đã có những buổi Seminar
bổ ích qua đó em học tập đ-ợc kinh nghiệm nghiên cứu, cách trình bày kết quả nghiên cứu.
Con xin bày tỏ lịng kính trọng và sự biết ơn sâu sắc của con đến gia đình đã động viên và
hỗ trợ tinh thần cho con, cảm ơn những ng-ời bạn đã giúp đỡ tơi rất nhiều trong q trình
nghiên cứu và học tập.

Xin cảm ơn tất cả mọi ng-ời đã hỗ trợ em hon thnh lun vn ny!

Đà Lạt, tháng 5 năm 2012.
Sinh viên

</div>
(2)<div class='page_container' data-page=2>

1 Tập thô Pawlak

5

1.1 Không gian xÊp xØ - To¸n tư xÊp xØ . . . 5

1.1.1 BiĨu diƠn tri thøc trong kh«ng gian xÊp xØ . . . 5

1.1.2 Sù ph©n líp - XÊp xØ của các phân lớp . . . 12

1.2 Tính hạt trong mô hình tập thô . . . 13

1.2.1 Xấp xØ theo h¹t . . . 13

1.2.2 Møc ý nghÜa thuộc tính . . . 14

2 Bài toán khai thác luật cầu nối-lớp
dựa vào tập thô
17
2.1 Phát hiện các luật cầu nối-lớp ứng viên . . . 18

2.1.1 Xỏc nh các tập bắc cầu . . . 18

2.1.2 Xác định các luật cầu nối-lớp ứng viên . . . 21

2.2 Phát hiện các luật cầu nối-lớp cốt yếu . . . 21

2.3 Thuật tốn tìm luật cầu nối-lớp cốt yếu trên một hệ quyết định . . . 24

3 A0p dụng: Tìm các luật cầu nối-lớp trong
bảng tuần hoàn các nguyên tố hóa học
26
3.1 Mô tả cơ sở dữ liệu bảng tuần hoàn các nguyên tố hóa học . . . 26

3.2 KÕt qu¶ thùc nghiƯm . . . 28

Phơ lục 34

Tài liệu tham khảo 44

</div>
(3)<div class='page_container' data-page=3>

Lời Mở §Çu

Trong một vài năm gần đây, ngành cơng nghệ thơng tin trên toàn thế giới đã phát triển
mạnh mẽ với tốc độ rất nhanh. Song song với điều đó chúng ta cũng phải đối mặt với một
thách thức mới là sự bùng nổ về l-ợng thông tin. Tuy nhiên, một thực tế diễn ra rất phổ biến
là mặc dù có một l-ợng dữ liệu rất lớn nh-ng thông tin hữu ích trích ra từ dữ liệu mà thực
sự chúng ta có là rất ít, những hiện t-ợng thể hiện qua dữ liệu, những hiểu biết thực sự của
chúng ta về l-ợng dữ liệu mà chúng ta có cịn rất hạn chế.

Xuất phát từ thực tế đó mà trong một vài năm gần đây các nhà nghiên cứu và ứng dụng
tin học phải nghiên cứu, tìm kiếm những ph-ơng pháp mới để khai thác triệt để những thơng
tin có trong cơ sở dữ liệu. Và hàng loạt các ph-ơng pháp đã đ-ợc các nhà nghiên cứu đề
xuất nh- lý thuyết tập mờ, lý thuyết tập thơ, tính tốn hạt... Trong các ph-ơng pháp này,
ph-ơng pháp tập thơ đ-ợc nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu và phát
triển. Điều này có thể lý giải là do lý thuyết tập thơ đ-ợc xây dựng trên một nền tốn học
vững chắc, cung cấp những cơng cụ hữu ích để giải quyết các bài toán phân lớp dữ liệu, phát
hiện luật..., đặc biệt là phục vụ cho việc nghiên cứu các hệ thống thơng minh và khai thác dữ
liệu.

Y0 t-ởng chính của lý thuyết tập thô lần đầu tiên đ-ợc nhà toán học Ba Lan Z.Pawlak
đề xuất vào năm 1982. Tiếp theo sau đó, các nhà khoa học khắp nơi trên thế giới đóng góp
nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thô và ứng dụng. Một số bài tốn
trong lĩnh vực nh- ngân hàng, tài chính, y học... đã đ-ợc giải quyết thành công nhờ công cụ
tập thô.

Kiến thức cơ sở của lý thuyết tập thô cổ điển là các phép toán xấp xỉ trên, xấp xỉ d-ới
dựa trên phân hoạch đ-ợc tạo bởi một quan hệ t-ơng đ-ơng. Chính kiến thức cơ sở này làm
cho việc tiếp cận tập thô là đơn giản và dễ hiểu. Với đặc tính có thể xử lý đ-ợc những dữ

liệu mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài tốn
thực tế. Từ những bảng dữ liệu lớn với dữ liệu d- thừa, khơng hồn hảo, dữ liệu liên tục, lý
thuyết tập thô cho phép khai phá tri thức từ những khối dữ liệu này nhằm phát hiện những
luật tiềm ẩn từ khi d liu ny.

Trong luận văn tốt nghiệp trình bày một số kiến thức cơ bản của lý thuyết tập thô, tìm
hiểu bài toán phát hiện luật cầu nối-lớp trong một hệ thông tin dựa vào tập thô, và xây dựng
ch-ơng trình thử nghiệm. Về cấu trúc, khóa luận tốt nghiệp đ-ợc tổ chức nh- sau:

Ch-ơng 1: Khóa luận trình bày những kiến thức cơ bản về tập thô theo quan điểm
Pawlak.

</div>
(4)<div class='page_container' data-page=4>

Các ký hiệu

RX Rxấp xỉ d-ới của tập X.
RX Rxấp xỉ trên của tập X.
àR

X(x) Hm thành viên thô của x đối với tập X theo quan h t-ng
-ng R.

R(X) Độ chính xác của xấp xỉ tập X theo quan hệ t-ơng đ-ơng R.
àR(X) Độ thô của tập X theo quan hệ t-ơng đ-ơng R.

R(F) Độ chính xác của xấp xỉ phân lớpF theo quan hệ t-ơng
đ-ơng R.

R(F) Chất l-ợng của xấp xỉ phân lớp F theo quan hệ t-ơng
đ-ơng R.

(U,R) Khụng gian xp x xỏc định bởi quan hệ hai ngôi R trên tập

đối t-ợng U.

S = (U, A) Hệ quyết định.

</div>
(5)<div class='page_container' data-page=5>

TËp thô Pawlak

Trong ch-ơng này, luận văn trình bày một số khái niệm cơ bản của lý thuyết tập thô cổ
điển (tập thô theo quan điểm Pawlak): cặp toán tử xấp xỉ, các tính chất và số đo liên quan,
sự phân lớp và xấp xỉ các phân lớp, cặp toán tử xấp xỉ theo tính hạt và mức ý nghĩa thuộc
tính.

1.1

Không gian xấp xỉ - Toán tử xấp xỉ

1.1.1

Biểu diƠn tri thøc trong kh«ng gian xÊp xØ

Trong lý thuyết tập thô, gọi U là tập các đối t-ợng hữu hạn, khác rỗng; X ⊆ U đ-ợc
gọi là một khái niệm (concept) hoặc một nhóm (category) trongU. Họ các khái niệm trong
U đ-ợc gọi là tri thức trừu t-ợng (abstract knowledge). Luận văn quan tâm đến các lớp khái
niệm trongU cùng với dạng phân hoạch cụ thể cơ sở dữ liệuU.

VÝ dơ, cho hä c¸c tËp C = {C1, C2, . . . , Cn}, Ci ⊆ U, Ci 6= ∅, Ci∩Cj = ∅ víi ∀i 6=

j;i, j = 1, n vµ
n

i=1

Ci =U.

Vì tính chuẩn hóa nên tập ∅ cũng đ-ợc xem là một lớp khái niệm. Trong tr-ờng hợp
tổng quát, để xét U cần dùng nhiều họ phân hoạch chứ không dựa vào một phân hoạch duy
nhất. Họ các phân hoạchU đ-ợc định nghĩa nh- là tri thức nền củaU. Do đó, tri thức nền
phản ánh tồn bộ tất cả các loại ph-ơng pháp phân hoạch cơ sở trong trí tuệ nhân tạo. Chúng
ta sử dụng quan hệ t-ơng đ-ơng để phân hoạch vì quan hệ t-ơng đ-ơng phân hoạch U thành
các lớp t-ơng đ-ơng khác nhau và các lớp t-ơng đ-ơng này thỏa mãn khái niệm phân hoạch.
Giả sử R là họ các quan hệ t-ơng đ-ơng trênU, U/R là họ tất cả các lớp t-ơng đ-ơng
(hoặc phân hoạchU thành các cụm). Và (U,R) đ-ợc gọi là không gian xấp xỉ.

Xét không gian xấp xỉ là một bộ K = (U,R)trong đó :

• U là một tập hữu hn (6=) cỏc i t-ng.

ã R là họ các quan hệ t-ơng đ-ơng (hoặc \Bất khả phân" - IND) trênU.

</div>
(6)<div class='page_container' data-page=6>

Sử dụng ký hiệu,[x]R là lớp t-ơng đ-ơng chứa x ∈U ứng với quan hệ bất khả phân R nào
đó trênU.

Cho P (∅ 6=P ⊆ R) ta biÕt r»ng IN D(P)≡ \

R∈P

R là một quan hệ bất khả phân trên
U. Khi đó tập IN D(K) ≡ {IN D(P) : ∅ 6= P ⊆ R} gọi là họ của tất cả các quan hệ bất
khả phân xác định trong c s tri thcK.

P - tri thức căn bản: tập P (các quan hệ bất khả phân), 6=P R, gọi là P - tri thức
căn bản.

Vi tp P - tri thức căn bản, khi đó

U/I N D(P)≡ {[x]I N D(P):x∈U}

đ-ợc gọi là P - tri thức căn bản về (tập đối t-ợng) U trong (cơ sở tri thức) K và mỗi lớp
t-ơng đ-ơng[x]I N D(P) của quan hệIN D(P) gọi là các khái niệm căn bản của tri thc P.

Đặc biệt, với Q R thì

IN D(Q) =Q

khi úQ đ-ợc gọi là một Q - tri thức cơ sở và mỗi lớp t-ơng đ-ơng của Q đ-ợc gọi là Q
-khái niệm cơ sở của tri thức R.

NhËn xÐt : Chóng ta thÊy tËp

{[x]R |x∈U, R∈ R}

lµ tËp tÊt cả các khái niệm cơ sở của tri thứcR. Từ tập này có thể hình thành các khái niệm
căn bản cđa mét tri thøc P ⊆ R v×

[x]I N D(P)=

R∈P

[x]R.

NghÜa là, một khái niệm căn bản của một P - tri thức căn bản đ-ợc tạo thành bởi giao của

tất cả các khái niệm cơ sở của R - tri thức cơ sở thuộc P.

Ngoài ra, họ

[

P:6=PR

{[x]I N D(P):xU}

gọi là họ các khái niệm căn bản trong cơ sở tri thøcK = (U,R).

Hay cã thĨ biĨu diƠn hä nµy qua sự \tích hợp" của các khái niệm cơ sở của tri thøc R

nh- sau

[

P:∅6=P⊆R

{\

R∈P

</div>
(7)<div class='page_container' data-page=7>

TËp chÝnh x¸c - TËp th«

Nhắc lại quan niệm về việc nhận biết một phạm trù (tức là một tập con các đối t-ợng)
trong một cơ sở tri thức theo Pawlak. Theo quan điểm này một phạm trù là mơ hồ (hoặc
không thể xác định đ-ợc) dựa trên một cơ sở tri thức đã cho nếu nh- khơng thể biểu diễn
chính xác nó qua các khái niệm cơ sở của tri thức sẵn có.

Cơ thể là, với cơ sở tri thức K = (U,R), mộtP - tri thức căn bản: IN D(P)IN D(K)

v tp X U. Khi ú nh ngha

Định nghĩa 1.1.1. ([5]) (Tập thô theo một P- tri thức căn bản)

ã X gọi là P - chính xác nếu nh- nó là hợp của các khái niệm căn bản nào đó của tri
thc P.

ã Ng-ợc lại X gọi là P - thô.

Nhận xét: Có thể thấy X là P - chính xác nÕu nh- cã thĨ biĨu diƠn
X = [

x∈U

[x]I N D(P)=

[

x∈U

R∈P

[x]R

tøc là đ-ợc biểu diễn chính xác qua các khái niệm cơ sở của tri thứcR. Trong hình (a) minh

họa cho tập P - thô: X và hình (b) là tập P - chính xác: Y.

(a)X=ABCDX7 (b)Y =X6X7X8

Hình 1.1: Minh họa tập thô - tập chính xác

ý rng tpX lP - thơ đối vớiP - tri thức căn bản, nó có thể là một tập chính xác trong
cơ sở tri thứcK nếu nh- có tồn tại một Q - tri thức căn bản nào đó (IN D(Q)∈IN D(K))
sao cho các tập A, B, C, D và X7 đ-ợc biểu diễn qua các khái niệm cơ sở của tri thức R

theoQ.

XÊp xỉ d-ới và trên

</div>
(8)<div class='page_container' data-page=8>

thc sn cú), l tự nhiên ng-ời ta nghĩ đến việc xác định \xấp xỉ" phạm trù đó theo cơ sở tri
thức.

Víi X ⊆U vàR là quan hệ t-ơng đ-ơng trên U, xấp xỉ d-ới và xấp xỉ trên của X theo
quan hệ t-ơng đ-ơngR là hai tập ký hiệu RX, RX ([2]) t-ơng øng cho bëi

RX ={x∈U : [x]R⊆X}

TËp RX bao gåm tÊt cả các phần tử của U chắc chắn thuộc về X øng víi quan hƯ R.
RX ={x∈U : [x]R∩X 6=∅}

TËp RX bao gồm các phần tử của U có khả năng đ-ợc phân loại vào những phần tử thuộc
X ứng víi quan hƯR.

Ví dụ 1.1.1. Cho K = (U, R), trong đó U = {1,2,3,4}, R ∈ IN D(K) là một quan hệ
t-ơng đ-ơng vàU/R={E1, E2, E3}, ở đây các tri thức hạt cơ sở là E1 ={1,4}, E2 ={2},

E3 ={3}. ChoX ={1,2}:

RX =E2 ={2}.

RX =E1∪E2 ={1,2,4}.

Từ hai tập xấp xỉ Pawlak định nghĩa các tập ([2]):

• P OSR(X) =RX gọi là vùngR - d-ơng của X.

ã N EGR(X) =U RX gọi là vùngR - âm của X.

ã BN DR(X) =RX−RX gọi là vùngR - biên của X.
Do đó tập đối t-ợngU đ-ợc chia thành 3 vùng:

- Vùng R - d-ơng củaX trên K: P OSR(X) ={x∈U : [x]R⊆X} chứa các đối t-ợng
chắc chắn thuộc vềX dựa trên quan hệ t-ơng đ-ơng R.

Hình 1.2: Minh họa các xấp xỉ trong đóRX =X1∪X2∪X3∪X7∪X8∪X9∪X10∪X11∪

A∪B∪C∪D∪E∪F,BN DR(X) =X1∪X2∪X3∪X7∪X10∪X11∪A∪B∪C∪D∪E∪F,

</div>
(9)<div class='page_container' data-page=9>

- Vùng R - âm của X trên K: N EGR(X) = {x ∈ U : [x]R∩X = ∅} chứa các đối
t-ợng không thuộc về X dựa trên quan hệ t-ơng đ-ơng R.

- Vùng R - biên của X trên K: BN DR(X) ={x∈U : [x]R∩X 6=∅ ∧[x]R∩Xc 6=∅}
là các đối t-ợng không thể quyết định thuộc về X hay không khi dựa trên quan hệ t-ơng
đ-ơngR.

VÝ dơ 1.1.2. Trë l¹i vÝ dơ 1.1.1, P OSR(X) = RX = {2}, N EGR(X) = U RX = {3},
BN DR(X) =RXRX ={1,4}.

Định nghĩa 1.1.2. (R - thô) X đ-ợc gọi là R - thô nếu nh- RX 6=RX. Ng-ợc lại thì X gọi
là tậpR - chính xác.

Ví dụ 1.1.3. Trở lại ví dụ 1.1.1, vì RX ={2} 6=RX ={1,4,2}. Vậy X là R - thô.
Bốn loại tập thô cơ bản ([2])

Dựa vào khái niệm xấp xỉ d-ới và xấp xỉ trên, ng-ời ta phân tập thô thành bốn loại quan
trọng và khác nhau sau đây:

ã X là tập thô xác định đ-ợc theo R nếu RX 6= ∅, RX 6= U, nghĩa là ta có thể quyết
định đối t-ợng nào của U thuộc về X và đối t-ợng nào của U thuộc về (U −X) theo
quan hệ t-ơng đ-ơng R.

• X là khơng xác định đ-ợc phần trong theo R nếu RX = ∅, RX 6=U, tức là dựa vào
quan hệ t-ơng đ-ơng R ta có thể quyết định phần tử nào của U thuộc về (U −X).

• X là khơng xác định đ-ợc phần ngồi theo R nếu RX 6= ∅, RX = U, nghĩa là dựa
vào quan hệ t-ơng đ-ơng R ta có thể quyết định phần tử nào của U thuộc về X.

• X là hồn tồn khơng xác định đ-ợc theoR nếuRX =∅, RX =U, nghĩa là ta không
thể quyết định phần tử nào của U thuộc vềX hay (U−X)theo quan hệ t-ơng đ-ơng
R.

TÝnh chÊt cña xÊp xØ ([2])
1. RX ⊆X ⊆RX

2. R∅=R∅=∅;RU =RU =U

3. R(X ∪Y) =RX ∪RY

</div>
(10)<div class='page_container' data-page=10>

9. R(Xc) =RcX
10. R(Xc) =RcX

11. R RX =RRX =RX
12. R RX =RRX =RX

Ký hiệuXc là phần bù củaX. Xc =U X.

Chng minh: 1) • ∀x∈RX ⇒[x]⊆X (theo định nghĩa xấp xỉ d-ới) màx∈[x] do đó

x ∈X. VËy RX ⊆X (1)

• ∀x∈X ⇒[x]∩X 6=∅ (vìx∈[x]∩X) do đó x∈RX. VậyX ⊆RX. (2)

Tõ (1), (2) ⇒RX ⊆X ⊆RX.

2) • Theo tÝnh chÊt (1) R∅ ⊆ ∅ vµ∅ ⊆R∅ ⇒R∅=∅.

Giả sử R∅ 6=∅. Khi đó ∃x ∈R∅ ⇒[x]∩ ∅ 6=∅ (định nghĩa xấp xỉ trên), điều này mâu
thuẫn vì [x]∩ ∅=∅. Nên R∅=∅.

VËy R∅=R∅=∅.

• Theo tÝnh chÊt (1)⇒RU ⊆U. (∗)

∀x∈U ⇒[x]⊆U, do đó x∈RU ⇒U ⊆RU. (∗∗)

Tõ (∗)vµ (∗∗) ⇒RU =U.

Tõ 1) RU ⊇U vµRU ⊆U. HiĨn nhiªn RU =U. VËyRU =RU =U.

3) ∀x ∈R(X ∪Y)⇔[x]∩(X ∪Y)6=∅ ⇔([x]∩X)∪([x]∩Y)6=∅ ⇔[x]∩X 6=
∅ ∨[x]∩Y 6=∅ ⇔x∈RX∨x∈RY ⇔x ∈RX∪RY, do đó R(X ∪Y) =RX∪RY.
4) ∀x ∈R(X ∩Y)⇔[x]⊆X ∩Y ⇔[x]⊆X ∧[x]⊆Y ⇔x∈RX ∩RY, do đó
R(X ∩Y) =RX ∩RY.

5) V× X ⊆Y ⇔X∩Y =X. Theo tÝnh chÊt (4) ta cãR(X∩Y) =RX ⇔RX∩RY =

RX ⇒RX ⊆RY.

6) V×X ⊆Y ⇔X∪Y =Y. Theo tÝnh chÊt (3) ta cãR(X∪Y) =RY ⇔RX∪RY =

RY ⇒RX ⊆ RY.

X ⊆ X ∪Y
Y ⊆ X ∪Y ⇒

RX ⊆ R(X ∪Y)

RY ⊆ R(X ∪Y) ⇒RX ∪RY ⊆R(X ∪Y).

X∩Y ⊆ X
X∩Y ⊆ Y ⇒

R(X ∩Y) ⊆ RX

R(X ∩Y) ⊆ RY ⇒R(X ∩Y)⊆RX ∩RY.
9) ∀x ∈RX ⇔[x]⊆X ⇔[x]∩Xc =∅ ⇔x /∈R(Xc)⇔x∈Rc(Xc), do đó
RX =Rc(Xc). Vậy R(Xc) =RcX.

</div>
(11)<div class='page_container' data-page=11>

VËy R(Xc) =Rc
X.
11) (a) R RX =RX.

• Tõ tÝnh chÊt (1) ta cã: R RX ⊆RX (∗)

• ∀x∈RX, khi đó [x]⊆X (định nghĩa xấp xỉ d-ới), do đó R[x]⊆RX (tính chất (5))

mµ R[x] = [x][x]RX, nên xR RX hay RX R RX. ()

Từ ()và (∗∗)⇒R RX =RX. (1)

(b) RRX =RX.

• Tõ tÝnh chÊt (1) RX ⊆RRX. (∗)

• ∀x∈RRX,[x]∩RX 6=∅, nghĩa là:∃y∈[x] hay y∈RX, do đó [y]⊆X, mà

[x] = [y]⇒[x]⊆X hay x∈RX ⇒RX ⊇RRX. (∗∗)

Tõ (∗)vµ (∗∗)⇒RRX =RX. (2)

Tõ (1) vµ(2) ta cã R RX =RRX =RX.

12) (a) R RX =RX.

• Tõ tÝnh chÊt (1) RX ⊆R RX. (∗)

• ∀x∈R RX, khi đó[x]∩RX 6=∅, ∃y∈[x], y∈RX ⇒[y]∩X 6=∅ mà [x] = [y], do
đó [x]∩X 6=∅, nghĩa là: x∈RX ⇒RX ⊇R RX. (∗∗)

Tõ (∗)vµ (∗∗)⇒R RX =RX. (1)

(b) RRX =RX.

• Tõ tÝnh chÊt (1) RRX ⊆RX. (∗)

• ∀x∈RX, khi đó[x]∩X 6=∅. ∃y∈[x], y∈RX vì[x]∩X = [y]∩X 6=∅([x] = [y]),

nghÜa lµ: [x]⊆RX vµ x∈RRX ⇒RRX ⊇ RX. (∗∗)

Tõ (∗)vµ (∗∗)⇒RRX =RX. (2)

Tõ (1) vµ(2) ta cã R RX =RRX =RX.

Độ chính xác của xấp xỉ

Tớnh xỏc nh của tậpX đ-ợc đo bởi độ xác định của xấp xỉ : X 6=∅, X ⊆U
αR(X)≡ |R(X)|

|R(X)|

Trong đó,|X| là lực l-ợng (số phần tử) của X. Hiển nhiên, 0≤αR(X)≤1, có thể thấy

• αR(X) = 1 thì miền biên của X là rỗng và tập X là chính xác đối vớiR.

• αR(X)<1 thì X đ-ợc gọi là thơ đối với R.
Ngồi ra cịn có thể đo theo độ thơ, định nghĩa nh- sau

àR(X)1R(X)

</div>
(12)<div class='page_container' data-page=12>

Ví dụ 1.1.4. Trở lại ví dô 1.1.1, ta cã

RX ={2}, RX ={1,2,4} ⇒αR(X) = |RX|
|RX| =

1
3

.

àR(X) = 2
3.

Hàm thành viên thô

nh ngha 1.1.3. Hm thnh viên thô của đối t-ợng x∈U đối với tập X theo R l:
RX(x) = |[x]RX|

|[x]R|
,

hiển nhiên, 0àR

X(x)1.

Hm thnh viờn thụ còn dùng để định nghĩa các xấp xỉ và miền biờn ca mt tp:

ã RX ={x U :àR

X(x) = 1}.

ã RX ={x U :àRX(x)>0}.

ã BN DR(X) ={xU : 0< àR

X(x)<1}.

1.1.2

Sự phân lớp - Xấp xỉ của các phân lớp

Sự phân lớp

Cho không gian xấp xỉK = (U, R), vớiX U vàP, Q là hai quan hệ t-ơng đ-ơng trên U.
Đặt ([4]):

P OSP(Q) = [

XU/Q
P X

v gi l min d-ng của tri thức phân lớp U/Q, tức là tập tất cả các đối t-ợng trong U mà
có thể đ-ợc phân lớp duy nhất vào các lớp trong U/Q dựa vào tri thc ht c s U/P.

Xấp xỉ của các phân lớp và tính chất

Cho không gian xấp xỉK = (U, R),Rlà quan hệ t-ơng đ-ơng trên U vàF ={X1, X2, . . . , Xn}

là phân lớp trên U. Khi đó:

RF ={RX1, RX2, . . . , RXn}gäi lµ xÊp xØ d-íi cđa ph©n líp F.

RF ={RX1, RX2, . . . , RXn}gọi là xấp xỉ trên của phân lớp F.

Chỳng ta s cú hai o sau:

ã Độ chính xác của xấp xỉ phân lớp F theoR
R(F) =

|RXi|

</div>
(13)<div class='page_container' data-page=13>

ã Chất l-ợng của xấp xỉ phân lớp F theo R
γR(F) =

|RXi|
|U|

Độ chính xác của xấp xỉ phân lớpF theoR thể hiện tỉ lệ đ-ợc phân hoạch chính xác của các
đối t-ợng. Chất l-ợng của xấp xỉ phân lớp F theo R thể hiện tỉ số của tất cả các đối t-ợng
trongU mà có thể đ-ợc phân lớp thích hợp theo F dựa vào tri thức R.

TÝnh chÊt 1.1.1. ([2]) ChoF ={X1, X2, . . . , Xn}, n >1là phân hoạch của U vàRlà quan

hệ t-ơng đ-ơng. Nếu ∃i∈ {1,2, . . . , n}:RXi 6=∅ ⇒ ∀j 6=i, RXj 6=U, j ∈ {1,2, . . . , n}.

Chøng minh: NÕuRXi 6=∅,∃x∈Xi : [x]R⊆Xi ⇒[x]R∩Xj =∅,∀j 6=i

⇒

RXj ∩[x]R = ∅

RXj 6=U (∀j 6=i)

TÝnh chÊt 1.1.2. ([2]) ChoF ={X1, X2, . . . , Xn}, n >1là phân hoạch của U vàRlà quan

hệ t-ơng đ-ơng. Nếu i {1,2, . . . , n}:RXi =U ⇒ ∀j 6=i, RXj =∅, j ∈ {1,2, . . . , n}.

Chứng minh: Nếu RXi =U, khi đó với mỗi x∈ U, ta có [x]R∩Xi 6=∅. Nên [x]R ⊆Xj là
không đúng, ∀j 6=i, do ú RXj =,j 6=i.

Các tính chất sau đ-ợc suy ra trùc tiÕp tõ hai TÝnh chÊt 1.1.1 vµ TÝnh chÊt 1.1.2.

TÝnh chÊt 1.1.3. ([2]) Cho F = {X1, X2, . . . , Xn}, n > 1 là phân hoạch của U và R là

quan hệ t-ơng đ-ơng. Nếu i {1,2, . . . , n}:RXi 6=∅ ⇒RXi 6=U,∀i∈ {1,2, . . . , n}.
TÝnh chÊt 1.1.4. ([2]) Cho F = {X1, X2, . . . , Xn}, n > 1 là phân hoạch của U và R là

quan h t-ơng đ-ơng. Nếu∀i∈ {1,2, . . . , n}:RXi =U, khi đóRXi =∅,∀i∈ {1,2, . . . , n}.

1.2

TÝnh hạt trong mô hình tập thô

1.2.1

Xấp xỉ theo hạt

Cho không gian xấp xỉ K = (U, R), U là một tập hữu hạn (6= ∅) các đối t-ợng, R là
một quan hệ t-ơng đ-ơng trênU, X ⊆U. Khi đó cặp tốn tử xấp xỉ d-ới và trên theo tính
hạt đ-ợc định nghĩa nh- sau:

• XÊp xØ d-íi cđaX:

R(X) = [

[x]R|[x]RX
[x]R

</div>
(14)<div class='page_container' data-page=14>

ã Xấp xỉ trên củaX:

R(X) = [

[x]R|[x]RX6=
[x]R

(hp của tất cả các lớp t-ơng đ-ơng chứax theo quan hệ t-ơng đ-ơng R khơng tách rờiX).
Do đó theo tính hạt tập đối t-ợng U cũng đ-ợc chia thành 3 vựng:

- Vùng R - d-ơng của X trên K: P OSR(X) = {[x]U/R : [x]X} hợp của tất cả
các lớp t-ơng đ-ơng chứa x theo quan hệ t-ơng đ-ơng R thuộc tập X.

- Vùng R - âm của X trênK: N EGR(X) ={[x]U/R : [x]X =} hợp của tất cả
các lớp t-ơng đ-ơng chứa x theo quan hệ t-ơng đ-ơng R không chứa trong tập X.

- Vùng R- biên củaX trênK: BN DR(X) ={[x]U/R : [x]X 6= [x]Xc 6=}
hợp của tất cả các lớp t-ơng đ-ơng chứax theo quan hệ t-ơng đ-ơngR không thể chắc chắn
chứa trong tậpX.

Vớ d 1.2.1. Trở lại ví dụ 1.1.1, khác với xấp xỉ đã đ-ợc tính trong ví dụ tr-ớc đó, xấp xỉ
theo tính hạt đ-ợc tính nh- sau :

R(X) =E2 ={{2}}.

R(X) =E1∪E2 ={{1,4},{2}}.

Vïng d-ơng của X là: P OSR(X) =E2 ={{2}}.

Vùng âm của X là: N EGR(X) =E3 ={{3}}.

Vùng biên của X là: BN DR(X) =E1 ={{1,4}}.

DƠ dµng thÊy r»ng

R(X)⊆X ⊆R(X)

vµX lµ tËp thô trong cơ sở tri thứcK nếu nh- với bất kỳ tri thức căn bảnR
BN DR(X)R(X)R(X)6=.

1.2.2

Mc ý ngha thuc tính

Hệ quyết định([4])

Một hệ quyết định là một hệ thơng tin A = (U, A) trong đó tập thuộc tính đ-ợc
phân lớp

A=C+D

(\+": ký hiệu cho hai tập rời nhau). C gọi là tập thuộc tính điều kiện và D gọi là tập thuộc
tính quyết định.

Ta viết lại hệ thơng tin A = (U, C, D) và gọi là một hệ quyết định.

Ví dụ 1.2.2. Cho hệ thơng tin A = (U, C, D) biểu diễn cơ sở tri thức của bệnh cúm đ-ợc
thể hiện trong bảng 1.1 là một bảng quyết định (hệ quyết định).

</div>
(15)<div class='page_container' data-page=15>

Tập đối t-ợng là

U = {x1, x2, x3, x4, x5, x6}

TËp thuéc tÝnh ®iỊu kiƯn

C = {Đau đầu, Đau cơ, Nhiệt độ}

Tập thuộc tính quyết định
D = {Cúm}.

Bảng 1.1: Bảng quyết định

Tính nhất quán - Không nhất quán của một bảng quyết định

Xét một tập hợp các đối t-ợng nào đó (U). Giả sử rằng các quyết định (D) gán cho
mỗi đối t-ợng của U đ-ợc xác định dựa trên giá trị của tập thuộc tính điều kiện chỉ định là

C. Khi đó các quyết định đặt cho mỗi đối t-ợng trong U hình thành dựa trên nguyên lý tự
nhiên nh- sau:

Nguyên lý P: ([4]) \Trên một tập điều kiện xác định thì các đối t-ợng với cùng điều kiện
nh- nhau ắt phải bị tác động cùng quyết định nh- nhau".

Khi đó:

• Một bảng quyết định nhất quán: là bảng quyết định đảm bảo ngun lý P.

• Ng-ợc lại thì gọi là bảng quyết định không nhất quán.

Một bảng quyết định không nhất quán sẽ chứa các dữ liệu \dị th-ờng", tức là các quyết
định khác nhau trên các đối t-ợng có cùng các điều kiện nh- nhau, và do đó vi phạm tính
\cơng bằng" của triết lý P. Thơng th-ờng do hạn chế của nhận thức, ph-ơng tiện, thiết bị kỹ
thuật đo, hoặc tâm sinh lý của con ng-ời trong hoạt động sống mà con ng-ời hay tạo ra các
hành động, quyết đốn, quyết định, xử lý... làm vi phạm P.

Ví dụ 1.2.3. Bảng quyết định trong ví dụ 1.2.2 là khơng nhất qn.

Vì hai đối t-ợng x2 và x5 có cùng giá trị các thuộc tính điều kiện là (Có, Khơng, Cao)

</div>
(16)<div class='page_container' data-page=16>

Møc ý nghÜa thuéc tÝnh

Cho bảng quyết định A = (U,C∪D), và phân lớp F =U/D ={C1, C2, . . . , Ct}.

Gọiaj, ∀j ∈ {1,2, . . . , n} là các thuộc tính điều kiện. Tập thuộc tính ý nghĩa đ-ợc xác định
bởi cơng thức sau ([1]):

sF,C(aj) =rC(F)−rC\{aj}(F).

Trong đó:

rC(F) =

|P OSC(F)|

|U| =
|

k=1

CCk|
|U| =

k=1

|CCk|
|U| .

NÕuA nhÊt quán thì rC(F) =

|U|
|U| = 1.
 sF,C(aj) = 1rC\{aj}(F).

Mức ý nghÜa thuéc tÝnh theo h¹t

Cho bảng quyết địnhA = (U,C∪D), và phân lớp F =U/D ={C1, C2, . . . , Ct}.

Møc ý nghÜa thuéc tÝnh ai theo h¹t ([1]):

sF,U/C(ai) =rU/C(F)−rU/{C\{ai}}(F).

Trong đó:

rU/C(F) =

|P OSU/C(F)|

|U/C| =
|

k=1

U/C(Ck)|

|U/C| =

k=1

|U/C(Ck)|
|U/C| .

NÕu sF,U/C(ai) = 0, i {1,2, . . . , n} thì các thuéc tÝnh ai, ∀i ∈ {1,2, . . . , n} không

</div>
(17)<div class='page_container' data-page=17>

Bài toán khai thác luật cầu nối-lớp

dựa vào tập thô

Nhn dng cỏc i t-ng tỏch bit trong các hệ thống đ-ợc mô tả bởi dữ liệu (chẳng hạn
hệ thông tin, hệ quyết định, các cơ sở dữ liệu, nguồn dữ liệu thông tin Web...) là một nhánh
quan trọng trong khai thác dữ liệu. Các đối t-ợng tách biệt có thể là các điểm dữ liệu \nằm
xa" phần lớn tập điểm dữ liệu còn lại của hệ (trong lý thuyết thống kê còn gọi là các điểm
dữ liệu dị th-ờng hoặc dị biệt), hoặc có thể là các mối liên kết dị biệt giữa các lớp đối t-ợng
khác nhau trong một hệ... Việc khai thác các đối t-ợng tách biệt trong một hệ thống đã đ-ợc
ứng dụng rộng rãi trong nhiều bài toán thực nh-: tiếp thị bán hàng, phát hiện gian lận tài

chính ngân hàng, nhận dạng tội phạm hình sự, tổng hợp hóa chất trong cơng nghệ hóa học...
Đặc biệt, đã có nhiều ph-ơng pháp đ-ợc đề nghị và phát triển để khai thác các mối liên kết dị
biệt giữa các lớp đối t-ợng khác nhau trong một hệ. Luật cầu nối-lớp cũng là một dạng mới
của mối liên kết dị biệt dựa vào tập thơ đ-ợc đề xuất lần đầu tiên bởi nhóm tác giả Zhang,
S., Chen, F., Wu, X., C. vào năm 2006. Đại thể là với hai phân hoạchF ={C1, C2, . . . , Cn}

vàF0của tập mặt hàng I trên một cơ sở dữ liệu giao dịch T, một luật cầu kí hiệu là A→B,
trong đó tập các mặt hàng A thuộc các lớpCi1, Ci2, . . . , Cit nào đó của tập F, tập mặt hàng

B thc c¸c lípCj1, Cj2, . . . , Cjs khác của F và các phần tử củaA, B thuộc vào một lớp nào

ú của phân hoạch F0, đ-ợc gọi là luật cầu nối-lớp. Một luật cầu nối-lớp thích đáng (đáng
quan tâm) nếu nh- nó thỏa mãn ba u cầu

(a) A →B lµ mét luật kết hợp (trên các tập phổ biến).

(b) Khong cỏch giữa hai vùng của cầu: Ci1, Ci2, . . . , Cit vàCj1, Cj2, . . . , Cjs không lớn.
(c) Mức độ ảnh h-ởng của A trong Ci1, Ci2, . . . , Cit và B trongCj1, Cj2, . . . , Cjs cao.

Có thể xem một luật cầu nối-lớp đáng quan tâm nh- một dạng t-ơng quan riêng theo
F0giữa hai lớp khái niệm khác nhau của F trong một hệ. Đặc tính của dạng t-ơng quan này
phụ thuộc hoàn toàn vào dạng thức của khoảng cách đ-ợc sử dụng cũng nh- loại ảnh h-ởng
nào đ-ợc quan tâm (độ đo mức ảnh h-ởng). Ph-ơng pháp phát hiện các luật cầu nối-lớp đáng
quan tâm chủ yếu gồm hai giai đoạn: một là tìm tập tất cả các luật cầu nối-lớp ứng viên,
giai đoạn hai là xác định các luật cầu nối-lớp đáng quan tâm. Vấn đề then chốt để tìm các
luật cầu nối-lớp ứng viên trong giai đoạn một là xác định các tập bắc cầu giữa các lớp của
F. Vấn đề chính trong giai đoạn thứ hai là xác định các luật cầu nối-lớp đáng quan tâm từ
các luật cầu ứng viên. Những vấn đề này sẽ đ-ợc nói rõ hơn trong nội dung của ch-ơng.

</div>
(18)<div class='page_container' data-page=18>

2.1

Phát hiện các luật cầu nối-lớp ứng viên

Khỏi nim lut cầu nối-lớp ứng viên đ-ợc xây dựng dựa trên các tập bắc cầu giữa các
lớp và các ràng buộc về độ hỗ trợ và độ tin cậy theo nghĩa t-ơng tự nh- luật kết hợp.

Xét một hệ quyết định S = (U, A), trong đó U là một tập hữu hạn (6=∅) các đối t-ợng,
tậpA≡C∪D gồm hữu hạn phần tử và gọi là tập thuộc tính: C, D (C∩D =∅) t-ơng ứng
gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Giá trị tại thuộc tính a∈A của
đối t-ợng i ∈ U kí hiệu là a(i) (a(i) ∈ Va), ở đây Va gọi là tập miền giá trị của thuộc tính
a. Giả sử rằng các đối t-ợng trong U có thể có giá trị tại một thuộc tính a ∈ C nào đó là
null(tr-ờng hợp nh- thế có thể xem là đối t-ợng khơng có thuộc tính này). Để đơn giản ta
kí hiệunull= 0.

Các quan hệ t-ơng đ-ơng trên U của hệ quyết định đ-ợc xét là: B ⊆A,

i, j ∈U :i∼B j ⇐⇒a(i) =a(j),∀a∈B (1)
TËp th-¬ng U/B của quan hệB là một phân hoạch của U.

2.1.1

Xác định các tập bắc cầu

Kí hiệu R là quan hệ t-ơng đ-ơng t-ơng ứng với tập các lớp quyết định của S, tức là
phân hoạch F ≡U/D và cho một quan hệ t-ơng đ-ơngR0 khác trên U t-ơng ứng với phân
hoạch F0≡U/B(B ⊆C). Các tập bắc cầu (sinh bởi F0) giữa các lớp quyết định của phân
hoạchF đ-ợc định ngha nh- sau

Định nghĩa 2.1.1. ([3]) (Tập bắc cầu giữa các lớp). TậpC0F0 là có thể tạo cầu nối giữa hai

líp kh¸c nhauC1, C2 ∈F nÕu

C0∩C1 6= ∅

C0∩C

2 6= ∅

Khi đó tập bắc cầu sinh bởi C0 giữa hai lớp C1, C2 kí hiệu là BridgingC0(C1;C2) đ-ợc xác

định nh- sau

BridgingC0(C1;C2) ={C0∩C1;C0∩C2}.

Từ bây giờ ta sử dụng các khái niệm xấp xỉ d-ới và trên theo tính hạt của khơng gian
xấp xỉK = (U, R) đã đ-ợc giới thiệu ở ch-ơng 1.

Bổ đề 2.1.1. ([3]) Cho C ∈F vàC0∈F0. Khi đó: C0⊆C⇐⇒R(C0) ={C}.

Chứng minh: ([3]) Nếu C0⊆ C thì từ định nghĩa xấp xỉ trên suy raC ∈R(C0). Ngoài ra do
giả thiết chiều thuận ta có: ∀Cb ∈F,Cb6=C suy raC /bR(C0). Do ú R(C0) ={C}.

Chiều ng-ợc lại đ-ợc chỉ ra tõ nhËn xÐt r»ng, nÕu C0 6⊆ C th× tån t¹i Cb ∈ F,Cb 6=C :

(C0\C)∩Cb 6=∅, suy ra C0∩Cb 6=∅ nên Cb ∈R(C0).
Mệnh đề sau đ-ợc suy ra trực tiếp từ bổ đề trên

</div>
(19)<div class='page_container' data-page=19>

Tõ trªn ta có phát biểu t-ơng đ-ơng

Mnh 2.1.2. ([3]) Tp C0 F0 là có thể tạo cầu nối giữa hai lớp khác nhau của F khi
và chỉ khi|R(C0)|>1.

TÝnh chÊt sau lµ hiĨn nhiªn

Tính chất 2.1.1. ([3]) Cho tậpC0∈F0 và giả sử |R(C0)|>1. Khi đó các tập bắc cầu sinh
bởiC0 là: BridgingC

0(C1;C2) (∀C1, C2 ∈R(C0), C1 6=C2).

XÐt kh«ng gian xÊp xØK = (U, R)nh- trên và giả sửF =U/R={C1, C2, . . . , Ct}(t >

1), F0= U/R0 ={C10, C20, . . . , Cs0} (s 1). Kết quả sau đây cho phạm vi của số l-ợng các
tập bắc cầu đ-ợc sinh ra từ các tập trong phân hoạch F0.

Mnh 2.1.3. ([3]) Cho P(F0) số l-ợng các tập bắc cầu sinh bởi các tập trong phân
hoạchF0 và đặt

m(F0) ={k :|R(Ck0)|>1} (2)
(a) Ta có

|m(F0)| X(F0) |m(F0)|.t(t1)

2 (3)

Đặc biệt X

(F0) =|m(F0)| |R(Ck0)| = 2 (∀k∈m(F
0

))

vµ

(F0) =|m(F0)|.t(t−1)

2 ⇐⇒ |R(C

k)|=t (∀k ∈m(F
0

))

(b) 0≤ |m(F0)| s và

ã |m(F0)|= 0 F F0

ã |m(F0)|=s |R(C0

k)|>1 (k = 1, . . . , s).

Trong đó quan hệ là quan hệ thứ tự thông th-ờng trên tập tất cả các phân hoạch của
U, tức là: F, F0là hai phân hoạch của U thì

F F0⇐⇒ ∀C0∈F0,∃C ∈F :C0⊆C
và khi đó ta nóiF0 là \mịn hơn" F (hoặc F l \thụ" hn F0).

Chứng minh: ([3]) Đặt mk = |R(C0

k)| (∀k ∈ m(F

0)). Từ định nghĩa 2.1.1 về tập bắc cầu
và mệnh đề 2.1.2, ta thấy: với mỗi k ∈ m(F0) s cú C2

mk tập bắc cầu sinh bởi Ck0 và nếu
k1, k2 m(F0), k1 6=k2 thì do Ck01 6=C

k2 nªn BridgingCk01(Ci;Cj)

6

=BridgingC0

k2(Cu;Cv).

Do đó

(F0) = X

k∈m(F0)

Cm2k =
1
2

k∈m(F0)

(|R(Ck0)| −1)|R(C
0

k)| (4)

Để ý2≤ |R(Ck0)| ≤t(∀k∈m(F0)), nên ta suy ra bất đẳng thức

|m(F0)| ≤X(F0)≤ |m(F0)|.t(t−1)

2 .

</div>
(20)<div class='page_container' data-page=20>

• X

k∈m(F0)

((mk−1)mk

2 −1) = 0⇐⇒mk = 2 (∀k∈m(F

)).

• X

k∈m(F0)

((t−1)t

2 −

(mk −1)mk

2 ) = 0⇐⇒

(t−1)t

2 −

(mk−1)mk

2 = 0

(∀k ∈m(F0))⇐⇒t=mk (∀k∈m(F0))

Khẳng định (b) đ-ợc suy ra trực tiếp từ định nghĩa của m(F0) và mệnh đề 2.1.1.

Ví dụ sau đây minh họa thủ tục xác định các tập bắc cầu trong một khơng gian xấp xỉ.
Ví dụ 2.1.1. Cho K = (U, R) trong đó U = {x1, x2, x3, x4, x5, x6, x7, x8, x9, x10} và F =

U/R= {C1, C2, C3}, ở đây các tập tri thức hạt cơ sở là C1 = {x1, x3, x10}, C2 ={x2, x6},

C3 = {x4, x7}, C4 = {x5}, C5 = {x8}, C6 = {x9}. Mét ph©n líp thø hai dùa vào quan hệ

t-ơng đ-ơngR0trênUlàF0=U/R0={C0

1, C

2, C

3}, trong úC

1 ={x1, x3, x4, x7, x10}, C20 =

{x2, x6, x8, x9}, C30 = {x5}. Ta tính xấp xỉ trên cho phân lớp F0 là R(F0) {R(C10),

R(C20), R(C

3)} và loại các tập C

k không thể tạo cầu nối giữa các lớp. Kết quả xác định
các tập bắc cầu nh- sau: R(C0

1) = {C1, C3} : (|m1| = 2), R(C20) = {C2, C5, C6}: (|m2| =

3), R(C30) ={C4}: (|m3|= 1). Do đóC30 khơng thể tạo cầu nối. Số l-ợng tập bắc cầu trong

tr-êng hỵp này làP(F0) = 4.

ã Các tập bắc cầu sinh bởi C10 là:

BridgingC0

1(C1;C3) ={{x1, x3, x10};{x4, x7}}.

ã Các tập bắc cầu sinh bởi C0

2 là:

BridgingC0

2(C2;C5) ={{x2, x6};{x8}};BridgingC

2(C5;C6) ={{x8};{x9}}

BridgingC20(C2;C6) ={{x2, x6};{x9}}.

Hình 2.1: Các tập bắc cầu giữa các lớp và các tập C0

k không thể tạo cầu nối (thể hiện bởi

</div>
(21)<div class='page_container' data-page=21>

2.1.2

Xác định các luật cầu nối-lớp ứng viên

Với mỗi tập bắc cầuBridgingC0(C1;C2)tìm đ-ợc ở trên ta tiến hành xỏc nh cỏc lut

cầu nối-lớp ứng viên nh- sau: iC0C1,j ∈C0∩C2

nÕu

supp(i, j)≡ |{a∈C :a(i) =a(j)6= 0}|

|C| ≥minsupp (5)

vµ

conf(i→j)≡ |{a ∈C :a(i) =a(j)6= 0}|

|{a∈C:a(i)6= 0}| ≥minconf (6)

thì (i → j) là luật cầu nối-lớp ứng viên từ C1 đến C2. T-ơng tự ta có luật cầu nối-lớp

ứng viên(j →i) từ C2 đến C1 nếu nh- các điều kiện (5) và conf(j →i)≥ minconf đ-ợc

thỏa mãn. Các tham số minsupp, minconf là cỏc ng-ng qui nh tr-c.

2.2

Phát hiện các luật cầu nèi-líp cèt yÕu

Mục này đề cập vấn đề phát hiện các luật cầu nối-lớp đáng quan tâm từ tập các luật cầu
nối-lớp ứng viên. Đ-a ra định nghĩa về luật cầu nối-lớp cốt yếu và đánh giá phạm vi của cỏc
ng-ng xỏc nh lut.

Các luật cầu nối-lớp cốt yếu đ-ợc phát hiện từ tập các luật cầu nối-lớp ứng viên dựa trên
yêu cầu là:

ã Cú t-ng t cao gia hai lớp C1, C2 của luật cầu nối-lớp ứng viên (i→j) từ C1 đến

C2.

• Mức ảnh h-ởng hai đầu cầu ca i v j i vi C0C

1 và C0C2 t-ơng ứng của tập

bắc cầu BridgingC0(C1;C2) là cao.

ỏnh giỏ t-ơng tự giữa các đối t-ợng ta sử dụng các độ đo sau
Độ t-ơng tự giữa hai đối t-ợng

Kí hiệu Sim(i, j) là hàm đo độ t-ơng tự củai, j ∈U. Sim(i, j)đ-ợc xác định bởi các
công thức sau:

(a)

Sima(i, j)≡ |{a∈C:a(i) =a(j)6= 0}|

|{a∈C :a(i)= 06 }|+|{a∈C :a(j)6= 0}| − |{a∈C :a(i) =a(j)6= 0}|

Y0 nghÜa: Sima(i, j) cho biÕt tØ lÖ thuộc tính chung có ởi vàjtrên số thuộc tính có ë i
vµ j.

(b)

Simb(i, j)≡ |{a∈C :a(i) =a(j)}|
2.|C| − |{a∈C :a(i) =a(j)}|

</div>
(22)<div class='page_container' data-page=22>

(c)

Simc(i, j)≡ |{a∈C :a(i) =a(j)}|
|C|

Y0nghÜa: Simc(i, j)cho biết tỉ lệ thuộc tính có giá trị nh- nhau củai vàjtrên số thuộc
tính.

Tớnh cht 2.2.1. Cỏc s o t-ơng tự ở trên thỏa:
(a) 0≤Sim(i, j)≤1.

(b) Sim(i, j) =Sim(j, i).
(c) Sim(i, i) = 1

TÝnh chÊt 2.2.2. §Ĩ ý ta thÊy:

Simb(i, j) = |{a∈C :a(i) =a(j)}|
2.|C| − |{a∈C :a(i) =a(j)}|
≤ |{aC: a(i) =a(j)}|

|C| =Simc(i, j)

và

ã|{aC :a(i) =a(j)= 06 }| |{a∈C:a(i) =a(j)}|

•|{a∈C :a(i)= 06 }|+|{a∈C:a(j)6= 0}| − |{a∈C:a(i) =a(j)6= 0}|
≤2.|C| − |{a∈C :a(i) =a(j)6= 0}|

NhËn xÐt: §èi víi Sima(i, j) ta cã:

Sima(i, j) ≤ |{a ∈C :a(i) =a(j)6= 0}|

|{a ∈C:a(i)6= 0}| = conf(i →j)

(t-¬ng tù cho conf(j →i)).

Simc(i, j) ≥ |{aC: a(i) =a(j)6= 0}|

|C| = supp(i, j).

Độ t-ơng tự giữa hai líp

Độ t-ơng tự giữa hai lớp C1, C2 ∈F -c xỏc nh l

Sim(C1, C2)

1
|C1|.|C2|

uC1

vC2

Sim(u, v). (7)
Độ t-ơng tự giữa hai lớp càng lớn thì khoảng cách giữa hai lớp đ-ợc thu hẹp. Khoảng cách

giữa hai lớp mà lớn thì giữa hai lớp có sự khác biệt.

Mức ảnh h-ởng của lt cÇu nèi-líp

Cho (i → j) là luật cầu nối-lớp ứng viên từ C1 đến C2 sinh bởi C0 ∈ F0. Xét phân bố

x¸c xuÊt

pi(u) = PSim(u, i)

v∈C0∩C

Sim(v, i); u∈C

0∩

C1 (8)

</div>
(23)<div class='page_container' data-page=23>

H(i)≡ − P

u∈C0∩C

pi(u) logpi(u). (9)

Entropy H(i) đo mức ảnh h-ởng của đối t-ợng i với các đối t-ợng trong phần giao C0∩C

T-¬ng tù ta cã entropy cđa phân bốpj(w)(wC0C2)là

H(j) X

wC0C

pj(w) logpj(w).

Các entropy của phân bố xác xuất (8) có tính chất sau đây

Tớnh cht 2.2.3. Gi sử (i→j) là luật cầu nối-lớp ứng viên từ C1 đến C2 sinh bởiC0∈F0.

Khi đó0≤H(i)≤ log|C0∩C1| và

(a) H(i) = 0 ⇐⇒ |C0∩C1|= 1. (10)

(b) H(i) = log|C0∩C

1| ⇐⇒Sim(u, i) = 1(uC0C1). (11)

Phân bố xác xuất pi(u)(u C0C

1) biu th tỉ lệ về mức độ t-ơng tự giữa i với cỏc

phần tửu khác trong C0C

1, nờn entropyH(i) o mc tỏc động (theo tính t-ơng tự) của i

đối với các phần tử u khác trong tập C0∩C1. Từ (11) cho thấy H(i) càng lớn thì phân bố

càng gần về tính đều (phân bố đều). Nói cách khác là mức độ t-ơng tự giữa i với các phần
tửu khác trong tập C0∩C1 là gần nh- nhau, tức là ảnh h-ởng củai ở đầu cầu C0∩C1 là có

ý nghĩa. Điều này cũng đ-ợc đặt trên đầu cầu về phíaj tức là cho H(j). Từ đó một u cầu
tự nhiên là ta tìm các luật cầu nối-lớp sao cho entropy ở cả hai đầu đều lớn.

Từ phân tích về độ đo entropy (Tính chất 2.2.1) để tìm tập các luật cầu nối-lớp đáng
quan tâm từ tập các luật cầu nối-lớp ứng viên, ta sử dng khỏi nimlut cu ni-lp ct yu
nh- sau:

Định nghĩa 2.2.1. ([3]) (lt cÇu nèi-líp cèt u). Lt cÇu nèi-líp øng viªn (i→j) tõC1

đến C2 sinh bởi C0∈ F0 gọi là luật cầu nối-lớp cốt yếu giữa hai lớp (C1, C2) nu nh- tha

mÃn các điều kiện:

(i) Sim(C1, C2)minSim

(ii) min{H(i), H(j)} ≥minEntro

Trong đó minSim, minEntro t-ơng ứng là các tham số về ng-ỡng tối thiểu của độ t-ơng
tự và entropy.

Các cận của H(i) vàmin{H(i), H(j)} đ-ợc đánh giá bởi mệnh đề sau:

Mệnh đề 2.2.1. ([3]) Cho (i → j) là luật cầu nối - lớp ứng viên từ C1 đến C2 sinh bởi

C0∈F0. Khi đó

logS(i)≤H(i)≤log p 1

min(i) (12)

vµ

min

k∈{i,j}logS(k)

≤min{H(i), H(j)} ≤ min

k∈{i,j}log

pmin(k) (13)

ở đây kí hiệu

S(i) X

uC0C

Sim(u, i); S(j) X

vC0C

</div>
(24)<div class='page_container' data-page=24>

và

pmin(i) min

uC0C

pi(u); pmin(j) min

vC0C

pj(v).

Chứng minh: ([3]) Ta viết lại H(i) nh- sau
H(i) = log Y

u∈C0∩C

( 1

pi(u))

pi(u).

Từ đó có đánh giá

log Y

uC0C

( 1

pmax(i))

pi(u) H(i)log Y

uC0C

( 1

pmin(i))

pi(u)

ở đây kí hiệu pmax(i) = max

uC0C

pi(u). Để ý rằng pi(u) Sim(i, i)

S(i) =
1

S(i)(u C

0
C1)

nênpmax(i) = 1

S(i). Điều này dẫn đến logS(i)≤H(i)≤log
1

pmin(i).

Bất đẳng thức (13) đ-ợc suy ra nhờ sự kết hợp với đánh giá t-ơng t nh- (12) choH(j).

2.3

Thuật toán tìm luật cầu nối-lớp cèt u trªn mét hƯ

quyết định

Cho hệ quyết định S = (U, A), trong đó U là tập hữu hạn (6=∅) của các đối t-ợng, tập
A≡C∪D, C∩D =∅, trong đó C, D t-ơng ứng là tập thuộc tính điều kiện và tập thuộc
tính quyết định. Kí hiệuR là quan hệ t-ơng đ-ơng t-ơng ứng với tập các lớp quyết định của

S, tức là phân hoạchF ≡U/D và cho một quan hệ t-ơng đ-ơng R0 khác trên U t-ơng ứng
với phân hoạch F0 ≡ U/B(B ⊆ C). Thuật tốn tìm luật cầu nối-lớp cốt yếu trên một hệ
quyết định nh- sau:

Input: Cơ sở dữ liệu là một bảng quyết định.
Output: Các luật cầu nối-lớp cốt yếu.

B-ớc 1: Thu gọn bảng quyết định theo tập thuộc tính điều kiện C.

B-ớc 2: Xác định phân lớp thứ hai trên hệ quyết định. Tìm các tập thuộc tính có ý
nghĩa và lấy phần bù của chúng để làm tập thuộc tính dùng cho phân lớp thứ hai. Kí hiệu
tập thuộc tính tìm đ-ợc làB.

B-ớc 3: Phân hoạch bảng dữ liệu đã đ-ợc thu gọn theo tập thuộc tính quyết định làF ≡

U/D = {C1, C2, . . . , Ct} , vµ theo tËp thuéc tÝnh B lµ F0≡ U/B ={C10, C

2, . . . , C

s}(B 
C).

B-ớc 4: Tìm các tập bắc cầu.
for each C0

i F

0 do
Tính R(C0

i).

if |R(Ci0)|>1

Cj R(C0

i)l-u lại phần giao Gij =C

</div>
(25)<div class='page_container' data-page=25>

endif;
endfor;

B-íc 5:

B-íc 5.1: Sinh lt cÇu dựa vào tập các phần giao Br ở B-ớc 4.

B-ớc 5.2: Tính các số đo supp, conf cho từng luật theo công thức (5) và (6).
B-ớc 6:

B-c 6.1: Xỏc nh luật cầu nối-lớp ứng viên thỏa minsupp, minconf.
for∀ luật (i→j) do

if supp(i, j)minsuppthen

if conf(ij) minconf then

L-u luật cầu vào tập luật cầu nối-lớp ứng viên;
endif;

endif;
endfor;

B-c 6.2: Vi tng lut cu nối-lớp ứng viên tính độ t-ơng tự và entropy theo
cơng thức (7) và (9).

B-ớc 7: Xác định luật cầu nối-lớp cốt yếu thỏa minSim, minEntro.
for∀ luật (i→j) do

if Sim(C[i], C[j])≥minSimthen

if min{H(i), H(j)} minEntro then

L-u lại luật (ij) vào tập luật cầu nối-lớp cốt yếu.
endif;

endif;
endfor;

</div>
(26)<div class='page_container' data-page=26>

A

0

p dụng: Tìm các luật cầu nối-lớp trong

bảng tuần hoàn các nguyên tố hóa häc

Trong ch-ơng này, luận văn áp dụng các kiến thức tìm hiểu đ-ợc ở Ch-ơng 2 để khai
thác luật cầu nối-lớp trên cơ sở dữ liệu bảng tuần hoàn các nguyờn t húa hc.

3.1

Mô tả cơ sở dữ liệu bảng tuần hoàn các nguyên tố hóa

học

C s d liu bảng tuần hồn các ngun tố hóa học bao gồm 118 bản ghi về các nguyên
tố hóa học, mỗi bản ghi biểu diễn thơng tin của một ngun tố hóa học gồm các thuộc tính
nh- điện tích hạt nhân (số thứ tự), kí hiệu nguyên tố, họ, tính kim loại, thể vật chất, quỹ đạo,
chu kỳ, phân nhóm. Ví dụ về cơ sở dữ liệu.

</div>
(27)<div class='page_container' data-page=27>

1. §iƯn tÝch hạt nhân. (Số thứ tự) Các nguyên tố đ-ợc xếp theo chiều tăng dần của điện
tích hạt nhân nguyên tử, mỗi nguyên tố chỉ có một giá trị điện tích và tăng từ 1 trở lên (liên
tục, không gián đoạn), kí hiệu là Z. Số điện tích hạt nhân (Z) = số proton (P) = số electron
(E) thì nguyên tử trung hòa điện.

2. Họ. Các electron trong nguyên tử của nguyên tố đ-ợc sắp xếp theo lớp. Mỗi lớp
của electron lại đ-ợc chia thành các phân lớp. Các electron thuộc cùng một phân lớp có mức
năng l-ợng bằng nhau. Kí hiệu các phân lớp là các chữ cái th-ờng: s, p, d, f. Sè ph©n líp
cđa mét líp electron b»ng sè thø tù cđa líp. Sè electron tèi ®a trong một phân lớp:

- Phân lớp s chứa tối đa 2 electron.
- Phân lớp p chứa tối đa 6 electron.
- Phân lớp d chứa tối đa 10 electron.
- Phân lớp f chøa tèi ®a 14 electron.

Cấu hình electron ở hai lớp ngồi cùng quyết định tính chất hóa học của ngun tố (vì hiện
t-ợng chèn mức năng l-ợng). Ví dụ: Fe (Z = 26): 1s2 2s2 2p6 3s2 3p6...4s2 3d6.

3. TÝnh kim loại. Tính kim loại của các nguyên tố đ-ợc thể hiện trong cơ sở dữ liệu
nh- sau:

- Hydro đ-ợc kí hiệu là 0.

- Kim loại kiềm (Alkali metals) đ-ợc kí hiệu là 1.

- Kim loại kiềm thổ (Alkali earth metals) đ-ợc kí hiệu là 2.
- Kim loại chuyển tiếp (Transition metals) đ-ợc kí hiệu là 3.
- Đất hiếm (Lanthanide series) đ-ợc kí hiệu là 4.

- Đất hiếm (Antinide series) đ-ợc kí hiệu là 5.
- Poor metals đ-ợc kí hiệu là 6.

- Phi kim (Nonmetals) đ-ợc kí hiệu là 7.
- Khí hiếm (Noble gases) đ-ợc kí hiệu là 8.

i vi các ngun tố khơng có giá trị về tính kim loại (giá trị vắng) thì đ-ợc quy định trong
cơ sở dữ liệu là -số thứ tự cột thuộc tính và giá trị vắng thứ mấy. Ví dụ nguyên tố Uus khơng
có giá trị về tính kim loại, tức là giá trị vắng và cũng là giá trị vắng đầu tiên về tính kim loại
nên đ-ợc l-u trong cơ sở dữ liệu là -31 tại cột tính kim loại.

4. Thể vật chất. Có 4 thể vật chất và đ-ợc thể hiện trong cơ sở dữ liệu nh- sau:
- Rắn (Solid) đ-ợc quy định là 1.

- Lỏng (Liquid) đ-ợc quy định là 2.
- Khí (Gas) đ-ợc quy định là 3.

- Tổng hợp (Synthetic) đ-ợc quy định là 4.

Còn đối với các nguyên tố khơng có giá trị về thể vật chất (giá trị vắng) thì đ-ợc quy định
trong cơ sở dữ liệu là -số thứ tự cột thuộc tính và giá trị vắng thứ mấy. Ví dụ ngun tố Uus
khơng có giá trị về thể vật chất, tức là giá trị vắng và cũng là giá trị vắng đầu tiên về thể vật
chất nên đ-ợc l-u trong cơ sở dữ liệu là -41 tại cột thể vật chất.

5. Quỹ đạo. Các quỹ đạo đ-ợc mô tả nh- là đám mây mật độ electron. Là các electron
ở lớp ngồi cùng. Ví dụ cấu hình electron của Fe có lớp ngồi cùng là 3d6 nên đ-ợc l-u

</div>
(28)<div class='page_container' data-page=28>

6. Chu kỳ. Các nguyên tử của các nguyên tố trong cùng một chu kỳ đều có cùng số
lớp electron và bằng số thứ tự chu kỳ chứa chúng. Trong bảng tuần hoàn các nguyên t húa
hc cú 7 chu k.

- Chu kỳ ngắn: các chu kỳ 1, 2, 3.
- Chu kỳ dài: các chu kú 4, 5, 6, 7.

7. Ph©n nhãm. Nhãm bao gåm các nguyên tố có cùng số electron hóa trị. Số thứ tự
của nhóm bằng số electron hóa trị mà các nguyên tố có. Mỗi nhóm đ-ợc chia thành 2 phân
nhóm: phân nhóm chính và phân nhóm phụ.

- Phân nhóm chính (nhóm A): bao gồm các nguyên tố s hoặc p.
- Phân nhóm phụ (nhóm B): bao gồm các nguyên tố d hc f.

Để tiến hành việc phát hiện các luật cầu nối-lớp luận văn dùng thuộc tính số thứ tự (điện
tích hạt nhân) làm chỉ mục (tức làU ={1,2, . . . ,118}) và tập thuộc tính quyết định gồm hai
thuộc tính là D = {Chu Ky, Phan Nhom}, tập thuộc tính điều kiện gồm 4 thuộc tính cịn lại
C= {Ho, Tinh Kim Loai, The Vat Chat, Quy Dao}.

Cơ sở dữ liệu Bảng tuần hồn các ngun tố hóa học bao gồm 118 nguyên tố hóa học,
chúng đ-ợc phân thành 7 lớp nếu xét theo thuộc tính quyết định Chu Ky là từ chu kỳ 1 đến
chu kỳ 7, chúng đ-ợc phân thành 16 lớp nếu xét theo thuộc tính quyết định Phan Nhom là:
1A, 1B, 2A, 2B, 3A, 3B, 4A, 4B, 5A, 5B, 6A, 6B, 7A, 7B, 8A, 8B. Xét thấy cơ sở dữ liệu
khơng nhất qn vì xuất hiện các đối t-ợng gây ra dị th-ờng dữ liệu trong bảng dữ liệu, ví
dụ hai dịng dữ liệu sau:

Hai nguyên tố B và C có cùng giá trị các thuộc tính điều kiện là (p, 7, 1, 2p) nh-ng

có thuộc tính quyết định khác nhau là (2, 3A) và (2, 4A) t-ơng ứng. Do đó bảng dữ liệu là
khơng nhất qn.

3.2

KÕt qu¶ thùc nghiƯm

Tiến hành thử nghiệm cơ sở dữ liệu nh- đã trình bày ở mục 3.1 trên ch-ơng trình đ-ợc xây
dựng theo thuật tốn đã trình bày ở Ch-ơng 2, kết quả thu đ-ợc nh- sau:

B-íc 1. Sau khi thu gọn bảng dữ liệu theo tập thuộc tính điều kiện thu đ-ợc 45 hạt rút

gọn (

U), trong đó hạt nhỏ nhất gồm 1 nguyên tố, hạt lớn nhất gồm 13 ngun tố.

B-íc 2. C¸c tËp thc tính ý nghĩa tìm đ-ợc là:

</div>
(29)<div class='page_container' data-page=29>

{Ho, The Vat Chat}, B0

3 = {Ho}. Ơ' đây tôi lấy phần bùB10 là tập thuộc tính dùng cho phân

lp th hai, và đặt lại B = B10.

B-ớc 3. Kết quả đã phân hoạch bảng dữ liệu đã thu gọn ở B-ớc 1 theo thuộc tính quyết
định Chu Ky thu đ-ợcU˜/Dgồm có 7 hạt, tức làF ≡U /D˜ ={C1, C2, . . . , C7}t-ng ng vi 7

chu kỳ. Và kết quả phân hoạch bảng dữ liệu thu gọn theo tập thuộc tÝnh dïng cho ph©n líp thø
hai{Ho, Tinh Kim Loai, The Vat Chat}thu đ-ợc 19 hạt, hayF0U /B ={C10, C

2, . . . , C

19}.

B-ớc 4. Tìm đ-ợc số l-ợng lớp tạo cầu là |m(F0)| = 8. Số l-ợng các tập bắc cầu là

(F0) = 64.

B-ớc 5. Sinh đ-ợc 128 luật cÇu nèi-líp.

B-ớc 6. Với ng-ỡng minsupp = 0.75,minconf = 0.75 tìm đ-ợc 128 luật cầu nối-lớp
ứng viên. Độ t-ơng tự, entropy của từng luật và phạm vi cho các ng-ỡngminSim, minEntro
cũng đã đ-ợc tính trong b-ớc này.

B-ớc 7. Với các luật cầu nối-lớp ứng viên và ng-ỡng tối thiểu minSim, minEntrotìm
đ-ợc ở b-ớc 6 thì số luật cầu nối-lớp cốt yếu đ-ợc thống kê theo ng-ỡngminSim, minEntro
thay đổi. Sau đây là bảng thống kê số luật cầu nối-lớp cốt yếu theo một số ng-ỡng
minSim, minEntro.

B¶ng 3.1: Sù phơ thc cđa số l-ợng luật cầu nối-lớp cốt yếu vào các ng-ỡng minSim,
minEntro.

B¶ng 3.1 cho kÕt qu¶ vỊ sù phơ thc cđa số l-ợng luật cầu nối-lớp cốt yếu vào giá
trị của các ng-ỡng minSim, minEntro. Kết quả xét cho tr-ờng hợp số tập có thể tạo cầu là

</div>
(30)<div class='page_container' data-page=30>

trong khoảng: minEntro∈ [1; 3.321928) (đ-ợc đánh giá theo công thức (12), mệnh đề 2.2.1
trong Ch-ơng 2).

Với giả định sự phân lớp của cơ sở dữ liệu Bảng Tuần Hoàn Các Ngun Tố Hóa Học
là khả hợp thì lẽ tự nhiên các liên kết ngồi giữa các lớp sẽ khơng nhiều. Do đó ta quan tâm
các nhóm luật cầu nối-lớp cốt yếu t-ơng ứng (a), (b), (c) trong bảng 3.1. Nhóm các luật cầu
nối-lớp cốt yếu này đ-ợc cho cụ thể ở bảng 3.2.

Bảng 3.2: Các luật cầu nối-lớp cốt yếu đ-ợc xác định.

Minh häa viƯc tÝnh mét lt cÇu nèi-líp cốt yếu ở bảng trên nh- sau: chẳng hạn luật Sc

→Y trong nhãm (a) . Ta cã \Sc" thuéc líp Chu Ky 4 ≡C4 ={K, Ca, Sc, Ti, V, Cr, Mn, Fe,

Co, Ni, Cu, Zn, Ga, Ge, As, Se, Br, Kr}vµ \Y" thc líp Chu Ky 5≡C5={Rb, Sr, Y, Zr, Nb,

Mo, Ru, Rh, Pd, Ag, Cd, Tc, In, Sn, Sb, Te, I, Xe}, víi tËp C0

9 = {Sc, Ti, V, Cr, Mn, Fe, Co,

Ni, Cu, Zn, Y, Zr, Nb, Mo, Ru, Rh, Pd, Ag, Cd, La, Hf, Ta, W, Re, Os, Ir, Pt, Au, Ac} ta tÝnh
xÊp xØ trªn cđa nó theo F =U/D nhận đ-ợc |R(C0

9)| = 4, và do C4, C5 R(C90) nên (theo

Tính chất 2.1.1 trong Ch-ơng 2) tồn tại tập bắc cầuBridgingC0

9(C4;C5)={C
0

9C4;C
0
9C5}

gia hai lp ny (nh nghĩa 2.1.1 trong Ch-ơng 2) trong đó
C0

9∩C4 = {Sc, Ti, V, Cr, Mn, Fe, Co, Ni, Cu, Zn}.

C0

9∩C5 = {Y, Zr, Nb, Mo, Ru, Rh, Pd, Ag, Cd}.

Tõ c¬ së dữ liệu Bảng Tuần Hoàn Các Nguyên Tố Hóa Học ta tính supp và conf theo các
công thức (5) và (6) trong Ch-¬ng 2 t-¬ng øng

supp(Sc, Y)= 3

4 = 0.75; conf(Sc → Y)=

4 = 0.75;

conf(Y → Sc)= 3

4 = 0.75;

</div>
(31)<div class='page_container' data-page=31>

trị nh- nhau của chúng, khi đó độ t-ơng tự giữa hai lớpC4, C5 (công thức (7) trong Ch-ng

2)và các entropy (công thức (9) trong Ch-ơng 2) tính đ-ợc là

Sim(C4, C5) = 0.39506172839; H(Sc) = 3.321928094; H(Y) = 3.169925001.

Ta cã Sim(C4, C5) ≥ minSim = 0.395058125 vµ min{H(Sc), H(Y)} = 3.169925001 ≥

minEntro= 2.98 nên \Sc →Y" là luật cầu nối-lớp cốt yếu. Hình 3.1 minh họa mối liên kết
ngoài từ lớp C4 sang lớp C5 đ-ợc xác định bởi luật cầu nối-lớp cốt yếu \Sc → Y".

H×nh 3.1: CÊu tróc lt cÇu nèi-líp cèt u \Sc → Y" tõ líp C4 sang lípC5.

Trong b¶ng 3.2, cã thĨ thÊy nhóm (a) gồm các luật cầu nối-lớp giữa lớp Chu kỳ 5 (C5)

và Chu kỳ 6 (C6) (chẳng hạn luật \Y La", \Zr Hf", ...), trong nhóm (b) là các luật cầu

nối-lớp giữa lớp Chu kỳ 4 (C4) và lớp Chu kỳ 6 (C6) (chẳng hạn \Sc La", \Ti Ta", ...),

nhóm (c) là các luật cầu nối-lớp giữa lớp Chu kỳ 4 (C4) và lớp Chu kỳ 5 (C5) (chẳng hạn

\Sc Y", ...). Trong các lớp còn lại không có luật cầu nối-lớp cốt yếu nào đ-ợc phát hiện.

</div>
(32)<div class='page_container' data-page=32>

Sự biến thiên của số l-ợng luật cầu nối-lớp cốt yếu đối với giá trị của ng-ỡng minSim
(khi cố định giá trị của các ng-ỡngminEntro) đ-ợc thể hiện qua Hình 3.2. Với minEntro
= 1, số l-ợng luật cầu nối-lớp cốt yếu giảm từ 24 xuống 6 t-ơng ứng vớiminSim tăng từ
0.064453125 tới 0.395058125; khiminEntro= 1.44, số l-ợng luật cầu nối-lớp cốt yếu giảm
từ 8 xuống 2 t-ơng ứng vớiminSimtăng từ 0.064453125 tới 0.328937125.

T-ơng tự, sự biến thiên của số l-ợng luật cầu nối-lớp cốt yếu đối với giá trị của ng-ỡng
minEntro(khi cố định giá trị của các ng-ỡng minSim) đ-ợc thể hiện ở đồ thị trong Hình

3.3.

</div>
(33)<div class='page_container' data-page=33>

Kết luận và h-ớng phát triển

Khúa lun l b-c tỡm hiểu cơ bản về lý thuyết tập thô và luật cầu nối-lớp trong một hệ
quyết định dựa vào tính tốn hạt. Sau thời gian học tập và nghiên cứu, luận vn ó t -c
nhng kt qu sau:

ã Trình bày tổng quan về tập thô cổ điển theo quan điểm Pawlak, tính hạt trong mô hình
tập thô.

ã Trỡnh by c s lý thuyết trong khai thác luật cầu nối-lớp và thuật tốn tìm các luật
cầu nối-lớp cốt yếu trong một hệ quyết định dựa vào tính hạt trong tập thơ.

• Xây dựng ch-ơng trình thử nghiệm tìm các luật cầu nối-lớp với cơ sở dữ liệu là Bảng
Tuần Hoàn Các Nguyên Tố Hóa Học. Kết quả thử nghiệm minh chứng cho tính đúng
của việc khai thác luật cầu nối-lớp dựa trên mơ hình tập thơ theo tính hạt đã đ-ợc chứng
minh tr-ớc đó.

</div>
(34)<div class='page_container' data-page=34>

Phơ lơc

Ch-ơng trình đ-ợc xây dựng trên ngơn ngữ lập trình C# ph-ơng pháp lập trình h-ng
i t-ng v cú cu trỳc sau:

Từ bảng dữ liệu ban đầu

ã Đ-a về bảng thu gọn dựa trên tập thuộc tính điều kiện.

ã Phân hoạch bảng thu gọn theo:
- Chu Ky.

- Tập thuộc tính ý nghĩa.

ã Tìm tập cầu trên hai phân hoạch trên

ã Sinh luật cầu dựa trên các tập cầu vừa tìm đ-ợc

ã Tìm luật cầu ứng viên dựa trên các luật cầu vừa sinh đ-ợc nếu thỏa giá trị minsupp,
minconf.

ã Tìm luật cầu cốt yếu dựa trên các luật cầu ứng viên vừa tìm đ-ợc bên trên nếu thỏa
ng-ỡngminSim, minEntro.

Ch-ơng trình th-c hiện có cấu trúc nh- sau:

ã Lớp l-u trữ các biến toàn cục của ch-ơng trình Global:

Các biến thuộc lớp này có ý nghĩa nh- sau:

- FileName là một biến kiểu string dùng để l-u tên file text cần đọc hoặc ghi dữ

liÖu.

- nobjs là biến kiểu long dùng để l-u số đối t-ợng (số ngun tố hóa học) trong cơ

së d÷ liƯu.

- nattr là biến kiểuint l-u số thuộc tính của đối t-ợng.

- ndecattr là biến kiểuint l-u số thuộc tính quyết định.

</div>
(35)<div class='page_container' data-page=35>

- [,] R là biến mảng hai chiều kiểu string l-u bảng dữ liệu ban đầu.
- [] Symbollà biến mảng kiểu string l-u kí hiệu của nguyên tố hóa học.

- [] attr name là biến mảng kiểu string l-u tên các thuộc tính của nguyên tố hóa
học.

- [,] attr là biến mảng hai chiều kiểu string l-u kết quả sau khi thu gọn bảng dữ
liệu ban đầu, biến nµy cã cÊu tróc nh- biÕn [,] R.

- [] IDattrlà biến mảng l-u chỉ số của đối t-ợng trong bảng thu gn [,] attr.

ã Lớp chứa các thao tác trên cơ sở dữ liệu gốc Database:

Nghĩa của các hàm trong líp nµy nh- sau:

- ReadFile(string FileName, int SoDTuong, int SoTTinh, int SoTTinhQDinh) lµ

hàm đọc cơ sở dữ liệu từ file text.txt để ch-ơng trình thao tác trên cơ sở dữ liệu đó.

- Reduct(int[] Cond, int n cond, out Equiv class UC) thu gọn bảng dữ liệu gốc

dựa vào mảng thuộc tính đ-a vàoCond.

- Write UC ID(string FileName, Equiv class UC) là hàm ghi kết quả thu gọn của

hàmReduct theo ID cđa nguyªn tè ra file *.txt.

-Write UC Name(string FileName, Equiv class UC)cịng nh- hµmWrite UC ID

nh-ng ghi ra file *.txt theo kÝ hiƯu cđa nguyªn tè hãa häc.

-WriteFile attr(string FileName)ghi kết quả của hàmReductra file *.txt bao gồm

toàn bộ thuộc tÝnh cđa nguyªn tè.

- Compare 2File(string File1, string File2) so sánh hai file txt.

- Display() xuất bảng dữ liệu gốc ra màn hình.

</div>
(36)<div class='page_container' data-page=36>

ã Lớp chứa các thao tác liên quan tới tri thức cơ sở của một tËp Set:

Mỗi đối t-ợng trong lớp này thể hiện một tri thức cơ sở của một tập. Các biến thuộc lp
ny cú ý ngha nh- sau:

Các biến:

- nmember là biến kiĨu long thĨ hiƯn sè nguyªn tè trong mét tri thức cơ sở.

-[] o là biến mảng một chiều kiểulongl-u ID của từng nguyên tố trong một tri thức
cơ sở.

Các hàm:

- Set()hàm khởi tạo Set khi không biết chính xác số nguyên tố thuộc tri thức cơ sở

đang làm việc vớinmember = 0,o = null.

- Set(long n)hàm khởi tạo Set khi biết chính xác số nguyên tố thuộc tri thức cơ sở

đang làm việc và mảng một chiềuođ-ợc khởi gán b»ng chÝnh nvíinmember = n, o = new
long[n].

- Intersect(Set X)hµm giao giữa tập hiện hành this với tập X.

-Intersect(Set X, long n)hàm giao giữa tập hiện hànhthisvới tậpXnh-ng có thêm

</div>
(37)<div class='page_container' data-page=37>

-Approx Upper(Equiv class UB, out Set trace)thùc hiÖn thao tác xấp xỉ trên của
một tri thức cơ sở this với một phân lớp UB, kết quả l-u vào trace.

-Approx Lower(Equiv class UB, out Set trace)t-ơng tự hàm trên nh-ng thùc hiƯn
xÊp xØ d-íi mét tri thøc c¬ së.

- Copy Set(out Set Terminal) hàm này hỗ trợ cho hai hàm Approx Upper, 
Ap-prox Lowertrong việc hủy vùng nhớ không sư dơng.

- Copy Arr Set(Set[] S, out Set[] T) thùc hiện việc sao chép dữ liệu từ mảng các
tập S sang mảng các tập T.

- Display() xuất tập.

- Display name() xuất tập theo ID của bảng dữ liệu thu gọn.
- Display nameR() xt tËp theo kÝ hiƯu cđa tõng nguyªn tè.

-Write Name(ref FileStream fs, ref StreamWriter sw, string FileName), Write ID
( ref FileStream fs, ref StreamWriter sw, string FileName), Write ID attr(ref FileStream
fs, ref StreamWriter sw, string FileName) các hàm này hỗ trợ cho các hàm ghi file trong
lớp tiếp theo sẽ đ-ợc trình bày sau đây.

ã Lớp chứa các thao tác liên quan tới phân lớp Equiv class:

Các biến:

- nclass là biến kiểulong l-u số l-ợng mảng các tập trong một Equiv class.

- [] c là biến kiểu mảng một chiều mỗi phần tử là mộtSet của một Equiv class.

Các hàm:

- Equiv class() khởi tạo một Equiv class không cÇn tham sè.

</div>
(38)<div class='page_container' data-page=38>

-Partition(string[,] dataR, long SoDTuong, int[] cond, int n cond, out Equiv class
UB) phân hoạch dataRdựa trên mảng thuộc tính điều kiện cond, kết quả đ-ợc l-u vàoUB.

- Copy Equiv(out Equiv class Copy) hàm này hỗ trợ cho hàmPartitiontrong việc

hủy vùng nhớ không sử dụng.

- Approx Upper Equiv(Equiv class UB, out Set[] trace) tÝnh xÊp xØ trên của một

phân lớp dựa trên UB.

- Approx Lower Equiv(Equiv class UB, out Set[] UB trace) tÝnh xÊp xØ d-íi của

một phân lớp dựa trênUB.

- Copy arr Equiv(Equiv class[] S, out Equiv class[] T) hỗ trợ cho các hàm tính

xấp xØ.

- Display Approx(Equiv class UB, Set[] Trace) xuÊt kÕt qu¶ xấp xỉ ra màn hình.

-Write Approx(string FileName,Equiv class UB, Set[] Trace, int[] B1, int[] B2)

ghi kÕt qu¶ xÊp xØ ra file *.txt.

-Compare Objs(string[] a, string[] b, int[] cond)so s¸nh hai m¶ng mét chiỊu kiĨu

string.

- TestNumber(string a, out int b)chun mét chuỗi số a thành kiểu số nguyên b.

- Input B(out int[] B) cho ng-ời dùng chọn thuộc tính để phân hoch.

- Write equiv(string FileName, int[] B) xuất kết quả phân hoạch đ-ợc ra file *.txt.

- Write equiv attr(string FileName, int[] B) xuÊt theo chØ sè cña cét thu gän ra

file text.

- Display() xuất phân hoạch theo ID của nguyên tố.

- Display name() xuất phân hoạch theo kí hiệu của nguyên tè.

• Lớp tính các độ đo Calcs:

Các hàm trong lớp này dùng để tính tốn các độ đo có liên quan tới luật cầu nối-lớp, cụ
thể nh-:

- Sim a(int i, int j)hàm này dùng để tính độ t-ơng tự của hai đối t-ợng i và j theo

</div>
(39)<div class='page_container' data-page=39>

- Sim b(int i, int j) tính độ t-ơng tự của hai đối t-ợng ivà j theo công thức Sim b
đã trình bày ở ch-ơng 2.

- Sim c(int i, int j) tính độ t-ơng tự của hai đối t-ợng i và j theo cơng thức Sim c

đã trình bày ở ch-ơng 2.

- Sim(Set C1, Set C2, Equiv class RC)dùng hàm này để tính độ t-ơng tự của hai

lípC1 vµC2 dùa vµo phân hoạch RC.

xác xuất của đối t-ợngi với các phần tử u khác trongC1.

</div>
(40)<div class='page_container' data-page=40>

entropy của đối t-ợngi.

- In(int x, int[] B) mục đích kiểm trax có thuộc B.

- sub(int[] TapBiTru, int[] TapTru, out int[] Hieu) t×m hiƯu cđa hai tËp.

- r(Equiv class C, int[] B, int n B)hµm tÝnh møc chÊt l-ợng xấp xỉ của sự phân lớp
C theo B.

- Find max(double []s) tìm phần tử lớn nhất trong mảngs.

- Find(Equiv class C, ref int[] B, ref int n B, ref int[] maxs, ref int n maxs) tÝnh
møc ý nghÜa thuéc tÝnh.

- find alpha(Equiv class C, ref Set[] b, ref double[] alpha, ref int k) xác định
ng-ỡng cho alpha.

-Find B(ref Equiv class C, ref int[] B,ref int m, double alpha)xác định tập thuộc
tính B cho phân lớp thứ hai.

- TestNumber(string a, out int b)chuyển một chuỗi số a sang số nguyên b.
- TestNumber(string a, out float b)chuyển một chuỗi số a sang sè thùc b.

-calc prob(ref Equiv class RC, ref int[] a, ref double[] P, out int n) tÝnh x¸c xt
cđa tõng thuéc tÝnh.

-Find B hprob(ref Equiv class RC, ref int[] a, ref double[] P, ref int n, out int[]
B, out int m)tìm nhóm thuộc tính có xác xuất cao.

- Find B lprob(ref Equiv class RC, ref int[] a, ref double[] P, ref int n, out int[]
B, out int m)t×m nhãm thuộc tính có xác xuất thấp.

ã Lớp khai thác luật cÇu nèi - líp Bridge:

Các đối t-ợng trong lớp này đ-ợc l-u thành một struct

Brid là một tập cầu. Trong đó, biến nclass l-u số phần tử của Brid, biến [] cname là
mảng một chiều kiểu int l-u chỉ số của các tri thức hạt, biến bridname là kiểu int l-u chỉ
số của một tri thức hạt,[] Hlà mảng cácSet, phần tử thứ i trongHl-u lại các phần tử thuộc
phần giao giữa bridname với tri thức hạt thứ i mà mảng cname l-u lại. Tiếp theo là một
structBrid set là một tập các tập cầu.

Cơ thĨ, biÕnnbridkiĨuint l-u l¹i sè phần tử củaBrid set,[] Br là một mảng cácBrid.
Để thể hiện các luật cầu nối-lớp ta có cấu trúc sau:

Rule l-u tồn bộ các thuộc tính liên quan tới một luật cầu nối-lớp. Trong đó, br kiểu

intl-u chØ sè cđa mét tri thøc h¹tCi0∈U/B; biÕnlclasskiĨu intl-u l¹i tri thøc h¹t mà phần

t bờn trỏi ca lut cu thuc vo; t-ng tự biến rclass kiểu int l-u lại tri thức hạt mà phần
tử bên phải của luật cầu thuộc vào; left kiểu long là đối t-ợng bên trái của luật cầu; right

</div>
(41)<div class='page_container' data-page=41>

supp của luật; biếnsim kiểu double l-u lại độ t-ơng tự của luật; HR, HL kiểu double l-u
lại entropy bên phải, bên trái t-ơng ứng của luật cầu. Và cuối cùng là tập các luật.

BiÕn nrulekiÓu longcho biết số luật cầu. [] r là mảng một chiều các luật cầu. Sau đây

là các hàm trong lớp Bridge

Y0 nghĩa của các hàm trong lớp này là:

- Find Bridge Set(Equiv class UF, Equiv class UB, out Brid set BRIDGE1) tìm

các tập cầu từ hai phân hoạchUFvàUB.

- Display Bridge set(Brid set BRIDGE) xuất các tập cầu ra màn hình.

- Write Bridge set(string FileName, Brid set BRIDGE) ghi các tập cầu ra file

</div>
(42)<div class='page_container' data-page=42>

- Calc supp(long l, long r, ref int suppl, ref int suppr, ref int supp)tÝnh c¸c supp
cho mét luËt cÇu.

- Bridge Rule(Brid set BRIDGE, out Rule Set R) hàm này dùng để sinh luật cầu

nèi-líp mét phía.

-Display Rule Set(ref Rule Set R)xuất các luật cầu nối-lớp một phía vừa tìm đ-ợc

ở hàmBridge Rule trên.

- Write Rule Name(ref FileStream fs, ref StreamWriter sw, string FileName,

Rule r, Equiv class RC) ghi các luật cầu theo kí hiệu nguyên tè ra file text.

- Write Rule Set(string FileName, ref Rule Set R)ghi các tập luật cầu nối-lớp ra

file text.

-Find Class name(Brid set BRIDGE, int cname, int x) mục đích hỗ trợ cho hàm

Calc Sim Entropy.

- Calc Sim Entropy(ref Rule Set R, Brid set BRIDGE, ref Equiv class C, ref

Equiv class RC, ref double minH, ref double maxH)tÝnh sim vµ entropy của các tập luật

cầu ứng viên.

- Find Candidate Rule Set(ref Rule Set R, double minsupp, double minconf,

Brid set BRIDGE, ref Equiv class C, ref Equiv class RC, out Rule Set CR, out double

minH, out double maxH) tìm các luật cầu øng viªn.

- Display Rule Set1(ref Rule Set R)xuất các luật cầu vừa tìm đ-ợc với đầy đủ các

độ đo của một luật.

- Write Rule Set1(ref FileStream fs,ref StreamWriter sw, string FileName, ref

Rule Set R, Equiv class RC)ghi các luật cầu nèi-líp ra file text víi kÝ hiƯu cđa nguyªn tè.

- Find Min(double a, double b) tìm phần tử nhỏ nhất, mục đích hỗ trợ cho hàm

tiÕp theo.

- Find Essential Class Bridge Rule(ref Rule Set CR, Brid set BRIDGE, ref

Equiv class RC, double minsim, double minentropy, out Rule Set ER)t×m luËt cÇu nèi-líp

</div>
(43)<div class='page_container' data-page=43>

- FindMinMaxSim(ref Rule Set R, out double Min minsim, out double

Max minsim) tìm phạm vi cho minSimcđa tËp lt cÇu nèi-líp.

- ThongKe LuatCau TheoNguong(string FileName, ref Rule Set R, Brid set

BRIDGE, ref Equiv class C, ref Equiv class RC, ref double Minentr, ref double Maxentr)

thống kê các luật cầu nối-lớp theo các ng-ỡng minSimvà minEntro thay đổi với ID của
từng nguyên tố trong bảng dữ liệu ban đầu.

- ThongKe LuatCau TheoNguong Detail(string FileName, ref Rule Set R,

Brid set BRIDGE, ref Equiv class C, ref Equiv class RC, ref double Minentr, ref double

Maxentr) thống kê các luật cầu nối-lớp theo các ng-ỡng minSim và minEntro thay đổi

</div>
(44)<div class='page_container' data-page=44>

[1] Đặng Ph-ớc Huy, Thuật toán phát hiện lt cÇu nèi-líp, 2011
[2] Z. Pawlak, Rough Sets, Kluwer Academic Publishers, 1991.

[3] Tạ Thị Thu Ph-ợng, Huỳnh Bảo Tuyên, Đặng Ph-ớc Huy, Một số vấn đề trong khai
thác luật cầu nối-lớp dựa vào tập thô, 2011.

[4] Tạ Thị Thu Ph-ợng, Sự phụ thuộc của các thuộc tính trong hệ quyết nh: S dng
mụ hỡnh tp thụ, 2011.

[5] Huỳnh Bảo Tuyên, TËp th« - TËp th« dung sai, 2011.

</div>

Luan van Tap Tho Pawlak va luat cau noi lop

<b>Lời Cảm Ơn</b>

<b>Lời Mở §Çu</b>

<b>Các ký hiệu</b>

<b>TËp thô Pawlak</b>

<b>1.1</b>

<b>Không gian xấp xỉ - Toán tử xấp xỉ</b>

<b>1.1.1</b>

<b>Biểu diƠn tri thøc trong kh«ng gian xÊp xØ</b>

<b>1.1.2</b>

<b>Sự phân lớp - Xấp xỉ của các phân lớp</b>

<b>1.2</b>

<b>TÝnh hạt trong mô hình tập thô</b>

<b>1.2.1</b>

<b>Xấp xỉ theo hạt</b>

<b>1.2.2</b>

<b>Mc ý ngha thuc tính</b>

<b>Bài toán khai thác luật cầu nối-lớp</b>

<b>dựa vào tập thô</b>

<b>2.1</b>

<b>Phát hiện các luật cầu nối-lớp ứng viên</b>

<b>2.1.1</b>

<b>Xác định các tập bắc cầu</b>

<b>2.1.2</b>

<b>Xác định các luật cầu nối-lớp ứng viên</b>

<b>2.2</b>

<b>Phát hiện các luật cầu nèi-líp cèt yÕu</b>

<b>2.3</b>

<b>Thuật toán tìm luật cầu nối-lớp cèt u trªn mét hƯ</b>

<b>quyết định</b>

<b>A</b>

<i>0</i>

<b>p dụng: Tìm các luật cầu nối-lớp trong</b>

<b>bảng tuần hoàn các nguyên tố hóa häc</b>

<b>3.1</b>

<b>Mô tả cơ sở dữ liệu bảng tuần hoàn các nguyên tố hóa</b>

<b>học</b>

<b>3.2</b>

<b>KÕt qu¶ thùc nghiƯm</b>

<b>Kết luận và h-ớng phát triển</b>

<b>Phơ lơc</b>

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về