Tải bản đầy đủ (.pdf) (44 trang)

Luan van Tap Tho Pawlak va luat cau noi lop

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (659 KB, 44 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

<b>Lời Cảm Ơn</b>



Khụng th núi ht bng lời lòng biết ơn sâu sắc của em đến ng-ời Thầy h-ớng dẫn Cô
Tạ Thị Thu Ph-ợng, ng-ời đã tận tình h-ớng dẫn và động viên em v-ợt qua những khó khăn
trong học thuật để có đ-ợc kết quả này. Từ Cơ, em đã học đ-ợc nhiều điều q giá trong học
tập và ứng xử đời th-ờng. Em cũng nhận đ-ợc sự truyền thụ kiến thức, góp ý và định h-ớng
ban đầu của Thầy Đặng Ph-ớc Huy về nội dung của khóa luận. Và Thầy Huỳnh Đình Dũng,
Thầy đã cung cấp cho em cơ sở dữ liệu về Bảng Tuần Hồn Các Ngun Tố Hóa Học để
hồn thành mơ hình thử nghiệm. Kính xin ghi nhận tất cả những đặc ân đó của Quý Thầy.


Em xin chân thành cảm ơn các Thầy Cơ trong khoa <b>Tốn - Tin Học</b> tr-ờng Đại Học
Đà Lạt đã cung cấp cho em rất nhiều kiến thức và môi tr-ờng học tập khoa học trong những
năm vừa qua, đặc biệt là Bộ Mơn Tốn Ư0ng Dụng và Tin Học đã có những buổi Seminar
bổ ích qua đó em học tập đ-ợc kinh nghiệm nghiên cứu, cách trình bày kết quả nghiên cứu.
Con xin bày tỏ lịng kính trọng và sự biết ơn sâu sắc của con đến gia đình đã động viên và
hỗ trợ tinh thần cho con, cảm ơn những ng-ời bạn đã giúp đỡ tơi rất nhiều trong q trình
nghiên cứu và học tập.


Xin cảm ơn tất cả mọi ng-ời đã hỗ trợ em hon thnh lun vn ny!


Đà Lạt, tháng 5 năm 2012.
Sinh viên


</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

<b>1</b> <b>Tập thô Pawlak</b>


<b>5</b>


1.1 Không gian xÊp xØ - To¸n tư xÊp xØ . . . 5


1.1.1 BiĨu diƠn tri thøc trong kh«ng gian xÊp xØ . . . 5



1.1.2 Sù ph©n líp - XÊp xØ của các phân lớp . . . 12


1.2 Tính hạt trong mô hình tập thô . . . 13


1.2.1 Xấp xØ theo h¹t . . . 13


1.2.2 Møc ý nghÜa thuộc tính . . . 14


<b>2</b> <b>Bài toán khai thác luật cầu nối-lớp</b>
<b>dựa vào tập thô</b>
<b>17</b>
2.1 Phát hiện các luật cầu nối-lớp ứng viên . . . 18


2.1.1 Xỏc nh các tập bắc cầu . . . 18


2.1.2 Xác định các luật cầu nối-lớp ứng viên . . . 21


2.2 Phát hiện các luật cầu nối-lớp cốt yếu . . . 21


2.3 Thuật tốn tìm luật cầu nối-lớp cốt yếu trên một hệ quyết định . . . 24


<b>3</b> <b>A</b>0<b>p dụng: Tìm các luật cầu nối-lớp trong</b>
<b>bảng tuần hoàn các nguyên tố hóa học</b>
<b>26</b>
3.1 Mô tả cơ sở dữ liệu bảng tuần hoàn các nguyên tố hóa học . . . 26


3.2 KÕt qu¶ thùc nghiƯm . . . 28


<i>Phơ lục</i> <i>34</i>



<i>Tài liệu tham khảo</i> <i>44</i>


</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

<b>Lời Mở §Çu</b>



Trong một vài năm gần đây, ngành cơng nghệ thơng tin trên toàn thế giới đã phát triển
mạnh mẽ với tốc độ rất nhanh. Song song với điều đó chúng ta cũng phải đối mặt với một
thách thức mới là sự bùng nổ về l-ợng thông tin. Tuy nhiên, một thực tế diễn ra rất phổ biến
là mặc dù có một l-ợng dữ liệu rất lớn nh-ng thông tin hữu ích trích ra từ dữ liệu mà thực
sự chúng ta có là rất ít, những hiện t-ợng thể hiện qua dữ liệu, những hiểu biết thực sự của
chúng ta về l-ợng dữ liệu mà chúng ta có cịn rất hạn chế.


Xuất phát từ thực tế đó mà trong một vài năm gần đây các nhà nghiên cứu và ứng dụng
tin học phải nghiên cứu, tìm kiếm những ph-ơng pháp mới để khai thác triệt để những thơng
tin có trong cơ sở dữ liệu. Và hàng loạt các ph-ơng pháp đã đ-ợc các nhà nghiên cứu đề
xuất nh- lý thuyết tập mờ, lý thuyết tập thơ, tính tốn hạt... Trong các ph-ơng pháp này,
ph-ơng pháp tập thơ đ-ợc nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu và phát
triển. Điều này có thể lý giải là do lý thuyết tập thơ đ-ợc xây dựng trên một nền tốn học
vững chắc, cung cấp những cơng cụ hữu ích để giải quyết các bài toán phân lớp dữ liệu, phát
hiện luật..., đặc biệt là phục vụ cho việc nghiên cứu các hệ thống thơng minh và khai thác dữ
liệu.


<i>Y</i>0 <sub>t-ởng chính của lý thuyết tập thô lần đầu tiên đ-ợc nhà toán học Ba Lan Z.Pawlak</sub>
đề xuất vào năm 1982. Tiếp theo sau đó, các nhà khoa học khắp nơi trên thế giới đóng góp
nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thô và ứng dụng. Một số bài tốn
trong lĩnh vực nh- ngân hàng, tài chính, y học... đã đ-ợc giải quyết thành công nhờ công cụ
tập thô.


Kiến thức cơ sở của lý thuyết tập thô cổ điển là các phép toán xấp xỉ trên, xấp xỉ d-ới
dựa trên phân hoạch đ-ợc tạo bởi một quan hệ t-ơng đ-ơng. Chính kiến thức cơ sở này làm
cho việc tiếp cận tập thô là đơn giản và dễ hiểu. Với đặc tính có thể xử lý đ-ợc những dữ


liệu mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài tốn
thực tế. Từ những bảng dữ liệu lớn với dữ liệu d- thừa, khơng hồn hảo, dữ liệu liên tục, lý
thuyết tập thô cho phép khai phá tri thức từ những khối dữ liệu này nhằm phát hiện những
luật tiềm ẩn từ khi d liu ny.


Trong luận văn tốt nghiệp trình bày một số kiến thức cơ bản của lý thuyết tập thô, tìm
hiểu bài toán phát hiện luật cầu nối-lớp trong một hệ thông tin dựa vào tập thô, và xây dựng
ch-ơng trình thử nghiệm. Về cấu trúc, khóa luận tốt nghiệp đ-ợc tổ chức nh- sau:


<b>Ch-ơng 1: Khóa luận trình bày những kiến thức cơ bản về tập thô theo quan điểm</b>
<i>Pawlak.</i>


</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

<b>Các ký hiệu</b>


<i>RX</i> <i>R</i>xấp xỉ d-ới của tập <i>X</i>.
<i>RX</i> <i>R</i>xấp xỉ trên của tập <i>X</i>.
<i>à</i>R


X(<i>x</i>) Hm thành viên thô của <i>x</i> đối với tập <i>X</i> theo quan h t-ng
-ng <i>R.</i>


<i>R</i>(<i>X</i>) Độ chính xác của xấp xỉ tập <i>X</i> theo quan hệ t-ơng đ-ơng <i>R.</i>
<i>àR</i>(<i>X</i>) Độ thô của tập <i>X</i> theo quan hệ t-ơng đ-ơng <i>R.</i>


<i>R</i>(<i>F</i>) Độ chính xác của xấp xỉ phân lớp<i>F</i> theo quan hệ t-ơng
đ-ơng <i>R.</i>


<i>R</i>(<i>F</i>) Chất l-ợng của xấp xỉ phân lớp <i>F</i> theo quan hệ t-ơng
đ-ơng <i>R.</i>


(<i>U,</i>R) Khụng gian xp x xỏc định bởi quan hệ hai ngôi <i>R</i> trên tập


đối t-ợng <i>U.</i>


<i>S</i> = (<i>U, A</i>) Hệ quyết định.


</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

<b>TËp thô Pawlak</b>



Trong ch-ơng này, luận văn trình bày một số khái niệm cơ bản của lý thuyết tập thô cổ
điển (tập thô theo quan điểm <i>Pawlak): cặp toán tử xấp xỉ, các tính chất và số đo liên quan,</i>
sự phân lớp và xấp xỉ các phân lớp, cặp toán tử xấp xỉ theo tính hạt và mức ý nghĩa thuộc
tính.


<b>1.1</b>

<b>Không gian xấp xỉ - Toán tử xấp xỉ</b>



<b>1.1.1</b>

<b>Biểu diƠn tri thøc trong kh«ng gian xÊp xØ</b>



Trong lý thuyết tập thô, gọi <i>U</i> là tập các đối t-ợng hữu hạn, khác rỗng; <i>X</i> <i>⊆</i> <i>U</i> đ-ợc
gọi là một khái niệm (concept) hoặc một nhóm (category) trong<i>U</i>. Họ các khái niệm trong
<i>U</i> đ-ợc gọi là tri thức trừu t-ợng (abstract knowledge). Luận văn quan tâm đến các lớp khái
niệm trong<i>U</i> cùng với dạng phân hoạch cụ thể cơ sở dữ liệu<i>U</i>.


VÝ dơ, cho hä c¸c tËp <i>C</i> = <i>{C</i>1<i>, C</i>2<i>, . . . , Cn}, Ci</i> <i>⊆</i> <i>U, Ci</i> <i>6</i>= <i>∅, Ci∩Cj</i> = <i>∅</i> víi <i>∀i</i> <i>6</i>=


<i>j</i>;<i>i, j</i> = 1<i>, n</i> vµ
n


S


i=1


<i>Ci</i> =<i>U.</i>



Vì tính chuẩn hóa nên tập <i>∅</i> cũng đ-ợc xem là một lớp khái niệm. Trong tr-ờng hợp
tổng quát, để xét <i>U</i> cần dùng nhiều họ phân hoạch chứ không dựa vào một phân hoạch duy
nhất. Họ các phân hoạch<i>U</i> đ-ợc định nghĩa nh- là tri thức nền của<i>U</i>. Do đó, tri thức nền
phản ánh tồn bộ tất cả các loại ph-ơng pháp phân hoạch cơ sở trong trí tuệ nhân tạo. Chúng
ta sử dụng quan hệ t-ơng đ-ơng để phân hoạch vì quan hệ t-ơng đ-ơng phân hoạch <i>U</i> thành
các lớp t-ơng đ-ơng khác nhau và các lớp t-ơng đ-ơng này thỏa mãn khái niệm phân hoạch.
Giả sử <i>R</i> là họ các quan hệ t-ơng đ-ơng trên<i>U</i>, <i>U/R</i> là họ tất cả các lớp t-ơng đ-ơng
(hoặc phân hoạch<i>U</i> thành các cụm). Và (<i>U,R</i>) đ-ợc gọi là không gian xấp xỉ.


Xét không gian xấp xỉ là một bộ <i>K</i> = (<i>U,R</i>)trong đó :


<i>•</i> <i>U</i> là một tập hữu hn (<i>6</i>=<i></i>) cỏc i t-ng.


<i>ã R</i> là họ các quan hệ t-ơng đ-ơng (hoặc \Bất khả phân" - IND) trên<i>U</i>.


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

Sử dụng ký hiệu,[<i>x</i>]R là lớp t-ơng đ-ơng chứa <i>x</i> <i>∈U</i> ứng với quan hệ bất khả phân <i>R</i> nào
đó trên<i>U</i>.


Cho <i>P</i> (<i>∅ 6</i>=<i>P</i> <i>⊆ R</i>) ta biÕt r»ng <i>IN D</i>(<i>P</i>)<i>≡</i> \


R∈P


<i>R</i> là một quan hệ bất khả phân trên
<i>U. Khi đó tập</i> <i>IN D</i>(<i>K</i>) <i>≡ {IN D</i>(<i>P</i>) : <i>∅ 6</i>= <i>P</i> <i>⊆ R}</i> gọi là họ của tất cả các quan hệ bất
khả phân xác định trong c s tri thc<i>K.</i>


<i>P</i> - tri thức căn bản: tập <i>P</i> (các quan hệ bất khả phân), <i> 6</i>=<i>P</i> <i> R</i>, gọi là <i>P</i> - tri thức
căn bản.



Vi tp <i>P</i> - tri thức căn bản, khi đó


<i>U/I N D</i>(P)<i>≡ {</i>[<i>x</i>]I N D(P):<i>x∈U}</i>


đ-ợc gọi là <i>P</i> - tri thức căn bản về (tập đối t-ợng) <i>U</i> trong (cơ sở tri thức) <i>K</i> và mỗi lớp
t-ơng đ-ơng[<i>x</i>]I N D(P) của quan hệ<i>IN D</i>(<i>P</i>) gọi là các khái niệm căn bản của tri thc <i>P</i>.


Đặc biệt, với <i>Q R</i> thì


<i>IN D</i>(<i>Q</i>) =<i>Q</i>


khi ú<i>Q</i> đ-ợc gọi là một <i>Q</i> - tri thức cơ sở và mỗi lớp t-ơng đ-ơng của <i>Q</i> đ-ợc gọi là <i>Q</i>
-khái niệm cơ sở của tri thức <i>R</i>.


<b>NhËn xÐt :</b> Chóng ta thÊy tËp


<i>{</i>[<i>x</i>]R <i>|x∈U, R∈ R}</i>


lµ tËp tÊt cả các khái niệm cơ sở của tri thức<i>R</i>. Từ tập này có thể hình thành các khái niệm
căn bản cđa mét tri thøc <i>P</i> <i>⊆ R</i> v×


[<i>x</i>]I N D(P)=


\


R∈P


[<i>x</i>]R.


NghÜa là, một khái niệm căn bản của một <i>P</i> - tri thức căn bản đ-ợc tạo thành bởi giao của


tất cả các khái niệm cơ sở của <i>R</i> - tri thức cơ sở thuộc <i>P</i>.


Ngoài ra, họ


[


P:6=PR


<i>{</i>[<i>x</i>]I N D(P):<i>xU}</i>


gọi là họ các khái niệm căn bản trong cơ sở tri thøc<i>K</i> = (<i>U,R</i>).


Hay cã thĨ biĨu diƠn hä nµy qua sự \tích hợp" của các khái niệm cơ sở của tri thøc <i>R</i>


nh- sau


[


P:∅6=P⊆R


<i>{</i>\


R∈P


</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

<b>TËp chÝnh x¸c - TËp th«</b>


Nhắc lại quan niệm về việc nhận biết một phạm trù (tức là một tập con các đối t-ợng)
trong một cơ sở tri thức theo Pawlak. Theo quan điểm này một phạm trù là mơ hồ (hoặc
không thể xác định đ-ợc) dựa trên một cơ sở tri thức đã cho nếu nh- khơng thể biểu diễn
chính xác nó qua các khái niệm cơ sở của tri thức sẵn có.



Cơ thể là, với cơ sở tri thức <i>K</i> = (<i>U,R</i>), một<i>P</i> - tri thức căn bản: <i>IN D</i>(<i>P</i>)<i>IN D</i>(<i>K</i>)


v tp <i>X</i> <i></i> <i>U. Khi ú nh ngha</i>


<b>Định nghĩa 1.1.1.</b> <i>([5]) (<b>Tập thô theo một</b></i> <i>P<b>- tri thức căn bản</b>)</i>


<i>ã</i> <i>X gọi là P - chính xác nếu nh- nó là hợp của các khái niệm căn bản nào đó của tri</i>
<i>thc P.</i>


<i>ã</i> <i>Ng-ợc lại X gọi là P - thô.</i>


<b>Nhận xét:</b> Có thể thấy <i>X</i> là <i>P</i> - chính xác nÕu nh- cã thĨ biĨu diƠn
<i>X</i> = [


x∈U


[<i>x</i>]I N D(P)=


[


x∈U


\


R∈P


[<i>x</i>]R


tøc là đ-ợc biểu diễn chính xác qua các khái niệm cơ sở của tri thức<i>R</i>. Trong hình (a) minh


họa cho tập <i>P</i> - thô: <i>X</i> và hình (b) là tập <i>P</i> - chính xác: <i>Y</i>.


(a)<i>X</i>=<i>ABCDX</i>7 (b)<i>Y</i> =<i>X</i>6<i>X</i>7<i>X</i>8


Hình 1.1: Minh họa tập thô - tập chính xác


ý rng tp<i>X</i> l<i>P</i> - thơ đối với<i>P</i> - tri thức căn bản, nó có thể là một tập chính xác trong
cơ sở tri thức<i>K</i> nếu nh- có tồn tại một <i>Q</i> - tri thức căn bản nào đó (IN D(<i>Q</i>)<i>∈IN D</i>(<i>K</i>))
sao cho các tập <i>A, B, C, D</i> và <i>X</i>7 đ-ợc biểu diễn qua các khái niệm cơ sở của tri thức <i>R</i>


theo<i>Q.</i>


<b>XÊp xỉ d-ới và trên</b>


</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>

thc sn cú), l tự nhiên ng-ời ta nghĩ đến việc xác định \xấp xỉ" phạm trù đó theo cơ sở tri
thức.


Víi <i>X</i> <i>⊆U</i> và<i>R</i> là quan hệ t-ơng đ-ơng trên <i>U</i>, xấp xỉ d-ới và xấp xỉ trên của <i>X</i> theo
quan hệ t-ơng đ-ơng<i>R</i> là hai tập ký hiệu <i>RX,</i> <i>RX</i> ([2]) t-ơng øng cho bëi


<i>RX</i> =<i>{x∈U</i> : [<i>x</i>]R<i>⊆X}</i>


TËp <i>RX</i> bao gåm tÊt cả các phần tử của <i>U</i> chắc chắn thuộc về <i>X</i> øng víi quan hƯ <i>R.</i>
<i>RX</i> =<i>{x∈U</i> : [<i>x</i>]R<i>∩X</i> <i>6</i>=<i>∅}</i>


TËp <i>RX</i> bao gồm các phần tử của <i>U</i> có khả năng đ-ợc phân loại vào những phần tử thuộc
<i>X</i> ứng víi quan hƯ<i>R.</i>


<b>Ví dụ 1.1.1.</b> <i>Cho</i> <i>K</i> = (<i>U, R</i>)<i>, trong đó</i> <i>U</i> = <i>{</i>1<i>,</i>2<i>,</i>3<i>,</i>4<i>},</i> <i>R</i> <i>∈</i> <i>IN D</i>(<i>K</i>) <i>là một quan hệ</i>
<i>t-ơng đ-ơng vàU/R</i>=<i>{E</i>1<i>, E</i>2<i>, E</i>3<i>}, ở đây các tri thức hạt cơ sở là</i> <i>E</i>1 =<i>{</i>1<i>,</i>4<i>},</i> <i>E</i>2 =<i>{</i>2<i>},</i>



<i>E</i>3 =<i>{</i>3<i>}. ChoX</i> =<i>{</i>1<i>,</i>2<i>}:</i>


<i>RX</i> =<i>E</i>2 =<i>{</i>2<i>}.</i>


<i>RX</i> =<i>E</i>1<i>∪E</i>2 =<i>{</i>1<i>,</i>2<i>,</i>4<i>}.</i>


Từ hai tập xấp xỉ Pawlak định nghĩa các tập ([2]):


<i>•</i> <i>P OSR</i>(<i>X</i>) =<i>RX</i> gọi là vùng<i>R</i> - d-ơng của <i>X</i>.


<i>ã</i> <i>N EGR</i>(<i>X</i>) =<i>U</i> <i>RX</i> gọi là vùng<i>R</i> - âm của <i>X</i>.


<i>ã</i> <i>BN DR</i>(<i>X</i>) =<i>RX−RX</i> gọi là vùng<i>R</i> - biên của <i>X</i>.
Do đó tập đối t-ợng<i>U</i> đ-ợc chia thành 3 vùng:


- Vùng <i>R</i> - d-ơng của<i>X</i> trên <i>K:</i> <i>P OSR</i>(<i>X</i>) =<i>{x∈U</i> : [<i>x</i>]R<i>⊆X}</i> chứa các đối t-ợng
chắc chắn thuộc về<i>X</i> dựa trên quan hệ t-ơng đ-ơng <i>R.</i>


Hình 1.2: Minh họa các xấp xỉ trong đó<i>RX</i> =<i>X</i>1<i>∪X</i>2<i>∪X</i>3<i>∪X</i>7<i>∪X</i>8<i>∪X</i>9<i>∪X</i>10<i>∪X</i>11<i>∪</i>


<i>A∪B∪C∪D∪E∪F</i>,<i>BN D</i>R(<i>X</i>) =<i>X</i>1<i>∪X</i>2<i>∪X</i>3<i>∪X</i>7<i>∪X</i>10<i>∪X</i>11<i>∪A∪B∪C∪D∪E∪F</i>,


</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

- Vùng <i>R</i> - âm của <i>X</i> trên <i>K:</i> <i>N EGR</i>(<i>X</i>) = <i>{x</i> <i>∈</i> <i>U</i> : [<i>x</i>]R<i>∩X</i> = <i>∅}</i> chứa các đối
t-ợng không thuộc về <i>X</i> dựa trên quan hệ t-ơng đ-ơng <i>R.</i>


- Vùng <i>R</i> - biên của <i>X</i> trên <i>K:</i> <i>BN DR</i>(<i>X</i>) =<i>{x∈U</i> : [<i>x</i>]R<i>∩X</i> <i>6</i>=<i>∅ ∧</i>[<i>x</i>]R<i>∩X</i>c <i>6</i>=<i>∅}</i>
là các đối t-ợng không thể quyết định thuộc về <i>X</i> hay không khi dựa trên quan hệ t-ơng
đ-ơng<i>R.</i>



<b>VÝ dơ 1.1.2.</b> <i>Trë l¹i vÝ dơ 1.1.1,</i> <i>P OSR</i>(<i>X</i>) = <i>RX</i> = <i>{</i>2<i>},</i> <i>N EGR</i>(<i>X</i>) = <i>U</i> <i>RX</i> = <i>{</i>3<i>},</i>
<i>BN DR</i>(<i>X</i>) =<i>RXRX</i> =<i>{</i>1<i>,</i>4<i>}.</i>


<b>Định nghĩa 1.1.2.</b> <i>(<b>R - thô</b>) X đ-ợc gọi là</i> <i>R</i> <i>- thô nếu nh-</i> <i>RX</i> <i>6</i>=<i>RX. Ng-ợc lại thì X gọi</i>
<i>là tậpR</i> <i>- chính xác.</i>


<b>Ví dụ 1.1.3.</b> <i>Trở lại ví dụ 1.1.1, vì</i> <i>RX</i> =<i>{</i>2<i>} 6</i>=<i>RX</i> =<i>{</i>1<i>,</i>4<i>,</i>2<i>}. Vậy X là</i> <i>R</i> <i>- thô.</i>
<b>Bốn loại tập thô cơ bản</b> ([2])


Dựa vào khái niệm xấp xỉ d-ới và xấp xỉ trên, ng-ời ta phân tập thô thành bốn loại quan
trọng và khác nhau sau đây:


<i>ã</i> <i>X</i> là tập thô xác định đ-ợc theo <i>R</i> nếu <i>RX</i> <i>6</i>= <i>∅</i>, <i>RX</i> <i>6</i>= <i>U</i>, nghĩa là ta có thể quyết
định đối t-ợng nào của U thuộc về <i>X</i> và đối t-ợng nào của <i>U</i> thuộc về (<i>U</i> <i>−X</i>) theo
quan hệ t-ơng đ-ơng <i>R.</i>


<i>•</i> <i>X</i> là khơng xác định đ-ợc phần trong theo <i>R</i> nếu <i>RX</i> = <i>∅</i>, <i>RX</i> <i>6</i>=<i>U</i>, tức là dựa vào
quan hệ t-ơng đ-ơng <i>R</i> ta có thể quyết định phần tử nào của <i>U</i> thuộc về (<i>U</i> <i>−X</i>).


<i>•</i> <i>X</i> là khơng xác định đ-ợc phần ngồi theo <i>R</i> nếu <i>RX</i> <i>6</i>= <i>∅</i>, <i>RX</i> = <i>U</i>, nghĩa là dựa
vào quan hệ t-ơng đ-ơng <i>R</i> ta có thể quyết định phần tử nào của <i>U</i> thuộc về <i>X</i>.


<i>•</i> <i>X</i> là hồn tồn khơng xác định đ-ợc theo<i>R</i> nếu<i>RX</i> =<i>∅</i>, <i>RX</i> =<i>U</i>, nghĩa là ta không
thể quyết định phần tử nào của <i>U</i> thuộc về<i>X</i> hay (<i>U−X</i>)theo quan hệ t-ơng đ-ơng
<i>R.</i>


<b>TÝnh chÊt cña xÊp xØ</b> ([2])
1. <i>RX</i> <i>⊆X</i> <i>⊆RX</i>


2. <i>R∅</i>=<i>R∅</i>=<i>∅</i>;<i>RU</i> =<i>RU</i> =<i>U</i>


3. <i>R</i>(<i>X</i> <i>∪Y</i>) =<i>RX</i> <i>∪RY</i>


</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>

9. <i>R</i>(<i>X</i>c<sub>) =</sub><i><sub>R</sub></i>c<i><sub>X</sub></i>
10. <i>R</i>(<i>X</i>c) =<i>R</i>c<i>X</i>


11. <i>R RX</i> =<i>RRX</i> =<i>RX</i>
12. <i>R RX</i> =<i>RRX</i> =<i>RX</i>


Ký hiệu<i>X</i>c là phần bù củaX. <i>X</i>c =<i>U</i> <i>X.</i>


<i><b>Chng minh:</b></i> 1) <i>• ∀x∈RX</i> <i>⇒</i>[<i>x</i>]<i>⊆X</i> (theo định nghĩa xấp xỉ d-ới) mà<i>x∈</i>[<i>x</i>] do đó


<i>x</i> <i>∈X. VËy</i> <i>RX</i> <i>⊆X</i> (1)


<i>• ∀x∈X</i> <i>⇒</i>[<i>x</i>]<i>∩X</i> <i>6</i>=<i>∅</i> (vì<i>x∈</i>[<i>x</i>]<i>∩X</i>) do đó <i>x∈RX. VậyX</i> <i>⊆RX.</i> (2)


Tõ (1), (2) <i>⇒RX</i> <i>⊆X</i> <i>⊆RX.</i>


2) <i>•</i> Theo tÝnh chÊt (1) <i>R∅ ⊆ ∅</i> vµ<i>∅ ⊆R∅ ⇒R∅</i>=<i>∅.</i>


Giả sử <i>R∅ 6</i>=<i>∅</i>. Khi đó <i>∃x</i> <i>∈R∅ ⇒</i>[<i>x</i>]<i>∩ ∅ 6</i>=<i>∅</i> (định nghĩa xấp xỉ trên), điều này mâu
thuẫn vì [<i>x</i>]<i>∩ ∅</i>=<i>∅</i>. Nên <i>R∅</i>=<i>∅.</i>


VËy <i>R∅</i>=<i>R∅</i>=<i>∅.</i>


<i>•</i> Theo tÝnh chÊt (1)<i>⇒RU</i> <i>⊆U.</i> (<i>∗</i>)


<i>∀x∈U</i> <i>⇒</i>[<i>x</i>]<i>⊆U</i>, do đó <i>x∈RU</i> <i>⇒U</i> <i>⊆RU.</i> (<i>∗∗</i>)


Tõ (<i>∗</i>)vµ (<i>∗∗</i>) <i>⇒RU</i> =<i>U.</i>



Tõ 1) <i>RU</i> <i>⊇U</i> vµ<i>RU</i> <i>⊆U. HiĨn nhiªn</i> <i>RU</i> =<i>U</i>. VËy<i>RU</i> =<i>RU</i> =<i>U.</i>


3) <i>∀x</i> <i>∈R</i>(<i>X</i> <i>∪Y</i>)<i>⇔</i>[<i>x</i>]<i>∩</i>(<i>X</i> <i>∪Y</i>)<i>6</i>=<i>∅ ⇔</i>([<i>x</i>]<i>∩X</i>)<i>∪</i>([<i>x</i>]<i>∩Y</i>)<i>6</i>=<i>∅ ⇔</i>[<i>x</i>]<i>∩X</i> <i>6</i>=
<i>∅ ∨</i>[<i>x</i>]<i>∩Y</i> <i>6</i>=<i>∅ ⇔x∈RX∨x∈RY</i> <i>⇔x</i> <i>∈RX∪RY</i>, do đó <i>R</i>(<i>X</i> <i>∪Y</i>) =<i>RX∪RY.</i>
4) <i>∀x</i> <i>∈R</i>(<i>X</i> <i>∩Y</i>)<i>⇔</i>[<i>x</i>]<i>⊆X</i> <i>∩Y</i> <i>⇔</i>[<i>x</i>]<i>⊆X</i> <i>∧</i>[<i>x</i>]<i>⊆Y</i> <i>⇔x∈RX</i> <i>∩RY</i>, do đó
<i>R</i>(<i>X</i> <i>∩Y</i>) =<i>RX</i> <i>∩RY.</i>


5) V× <i>X</i> <i>⊆Y</i> <i>⇔X∩Y</i> =<i>X. Theo tÝnh chÊt (4) ta cãR</i>(<i>X∩Y</i>) =<i>RX</i> <i>⇔RX∩RY</i> =


<i>RX</i> <i>⇒RX</i> <i>⊆RY</i>.


6) V×<i>X</i> <i>⊆Y</i> <i>⇔X∪Y</i> =<i>Y</i>. Theo tÝnh chÊt (3) ta cã<i>R</i>(<i>X∪Y</i>) =<i>RY</i> <i>⇔RX∪RY</i> =


<i>RY</i> <i>⇒RX</i> <i>⊆</i> <i>RY.</i>


7)




<i>X</i> <i>⊆</i> <i>X</i> <i>∪Y</i>
<i>Y</i> <i>⊆</i> <i>X</i> <i>∪Y</i> <i>⇒</i>




<i>RX</i> <i>⊆</i> <i>R</i>(<i>X</i> <i>∪Y</i>)


<i>RY</i> <i>⊆</i> <i>R</i>(<i>X</i> <i>∪Y</i>) <i>⇒RX</i> <i>∪RY</i> <i>⊆R</i>(<i>X</i> <i>∪Y</i>)<i>.</i>


8)





<i>X∩Y</i> <i>⊆</i> <i>X</i>
<i>X∩Y</i> <i>⊆</i> <i>Y</i> <i>⇒</i>




<i>R</i>(<i>X</i> <i>∩Y</i>) <i>⊆</i> <i>RX</i>


<i>R</i>(<i>X</i> <i>∩Y</i>) <i>⊆</i> <i>RY</i> <i>⇒R</i>(<i>X</i> <i>∩Y</i>)<i>⊆RX</i> <i>∩RY.</i>
9) <i>∀x</i> <i>∈RX</i> <i>⇔</i>[<i>x</i>]<i>⊆X</i> <i>⇔</i>[<i>x</i>]<i>∩X</i>c <sub>=</sub><i><sub>∅ ⇔</sub><sub>x /</sub><sub>∈</sub><sub>R</sub></i><sub>(</sub><i><sub>X</sub></i>c<sub>)</sub><i><sub>⇔</sub><sub>x</sub><sub>∈</sub><sub>R</sub></i>c<sub>(</sub><i><sub>X</sub></i>c<sub>)</sub><sub>, do đó</sub>
<i>RX</i> =<i>R</i>c(<i>X</i>c). Vậy <i>R</i>(<i>X</i>c) =<i>R</i>c<i>X.</i>


</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>

VËy <i>R</i>(<i>X</i>c<sub>) =</sub><i><sub>R</sub></i>c
<i>X.</i>
11) (a) <i>R RX</i> =<i>RX.</i>


<i>•</i> Tõ tÝnh chÊt (1) ta cã: <i>R RX</i> <i>⊆RX</i> (<i>∗</i>)


<i>• ∀x∈RX</i>, khi đó [<i>x</i>]<i>⊆X</i> (định nghĩa xấp xỉ d-ới), do đó <i>R</i>[<i>x</i>]<i>⊆RX</i> (tính chất (5))


mµ <i>R</i>[<i>x</i>] = [<i>x</i>]<i></i>[<i>x</i>]<i>RX, nên</i> <i>xR RX</i> hay <i>RX</i> <i>R RX.</i> (<i></i>)


Từ (<i></i>)và (<i>∗∗</i>)<i>⇒R RX</i> =<i>RX.</i> (1)


(b) <i>RRX</i> =<i>RX.</i>


<i>•</i> Tõ tÝnh chÊt (1) <i>RX</i> <i>⊆RRX.</i> (<i>∗</i>)



<i>• ∀x∈RRX,</i>[<i>x</i>]<i>∩RX</i> <i>6</i>=<i>∅</i>, nghĩa là:<i>∃y∈</i>[<i>x</i>] hay <i>y∈RX, do đó</i> [<i>y</i>]<i>⊆X</i>, mà


[<i>x</i>] = [<i>y</i>]<i>⇒</i>[<i>x</i>]<i>⊆X</i> hay <i>x∈RX</i> <i>⇒RX</i> <i>⊇RRX.</i> (<i>∗∗</i>)


Tõ (<i>∗</i>)vµ (<i>∗∗</i>)<i>⇒RRX</i> =<i>RX.</i> (2)


Tõ (1) vµ(2) ta cã <i>R RX</i> =<i>RRX</i> =<i>RX.</i>


12) (a) <i>R RX</i> =<i>RX.</i>


<i>•</i> Tõ tÝnh chÊt (1) <i>RX</i> <i>⊆R RX.</i> (<i>∗</i>)


<i>• ∀x∈R RX</i>, khi đó[<i>x</i>]<i>∩RX</i> <i>6</i>=<i>∅</i>, <i>∃y∈</i>[<i>x</i>]<i>, y∈RX</i> <i>⇒</i>[<i>y</i>]<i>∩X</i> <i>6</i>=<i>∅</i> mà [<i>x</i>] = [<i>y</i>], do
đó [<i>x</i>]<i>∩X</i> <i>6</i>=<i>∅</i>, nghĩa là: <i>x∈RX</i> <i>⇒RX</i> <i>⊇R RX.</i> (<i>∗∗</i>)


Tõ (<i>∗</i>)vµ (<i>∗∗</i>)<i>⇒R RX</i> =<i>RX.</i> (1)


(b) <i>RRX</i> =<i>RX.</i>


<i>•</i> Tõ tÝnh chÊt (1) <i>RRX</i> <i>⊆RX.</i> (<i>∗</i>)


<i>• ∀x∈RX</i>, khi đó[<i>x</i>]<i>∩X</i> <i>6</i>=<i>∅</i>. <i>∃y∈</i>[<i>x</i>]<i>, y∈RX</i> vì[<i>x</i>]<i>∩X</i> = [<i>y</i>]<i>∩X</i> <i>6</i>=<i>∅</i>([<i>x</i>] = [<i>y</i>]),


nghÜa lµ: [<i>x</i>]<i>⊆RX</i> vµ <i>x∈RRX</i> <i>⇒RRX</i> <i>⊇</i> <i>RX.</i> (<i>∗∗</i>)


Tõ (<i>∗</i>)vµ (<i>∗∗</i>)<i>⇒RRX</i> =<i>RX.</i> (2)


Tõ (1) vµ(2) ta cã <i>R RX</i> =<i>RRX</i> =<i>RX.</i>


<b>Độ chính xác của xấp xỉ</b>



Tớnh xỏc nh của tập<i>X</i> đ-ợc đo bởi độ xác định của xấp xỉ : <i>X</i> <i>6</i>=<i>∅</i>, <i>X</i> <i>⊆U</i>
<i>αR</i>(<i>X</i>)<i>≡</i> <i>|R</i>(<i>X</i>)<i>|</i>


<i>|R</i>(<i>X</i>)<i>|</i>


Trong đó,<i>|X|</i> là lực l-ợng (số phần tử) của <i>X</i>. Hiển nhiên, 0<i>≤αR</i>(<i>X</i>)<i>≤</i>1, có thể thấy


<i>•</i> <i>αR</i>(<i>X</i>) = 1 thì miền biên của <i>X</i> là rỗng và tập <i>X</i> là chính xác đối với<i>R.</i>


<i>•</i> <i>αR</i>(<i>X</i>)<i><</i>1 thì <i>X</i> đ-ợc gọi là thơ đối với <i>R.</i>
Ngồi ra cịn có thể đo theo độ thơ, định nghĩa nh- sau


<i>àR</i>(<i>X</i>)<i></i>1<i>R</i>(<i>X</i>)


</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>

<b>Ví dụ 1.1.4.</b> <i>Trở lại ví dô 1.1.1, ta cã</i>


<i>RX</i> =<i>{</i>2<i>}, RX</i> =<i>{</i>1<i>,</i>2<i>,</i>4<i>} ⇒αR</i>(<i>X</i>) = <i>|RX|</i>
<i>|RX|</i> =


1
3


<i>.</i>


<i>àR</i>(<i>X</i>) = 2
3<i>.</i>


<b>Hàm thành viên thô</b>



<b>nh ngha 1.1.3.</b> <i>Hm thnh viên thô của đối t-ợng</i> <i>x∈U</i> <i>đối với tập X theo</i> <i>R</i> <i>l:</i>
<i></i>R<sub>X</sub>(<i>x</i>) = <i>|</i>[<i>x</i>]R<i>X|</i>


<i>|</i>[<i>x</i>]R<i>|</i>
<i>,</i>


<i>hiển nhiên,</i> 0<i>à</i>R


X(<i>x</i>)<i></i>1<i>.</i>


Hm thnh viờn thụ còn dùng để định nghĩa các xấp xỉ và miền biờn ca mt tp:


<i>ã</i> <i>RX</i> =<i>{x</i> <i>U</i> :<i>à</i>R


X(<i>x</i>) = 1<i>}.</i>


<i>ã</i> <i>RX</i> =<i>{x</i> <i>U</i> :<i>à</i>RX(<i>x</i>)<i>></i>0<i>}.</i>


<i>ã</i> <i>BN DR</i>(<i>X</i>) =<i>{xU</i> : 0<i>< à</i>R


X(<i>x</i>)<i><</i>1<i>}.</i>


<b>1.1.2</b>

<b>Sự phân lớp - Xấp xỉ của các phân lớp</b>


<b>Sự phân lớp</b>


Cho không gian xấp xỉ<i>K</i> = (<i>U, R</i>), với<i>X</i> <i>U</i> và<i>P</i>, <i>Q</i> là hai quan hệ t-ơng đ-ơng trên U.
Đặt ([4]):


<i>P OSP</i>(<i>Q</i>) = [



XU/Q
<i>P X</i>


v gi l min d-ng của tri thức phân lớp <i>U/Q, tức là tập tất cả các đối t-ợng trong U mà</i>
có thể đ-ợc phân lớp duy nhất vào các lớp trong <i>U/Q</i> dựa vào tri thc ht c s <i>U/P</i>.


<b>Xấp xỉ của các phân lớp và tính chất</b>


Cho không gian xấp xỉ<i>K</i> = (<i>U, R</i>),<i>R</i>là quan hệ t-ơng đ-ơng trên U và<i>F</i> =<i>{X</i>1<i>, X</i>2<i>, . . . , Xn}</i>


là phân lớp trên U. Khi đó:


<i>RF</i> =<i>{RX</i>1<i>, RX</i>2<i>, . . . , RXn}</i>gäi lµ xÊp xØ d-íi cđa ph©n líp <i>F</i>.


<i>RF</i> =<i>{RX</i>1<i>, RX</i>2<i>, . . . , RXn}</i>gọi là xấp xỉ trên của phân lớp <i>F</i>.


Chỳng ta s cú hai o sau:


<i>ã</i> Độ chính xác của xấp xỉ phân lớp <i>F</i> theo<i>R</i>
<i>R</i>(<i>F</i>) =


P


<i>|RXi|</i>


P


</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>

<i>ã</i> Chất l-ợng của xấp xỉ phân lớp <i>F</i> theo <i>R</i>
<i>γR</i>(<i>F</i>) =



P


<i>|RXi|</i>
<i>|U|</i>


Độ chính xác của xấp xỉ phân lớp<i>F</i> theo<i>R</i> thể hiện tỉ lệ đ-ợc phân hoạch chính xác của các
đối t-ợng. Chất l-ợng của xấp xỉ phân lớp <i>F</i> theo <i>R</i> thể hiện tỉ số của tất cả các đối t-ợng
trong<i>U</i> mà có thể đ-ợc phân lớp thích hợp theo <i>F</i> dựa vào tri thức <i>R.</i>


<b>TÝnh chÊt 1.1.1.</b> <i>([2]) ChoF</i> =<i>{X</i>1<i>, X</i>2<i>, . . . , Xn},</i> <i>n ></i>1<i>là phân hoạch của U vàRlà quan</i>


<i>hệ t-ơng đ-ơng. Nếu</i> <i>∃i∈ {</i>1<i>,</i>2<i>, . . . , n}</i>:<i>RXi</i> <i>6</i>=<i>∅ ⇒ ∀j</i> <i>6</i>=<i>i, RXj</i> <i>6</i>=<i>U, j</i> <i>∈ {</i>1<i>,</i>2<i>, . . . , n}.</i>


<i><b>Chøng minh:</b></i> NÕu<i>RXi</i> <i>6</i>=<i>∅,∃x∈Xi</i> : [<i>x</i>]R<i>⊆Xi</i> <i>⇒</i>[<i>x</i>]R<i>∩Xj</i> =<i>∅,∀j</i> <i>6</i>=<i>i</i>


<i>⇒</i>




<i>RXj</i> <i>∩</i>[<i>x</i>]R = <i>∅</i>


<i>RXj</i> <i>6</i>=<i>U</i> (<i>∀j</i> <i>6</i>=<i>i</i>)


<b>TÝnh chÊt 1.1.2.</b> <i>([2]) ChoF</i> =<i>{X</i>1<i>, X</i>2<i>, . . . , Xn},</i> <i>n ></i>1<i>là phân hoạch của U vàRlà quan</i>


<i>hệ t-ơng đ-ơng. Nếu</i> <i>i {</i>1<i>,</i>2<i>, . . . , n}</i>:<i>RXi</i> =<i>U</i> <i>⇒ ∀j</i> <i>6</i>=<i>i, RXj</i> =<i>∅, j</i> <i>∈ {</i>1<i>,</i>2<i>, . . . , n}.</i>


<i><b>Chứng minh:</b></i> Nếu <i>RXi</i> =<i>U</i>, khi đó với mỗi <i>x∈</i> <i>U</i>, ta có [<i>x</i>]R<i>∩Xi</i> <i>6</i>=<i>∅</i>. Nên [<i>x</i>]R <i>⊆Xj</i> là
không đúng, <i>∀j</i> <i>6</i>=<i>i, do ú</i> <i>RXj</i> =<i>,j</i> <i>6</i>=<i>i.</i>



Các tính chất sau đ-ợc suy ra trùc tiÕp tõ hai TÝnh chÊt 1.1.1 vµ TÝnh chÊt 1.1.2.


<b>TÝnh chÊt 1.1.3.</b> <i>([2]) Cho</i> <i>F</i> = <i>{X</i>1<i>, X</i>2<i>, . . . , Xn},</i> <i>n ></i> 1 <i>là phân hoạch của U và</i> <i>R</i> <i>là</i>


<i>quan hệ t-ơng đ-ơng. Nếu</i> <i>i {</i>1<i>,</i>2<i>, . . . , n}</i>:<i>RXi</i> <i>6</i>=<i>∅ ⇒RXi</i> <i>6</i>=<i>U,∀i∈ {</i>1<i>,</i>2<i>, . . . , n}.</i>
<b>TÝnh chÊt 1.1.4.</b> <i>([2]) Cho</i> <i>F</i> = <i>{X</i>1<i>, X</i>2<i>, . . . , Xn},</i> <i>n ></i> 1 <i>là phân hoạch của U và</i> <i>R</i> <i>là</i>


<i>quan h t-ơng đ-ơng. Nếu∀i∈ {</i>1<i>,</i>2<i>, . . . , n}</i>:<i>RXi</i> =<i>U, khi đóRXi</i> =<i>∅,∀i∈ {</i>1<i>,</i>2<i>, . . . , n}.</i>


<b>1.2</b>

<b>TÝnh hạt trong mô hình tập thô</b>



<b>1.2.1</b>

<b>Xấp xỉ theo hạt</b>



Cho không gian xấp xỉ <i>K</i> = (<i>U, R</i>), <i>U</i> là một tập hữu hạn (<i>6</i>= <i>∅</i>) các đối t-ợng, <i>R</i> là
một quan hệ t-ơng đ-ơng trên<i>U</i>, <i>X</i> <i>⊆U</i>. Khi đó cặp tốn tử xấp xỉ d-ới và trên theo tính
hạt đ-ợc định nghĩa nh- sau:


<i>•</i> XÊp xØ d-íi cđa<i>X</i>:


<i>R</i>(<i>X</i>) = [


[x]R|[x]RX
[<i>x</i>]R


</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>

<i>ã</i> Xấp xỉ trên của<i>X</i>:


<i>R</i>(<i>X</i>) = [


[x]R|[x]RX6=
[<i>x</i>]R



(hp của tất cả các lớp t-ơng đ-ơng chứa<i>x</i> theo quan hệ t-ơng đ-ơng <i>R</i> khơng tách rời<i>X</i>).
Do đó theo tính hạt tập đối t-ợng <i>U</i> cũng đ-ợc chia thành 3 vựng:


- Vùng <i>R</i> - d-ơng của <i>X</i> trên <i>K:</i> <i>P OSR</i>(<i>X</i>) = <i>{</i>[<i>x</i>]<i>U/R</i> : [<i>x</i>]<i>X}</i> hợp của tất cả
các lớp t-ơng đ-ơng chứa <i>x</i> theo quan hệ t-ơng đ-ơng <i>R</i> thuộc tập <i>X</i>.


- Vùng <i>R</i> - âm của <i>X</i> trên<i>K:</i> <i>N EGR</i>(<i>X</i>) =<i>{</i>[<i>x</i>]<i>U/R</i> : [<i>x</i>]<i>X</i> =<i>}</i> hợp của tất cả
các lớp t-ơng đ-ơng chứa <i>x</i> theo quan hệ t-ơng đ-ơng <i>R</i> không chứa trong tập <i>X</i>.


- Vùng <i>R</i>- biên của<i>X</i> trên<i>K:</i> <i>BN DR</i>(<i>X</i>) =<i>{</i>[<i>x</i>]<i>U/R</i> : [<i>x</i>]<i>X</i> <i>6</i>=<i> </i>[<i>x</i>]<i>X</i>c <i><sub>6</sub></i><sub>=</sub><i><sub>}</sub></i>
hợp của tất cả các lớp t-ơng đ-ơng chứa<i>x</i> theo quan hệ t-ơng đ-ơng<i>R</i> không thể chắc chắn
chứa trong tập<i>X</i>.


<b>Vớ d 1.2.1.</b> <i>Trở lại ví dụ 1.1.1, khác với xấp xỉ đã đ-ợc tính trong ví dụ tr-ớc đó, xấp xỉ</i>
<i>theo tính hạt đ-ợc tính nh- sau :</i>


<i>R</i>(<i>X</i>) =<i>E</i>2 =<i>{{</i>2<i>}}.</i>


<i>R</i>(<i>X</i>) =<i>E</i>1<i>∪E</i>2 =<i>{{</i>1<i>,</i>4<i>},{</i>2<i>}}.</i>


<i>Vïng d-ơng của</i> <i>X</i> <i>là:</i> <i>P OSR</i>(<i>X</i>) =<i>E</i>2 =<i>{{</i>2<i>}}.</i>


<i>Vùng âm của</i> <i>X</i> <i>là:</i> <i>N EGR</i>(<i>X</i>) =<i>E</i>3 =<i>{{</i>3<i>}}.</i>


<i>Vùng biên của</i> <i>X</i> <i>là:</i> <i>BN DR</i>(<i>X</i>) =<i>E</i>1 =<i>{{</i>1<i>,</i>4<i>}}.</i>


DƠ dµng thÊy r»ng


<i>R</i>(<i>X</i>)<i>⊆X</i> <i>⊆R</i>(<i>X</i>)



vµ<i>X</i> lµ tËp thô trong cơ sở tri thức<i>K</i> nếu nh- với bất kỳ tri thức căn bản<i>R</i>
<i>BN DR</i>(<i>X</i>)<i>R</i>(<i>X</i>)<i>R</i>(<i>X</i>)<i>6</i>=<i>.</i>


<b>1.2.2</b>

<b>Mc ý ngha thuc tính</b>


<b>Hệ quyết định</b>([4])


Một hệ quyết định là một hệ thơng tin <i>A</i> = (U, A) trong đó tập thuộc tính đ-ợc
phân lớp


A=<b>C</b>+<b>D</b>


(\+": ký hiệu cho hai tập rời nhau). <b>C</b> gọi là tập thuộc tính điều kiện và <b>D</b> gọi là tập thuộc
tính quyết định.


Ta viết lại hệ thơng tin <i>A</i> = (U, <b>C,</b> <b>D) và gọi là một hệ quyết định.</b>


<b>Ví dụ 1.2.2.</b> <i>Cho hệ thơng tin</i> <i>A</i> <i>= (U,</i> <b>C,</b> <b>D) biểu diễn cơ sở tri thức của bệnh cúm đ-ợc</b>
<i>thể hiện trong bảng 1.1 là một bảng quyết định (hệ quyết định).</i>


</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>

<i>Tập đối t-ợng là</i>


<i>U =</i> <i>{x</i>1<i>, x</i>2<i>, x</i>3<i>, x</i>4<i>, x</i>5<i>, x</i>6<i>}</i>


<i>TËp thuéc tÝnh ®iỊu kiƯn</i>


<b>C</b> <i>=</i> <i>{Đau đầu, Đau cơ, Nhiệt độ}</i>


<i>Tập thuộc tính quyết định</i>
<b>D</b> <i>=</i> <i>{Cúm}.</i>



Bảng 1.1: Bảng quyết định


<b>Tính nhất quán - Không nhất quán của một bảng quyết định</b>


Xét một tập hợp các đối t-ợng nào đó (U). Giả sử rằng các quyết định (<b>D</b>) gán cho
mỗi đối t-ợng của <i>U</i> đ-ợc xác định dựa trên giá trị của tập thuộc tính điều kiện chỉ định là


<b>C</b>. Khi đó các quyết định đặt cho mỗi đối t-ợng trong <i>U</i> hình thành dựa trên nguyên lý tự
nhiên nh- sau:


<i><b>Nguyên lý</b></i> P: ([4]) \Trên một tập điều kiện xác định thì các đối t-ợng với cùng điều kiện
nh- nhau ắt phải bị tác động cùng quyết định nh- nhau".


Khi đó:


<i>•</i> Một <i>bảng quyết định nhất quán</i>: là bảng quyết định đảm bảo ngun lý P.


<i>•</i> Ng-ợc lại thì gọi là <i>bảng quyết định không nhất quán.</i>


Một bảng quyết định không nhất quán sẽ chứa các dữ liệu \dị th-ờng", tức là các quyết
định khác nhau trên các đối t-ợng có cùng các điều kiện nh- nhau, và do đó vi phạm tính
\cơng bằng" của triết lý P. Thơng th-ờng do hạn chế của nhận thức, ph-ơng tiện, thiết bị kỹ
thuật đo, hoặc tâm sinh lý của con ng-ời trong hoạt động sống mà con ng-ời hay tạo ra các
hành động, quyết đốn, quyết định, xử lý... làm vi phạm P.


<b>Ví dụ 1.2.3.</b> <i>Bảng quyết định trong ví dụ 1.2.2 là khơng nhất qn.</i>


<i>Vì hai đối t-ợng</i> <i>x</i>2 <i>và</i> <i>x</i>5 <i>có cùng giá trị các thuộc tính điều kiện là (Có, Khơng, Cao)</i>



</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16>

<b>Møc ý nghÜa thuéc tÝnh</b>


Cho bảng quyết định <i>A</i> = (<i>U,</i><b>C</b><i>∪</i><b>D</b>), và phân lớp <i>F</i> =<i>U</i>/D =<i>{C</i>1<i>, C</i>2<i>, . . . , Ct}</i>.


Gọi<i>aj</i>, <i>∀j</i> <i>∈ {</i>1<i>,</i>2<i>, . . . , n}</i> là các thuộc tính điều kiện. Tập thuộc tính ý nghĩa đ-ợc xác định
bởi cơng thức sau ([1]):


<i>sF,</i><b>C</b>(<i>aj</i>) =<i>r</i><b>C</b>(<i>F</i>)<i>−r</i><b>C</b>\{aj}(<i>F</i>)<i>.</i>


Trong đó:


<i>r</i><b>C</b>(<i>F</i>) =


<i>|P OS</i><b>C</b>(<i>F</i>)<i>|</i>


<i>|U|</i> =
<i>|</i>


t


S


k=1


<b>CCk</b><i>|</i>
<i>|U|</i> =


t


P



k=1


<i>|</i><b>CCk</b><i>|</i>
<i>|U|</i> <i>.</i>


NÕu<i>A</i> nhÊt quán thì <i>r</i><b>C</b>(<i>F</i>) =


<i>|U|</i>
<i>|U|</i> = 1<i>.</i>
<i></i> <i>sF,</i><b>C</b>(<i>aj</i>) = 1<i>r</i><b>C</b>\{aj}(<i>F</i>)<i>.</i>


<b>Mức ý nghÜa thuéc tÝnh theo h¹t</b>


Cho bảng quyết định<i>A</i> = (<i>U,</i><b>C</b><i>∪</i><b>D</b>), và phân lớp <i>F</i> =<i>U</i>/D =<i>{C</i>1<i>, C</i>2<i>, . . . , Ct}</i>.


Møc ý nghÜa thuéc tÝnh <i>ai</i> theo h¹t ([1]):


<i>sF,U/</i><b>C</b>(<i>ai</i>) =<i>rU/</i><b>C</b>(<i>F</i>)<i>−rU/{</i><b>C</b>\{ai}}(<i>F</i>)<i>.</i>


Trong đó:


<i>rU/</i><b>C</b>(<i>F</i>) =


<i>|P OSU/</i><b>C</b>(<i>F</i>)<i>|</i>


<i>|U/C|</i> =
<i>|</i>


t



S


k=1


<i>U/C</i>(<i>Ck</i>)<i>|</i>


<i>|U/C|</i> =


t


P


k=1


<i>|U/C</i>(<i>Ck</i>)<i>|</i>
<i>|U/C|</i> <i>.</i>


NÕu <i>sF,U/</i><b>C</b>(<i>ai</i>) = 0<i>,</i> <i>i</i> <i> {</i>1<i>,</i>2<i>, . . . , n}</i> thì các thuéc tÝnh <i>ai,</i> <i>∀i</i> <i>∈ {</i>1<i>,</i>2<i>, . . . , n}</i> không


</div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>

<b>Bài toán khai thác luật cầu nối-lớp</b>


<b>dựa vào tập thô</b>



Nhn dng cỏc i t-ng tỏch bit trong các hệ thống đ-ợc mô tả bởi dữ liệu (chẳng hạn
hệ thông tin, hệ quyết định, các cơ sở dữ liệu, nguồn dữ liệu thông tin Web...) là một nhánh
quan trọng trong khai thác dữ liệu. Các đối t-ợng tách biệt có thể là các điểm dữ liệu \nằm
xa" phần lớn tập điểm dữ liệu còn lại của hệ (trong lý thuyết thống kê còn gọi là các điểm
dữ liệu dị th-ờng hoặc dị biệt), hoặc có thể là các mối liên kết dị biệt giữa các lớp đối t-ợng
khác nhau trong một hệ... Việc khai thác các đối t-ợng tách biệt trong một hệ thống đã đ-ợc
ứng dụng rộng rãi trong nhiều bài toán thực nh-: tiếp thị bán hàng, phát hiện gian lận tài


chính ngân hàng, nhận dạng tội phạm hình sự, tổng hợp hóa chất trong cơng nghệ hóa học...
Đặc biệt, đã có nhiều ph-ơng pháp đ-ợc đề nghị và phát triển để khai thác các mối liên kết dị
biệt giữa các lớp đối t-ợng khác nhau trong một hệ. Luật cầu nối-lớp cũng là một dạng mới
của mối liên kết dị biệt dựa vào tập thơ đ-ợc đề xuất lần đầu tiên bởi nhóm tác giả Zhang,
S., Chen, F., Wu, X., C. vào năm 2006. Đại thể là với hai phân hoạch<i>F</i> =<i>{C</i>1<i>, C</i>2<i>, . . . , Cn}</i>


và<i>F</i>0<sub>của tập mặt hàng I trên một cơ sở dữ liệu giao dịch T, một luật cầu kí hiệu là</sub> <i><sub>A</sub><sub>→</sub><sub>B</sub></i><sub>,</sub>
trong đó tập các mặt hàng <i>A</i> thuộc các lớp<i>Ci</i>1<i>, Ci</i>2<i>, . . . , Ci</i>t nào đó của tập <i>F</i>, tập mặt hàng


<i>B</i> thc c¸c líp<i>Cj</i>1<i>, Cj</i>2<i>, . . . , Cj</i>s khác của <i>F</i> và các phần tử của<i>A,</i> <i>B</i> thuộc vào một lớp nào


ú của phân hoạch <i>F</i>0<sub>, đ-ợc gọi là luật cầu nối-lớp. Một luật cầu nối-lớp thích đáng (đáng</sub>
quan tâm) nếu nh- nó thỏa mãn ba u cầu


(a) <i>A</i> <i>→B</i> lµ mét luật kết hợp (trên các tập phổ biến).


(b) Khong cỏch giữa hai vùng của cầu: <i>Ci</i><sub>1</sub><i>, Ci</i><sub>2</sub><i>, . . . , Ci</i><sub>t</sub> và<i>Cj</i><sub>1</sub><i>, Cj</i><sub>2</sub><i>, . . . , Cj</i><sub>s</sub> không lớn.
(c) Mức độ ảnh h-ởng của A trong <i>Ci</i>1<i>, Ci</i>2<i>, . . . , Ci</i>t và B trong<i>Cj</i>1<i>, Cj</i>2<i>, . . . , Cj</i>s cao.


Có thể xem một luật cầu nối-lớp đáng quan tâm nh- một <i>dạng t-ơng quan riêng</i> theo
<i>F</i>0<sub>giữa hai lớp khái niệm khác nhau của</sub> <i><sub>F</sub></i> <sub>trong một hệ. Đặc tính của dạng t-ơng quan này</sub>
phụ thuộc hoàn toàn vào dạng thức của khoảng cách đ-ợc sử dụng cũng nh- loại ảnh h-ởng
nào đ-ợc quan tâm (độ đo mức ảnh h-ởng). Ph-ơng pháp phát hiện các luật cầu nối-lớp đáng
quan tâm chủ yếu gồm hai giai đoạn: một là tìm tập tất cả các luật cầu nối-lớp ứng viên,
giai đoạn hai là xác định các luật cầu nối-lớp đáng quan tâm. Vấn đề then chốt để tìm các
luật cầu nối-lớp ứng viên trong giai đoạn một là xác định các tập bắc cầu giữa các lớp của
<i>F</i>. Vấn đề chính trong giai đoạn thứ hai là xác định các luật cầu nối-lớp đáng quan tâm từ
các luật cầu ứng viên. Những vấn đề này sẽ đ-ợc nói rõ hơn trong nội dung của ch-ơng.


</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>

<b>2.1</b>

<b>Phát hiện các luật cầu nối-lớp ứng viên</b>




Khỏi nim lut cầu nối-lớp ứng viên đ-ợc xây dựng dựa trên các tập bắc cầu giữa các
lớp và các ràng buộc về độ hỗ trợ và độ tin cậy theo nghĩa t-ơng tự nh- luật kết hợp.


Xét một hệ quyết định <i>S</i> = (<i>U, A</i>), trong đó <i>U</i> là một tập hữu hạn (<i>6</i>=<i>∅</i>) các đối t-ợng,
tập<i>A≡</i><b>C</b><i>∪</i><b>D</b> gồm hữu hạn phần tử và gọi là tập thuộc tính: <b>C, D</b> (C<i>∩</i><b>D</b> =<i>∅</i>) t-ơng ứng
gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Giá trị tại thuộc tính <i>a∈A</i> của
đối t-ợng <i>i</i> <i>∈</i> <i>U</i> kí hiệu là <i>a</i>(<i>i</i>) (<i>a</i>(<i>i</i>) <i>∈</i> <i>Va), ở đây</i> <i>Va</i> gọi là tập miền giá trị của thuộc tính
<i>a. Giả sử rằng các đối t-ợng trong</i> <i>U</i> có thể có giá trị tại một thuộc tính <i>a</i> <i>∈</i> <b>C</b> nào đó là
<i>null</i>(tr-ờng hợp nh- thế có thể xem là đối t-ợng khơng có thuộc tính này). Để đơn giản ta
kí hiệu<i>null</i>= 0.


Các quan hệ t-ơng đ-ơng trên <i>U</i> của hệ quyết định đ-ợc xét là: <i>B</i> <i>⊆A,</i>


<i>i, j</i> <i>∈U</i> :<i>i∼</i>B <i>j</i> <i>⇐⇒a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>,∀a∈B</i> (1)
TËp th-¬ng <i>U/B</i> của quan hệ<i></i><sub>B</sub> là một phân hoạch của <i>U.</i>


<b>2.1.1</b>

<b>Xác định các tập bắc cầu</b>



Kí hiệu <i>R</i> là quan hệ t-ơng đ-ơng t-ơng ứng với tập các lớp quyết định của <i>S, tức là</i>
phân hoạch <i>F</i> <i>≡U/D</i> và cho một quan hệ t-ơng đ-ơng<i>R</i>0 khác trên <i>U</i> t-ơng ứng với phân
hoạch <i>F</i>0<i><sub>≡</sub><sub>U/B</sub></i><sub>(</sub><i><sub>B</sub></i> <i><sub>⊆</sub></i><b><sub>C</sub></b><sub>)</sub><sub>. Các tập bắc cầu (sinh bởi</sub> <i><sub>F</sub></i>0<sub>) giữa các lớp quyết định của phân</sub>
hoạch<i>F</i> đ-ợc định ngha nh- sau


<b>Định nghĩa 2.1.1.</b> <i>([3]) (<b>Tập bắc cầu giữa các lớp</b>). TậpC</i>0<i>F</i>0 <i>là có thể tạo cầu nối giữa hai</i>


<i>líp kh¸c nhauC</i>1<i>, C</i>2 <i>∈F</i> <i>nÕu </i>





<i>C</i>0<i>∩C</i>1 <i>6</i>= <i>∅</i>


<i>C</i>0<i><sub>∩</sub><sub>C</sub></i>


2 <i>6</i>= <i>∅</i>


<i>Khi đó tập bắc cầu sinh bởi</i> <i>C</i>0 <i>giữa hai lớp</i> <i>C</i>1<i>, C</i>2 <i>kí hiệu là</i> <i>BridgingC</i>0(<i>C</i><sub>1</sub>;<i>C</i><sub>2</sub>) <i>đ-ợc xác</i>


<i>định nh- sau</i>


<i>BridgingC</i>0(<i>C</i><sub>1</sub>;<i>C</i><sub>2</sub>) =<i>{C</i>0<i>∩C</i><sub>1</sub>;<i>C</i>0<i>∩C</i><sub>2</sub><i>}.</i>


Từ bây giờ ta sử dụng các khái niệm xấp xỉ d-ới và trên theo tính hạt của khơng gian
xấp xỉ<i>K</i> = (<i>U, R</i>) đã đ-ợc giới thiệu ở ch-ơng 1.


<b>Bổ đề 2.1.1.</b> <i>([3]) Cho</i> <i>C</i> <i>∈F</i> <i>vàC</i>0<i><sub>∈</sub><sub>F</sub></i>0<i><sub>. Khi đó:</sub></i> <i><sub>C</sub></i>0<i><sub>⊆</sub><sub>C</sub><sub>⇐⇒</sub><sub>R</sub></i><sub>(</sub><i><sub>C</sub></i>0<sub>) =</sub><i><sub>{</sub><sub>C</sub><sub>}</sub><sub>.</sub></i>


<i><b>Chứng minh:</b></i> ([3]) Nếu <i>C</i>0<i><sub>⊆</sub></i> <i><sub>C</sub></i> <sub>thì từ định nghĩa xấp xỉ trên suy ra</sub><i><sub>C</sub></i> <i><sub>∈</sub><sub>R</sub></i><sub>(</sub><i><sub>C</sub></i>0<sub>)</sub><sub>. Ngoài ra do</sub>
giả thiết chiều thuận ta có: <i>∀C</i>b <i>∈F,C</i>b<i>6</i>=<i>C</i> <i>suy raC /</i>b<i>R</i>(<i>C</i>0). Do ú <i>R</i>(<i>C</i>0) =<i>{C}</i>.


Chiều ng-ợc lại đ-ợc chỉ ra tõ nhËn xÐt r»ng, nÕu <i>C</i>0 <i><sub>6⊆</sub></i> <i><sub>C</sub></i> <sub>th× tån t¹i</sub> <i><sub>C</sub></i>b <i><sub>∈</sub></i> <i><sub>F,</sub><sub>C</sub></i>b <i><sub>6</sub></i><sub>=</sub><i><sub>C</sub></i> <sub>:</sub>


(<i>C</i>0<i>\C</i>)<i>∩C</i>b <i>6</i>=<i>∅</i>, suy ra <i>C</i>0<i>∩C</i>b <i>6</i>=<i>∅</i> nên <i>C</i>b <i>∈R</i>(<i>C</i>0).
Mệnh đề sau đ-ợc suy ra trực tiếp từ bổ đề trên


</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19>

Tõ trªn ta có phát biểu t-ơng đ-ơng


<b>Mnh 2.1.2.</b> <i>([3]) Tp</i> <i>C</i>0<i></i> <i>F</i>0 <i>là có thể tạo cầu nối giữa hai lớp khác nhau của</i> <i>F</i> <i>khi</i>
<i>và chỉ khi|R</i>(<i>C</i>0<sub>)</sub><i><sub>|</sub><sub>></sub></i><sub>1</sub><i><sub>.</sub></i>



TÝnh chÊt sau lµ hiĨn nhiªn


<b>Tính chất 2.1.1.</b> <i>([3]) Cho tậpC</i>0<i>∈F</i>0 <i>và giả sử</i> <i>|R</i>(<i>C</i>0)<i>|></i>1<i>. Khi đó các tập bắc cầu sinh</i>
<i>bởiC</i>0 <i><sub>là:</sub></i> <i><sub>BridgingC</sub></i>


0(<i>C</i><sub>1</sub>;<i>C</i><sub>2</sub>) (<i>∀C</i><sub>1</sub><i>, C</i><sub>2</sub> <i>∈R</i>(<i>C</i>0)<i>, C</i><sub>1</sub> <i>6</i>=<i>C</i><sub>2</sub>)<i>.</i>


XÐt kh«ng gian xÊp xØ<i>K</i> = (<i>U, R</i>)nh- trên và giả sử<i>F</i> =<i>U/R</i>=<i>{C</i>1<i>, C</i>2<i>, . . . , Ct}</i>(<i>t ></i>


1), <i>F</i>0= <i>U/R</i>0 =<i>{C</i><sub>1</sub>0<i>, C</i><sub>2</sub>0<i>, . . . , C</i><sub>s</sub>0<i>}</i> (<i>s</i> <i></i>1). Kết quả sau đây cho phạm vi của số l-ợng các
tập bắc cầu đ-ợc sinh ra từ các tập trong phân hoạch <i>F</i>0.


<b>Mnh 2.1.3.</b> <i>([3]) Cho</i> P(<i>F</i>0) <i>số l-ợng các tập bắc cầu sinh bởi các tập trong phân</i>
<i>hoạchF</i>0 <i><sub>và đặt</sub></i>


<i>m</i>(<i>F</i>0) =<i>{k</i> :<i>|R</i>(<i>C</i><sub>k</sub>0)<i>|></i>1<i>}</i> <i>(2)</i>
<i>(a) Ta có</i>


<i>|m</i>(<i>F</i>0)<i>| </i>X(<i>F</i>0)<i> |m</i>(<i>F</i>0)<i>|.t</i>(<i>t</i>1)


2 <i>(3)</i>


<i>Đặc biệt</i> <sub>X</sub>


(<i>F</i>0) =<i>|m</i>(<i>F</i>0)<i>| |R</i>(<i>C</i>k0)<i>|</i> = 2 (<i>∀k∈m</i>(<i>F</i>
0


))


<i>vµ</i>



X


(<i>F</i>0) =<i>|m</i>(<i>F</i>0)<i>|.t</i>(<i>t−</i>1)


2 <i>⇐⇒ |R</i>(<i>C</i>


0


k)<i>|</i>=<i>t</i> (<i>∀k</i> <i>∈m</i>(<i>F</i>
0


))


<i>(b)</i> 0<i>≤ |m</i>(<i>F</i>0)<i>| s</i> <i>và</i>


<i>ã |m</i>(<i>F</i>0<sub>)</sub><i><sub>|</sub></i><sub>= 0</sub> <i><sub></sub><sub>F</sub></i> <i><sub></sub><sub>F</sub></i>0


<i>ã |m</i>(<i>F</i>0<sub>)</sub><i><sub>|</sub></i><sub>=</sub><i><sub>s</sub></i> <i><sub> |</sub><sub>R</sub></i><sub>(</sub><i><sub>C</sub></i>0


k)<i>|></i>1 (<i>k</i> = 1<i>, . . . , s</i>)<i>.</i>


<i>Trong đó quan hệ</i> <i></i> <i>là quan hệ thứ tự thông th-ờng trên tập tất cả các phân hoạch của</i>
<i>U, tức là:</i> <i>F, F</i>0<i><sub>là hai phân hoạch của U thì</sub></i>


<i>F</i> <i>F</i>0<i>⇐⇒ ∀C</i>0<i>∈F</i>0<i>,∃C</i> <i>∈F</i> :<i>C</i>0<i>⊆C</i>
<i>và khi đó ta nóiF</i>0 <i><sub>là \mịn hơn" F (hoặc F l \thụ" hn</sub></i> <i><sub>F</sub></i>0<sub>)</sub><i><sub>.</sub></i>


<i><b>Chứng minh:</b></i> ([3]) Đặt <i>mk</i> = <i>|R</i>(<i>C</i>0



k)<i>|</i> (<i>∀k</i> <i>∈</i> <i>m</i>(<i>F</i>


0<sub>))</sub><sub>. Từ định nghĩa 2.1.1 về tập bắc cầu</sub>
và mệnh đề 2.1.2, ta thấy: với mỗi <i>k</i> <i>∈</i> <i>m</i>(<i>F</i>0<sub>)</sub> <sub>s cú</sub> <i><sub>C</sub></i>2


m<sub>k</sub> tập bắc cầu sinh bởi <i>C</i>k0 và nếu
<i>k</i>1<i>, k</i>2 <i>m</i>(<i>F</i>0)<i>, k</i>1 <i>6</i>=<i>k</i>2 thì do <i>C</i>k01 <i>6</i>=<i>C</i>


0


k2 nªn <i>BridgingC</i>k01(<i>Ci</i>;<i>Cj</i>)


<i>6</i>


=<i>BridgingC</i>0


k2(<i>Cu</i>;<i>Cv</i>).


Do đó


X


(<i>F</i>0) = X


k∈m(F0<sub>)</sub>


<i>C</i>m2k =
1
2



X


k∈m(F0<sub>)</sub>


(<i>|R</i>(<i>C</i>k0)<i>| −</i>1)<i>|R</i>(<i>C</i>
0


k)<i>|</i> (4)


Để ý2<i>≤ |R</i>(<i>C</i><sub>k</sub>0)<i>| ≤t</i>(<i>∀k∈m</i>(<i>F</i>0)), nên ta suy ra bất đẳng thức


<i>|m</i>(<i>F</i>0)<i>| ≤</i>X(<i>F</i>0)<i>≤ |m</i>(<i>F</i>0)<i>|.t</i>(<i>t−</i>1)


2 <i>.</i>


</div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>

<i>•</i> X


k∈m(F0<sub>)</sub>


((<i>mk−</i>1)<i>mk</i>


2 <i>−</i>1) = 0<i>⇐⇒mk</i> = 2 (<i>∀k∈m</i>(<i>F</i>


0


))<i>.</i>


<i>•</i> X


k∈m(F0<sub>)</sub>



((<i>t−</i>1)<i>t</i>


2 <i>−</i>


(<i>mk</i> <i>−</i>1)<i>mk</i>


2 ) = 0<i>⇐⇒</i>


(<i>t−</i>1)<i>t</i>


2 <i>−</i>


(<i>mk−</i>1)<i>mk</i>


2 = 0


(<i>∀k</i> <i>∈m</i>(<i>F</i>0))<i>⇐⇒t</i>=<i>mk</i> (<i>∀k∈m</i>(<i>F</i>0))


Khẳng định (b) đ-ợc suy ra trực tiếp từ định nghĩa của <i>m</i>(<i>F</i>0<sub>)</sub> <sub>và mệnh đề 2.1.1.</sub>


Ví dụ sau đây minh họa thủ tục xác định các tập bắc cầu trong một khơng gian xấp xỉ.
<b>Ví dụ 2.1.1.</b> <i>Cho</i> <i>K</i> = (<i>U, R</i>) <i>trong đó</i> <i>U</i> = <i>{x</i>1<i>, x</i>2<i>, x</i>3<i>, x</i>4<i>, x</i>5<i>, x</i>6<i>, x</i>7<i>, x</i>8<i>, x</i>9<i>, x</i>10<i>}</i> <i>và</i> <i>F</i> =


<i>U/R</i>= <i>{C</i>1<i>, C</i>2<i>, C</i>3<i>}, ở đây các tập tri thức hạt cơ sở là</i> <i>C</i>1 = <i>{x</i>1<i>, x</i>3<i>, x</i>10<i>}, C</i>2 =<i>{x</i>2<i>, x</i>6<i>},</i>


<i>C</i>3 = <i>{x</i>4<i>, x</i>7<i>}, C</i>4 = <i>{x</i>5<i>}, C</i>5 = <i>{x</i>8<i>}, C</i>6 = <i>{x</i>9<i>}. Mét ph©n líp thø hai dùa vào quan hệ</i>


<i>t-ơng đ-ơngR</i>0<i><sub>trên</sub><sub>U</sub><sub>là</sub><sub>F</sub></i>0<sub>=</sub><i><sub>U/R</sub></i>0<sub>=</sub><i><sub>{</sub><sub>C</sub></i>0



1<i>, C</i>


0


2<i>, C</i>


0


3<i>}, trong úC</i>


0


1 =<i>{x</i>1<i>, x</i>3<i>, x</i>4<i>, x</i>7<i>, x</i>10<i>}, C</i>20 =


<i>{x</i>2<i>, x</i>6<i>, x</i>8<i>, x</i>9<i>}, C</i>30 = <i>{x</i>5<i>}. Ta tính xấp xỉ trên cho phân lớp</i> <i>F</i>0 <i>là</i> <i>R</i>(<i>F</i>0) <i> {R</i>(<i>C</i>10)<i>,</i>


<i>R</i>(<i>C</i>20)<i>, R</i>(<i>C</i>


0


3)<i>}</i> <i>và loại các tập</i> <i>C</i>


0


k <i>không thể tạo cầu nối giữa các lớp. Kết quả xác định</i>
<i>các tập bắc cầu nh- sau:</i> <i>R</i>(<i>C</i>0


1) = <i>{C</i>1<i>, C</i>3<i>}</i> : (<i>|m</i>1<i>|</i> = 2)<i>, R</i>(<i>C</i>20) = <i>{C</i>2<i>, C</i>5<i>, C</i>6<i>}</i>: (<i>|m</i>2<i>|</i> =


3)<i>, R</i>(<i>C</i>30) =<i>{C</i>4<i>}</i>: (<i>|m</i>3<i>|</i>= 1)<i>. Do đóC</i>30 <i>khơng thể tạo cầu nối. Số l-ợng tập bắc cầu trong</i>



<i>tr-êng hỵp này là</i>P(<i>F</i>0<sub>) = 4</sub><i><sub>.</sub></i>


<i>ã</i> <i>Các tập bắc cầu sinh bởi</i> <i>C</i>10 <i>là:</i>


<i>BridgingC</i>0


1(<i>C</i>1;<i>C</i>3) =<i>{{x</i>1<i>, x</i>3<i>, x</i>10<i>}</i>;<i>{x</i>4<i>, x</i>7<i>}}.</i>


<i>ã</i> <i>Các tập bắc cầu sinh bởi</i> <i>C</i>0


2 <i>là:</i>


<i>BridgingC</i>0


2(<i>C</i>2;<i>C</i>5) =<i>{{x</i>2<i>, x</i>6<i>}</i>;<i>{x</i>8<i>}};BridgingC</i>


0


2(<i>C</i>5;<i>C</i>6) =<i>{{x</i>8<i>}</i>;<i>{x</i>9<i>}}</i>


<i>Bridging</i>C<sub>2</sub>0(<i>C</i>2;<i>C</i>6) =<i>{{x</i>2<i>, x</i>6<i>}</i>;<i>{x</i>9<i>}}.</i>


Hình 2.1: Các tập bắc cầu giữa các lớp và các tập <i>C</i>0


k không thể tạo cầu nối (thể hiện bởi


</div>
<span class='text_page_counter'>(21)</span><div class='page_container' data-page=21>

<b>2.1.2</b>

<b>Xác định các luật cầu nối-lớp ứng viên</b>



Với mỗi tập bắc cầu<i>BridgingC</i>0(<i>C</i><sub>1</sub>;<i>C</i><sub>2</sub>)tìm đ-ợc ở trên ta tiến hành xỏc nh cỏc lut



cầu nối-lớp ứng viên nh- sau: <i>iC</i>0<i>C</i>1<i>,j</i> <i>∈C</i>0<i>∩C</i>2


nÕu


<i>supp</i>(<i>i, j</i>)<i>≡</i> <i>|{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<i>|</i><b>C</b><i>|</i> <i>≥minsupp</i> (5)




conf(<i>i→j</i>)<i>≡</i> <i>|{a</i> <i>∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<i>|{a∈</i><b>C</b>:<i>a</i>(<i>i</i>)<i>6</i>= 0<i>}|</i> <i>≥minconf</i> (6)


thì (<i>i</i> <i>→</i> <i>j</i>) là luật cầu nối-lớp ứng viên từ <i>C</i>1 đến <i>C</i>2. T-ơng tự ta có luật cầu nối-lớp


ứng viên(<i>j</i> <i>→i</i>) từ <i>C</i>2 đến <i>C</i>1 nếu nh- các điều kiện (5) và conf(<i>j</i> <i>→i</i>)<i>≥</i> minconf đ-ợc


thỏa mãn. Các tham số <i>minsupp, minconf</i> là cỏc ng-ng qui nh tr-c.


<b>2.2</b>

<b>Phát hiện các luật cầu nèi-líp cèt yÕu</b>



Mục này đề cập vấn đề phát hiện các luật cầu nối-lớp đáng quan tâm từ tập các luật cầu
nối-lớp ứng viên. Đ-a ra định nghĩa về luật cầu nối-lớp cốt yếu và đánh giá phạm vi của cỏc
ng-ng xỏc nh lut.


Các luật cầu nối-lớp cốt yếu đ-ợc phát hiện từ tập các luật cầu nối-lớp ứng viên dựa trên
yêu cầu là:



<i>ã</i> Cú t-ng t cao gia hai lớp <i>C</i>1<i>, C</i>2 của luật cầu nối-lớp ứng viên (i<i>→j) từ</i> <i>C</i>1 đến


<i>C</i>2.


<i>•</i> Mức ảnh h-ởng hai đầu cầu ca <i>i</i> v <i>j</i> i vi <i>C</i>0<i><sub></sub><sub>C</sub></i>


1 và <i>C</i>0<i>C</i>2 t-ơng ứng của tập


bắc cầu <i>BridgingC</i>0(<i>C</i><sub>1</sub>;<i>C</i><sub>2</sub>) là cao.


ỏnh giỏ t-ơng tự giữa các đối t-ợng ta sử dụng các độ đo sau
<b>Độ t-ơng tự giữa hai đối t-ợng</b>


Kí hiệu <i>Sim</i>(<i>i, j</i>) là hàm đo độ t-ơng tự của<i>i, j</i> <i>∈U.</i> <i>Sim</i>(<i>i, j</i>)đ-ợc xác định bởi các
công thức sau:


(a)


<i>Sima</i>(<i>i, j</i>)<i>≡</i> <i>|{a∈</i><b>C</b>:<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<i>|{a∈</i><b>C</b> :<i>a</i>(<i>i</i>)= 0<i>6</i> <i>}|</i>+<i>|{a∈</i><b>C</b> :<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}| − |{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<i>Y</i>0 nghÜa: <i>Sima</i>(<i>i, j</i>) cho biÕt tØ lÖ thuộc tính chung có ở<i>i</i> và<i>j</i>trên số thuộc tính có ë <i>i</i>
vµ <i>j.</i>


(b)


<i>Simb</i>(<i>i, j</i>)<i>≡</i> <i>|{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>
2<i>.|</i><b>C</b><i>| − |{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>



</div>
<span class='text_page_counter'>(22)</span><div class='page_container' data-page=22>

(c)


<i>Simc</i>(<i>i, j</i>)<i>≡</i> <i>|{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>
<i>|</i><b>C</b><i>|</i>


<i>Y</i>0<sub>nghÜa:</sub> <i><sub>Simc</sub></i><sub>(</sub><i><sub>i, j</sub></i><sub>)</sub><sub>cho biết tỉ lệ thuộc tính có giá trị nh- nhau của</sub><i><sub>i</sub></i> <sub>và</sub><i><sub>j</sub></i><sub>trên số thuộc</sub>
tính.


<b>Tớnh cht 2.2.1.</b> <i>Cỏc s o t-ơng tự ở trên thỏa:</i>
<i>(a)</i> 0<i>≤Sim</i>(<i>i, j</i>)<i>≤</i>1<i>.</i>


<i>(b)</i> <i>Sim</i>(<i>i, j</i>) =<i>Sim</i>(<i>j, i</i>)<i>.</i>
<i>(c)</i> <i>Sim</i>(<i>i, i</i>) = 1


<b>TÝnh chÊt 2.2.2.</b> <i>§Ĩ ý ta thÊy:</i>


<i>Simb</i>(<i>i, j</i>) = <i>|{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>
2<i>.|</i><b>C</b><i>| − |{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>
<i>≤</i> <i>|{a</i><b>C</b>: <i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>


<i>|</i><b>C</b><i>|</i> =<i>Simc</i>(<i>i, j</i>)


<i>và</i>


<i>ã|{a</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)= 0<i>6</i> <i>}| |{a∈</i><b>C</b>:<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>}|</i>


<i>•|{a∈</i><b>C</b> :<i>a</i>(<i>i</i>)= 0<i>6</i> <i>}|</i>+<i>|{a∈</i><b>C</b>:<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}| − |{a∈</i><b>C</b>:<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>
<i>≤</i>2<i>.|</i><b>C</b><i>| − |{a∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<b>NhËn xÐt:</b> §èi víi <i>Sima</i>(<i>i, j</i>) ta cã:



<i>Sima</i>(<i>i, j</i>) <i>≤</i> <i>|{a</i> <i>∈</i><b>C</b> :<i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<i>|{a</i> <i>∈</i><b>C</b>:<i>a</i>(<i>i</i>)<i>6</i>= 0<i>}|</i> = <i>conf</i>(<i>i</i> <i>→j</i>)


(t-¬ng tù cho <i>conf</i>(<i>j</i> <i>→i</i>)).


<i>Simc</i>(<i>i, j</i>) <i>≥</i> <i>|{a</i><b>C</b>: <i>a</i>(<i>i</i>) =<i>a</i>(<i>j</i>)<i>6</i>= 0<i>}|</i>


<i>|</i><b>C</b><i>|</i> = <i>supp</i>(<i>i, j</i>)<i>.</i>


<b>Độ t-ơng tự giữa hai líp</b>


Độ t-ơng tự giữa hai lớp <i>C</i>1<i>, C</i>2 <i>∈F</i> -c xỏc nh l


<i>Sim</i>(<i>C</i>1<i>, C</i>2)<i></i>


1
<i>|C</i>1<i>|.|C</i>2<i>|</i>


X


uC1


X


vC2


<i>Sim</i>(<i>u, v</i>)<i>.</i> (7)
Độ t-ơng tự giữa hai lớp càng lớn thì khoảng cách giữa hai lớp đ-ợc thu hẹp. Khoảng cách


giữa hai lớp mà lớn thì giữa hai lớp có sự khác biệt.


<b>Mức ảnh h-ởng của lt cÇu nèi-líp</b>


Cho (i <i>→</i> <i>j) là luật cầu nối-lớp ứng viên từ</i> <i>C</i>1 đến <i>C</i>2 sinh bởi <i>C</i>0 <i>∈</i> <i>F</i>0. Xét phân bố


x¸c xuÊt


<i>pi</i>(<i>u</i>) = P<i>Sim</i>(<i>u, i</i>)


v∈C0<sub>∩C</sub>


1


<i>Sim</i>(<i>v, i</i>); <i>u∈C</i>


0<i><sub>∩</sub></i>


<i>C</i>1 (8)


</div>
<span class='text_page_counter'>(23)</span><div class='page_container' data-page=23>

<i>H</i>(<i>i</i>)<i>≡ −</i> P


u∈C0<sub>∩C</sub>


1


<i>pi</i>(<i>u</i>) log<i>pi</i>(<i>u</i>)<i>.</i> (9)


Entropy <i>H</i>(<i>i</i>) đo mức ảnh h-ởng của đối t-ợng <i>i</i> với các đối t-ợng trong phần giao <i>C</i>0<i><sub>∩</sub><sub>C</sub></i>



1.


T-¬ng tù ta cã entropy cđa phân bố<i>pj</i>(<i>w</i>)(<i>wC</i>0<i>C</i>2)là


<i>H</i>(<i>j</i>)<i> </i> X


wC0<sub>C</sub>


2


<i>pj</i>(<i>w</i>) log<i>pj</i>(<i>w</i>)<i>.</i>


Các entropy của phân bố xác xuất (8) có tính chất sau đây


<b>Tớnh cht 2.2.3.</b> <i>Gi sử (i→j) là luật cầu nối-lớp ứng viên từ</i> <i>C</i>1 <i>đến</i> <i>C</i>2 <i>sinh bởiC</i>0<i>∈F</i>0<i>.</i>


<i>Khi đó</i>0<i>≤H</i>(<i>i</i>)<i>≤</i> log<i>|C</i>0<i>∩C</i>1<i>|</i> <i>và</i>


<i>(a)</i> <i>H</i>(<i>i</i>) = 0 <i>⇐⇒ |C</i>0<i>∩C</i>1<i>|</i>= 1<i>.</i> <i>(10)</i>


<i>(b)</i> <i>H</i>(<i>i</i>) = log<i>|C</i>0<i><sub>∩</sub><sub>C</sub></i>


1<i>| ⇐⇒Sim</i>(<i>u, i</i>) = 1(<i>uC</i>0<i>C</i>1)<i>.</i> <i>(11)</i>


Phân bố xác xuất <i>pi</i>(<i>u</i>)(<i>u</i> <i></i> <i>C</i>0<i><sub></sub><sub>C</sub></i>


1) biu th tỉ lệ về mức độ t-ơng tự giữa <i>i</i> với cỏc


phần tử<i>u</i> khác trong <i>C</i>0<i><sub></sub><sub>C</sub></i>



1, nờn entropy<i>H</i>(<i>i</i>) o mc tỏc động (theo tính t-ơng tự) của <i>i</i>


đối với các phần tử <i>u</i> khác trong tập <i>C</i>0<i>∩C</i>1. Từ (11) cho thấy <i>H</i>(<i>i</i>) càng lớn thì phân bố


càng gần về tính đều (phân bố đều). Nói cách khác là mức độ t-ơng tự giữa <i>i</i> với các phần
tử<i>u</i> khác trong tập <i>C</i>0<i>∩C</i>1 là gần nh- nhau, tức là ảnh h-ởng của<i>i</i> ở đầu cầu <i>C</i>0<i>∩C</i>1 là có


ý nghĩa. Điều này cũng đ-ợc đặt trên đầu cầu về phía<i>j</i> tức là cho <i>H</i>(<i>j</i>). Từ đó một u cầu
tự nhiên là ta tìm các luật cầu nối-lớp sao cho entropy ở cả hai đầu đều lớn.


Từ phân tích về độ đo entropy (Tính chất 2.2.1) để tìm tập các luật cầu nối-lớp đáng
quan tâm từ tập các luật cầu nối-lớp ứng viên, ta sử dng khỏi nim<b>lut cu ni-lp ct yu</b>
nh- sau:


<b>Định nghĩa 2.2.1.</b> <i>([3]) (lt cÇu nèi-líp cèt u). Lt cÇu nèi-líp øng viªn</i> (<i>i→j</i>) <i>tõC</i>1


<i>đến</i> <i>C</i>2 <i>sinh bởi</i> <i>C</i>0<i>∈</i> <i>F</i>0 <i>gọi là luật cầu nối-lớp cốt yếu giữa hai lớp (C</i>1<i>, C</i>2<i>) nu nh- tha</i>


<i>mÃn các điều kiện:</i>


<i>(i)</i> <i>Sim</i>(<i>C</i>1<i>, C</i>2)<i>minSim</i>


<i>(ii)</i> <i>min{H</i>(<i>i</i>)<i>, H</i>(<i>j</i>)<i>} ≥minEntro</i>


<i>Trong đó minSim, minEntro t-ơng ứng là các tham số về ng-ỡng tối thiểu của độ t-ơng</i>
<i>tự và entropy.</i>


Các cận của <i>H</i>(<i>i</i>) và<i>min{H</i>(<i>i</i>)<i>, H</i>(<i>j</i>)<i>}</i> đ-ợc đánh giá bởi mệnh đề sau:


<b>Mệnh đề 2.2.1.</b> <i>([3]) Cho</i> (<i>i</i> <i>→</i> <i>j</i>) <i>là luật cầu nối - lớp ứng viên từ</i> <i>C</i>1 <i>đến</i> <i>C</i>2 <i>sinh bởi</i>



<i>C</i>0<i><sub>∈</sub><sub>F</sub></i>0<i><sub>. Khi đó</sub></i>


log<i>S</i>(<i>i</i>)<i>≤H</i>(<i>i</i>)<i>≤</i>log <sub>p</sub> 1


min(i) <i>(12)</i>


<i>vµ</i>


min


k∈{i,j}log<i>S</i>(<i>k</i>)


<i>≤min{H</i>(<i>i</i>)<i>, H</i>(<i>j</i>)<i>} ≤</i> min


k∈{i,j}log


1


pmin(k) <i>(13)</i>


<i>ở đây kí hiệu</i>


<i>S</i>(<i>i</i>)<i></i> X


uC0<sub>C</sub>


1


<i>Sim</i>(<i>u, i</i>); <i>S</i>(<i>j</i>)<i></i> X



vC0<sub>C</sub>


2


</div>
<span class='text_page_counter'>(24)</span><div class='page_container' data-page=24>

<i>và</i>


<i>pmin</i>(<i>i</i>)<i></i> min


uC0<sub>C</sub>


1


<i>pi</i>(<i>u</i>); <i>pmin</i>(<i>j</i>)<i></i> min


vC0<sub>C</sub>


2


<i>pj</i>(<i>v</i>)<i>.</i>


<i><b>Chứng minh:</b></i> ([3]) Ta viết lại <i>H</i>(<i>i</i>) nh- sau
<i>H</i>(<i>i</i>) = log Y


u∈C0<sub>∩C</sub>


1


( 1



<i>pi</i>(<i>u</i>))


pi(u)<i><sub>.</sub></i>


Từ đó có đánh giá


log Y


uC0<sub>C</sub>


1


( 1


<i>pmax</i>(<i>i</i>))


pi(u) <i><sub></sub><sub>H</sub></i><sub>(</sub><i><sub>i</sub></i><sub>)</sub><i><sub></sub></i><sub>log</sub> Y


uC0<sub>C</sub>


1


( 1


<i>pmin</i>(<i>i</i>))


pi(u)


ở đây kí hiệu <i>pmax</i>(<i>i</i>) = max



uC0<sub>C</sub>


1


<i>pi</i>(<i>u</i>). Để ý rằng <i>pi</i>(<i>u</i>)<i></i> <i>Sim</i>(<i>i, i</i>)


<i>S</i>(<i>i</i>) =
1


<i>S</i>(<i>i</i>)(<i>u</i> <i>C</i>


0<i><sub></sub></i>
<i>C</i>1)


nên<i>pmax</i>(<i>i</i>) = 1


<i>S</i>(<i>i</i>). Điều này dẫn đến log<i>S</i>(<i>i</i>)<i>≤H</i>(<i>i</i>)<i>≤</i>log
1


<i>pmin</i>(<i>i</i>)<i>.</i>


Bất đẳng thức (13) đ-ợc suy ra nhờ sự kết hợp với đánh giá t-ơng t nh- (12) cho<i>H</i>(<i>j</i>).


<b>2.3</b>

<b>Thuật toán tìm luật cầu nối-lớp cèt u trªn mét hƯ</b>



<b>quyết định</b>



Cho hệ quyết định S = (U, A), trong đó <i>U</i> là tập hữu hạn (<i>6</i>=<i>∅</i>) của các đối t-ợng, tập
A<i>≡</i><b>C</b><i>∪</i><b>D,</b> <b>C</b><i>∩</i><b>D</b> =<i>∅</i>, trong đó <b>C,</b> <b>D</b> t-ơng ứng là tập thuộc tính điều kiện và tập thuộc
tính quyết định. Kí hiệu<i>R</i> là quan hệ t-ơng đ-ơng t-ơng ứng với tập các lớp quyết định của


S, tức là phân hoạch<i>F</i> <i>≡U/D</i> và cho một quan hệ t-ơng đ-ơng <i>R</i>0 <sub>khác trên</sub> <i><sub>U</sub></i> <sub>t-ơng ứng</sub>
với phân hoạch <i>F</i>0 <i>≡</i> <i>U/B</i>(<i>B</i> <i>⊆</i> <b>C</b>). Thuật tốn tìm luật cầu nối-lớp cốt yếu trên một hệ
quyết định nh- sau:


<b>Input:</b> Cơ sở dữ liệu là một bảng quyết định.
<b>Output:</b> Các luật cầu nối-lớp cốt yếu.


<b>B-ớc 1:</b> Thu gọn bảng quyết định theo tập thuộc tính điều kiện <b>C.</b>


<b>B-ớc 2:</b> Xác định phân lớp thứ hai trên hệ quyết định. Tìm các tập thuộc tính có ý
nghĩa và lấy phần bù của chúng để làm tập thuộc tính dùng cho phân lớp thứ hai. Kí hiệu
tập thuộc tính tìm đ-ợc là<i>B</i>.


<b>B-ớc 3:</b> Phân hoạch bảng dữ liệu đã đ-ợc thu gọn theo tập thuộc tính quyết định là<i>F</i> <i>≡</i>


<i>U/D</i> = <i>{C</i>1<i>, C</i>2<i>, . . . , Ct}</i> , vµ theo tËp thuéc tÝnh <i>B</i> lµ <i>F</i>0<i>≡</i> <i>U/B</i> =<i>{C</i>10<i>, C</i>


0


2<i>, . . . , C</i>


0


s<i>}</i>(<i>B</i> <i></i>
<b>C</b>).


<b>B-ớc 4:</b> Tìm các tập bắc cầu.
for each <i>C</i>0


i <i>F</i>


0 <sub>do</sub>
Tính <i>R</i>(<i>C</i>0


i).


if <i>|R</i>(<i>C</i>i0)<i>|></i>1


<i>Cj</i> <i>R</i>(<i>C</i>0


i)l-u lại phần giao <i>Gi</i>j =<i>C</i>


0


</div>
<span class='text_page_counter'>(25)</span><div class='page_container' data-page=25>

endif;
endfor;


<b>B-íc 5:</b>


<b>B-íc 5.1:</b> Sinh lt cÇu dựa vào tập các phần giao Br ở B-ớc 4.


<b>B-ớc 5.2:</b> Tính các số đo <i>supp, conf</i> cho từng luật theo công thức (5) và (6).
<b>B-ớc 6:</b>


<b>B-c 6.1:</b> Xỏc nh luật cầu nối-lớp ứng viên thỏa <i>minsupp,</i> <i>minconf.</i>
for<i>∀</i> luật (<i>i→j</i>) do


if <i>supp</i>(<i>i, j</i>)<i>minsupp</i>then


if conf(<i>ij</i>)<i></i> minconf then



L-u luật cầu vào tập luật cầu nối-lớp ứng viên;
endif;


endif;
endfor;


<b>B-c 6.2:</b> Vi tng lut cu nối-lớp ứng viên tính độ t-ơng tự và entropy theo
cơng thức (7) và (9).


<b>B-ớc 7:</b> Xác định luật cầu nối-lớp cốt yếu thỏa <i>minSim, minEntro.</i>
for<i>∀</i> luật (<i>i→j</i>) do


if <i>Sim</i>(<i>C</i>[<i>i</i>]<i>, C</i>[<i>j</i>])<i>≥minSim</i>then


if <i>min{H</i>(<i>i</i>)<i>, H</i>(<i>j</i>)<i>} minEntro</i> then


L-u lại luật (i<i>j) vào tập luật cầu nối-lớp cốt yếu.</i>
endif;


endif;
endfor;


</div>
<span class='text_page_counter'>(26)</span><div class='page_container' data-page=26>

<b>A</b>

<i>0</i>

<b>p dụng: Tìm các luật cầu nối-lớp trong</b>


<b>bảng tuần hoàn các nguyên tố hóa häc</b>



Trong ch-ơng này, luận văn áp dụng các kiến thức tìm hiểu đ-ợc ở Ch-ơng 2 để khai
thác luật cầu nối-lớp trên cơ sở dữ liệu bảng tuần hoàn các nguyờn t húa hc.


<b>3.1</b>

<b>Mô tả cơ sở dữ liệu bảng tuần hoàn các nguyên tố hóa</b>




<b>học</b>



C s d liu bảng tuần hồn các ngun tố hóa học bao gồm 118 bản ghi về các nguyên
tố hóa học, mỗi bản ghi biểu diễn thơng tin của một ngun tố hóa học gồm các thuộc tính
nh- điện tích hạt nhân (số thứ tự), kí hiệu nguyên tố, họ, tính kim loại, thể vật chất, quỹ đạo,
chu kỳ, phân nhóm. Ví dụ về cơ sở dữ liệu.


</div>
<span class='text_page_counter'>(27)</span><div class='page_container' data-page=27>

<b>1. §iƯn tÝch hạt nhân.</b> (Số thứ tự) Các nguyên tố đ-ợc xếp theo chiều tăng dần của điện
tích hạt nhân nguyên tử, mỗi nguyên tố chỉ có một giá trị điện tích và tăng từ 1 trở lên (liên
tục, không gián đoạn), kí hiệu là Z. Số điện tích hạt nhân (Z) = số proton (P) = số electron
(E) thì nguyên tử trung hòa điện.


<b>2. Họ.</b> Các electron trong nguyên tử của nguyên tố đ-ợc sắp xếp theo lớp. Mỗi lớp
của electron lại đ-ợc chia thành các phân lớp. Các electron thuộc cùng một phân lớp có mức
năng l-ợng bằng nhau. Kí hiệu các phân lớp là các chữ cái th-ờng: s, p, d, f. Sè ph©n líp
cđa mét líp electron b»ng sè thø tù cđa líp. Sè electron tèi ®a trong một phân lớp:


- Phân lớp s chứa tối đa 2 electron.
- Phân lớp p chứa tối đa 6 electron.
- Phân lớp d chứa tối đa 10 electron.
- Phân lớp f chøa tèi ®a 14 electron.


Cấu hình electron ở hai lớp ngồi cùng quyết định tính chất hóa học của ngun tố (vì hiện
t-ợng chèn mức năng l-ợng). Ví dụ: Fe (Z = 26): 1s2 2<i>s</i>2 2<i>p</i>6 3<i>s</i>2 3<i>p</i>6...4<i>s</i>2 3<i>d</i>6.


<b>3. TÝnh kim loại.</b> Tính kim loại của các nguyên tố đ-ợc thể hiện trong cơ sở dữ liệu
nh- sau:


- Hydro đ-ợc kí hiệu là 0.



- Kim loại kiềm (Alkali metals) đ-ợc kí hiệu là 1.


- Kim loại kiềm thổ (Alkali earth metals) đ-ợc kí hiệu là 2.
- Kim loại chuyển tiếp (Transition metals) đ-ợc kí hiệu là 3.
- Đất hiếm (Lanthanide series) đ-ợc kí hiệu là 4.


- Đất hiếm (Antinide series) đ-ợc kí hiệu là 5.
- Poor metals đ-ợc kí hiệu là 6.


- Phi kim (Nonmetals) đ-ợc kí hiệu là 7.
- Khí hiếm (Noble gases) đ-ợc kí hiệu là 8.


i vi các ngun tố khơng có giá trị về tính kim loại (giá trị vắng) thì đ-ợc quy định trong
cơ sở dữ liệu là -số thứ tự cột thuộc tính và giá trị vắng thứ mấy. Ví dụ nguyên tố Uus khơng
có giá trị về tính kim loại, tức là giá trị vắng và cũng là giá trị vắng đầu tiên về tính kim loại
nên đ-ợc l-u trong cơ sở dữ liệu là -31 tại cột tính kim loại.


<b>4. Thể vật chất.</b> Có 4 thể vật chất và đ-ợc thể hiện trong cơ sở dữ liệu nh- sau:
- Rắn (Solid) đ-ợc quy định là 1.


- Lỏng (Liquid) đ-ợc quy định là 2.
- Khí (Gas) đ-ợc quy định là 3.


- Tổng hợp (Synthetic) đ-ợc quy định là 4.


Còn đối với các nguyên tố khơng có giá trị về thể vật chất (giá trị vắng) thì đ-ợc quy định
trong cơ sở dữ liệu là -số thứ tự cột thuộc tính và giá trị vắng thứ mấy. Ví dụ ngun tố Uus
khơng có giá trị về thể vật chất, tức là giá trị vắng và cũng là giá trị vắng đầu tiên về thể vật
chất nên đ-ợc l-u trong cơ sở dữ liệu là -41 tại cột thể vật chất.



<b>5. Quỹ đạo.</b> Các quỹ đạo đ-ợc mô tả nh- là đám mây mật độ electron. Là các electron
ở lớp ngồi cùng. Ví dụ cấu hình electron của Fe có lớp ngồi cùng là 3<i>d</i>6 <sub>nên đ-ợc l-u</sub>


</div>
<span class='text_page_counter'>(28)</span><div class='page_container' data-page=28>

<b>6. Chu kỳ.</b> Các nguyên tử của các nguyên tố trong cùng một chu kỳ đều có cùng số
lớp electron và bằng số thứ tự chu kỳ chứa chúng. Trong bảng tuần hoàn các nguyên t húa
hc cú 7 chu k.


- Chu kỳ ngắn: các chu kỳ 1, 2, 3.
- Chu kỳ dài: các chu kú 4, 5, 6, 7.


<b>7. Ph©n nhãm.</b> Nhãm bao gåm các nguyên tố có cùng số electron hóa trị. Số thứ tự
của nhóm bằng số electron hóa trị mà các nguyên tố có. Mỗi nhóm đ-ợc chia thành 2 phân
nhóm: phân nhóm chính và phân nhóm phụ.


- Phân nhóm chính (nhóm A): bao gồm các nguyên tố s hoặc p.
- Phân nhóm phụ (nhóm B): bao gồm các nguyên tố d hc f.


Để tiến hành việc phát hiện các luật cầu nối-lớp luận văn dùng thuộc tính số thứ tự (điện
tích hạt nhân) làm chỉ mục (tức là<i>U</i> =<i>{</i>1<i>,</i>2<i>, . . . ,</i>118<i>}</i>) và tập thuộc tính quyết định gồm hai
thuộc tính là <b>D</b> = <i>{</i>Chu Ky, Phan Nhom<i>}</i>, tập thuộc tính điều kiện gồm 4 thuộc tính cịn lại
<b>C</b>= <i>{</i>Ho, Tinh Kim Loai, The Vat Chat, Quy Dao<i>}</i>.


Cơ sở dữ liệu Bảng tuần hồn các ngun tố hóa học bao gồm 118 nguyên tố hóa học,
chúng đ-ợc phân thành 7 lớp nếu xét theo thuộc tính quyết định Chu Ky là từ chu kỳ 1 đến
chu kỳ 7, chúng đ-ợc phân thành 16 lớp nếu xét theo thuộc tính quyết định Phan Nhom là:
1A, 1B, 2A, 2B, 3A, 3B, 4A, 4B, 5A, 5B, 6A, 6B, 7A, 7B, 8A, 8B. Xét thấy cơ sở dữ liệu
khơng nhất qn vì xuất hiện các đối t-ợng gây ra dị th-ờng dữ liệu trong bảng dữ liệu, ví
dụ hai dịng dữ liệu sau:


Hai nguyên tố B và C có cùng giá trị các thuộc tính điều kiện là (p, 7, 1, 2p) nh-ng


có thuộc tính quyết định khác nhau là (2, 3A) và (2, 4A) t-ơng ứng. Do đó bảng dữ liệu là
khơng nhất qn.


<b>3.2</b>

<b>KÕt qu¶ thùc nghiƯm</b>



Tiến hành thử nghiệm cơ sở dữ liệu nh- đã trình bày ở mục 3.1 trên ch-ơng trình đ-ợc xây
dựng theo thuật tốn đã trình bày ở Ch-ơng 2, kết quả thu đ-ợc nh- sau:


<b>B-íc 1.</b> Sau khi thu gọn bảng dữ liệu theo tập thuộc tính điều kiện thu đ-ợc 45 hạt rút


gọn (




U), trong đó hạt nhỏ nhất gồm 1 nguyên tố, hạt lớn nhất gồm 13 ngun tố.


<b>B-íc 2.</b> C¸c tËp thc tính ý nghĩa tìm đ-ợc là:


</div>
<span class='text_page_counter'>(29)</span><div class='page_container' data-page=29>

<i>{</i>Ho, The Vat Chat<i>}</i>, <i>B</i>0


3 = <i>{</i>Ho<i>}</i>. Ơ' đây tôi lấy phần bù<i>B</i>10 là tập thuộc tính dùng cho phân


lp th hai, và đặt lại <i>B</i> = <i>B</i>10.


<b>B-ớc 3.</b> Kết quả đã phân hoạch bảng dữ liệu đã thu gọn ở B-ớc 1 theo thuộc tính quyết
định Chu Ky thu đ-ợc<i>U</i>˜/Dgồm có 7 hạt, tức là<i>F</i> <i>≡U /D</i>˜ =<i>{C</i>1<i>, C</i>2<i>, . . . , C</i>7<i>}</i>t-ng ng vi 7


chu kỳ. Và kết quả phân hoạch bảng dữ liệu thu gọn theo tập thuộc tÝnh dïng cho ph©n líp thø
hai<i>{</i>Ho, Tinh Kim Loai, The Vat Chat<i>}</i>thu đ-ợc 19 hạt, hay<i>F</i>0<i>U /B</i> =<i>{C</i>10<i>, C</i>



0


2<i>, . . . , C</i>


0


19<i>}</i>.


<b>B-ớc 4.</b> Tìm đ-ợc số l-ợng lớp tạo cầu là <i>|m</i>(<i>F</i>0)<i>|</i> = 8. Số l-ợng các tập bắc cầu là


P


(<i>F</i>0<sub>) = 64</sub><sub>.</sub>


<b>B-ớc 5.</b> Sinh đ-ợc 128 luật cÇu nèi-líp.


<b>B-ớc 6.</b> Với ng-ỡng <i>minsupp</i> = 0<i>.</i>75<i>,</i>minconf = 0<i>.</i>75 tìm đ-ợc 128 luật cầu nối-lớp
ứng viên. Độ t-ơng tự, entropy của từng luật và phạm vi cho các ng-ỡng<i>minSim, minEntro</i>
cũng đã đ-ợc tính trong b-ớc này.


<b>B-ớc 7.</b> Với các luật cầu nối-lớp ứng viên và ng-ỡng tối thiểu <i>minSim, minEntro</i>tìm
đ-ợc ở b-ớc 6 thì số luật cầu nối-lớp cốt yếu đ-ợc thống kê theo ng-ỡng<i>minSim, minEntro</i>
thay đổi. Sau đây là bảng thống kê số luật cầu nối-lớp cốt yếu theo một số ng-ỡng
<i>minSim, minEntro.</i>


B¶ng 3.1: Sù phơ thc cđa số l-ợng luật cầu nối-lớp cốt yếu vào các ng-ỡng minSim,
minEntro.


B¶ng 3.1 cho kÕt qu¶ vỊ sù phơ thc cđa số l-ợng luật cầu nối-lớp cốt yếu vào giá
trị của các ng-ỡng <i>minSim, minEntro</i>. Kết quả xét cho tr-ờng hợp số tập có thể tạo cầu là



</div>
<span class='text_page_counter'>(30)</span><div class='page_container' data-page=30>

trong khoảng: <i>minEntro∈</i> [1; 3<i>.</i>321928) (đ-ợc đánh giá theo công thức (12), mệnh đề 2.2.1
trong Ch-ơng 2).


Với giả định sự phân lớp của cơ sở dữ liệu Bảng Tuần Hoàn Các Ngun Tố Hóa Học
là khả hợp thì lẽ tự nhiên các liên kết ngồi giữa các lớp sẽ khơng nhiều. Do đó ta quan tâm
các nhóm luật cầu nối-lớp cốt yếu t-ơng ứng (a), (b), (c) trong bảng 3.1. Nhóm các luật cầu
nối-lớp cốt yếu này đ-ợc cho cụ thể ở bảng 3.2.


Bảng 3.2: Các luật cầu nối-lớp cốt yếu đ-ợc xác định.


Minh häa viƯc tÝnh mét lt cÇu nèi-líp cốt yếu ở bảng trên nh- sau: chẳng hạn luật Sc


<i>→</i>Y trong nhãm (a) . Ta cã \Sc" thuéc líp Chu Ky 4 <i>≡C</i>4 =<i>{</i>K, Ca, Sc, Ti, V, Cr, Mn, Fe,


Co, Ni, Cu, Zn, Ga, Ge, As, Se, Br, Kr<i>}</i>vµ \Y" thc líp Chu Ky 5<i>≡C</i>5=<i>{</i>Rb, Sr, Y, Zr, Nb,


Mo, Ru, Rh, Pd, Ag, Cd, Tc, In, Sn, Sb, Te, I, Xe<i>}</i>, víi tËp <i>C</i>0


9 = <i>{</i>Sc, Ti, V, Cr, Mn, Fe, Co,


Ni, Cu, Zn, Y, Zr, Nb, Mo, Ru, Rh, Pd, Ag, Cd, La, Hf, Ta, W, Re, Os, Ir, Pt, Au, Ac<i>}</i> ta tÝnh
xÊp xØ trªn cđa nó theo <i>F</i> =<i>U/D</i> nhận đ-ợc <i>|R</i>(<i>C</i>0


9)<i>|</i> = 4, và do <i>C</i>4<i>, C</i>5 <i>R</i>(<i>C</i>90) nên (theo


Tính chất 2.1.1 trong Ch-ơng 2) tồn tại tập bắc cầu<i>Bridging</i>C0


9(<i>C</i>4;<i>C</i>5)=<i>{C</i>
0



9<i>C</i>4;<i>C</i>
0
9<i>C</i>5<i>}</i>


gia hai lp ny (nh nghĩa 2.1.1 trong Ch-ơng 2) trong đó
<i>C</i>0


9<i>∩C</i>4 = <i>{</i>Sc, Ti, V, Cr, Mn, Fe, Co, Ni, Cu, Zn<i>}</i>.


<i>C</i>0


9<i>∩C</i>5 = <i>{</i>Y, Zr, Nb, Mo, Ru, Rh, Pd, Ag, Cd<i>}</i>.


Tõ c¬ së dữ liệu Bảng Tuần Hoàn Các Nguyên Tố Hóa Học ta tính <i>supp</i> và <i>conf</i> theo các
công thức (5) và (6) trong Ch-¬ng 2 t-¬ng øng


<i>supp</i>(Sc, Y)= 3


4 = 0<i>.</i>75; <i>conf</i>(Sc <i>→</i> Y)=


3


4 = 0<i>.</i>75;


<i>conf</i>(Y <i>→</i> Sc)= 3


4 = 0<i>.</i>75;


</div>
<span class='text_page_counter'>(31)</span><div class='page_container' data-page=31>

trị nh- nhau của chúng, khi đó độ t-ơng tự giữa hai lớp<i>C</i>4<i>, C</i>5 (công thức (7) trong Ch-ng



2)và các entropy (công thức (9) trong Ch-ơng 2) tính đ-ợc là


<i>Sim</i>(<i>C</i>4<i>, C</i>5) = 0<i>.</i>39506172839; <i>H</i>(<i>Sc</i>) = 3<i>.</i>321928094; <i>H</i>(<i>Y</i>) = 3<i>.</i>169925001.


Ta cã <i>Sim</i>(<i>C</i>4<i>, C</i>5) <i>≥</i> <i>minSim</i> = 0<i>.</i>395058125 vµ <i>min{H</i>(<i>Sc</i>)<i>, H</i>(<i>Y</i>)<i>}</i> = 3<i>.</i>169925001 <i>≥</i>


<i>minEntro</i>= 2<i>.</i>98 nên \Sc <i>→</i>Y" là luật cầu nối-lớp cốt yếu. Hình 3.1 minh họa mối liên kết
ngoài từ lớp <i>C</i>4 sang lớp <i>C</i>5 đ-ợc xác định bởi luật cầu nối-lớp cốt yếu \Sc <i>→</i> Y".


H×nh 3.1: CÊu tróc lt cÇu nèi-líp cèt u \Sc <i>→</i> Y" tõ líp <i>C</i>4 sang líp<i>C</i>5.


Trong b¶ng 3.2, cã thĨ thÊy nhóm (a) gồm các luật cầu nối-lớp giữa lớp Chu kỳ 5 (C5)


và Chu kỳ 6 (C6) (chẳng hạn luật \Y<i></i> La", \Zr<i></i> Hf", ...), trong nhóm (b) là các luật cầu


nối-lớp giữa lớp Chu kỳ 4 (C4) và lớp Chu kỳ 6 (C6) (chẳng hạn \Sc <i></i>La", \Ti <i></i>Ta", ...),


nhóm (c) là các luật cầu nối-lớp giữa lớp Chu kỳ 4 (C4) và lớp Chu kỳ 5 (C5) (chẳng hạn


\Sc <i></i>Y", ...). Trong các lớp còn lại không có luật cầu nối-lớp cốt yếu nào đ-ợc phát hiện.


</div>
<span class='text_page_counter'>(32)</span><div class='page_container' data-page=32>

Sự biến thiên của số l-ợng luật cầu nối-lớp cốt yếu đối với giá trị của ng-ỡng <i>minSim</i>
(khi cố định giá trị của các ng-ỡng<i>minEntro) đ-ợc thể hiện qua Hình 3.2. Với</i> <i>minEntro</i>
= 1, số l-ợng luật cầu nối-lớp cốt yếu giảm từ 24 xuống 6 t-ơng ứng với<i>minSim</i> tăng từ
0.064453125 tới 0.395058125; khi<i>minEntro</i>= 1.44, số l-ợng luật cầu nối-lớp cốt yếu giảm
từ 8 xuống 2 t-ơng ứng với<i>minSim</i>tăng từ 0.064453125 tới 0.328937125.


T-ơng tự, sự biến thiên của số l-ợng luật cầu nối-lớp cốt yếu đối với giá trị của ng-ỡng
<i>minEntro</i>(khi cố định giá trị của các ng-ỡng <i>minSim) đ-ợc thể hiện ở đồ thị trong Hình</i>


3.3.


</div>
<span class='text_page_counter'>(33)</span><div class='page_container' data-page=33>

<b>Kết luận và h-ớng phát triển</b>



Khúa lun l b-c tỡm hiểu cơ bản về lý thuyết tập thô và luật cầu nối-lớp trong một hệ
quyết định dựa vào tính tốn hạt. Sau thời gian học tập và nghiên cứu, luận vn ó t -c
nhng kt qu sau:


<i>ã</i> Trình bày tổng quan về tập thô cổ điển theo quan điểm Pawlak, tính hạt trong mô hình
tập thô.


<i>ã</i> Trỡnh by c s lý thuyết trong khai thác luật cầu nối-lớp và thuật tốn tìm các luật
cầu nối-lớp cốt yếu trong một hệ quyết định dựa vào tính hạt trong tập thơ.


<i>•</i> Xây dựng ch-ơng trình thử nghiệm tìm các luật cầu nối-lớp với cơ sở dữ liệu là Bảng
Tuần Hoàn Các Nguyên Tố Hóa Học. Kết quả thử nghiệm minh chứng cho tính đúng
của việc khai thác luật cầu nối-lớp dựa trên mơ hình tập thơ theo tính hạt đã đ-ợc chứng
minh tr-ớc đó.


</div>
<span class='text_page_counter'>(34)</span><div class='page_container' data-page=34>

<b>Phơ lơc</b>



Ch-ơng trình đ-ợc xây dựng trên ngơn ngữ lập trình <i>C</i># ph-ơng pháp lập trình h-ng
i t-ng v cú cu trỳc sau:


Từ bảng dữ liệu ban đầu


<i>ã</i> Đ-a về bảng thu gọn dựa trên tập thuộc tính điều kiện.


<i>ã</i> Phân hoạch bảng thu gọn theo:
- Chu Ky.



- Tập thuộc tính ý nghĩa.


<i>ã</i> Tìm tập cầu trên hai phân hoạch trên


<i>ã</i> Sinh luật cầu dựa trên các tập cầu vừa tìm đ-ợc


<i>ã</i> Tìm luật cầu ứng viên dựa trên các luật cầu vừa sinh đ-ợc nếu thỏa giá trị <i>minsupp,</i>
<i>minconf.</i>


<i>ã</i> Tìm luật cầu cốt yếu dựa trên các luật cầu ứng viên vừa tìm đ-ợc bên trên nếu thỏa
ng-ỡng<i>minSim, minEntro.</i>


<b>Ch-ơng trình th-c hiện có cấu trúc nh- sau:</b>


<i>ã</i> <b>Lớp l-u trữ các biến toàn cục của ch-ơng trình Global:</b>


Các biến thuộc lớp này có ý nghĩa nh- sau:


- <b>FileName</b> là một biến kiểu <b>string</b> dùng để l-u tên file text cần đọc hoặc ghi dữ


liÖu.


- <b>nobjs</b> là biến kiểu <b>long</b> dùng để l-u số đối t-ợng (số ngun tố hóa học) trong cơ


së d÷ liƯu.


- <b>nattr</b> là biến kiểu<b>int</b> l-u số thuộc tính của đối t-ợng.


- <b>ndecattr</b> là biến kiểu<b>int</b> l-u số thuộc tính quyết định.



</div>
<span class='text_page_counter'>(35)</span><div class='page_container' data-page=35>

- <b>[,] R</b> là biến mảng hai chiều kiểu <b>string</b> l-u bảng dữ liệu ban đầu.
- <b>[] Symbol</b>là biến mảng kiểu <b>string</b> l-u kí hiệu của nguyên tố hóa học.


- <b>[] attr name</b> là biến mảng kiểu <b>string</b> l-u tên các thuộc tính của nguyên tố hóa
học.


- <b>[,] attr</b> là biến mảng hai chiều kiểu <b>string</b> l-u kết quả sau khi thu gọn bảng dữ
liệu ban đầu, biến nµy cã cÊu tróc nh- biÕn <b>[,] R.</b>


- <b>[] IDattr</b>là biến mảng l-u chỉ số của đối t-ợng trong bảng thu gn <b>[,] attr.</b>


<i>ã</i> <b>Lớp chứa các thao tác trên cơ sở dữ liệu gốc Database:</b>


Nghĩa của các hàm trong líp nµy nh- sau:


- <b>ReadFile(string FileName, int SoDTuong, int SoTTinh, int SoTTinhQDinh)</b> lµ


hàm đọc cơ sở dữ liệu từ file text.txt để ch-ơng trình thao tác trên cơ sở dữ liệu đó.


- <b>Reduct(int[] Cond, int n cond, out Equiv class UC)</b> thu gọn bảng dữ liệu gốc


dựa vào mảng thuộc tính đ-a vào<b>Cond</b>.


- <b>Write UC ID(string FileName, Equiv class UC)</b> là hàm ghi kết quả thu gọn của


hàm<b>Reduct</b> theo ID cđa nguyªn tè ra file *.txt.


-<b>Write UC Name(string FileName, Equiv class UC)</b>cịng nh- hµm<b>Write UC ID</b>



nh-ng ghi ra file *.txt theo kÝ hiƯu cđa nguyªn tè hãa häc.


-<b>WriteFile attr(string FileName)</b>ghi kết quả của hàm<b>Reduct</b>ra file *.txt bao gồm


toàn bộ thuộc tÝnh cđa nguyªn tè.


- <b>Compare 2File(string File1, string File2)</b> so sánh hai file txt.


- <b>Display()</b> xuất bảng dữ liệu gốc ra màn hình.


</div>
<span class='text_page_counter'>(36)</span><div class='page_container' data-page=36>

<i>ã</i> <b>Lớp chứa các thao tác liên quan tới tri thức cơ sở của một tËp Set:</b>


Mỗi đối t-ợng trong lớp này thể hiện một tri thức cơ sở của một tập. Các biến thuộc lp
ny cú ý ngha nh- sau:


<b>Các biến:</b>


- <b>nmember</b> là biến kiĨu <b>long</b> thĨ hiƯn sè nguyªn tè trong mét tri thức cơ sở.


-<b>[] o</b> là biến mảng một chiều kiểu<b>long</b>l-u ID của từng nguyên tố trong một tri thức
cơ sở.


<b>Các hàm:</b>


- <b>Set()</b>hàm khởi tạo <b>Set</b> khi không biết chính xác số nguyên tố thuộc tri thức cơ sở


đang làm việc với<b>nmember</b> = 0,<b>o</b> = null.


- <b>Set(long n)</b>hàm khởi tạo <b>Set</b> khi biết chính xác số nguyên tố thuộc tri thức cơ sở



đang làm việc và mảng một chiều<b>o</b>đ-ợc khởi gán b»ng chÝnh <b>n</b>víi<b>nmember</b> = n, <b>o</b> = new
long[n].


- <b>Intersect(Set X)</b>hµm giao giữa tập hiện hành <b>this</b> với tập <b>X</b>.


-<b>Intersect(Set X, long n)</b>hàm giao giữa tập hiện hành<b>this</b>với tập<b>X</b>nh-ng có thêm


</div>
<span class='text_page_counter'>(37)</span><div class='page_container' data-page=37>

-<b>Approx Upper(Equiv class UB, out Set trace)</b>thùc hiÖn thao tác xấp xỉ trên của
một tri thức cơ sở <b>this</b> với một phân lớp <b>UB, kết quả l-u vào</b> <b>trace.</b>


-<b>Approx Lower(Equiv class UB, out Set trace)</b>t-ơng tự hàm trên nh-ng thùc hiƯn
xÊp xØ d-íi mét tri thøc c¬ së.


- <b>Copy Set(out Set Terminal)</b> hàm này hỗ trợ cho hai hàm <b>Approx Upper, </b>
<b>Ap-prox Lower</b>trong việc hủy vùng nhớ không sư dơng.


- <b>Copy Arr Set(Set[] S, out Set[] T)</b> thùc hiện việc sao chép dữ liệu từ mảng các
tập S sang mảng các tập T.


- <b>Display()</b> xuất tập.


- <b>Display name()</b> xuất tập theo ID của bảng dữ liệu thu gọn.
- <b>Display nameR()</b> xt tËp theo kÝ hiƯu cđa tõng nguyªn tè.


-<b>Write Name(ref FileStream fs, ref StreamWriter sw, string FileName), Write ID</b>
<b>( ref FileStream fs, ref StreamWriter sw, string FileName), Write ID attr(ref FileStream</b>
<b>fs, ref StreamWriter sw, string FileName)</b> các hàm này hỗ trợ cho các hàm ghi file trong
lớp tiếp theo sẽ đ-ợc trình bày sau đây.


<i>ã</i> <b>Lớp chứa các thao tác liên quan tới phân lớp Equiv class:</b>



<b>Các biến:</b>


- <b>nclass</b> là biến kiểu<b>long</b> l-u số l-ợng mảng các tập trong một Equiv class.


- <b>[] c</b> là biến kiểu mảng một chiều mỗi phần tử là một<b>Set</b> của một Equiv class.


<b>Các hàm:</b>


- <b>Equiv class()</b> khởi tạo một Equiv class không cÇn tham sè.


</div>
<span class='text_page_counter'>(38)</span><div class='page_container' data-page=38>

-<b>Partition(string[,] dataR, long SoDTuong, int[] cond, int n cond, out Equiv class</b>
<b>UB)</b> phân hoạch <b>dataR</b>dựa trên mảng thuộc tính điều kiện <b>cond</b>, kết quả đ-ợc l-u vào<b>UB</b>.


- <b>Copy Equiv(out Equiv class Copy)</b> hàm này hỗ trợ cho hàm<b>Partition</b>trong việc


hủy vùng nhớ không sử dụng.


- <b>Approx Upper Equiv(Equiv class UB, out Set[] trace)</b> tÝnh xÊp xØ trên của một


phân lớp dựa trên <b>UB</b>.


- <b>Approx Lower Equiv(Equiv class UB, out Set[] UB trace)</b> tÝnh xÊp xØ d-íi của


một phân lớp dựa trên<b>UB</b>.


- <b>Copy arr Equiv(Equiv class[] S, out Equiv class[] T)</b> hỗ trợ cho các hàm tính


xấp xØ.



- <b>Display Approx(Equiv class UB, Set[] Trace)</b> xuÊt kÕt qu¶ xấp xỉ ra màn hình.


-<b>Write Approx(string FileName,Equiv class UB, Set[] Trace, int[] B1, int[] B2)</b>


ghi kÕt qu¶ xÊp xØ ra file *.txt.


-<b>Compare Objs(string[] a, string[] b, int[] cond)</b>so s¸nh hai m¶ng mét chiỊu kiĨu


<b>string</b>.


- <b>TestNumber(string a, out int b)</b>chun mét chuỗi số a thành kiểu số nguyên b.


- <b>Input B(out int[] B)</b> cho ng-ời dùng chọn thuộc tính để phân hoch.


- <b>Write equiv(string FileName, int[] B)</b> xuất kết quả phân hoạch đ-ợc ra file *.txt.


- <b>Write equiv attr(string FileName, int[] B)</b> xuÊt theo chØ sè cña cét thu gän ra


file text.


- <b>Display()</b> xuất phân hoạch theo ID của nguyên tố.


- <b>Display name()</b> xuất phân hoạch theo kí hiệu của nguyên tè.


<i>•</i> <b>Lớp tính các độ đo Calcs:</b>


Các hàm trong lớp này dùng để tính tốn các độ đo có liên quan tới luật cầu nối-lớp, cụ
thể nh-:


- <b>Sim a(int i, int j)</b>hàm này dùng để tính độ t-ơng tự của hai đối t-ợng i và j theo



</div>
<span class='text_page_counter'>(39)</span><div class='page_container' data-page=39>

- <b>Sim b(int i, int j)</b> tính độ t-ơng tự của hai đối t-ợng <i>i</i>và <i>j</i> theo công thức <i>Sim b</i>
đã trình bày ở ch-ơng 2.


- <b>Sim c(int i, int j)</b> tính độ t-ơng tự của hai đối t-ợng <i>i</i> và <i>j</i> theo cơng thức <i>Sim c</i>


đã trình bày ở ch-ơng 2.


- <b>Sim(Set C1, Set C2, Equiv class RC)</b>dùng hàm này để tính độ t-ơng tự của hai


líp<b>C1</b> vµ<b>C2</b> dùa vµo phân hoạch <b>RC</b>.


-<b>prob(Set C1, long i, ref Equiv class RC, ref double[] P, out int p)</b> tÝnh ph©n bè


xác xuất của đối t-ợng<b>i</b> với các phần tử <b>u</b> khác trong<b>C1</b>.


</div>
<span class='text_page_counter'>(40)</span><div class='page_container' data-page=40>

entropy của đối t-ợng<b>i.</b>


- <b>In(int x, int[] B)</b> mục đích kiểm tra<b>x</b> có thuộc <b>B.</b>


- <b>sub(int[] TapBiTru, int[] TapTru, out int[] Hieu)</b> t×m hiƯu cđa hai tËp.


- <b>r(Equiv class C, int[] B, int n B)</b>hµm tÝnh møc chÊt l-ợng xấp xỉ của sự phân lớp
C theo B.


- <b>Find max(double []s)</b> tìm phần tử lớn nhất trong mảng<b>s.</b>


- <b>Find(Equiv class C, ref int[] B, ref int n B, ref int[] maxs, ref int n maxs)</b> tÝnh
møc ý nghÜa thuéc tÝnh.



- <b>find alpha(Equiv class C, ref Set[] b, ref double[] alpha, ref int k)</b> xác định
ng-ỡng cho alpha.


-<b>Find B(ref Equiv class C, ref int[] B,ref int m, double alpha)</b>xác định tập thuộc
tính B cho phân lớp thứ hai.


- <b>TestNumber(string a, out int b)</b>chuyển một chuỗi số a sang số nguyên b.
- <b>TestNumber(string a, out float b)</b>chuyển một chuỗi số a sang sè thùc b.


-<b>calc prob(ref Equiv class RC, ref int[] a, ref double[] P, out int n)</b> tÝnh x¸c xt
cđa tõng thuéc tÝnh.


-<b>Find B hprob(ref Equiv class RC, ref int[] a, ref double[] P, ref int n, out int[]</b>
<b>B, out int m)</b>tìm nhóm thuộc tính có xác xuất cao.


- <b>Find B lprob(ref Equiv class RC, ref int[] a, ref double[] P, ref int n, out int[]</b>
<b>B, out int m)</b>t×m nhãm thuộc tính có xác xuất thấp.


<i>ã</i> <b>Lớp khai thác luật cÇu nèi - líp Bridge:</b>


Các đối t-ợng trong lớp này đ-ợc l-u thành một <b>struct</b>


<b>Brid</b> là một tập cầu. Trong đó, biến <b>nclass</b> l-u số phần tử của <b>Brid</b>, biến <b>[] cname</b> là
mảng một chiều kiểu <b>int</b> l-u chỉ số của các tri thức hạt, biến <b>bridname</b> là kiểu <b>int</b> l-u chỉ
số của một tri thức hạt,<b>[] H</b>là mảng các<b>Set</b>, phần tử thứ i trong<b>H</b>l-u lại các phần tử thuộc
phần giao giữa <b>bridname</b> với tri thức hạt thứ i mà mảng <b>cname</b> l-u lại. Tiếp theo là một
struct<b>Brid set</b> là một tập các tập cầu.


Cơ thĨ, biÕn<b>nbrid</b>kiĨu<b>int</b> l-u l¹i sè phần tử của<b>Brid set</b>,<b>[] Br</b> là một mảng các<b>Brid</b>.
Để thể hiện các luật cầu nối-lớp ta có cấu trúc sau:



<b>Rule</b> l-u tồn bộ các thuộc tính liên quan tới một luật cầu nối-lớp. Trong đó, <b>br</b> kiểu


<b>int</b>l-u chØ sè cđa mét tri thøc h¹t<i>C</i>i0<i>∈U/B; biÕn</i><b>lclass</b>kiĨu <b>int</b>l-u l¹i tri thøc h¹t mà phần


t bờn trỏi ca lut cu thuc vo; t-ng tự biến <b>rclass</b> kiểu <b>int</b> l-u lại tri thức hạt mà phần
tử bên phải của luật cầu thuộc vào; <b>left</b> kiểu <b>long</b> là đối t-ợng bên trái của luật cầu; <b>right</b>


</div>
<span class='text_page_counter'>(41)</span><div class='page_container' data-page=41>

supp của luật; biến<b>sim</b> kiểu <b>double</b> l-u lại độ t-ơng tự của luật; <b>HR</b>, <b>HL</b> kiểu <b>double</b> l-u
lại entropy bên phải, bên trái t-ơng ứng của luật cầu. Và cuối cùng là tập các luật.


BiÕn <b>nrule</b>kiÓu <b>long</b>cho biết số luật cầu. <b>[] r</b> là mảng một chiều các luật cầu. Sau đây


là các hàm trong lớp <b>Bridge</b>


<i>Y</i>0 <sub>nghĩa của các hàm trong lớp này là:</sub>


- <b>Find Bridge Set(Equiv class UF, Equiv class UB, out Brid set BRIDGE1)</b> tìm


các tập cầu từ hai phân hoạch<b>UF</b>và<b>UB</b>.


- <b>Display Bridge set(Brid set BRIDGE)</b> xuất các tập cầu ra màn hình.


- <b>Write Bridge set(string FileName, Brid set BRIDGE)</b> ghi các tập cầu ra file


</div>
<span class='text_page_counter'>(42)</span><div class='page_container' data-page=42>

- <b>Calc supp(long l, long r, ref int suppl, ref int suppr, ref int supp)</b>tÝnh c¸c supp
cho mét luËt cÇu.


- <b>Bridge Rule(Brid set BRIDGE, out Rule Set R)</b> hàm này dùng để sinh luật cầu



nèi-líp mét phía.


-<b>Display Rule Set(ref Rule Set R)</b>xuất các luật cầu nối-lớp một phía vừa tìm đ-ợc


ở hàm<b>Bridge Rule</b> trên.


- <b>Write Rule Name(ref FileStream fs, ref StreamWriter sw, string FileName,</b>


<b>Rule r, Equiv class RC)</b> ghi các luật cầu theo kí hiệu nguyên tè ra file text.


- <b>Write Rule Set(string FileName, ref Rule Set R)</b>ghi các tập luật cầu nối-lớp ra


file text.


-<b>Find Class name(Brid set BRIDGE, int cname, int x)</b> mục đích hỗ trợ cho hàm


<b>Calc Sim Entropy</b>.


- <b>Calc Sim Entropy(ref Rule Set R, Brid set BRIDGE, ref Equiv class C, ref</b>


<b>Equiv class RC, ref double minH, ref double maxH)</b>tÝnh sim vµ entropy của các tập luật


cầu ứng viên.


- <b>Find Candidate Rule Set(ref Rule Set R, double minsupp, double minconf,</b>


<b>Brid set BRIDGE, ref Equiv class C, ref Equiv class RC, out Rule Set CR, out double</b>


<b>minH, out double maxH)</b> tìm các luật cầu øng viªn.



- <b>Display Rule Set1(ref Rule Set R)</b>xuất các luật cầu vừa tìm đ-ợc với đầy đủ các


độ đo của một luật.


- <b>Write Rule Set1(ref FileStream fs,ref StreamWriter sw, string FileName, ref</b>


<b>Rule Set R, Equiv class RC)</b>ghi các luật cầu nèi-líp ra file text víi kÝ hiƯu cđa nguyªn tè.


- <b>Find Min(double a, double b)</b> tìm phần tử nhỏ nhất, mục đích hỗ trợ cho hàm


tiÕp theo.


- <b>Find Essential Class Bridge Rule(ref Rule Set CR, Brid set BRIDGE,</b> <b>ref</b>


<b>Equiv class RC, double minsim, double minentropy, out Rule Set ER)</b>t×m luËt cÇu nèi-líp


</div>
<span class='text_page_counter'>(43)</span><div class='page_container' data-page=43>

- <b>FindMinMaxSim(ref Rule Set R, out double Min minsim, out double</b>


<b>Max minsim)</b> tìm phạm vi cho <i>minSim</i>cđa tËp lt cÇu nèi-líp.


- <b>ThongKe LuatCau TheoNguong(string FileName, ref Rule Set R, Brid set</b>


<b>BRIDGE, ref Equiv class C, ref Equiv class RC, ref double Minentr, ref double Maxentr)</b>


thống kê các luật cầu nối-lớp theo các ng-ỡng <i>minSim</i>và <i>minEntro</i> thay đổi với ID của
từng nguyên tố trong bảng dữ liệu ban đầu.


- <b>ThongKe LuatCau TheoNguong Detail(string FileName, ref Rule Set R,</b>


<b>Brid set BRIDGE, ref Equiv class C, ref Equiv class RC, ref double Minentr, ref double</b>



<b>Maxentr)</b> thống kê các luật cầu nối-lớp theo các ng-ỡng <i>minSim</i> và <i>minEntro</i> thay đổi


</div>
<span class='text_page_counter'>(44)</span><div class='page_container' data-page=44>

[1] Đặng Ph-ớc Huy, <i>Thuật toán phát hiện lt cÇu nèi-líp, 2011</i>
[2] Z. Pawlak, <i>Rough Sets, Kluwer Academic Publishers, 1991.</i>


[3] Tạ Thị Thu Ph-ợng, Huỳnh Bảo Tuyên, Đặng Ph-ớc Huy, <i>Một số vấn đề trong khai</i>
<i>thác luật cầu nối-lớp dựa vào tập thô, 2011.</i>


[4] Tạ Thị Thu Ph-ợng, <i>Sự phụ thuộc của các thuộc tính trong hệ quyết nh: S dng</i>
<i>mụ hỡnh tp thụ, 2011.</i>


[5] Huỳnh Bảo Tuyên, <i>TËp th« - TËp th« dung sai, 2011.</i>


</div>

<!--links-->

×