Tải bản đầy đủ (.pdf) (25 trang)

Thông tin tóm tắt về những đóng góp mới của luận án tiến sĩ: Khai phá luật quyết định trên mô hình dữ liệu dạng khối.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (697.33 KB, 25 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

VÀ CÔNG NGHỆ VIỆT NAM


<b>HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ </b>


<b>--- </b>


<b>Đỗ Thị Lan Anh </b>



<b>KHAI PHÁ LUẬT QUYẾT ĐỊNH </b>
<b>TRÊN MƠ HÌNH DỮ LIỆU DẠNG KHỐI </b>


Chuyên ngành: Khoa học máy tính
<b> Mã số: 9 48 01 01 </b>


<b>TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH </b>
<b> </b>


</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam.


Người hướng dẫn khoa học: PGS. TS. Trịnh Đình Thắng


Phản biện 1: PGS. TS. Nguyễn Hữu Quỳnh
Phản biện 2: PGS. TS. Đỗ Năng Toàn
Phản biện 3: PGS. TS. Phạm Văn Cường


Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến
sĩ cấp Học viện, họp tại Học viện Khoa học và Công nghệ -
Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi …
giờ .., ngày … tháng … năm 201….


Có thể tìm hiểu luận án tại:



</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

<b>MỞ ĐẦU </b>
<b>1. Tính cấp thiết của luận án </b>


Khai phá các luật quyết định là quá trình xác định những
luật quyết định trên bảng quyết định cho trước, phục vụ cho bài
toán phân lớp đối tượng. Đây là một trong những kĩ thuật khai
phá dữ liệu khá phổ biến và đã được nhiều chuyên gia trong và
ngồi nước nghiên cứu trên cả mơ hình quan hệ và các mơ hình
mở rộng của mơ hình quan hệ.


Các nghiên cứu trên thế giới và trong nước ta đều nhằm
mục đích tìm ra tri thức có ý nghĩa, cụ thể là các luật trên các mơ
hình dữ liệu khác nhau với các hướng nghiên cứu khác nhau. Một
hướng tiếp cận với mơ hình dữ liệu dạng khối của nhóm tác giả
với mục đích theo dõi được các luật diễn ra trong một quá trình
thay đổi theo thời gian, giai đoạn… chính là mong muốn đóng
góp được của luận án.


<b>2. Mục tiêu nghiên cứu của luận án </b>


Mục tiêu của luận án tập trung giải quyết ba bài tốn:
- Tìm các luật quyết định trên khối và trên lát cắt.
- Tìm các luật quyết định giữa các nhóm đối tượng trên
khối khi có sự thay đổi giá trị thuộc tính, cụ thể là khi làm mịn,
hoặc làm thơ giá trị thuộc tính.


- Tìm các luật quyết định giữa các nhóm đối tượng trên
khối khi bổ sung, loại bỏ phần tử của khối.



<b>3. Bố cục của luận án </b>


</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

Chương đầu trình bày một số khái niệm cơ sở về mơ hình
dữ liệu dạng khối, khai phá dữ liệu, khai phá luật quyết định và
quan hệ tương đương.


Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là
đề xuất thuật tốn MDLB để tìm các luật quyết định trên khối và
lát cắt của khối. Thứ hai là đề xuất thuật toán MDLB_VAC nhằm
tìm ra các luật quyết định trên khối trong trường hợp giá trị thuộc
tính thay đổi. Thêm vào đó, đưa ra các nghiên cứu lí thuyết về
khai phá trên khối, tính tốn độ phức tạp và cài đặt thử nghiệm
các thuật toán đề xuất.


Chương 3 xây dựng mơ hình tăng hoặc giảm tập đối
tượng của khối quyết định; đề xuất hai thuật toán gia tăng
MDLB_OSC1 và MDLB_OSC2 để tìm các luật quyết định trên
khối quyết định khi tập đối tượng thay đổi và cài đặt thử nghiệm.


<b>CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ </b>
<b>1.1. Khai phá dữ liệu </b>


<i><b>1.1.1. Định nghĩa khai phá dữ liệu </b></i>


Khai phá dữ liệu là khâu chủ yếu trong quá trình phát
hiện ra tri thức trong cơ sở dữ liệu. Quá trình này kết xuất ra các
tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo, ra quyết định
<i><b>trong kinh doanh, quản lý, các hoạt động sản xuất,… </b></i>


<i><b>1.1.2. Một số kỹ thuật khai phá dữ liệu </b></i>


- Phân lớp (Classification).
- Dự đoán (Prediction).


- Luật kết hợp (Association Rule).
- Phân cụm (Clustering).


</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

<i><b>1.2.1. Hệ thông tin </b></i>


<i><b>Định nghĩa 1.1 (Hệ thông tin) </b></i>


<i>Hệ thông tin là một bộ bốn S = (U,A,V,f)trong đó U là </i>
<i>tập đối tượng là một tập hữu hạn, khác rỗng các đối tượng (U còn </i>
<i>được gọi là tập vũ trụ) và A là tập thuộc tính là một tập hữu hạn, </i>
<i>khác rỗng các thuộc tính; V là tập giá trị, trong đó </i>

𝑉 = ∪



𝑎∈𝐴

𝑉

𝑎với


<i>Va là tập giá trị của thuộc tính a </i><i> A, f là hàm thơng tin f : U x </i>


<i>A</i>→<i>V, trong đó </i><i>a </i><i> A, </i><i>u </i><i> U: f(u,a) </i><i> Va</i>.


<i><b>1.2.2. Quan hệ không phân biệt được </b></i>


<i>Cho hệ thông tin S = (U,A,V,f) với mỗi tập con các thuộc </i>
<i>tính P </i><i> A, tồn tại một quan hệ hai ngôi trên U, ký hiệu là IND(P), </i>
được xác định như sau:


<i>IND(P) = {(u,v) </i><i> U x U|u(a) = v(a), </i><i>a </i><i> P) </i>


<i>IND(P) được gọi là quan hệ không phân biệt được </i>


(Indiscernibility Relation).


<i><b>1.2.3. Bảng quyết định </b></i>


Bảng quyết định là một hệ thơng tin đặc biệt trong đó tập
thuộc tính 𝐴 được chia thành hai tập khác rỗng rời nhau C và D
<i>(A= C</i><i>D, C</i><i>D = </i><i>) tương ứng được gọi là tập thuộc tính điều </i>
<i>kiện C và tập thuộc tính quyết định D. </i>


<i>Bảng quyết định được ký hiệu là: DS = (U,C</i><i>D,V,f) </i>
<i>hay đơn giản là DS = (U,C</i><i>D). </i>


<i><b>1.2.4. Luật quyết định </b></i>


<i>Định nghĩa 1.4 (Luật quyết định) </i>


<i>Cho bảng quyết định DS = (U,C</i><i>D), giả sử U/C = </i>
<i>{C1,C2,…,Cm} và U/D = {D1,D2,…,Dn} là các phân hoạch được </i>


<i>sinh bởi C, D. Với Ci </i><i> U/C, Dj</i><i> U/D một luật quyết định được </i>


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

<b>1.3. Mơ hình dữ liệu dạng khối </b>


<i><b>1.3.1. Khối </b></i>
<i>Định nghĩa 1.8 </i>


<i> Gọi R = (id;A1,A2,...,An) là một bộ hữu hạn các phần tử, </i>


<i>trong đó id là tập chỉ số hữu hạn khác rỗng, Ai (i=1..n) là các </i>



<i>thuộc tính. Mỗi thuộc tính Ai (i=1..n) có miền giá trị tương ứng </i>


<i>là dom(Ai ). Một khối r trên tập R, kí hiệu r(R) gồm một số hữu </i>


<i>hạn phần tử mà mỗi phần tử là một họ các ánh xạ từ tập chỉ số id </i>
<i>đến các miền trị của các thuộc tính Ai, (i=1..n). Nói một cách </i>


<i>khác: t </i><i> r(R) </i><i> t = {ti: id </i>→<i> dom(Ai)} i =1..n</i>


<i><b>1.3.2. Lát cắt </b></i>


<i>Cho R = (id;A1,A2,...,An), r(R) là một khối trên R. Với </i>


<i>mỗi x</i><i> id ta kí hiệu r(Rx) là một khối với Rx = ({x};A1,A2,...,An) </i>


<i><b>sao cho: t</b>x</i><i> r(Rx ) </i><i> tx = {tix = ti }i =1..n với t </i><i> r và t = {ti : id </i>→


<i>dom(Ai) }i =1..n ở đây tix(x) = ti<b>(x) với i=1..n. </b></i>


<i>Khi đó r(Rx) được gọi là một lát cắt trên khối r(R) tại điểm x. </i>


<i>Từ đây, để đơn giản chúng ta sử dụng kí hiệu: x(i)=(x;Ai); </i>


<i>id(i) = {x(i)|x </i><i> id}. Ta gọi x(i) (x</i><i> id, i = 1..n) là thuộc tính chỉ số của </i>
<i>lược đồ khối R = (id;A1,A2,...,An ). </i>


<i><b>1.3.3. Đại số quan hệ trên khối </b></i>


Phép hợp Phép giao
Phép trừ Tích Đề các


Tích Đề các theo tập chỉ số Phép chiếu
Phép chọn Phép kết nối
Phép chia


<b>1.4 . Kết luận chương 1 </b>


Chương một của luận án trình bày tổng quan về khai phá dữ


</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

liệu, các kỹ thuật khai phá dữ liệu, kiến thức về khai phá luật quyết
định, lớp tương đương… Phần cuối của chương trình bày một số khái
niệm cơ bản của mơ hình dữ liệu dạng khối: khối, lát cắt của khối tại
một điểm, đại số quan hệ trên khối. Những kiến thức này sẽ là cơ sở
cho các vấn đề được trình bày ở các chương tiếp theo của luận án.


<b>CHƯƠNG 2. KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN </b>
<b>KHỐI DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI </b>
<b>2.1 Một số khái niệm xây dựng trên khối </b>


<b>2.1.1 Khối thông tin </b>


<i>Định nghĩa 2.1 </i>


<i>Cho lược đồ khối R = (id;A1,A2,...,An), r là một khối trên </i>


<i>R. Khi đó khối thơng tin là một bộ bốn IB = (U,A,V,f) với U là </i>
<i>tập các đối tượng thuộc r gọi là không gian các đối tượng, A = </i>


𝑛<sub>𝑖=1</sub>

𝑖𝑑

(𝑖)<i> là tập các thuộc tính chỉ số của đối tượng, V = </i>


<sub>𝑥</sub>(𝑖)<sub>∈𝐴</sub>

𝑉

<sub>𝑥</sub>(𝑖),

𝑉

<sub>𝑥</sub>(𝑖) là tập giá trị của các đối tượng ứng với thuộc

<i>tính chỉ số x(i)</i>


<i>, f là hàm thông tin UxA</i>→<i> V thỏa mãn: </i><i>u</i><i>U, </i>
<i>x(i)</i><i>A ta có f(u, x(i))</i>𝑉<sub>𝑥</sub>(𝑖).


<b>2.1.2 Quan hệ khơng phân biệt được </b>


<i>Định nghĩa 2.3 </i>


<i>Cho khối thông tin IB = (U,A,V,f). Khi đó với mỗi tập </i>
<i>thuộc tính chỉ số P</i><i> A ta xác định một quan hệ tương đương, kí </i>
<i>hiệu IND(P) định nghĩa như sau: </i>


<i>IND(P) = {(u,v)</i><i> UxU | </i><i> x(i)</i><i>P: f(u,x(i))=f(v,x(i))}, và </i>
gọi là quan hệ không phân biệt được.


<b>2.1.3 Khối quyết định </b>


<i>Định nghĩa 2.5 </i>


</div>
<span class='text_page_counter'>(8)</span><div class='page_container' data-page=8>

các đối tượng,


<i>A = . Khi đó nếu A được chia thành 2 tập C và D </i>
sao cho:


<i>C=</i>⋃𝑘𝑖=1,𝑥∈𝑖𝑑𝑥(𝑖)<i>, D=</i>⋃𝑛𝑖=𝑘+1,𝑥∈𝑖𝑑𝑥(𝑖)<i>, thì khối thơng </i>


<i>tin IB gọi là khối quyết định và kí hiệu là DB=(U,C</i><i>D,V,f). </i>


<b>2.1.4 Luật quyết định trên khối và trên lát cắt </b>



<i>Định nghĩa 2.7 </i>


<i>Cho khối quyết định DB = (U,C</i><i>D), với U là không gian </i>
các đối tượng:


<i>C =</i> ⋃𝑘𝑖=1,𝑥∈𝑖𝑑𝑥(𝑖)<i>, D =</i>⋃𝑛𝑖=𝑘+1,𝑥∈𝑖𝑑𝑥(𝑖)<i>, và </i>


<i>Cx=</i>⋃𝑘 𝑥(𝑖)


𝑖=1 <i>, Dx=</i>⋃𝑛𝑖=𝑘+1𝑥(𝑖)<i>, x</i><i>id. </i>


Khi đó:


<i>U/C={C1,C2,…,Cm}, U/Cx = </i>{𝐶<sub>𝑥1</sub>, 𝐶<sub>𝑥2</sub>, . . . , 𝐶<sub>𝑥𝑡</sub><sub>𝑥</sub><i>}, </i>


<i>U/D={D1,D2,…,Dk}, U/Dx = tương </i>


<i>ứng là các phân hoạch được sinh ra bởi C, Cx<sub>, D, D</sub>x</i><sub>. Một luật </sub>


<i>quyết định trên khối có dạng: Ci</i>→<i> Dj, i=1..m, j=1..k, và trên lát </i>


<i>cắt tại điểm x có dạng: Cxi</i>→<i> Dxj , i=1..tx, j=1..hx </i>.


<i>Định nghĩa 2.8 </i>


<i>Cho khối quyết định DB=(U,C</i><i>D), Ci</i><i>U/C, Dj</i><i>U/D, </i>


𝐶𝑥𝑝𝑥<i>U/C</i>



<i>x</i>


, 𝐷𝑥𝑞𝑥<i>U/D</i>


<i>x</i>


, <i>i=1..m, </i> <i>j=1..n, </i> <i>p</i><i>{1,2,…,tx}, </i>


<i>q</i><i>{1,2,…,hx}, x</i><i>id. Khi đó, độ hỗ trợ, độ chính xác và độ phủ </i>


<i>của luật quyết định Ci</i>→<i> Dj</i> trên khối là:


<i>- Độ hỗ trợ: Sup(Ci,Dj) = |Ci</i><i>Dj)|, </i>


<i>- Độ chính xác: Acc(Ci,Dj) = </i>


|𝐶𝑖∩𝐷𝑗|


|𝐶𝑖| ,
<i>- Độ phủ: Cov(Ci,Dj) = </i>


|𝐶𝑖∩𝐷𝑗|


|𝐷𝑗| .
<i>Định nghĩa 2.9 </i>


<i>Cho khối quyết định DB=(U,C</i><i>D), Ci</i><i>U/C, Dj</i><i>U/D </i>


( )
1


<i>n</i>
<i>i</i>
<i>i</i>
<i>id</i>
=


</div>
<span class='text_page_counter'>(9)</span><div class='page_container' data-page=9>

tương ứng là các lớp tương đương điều kiện và các lớp tương
<i>đương quyết định được sinh bởi C, D, Ci</i>→<i> Dj</i> là một luật quyết


<i>định trên khối DB, i=1..m, j=1..n. </i>


<i>- Nếu Acc(Ci</i>→<i> Dj) = 1 thì Ci</i>→<i> Dj</i> gọi là một luật quyết


định chắc chắn.


<i>- Nếu 0 < Acc(Ci</i>→<i> Dj) < 1 thì Ci</i>→<i> Dj</i> gọi là một luật


quyết định không chắc chắn.
<i>Định nghĩa 2.10 </i>


<i>Cho khối quyết định DB=(U,C</i><i>D), Ci</i><i>U/C, Dj</i><i>U/D, </i>


<i>i=1..m, j=1..n tương ứng là các lớp tương đương điều kiện và các </i>
<i>lớp tương đương quyết định được sinh bởi C, D; </i>,  là hai
<i>ngưỡng cho trước (</i><i>, </i><i>(0,1)). Khi đó, nếu Acc (Ci,Dj) </i> và


<i>Cov (Ci,Dj) </i><i> thì ta gọi Ci</i>→<i> Dj</i> là luật quyết định có ý nghĩa.
<b>2.2 Thuật tốn khai phá luật quyết định trên khối và trên lát </b>
<b>cắt (MDLB). </b>



<i>Thuật toán MDLB gồm các bước sau: </i>


- Bước 1: Phân các lớp tương đương điều kiện, quyết định
trên khối (trên lát cắt).


- Bước 2: Tính ma trận độ hỗ trợ trên khối (trên lát cắt)
- Bước 3: Tính ma trận độ chính xác, ma trận độ phủ
- Bước 4: Tìm luật quyết định trên khối.


<b>2.3. Khai phá luật quyết định trên khối có giá trị thuộc tính </b>
<b>thay đổi </b>


<i><b>Định nghĩa 2.11(Định nghĩa làm mịn giá trị thuộc tính chỉ số trên khối) </b></i>
<i>Cho khối quyết định DB= (U,C</i><i>D,V,f), với U là không </i>
<i>gian các đối tượng, a</i><i> C</i><i>D, Va</i> là tập các giá trị hiện có của


</div>
<span class='text_page_counter'>(10)</span><div class='page_container' data-page=10>

<i>tượng có giá trị z trên thuộc tính chỉ số a. Nếu Z được phân hoạch </i>
<i>thành hai tập W và Y sao cho: Z=W</i><i>Y, W</i><i>Y=</i><i> với W={xp</i><i>U| </i>


<i>f(xp,a) = w, w</i><i>Va}, Y={xq</i><i>U| f(xq,a) = y, y</i><i>Va}, thì ta nói giá trị </i>


<i>z của thuộc tính chỉ số a được làm mịn thành hai giá trị mới w và </i>
<i>y. </i>


<i><b>Định nghĩa 2.12(Định nghĩa làm thơ giá trị thuộc tính chỉ số trên khối) </b></i>
<i>Cho khối quyết định DB=(U,C</i><i>D,V,f), với U là không </i>
<i>gian các đối tượng, a</i><i> C</i><i>D, Va là tập các giá trị hiện có của </i>


<i>thuộc tính chỉ số a. Giả sử f(xp,a)=w, f(xq,a)=y tương ứng là giá </i>



<i>trị của xp, xq trên thuộc tính chỉ số a (p</i><i>q). Nếu tại thời điểm nào </i>


<i>đó ta có: f(xp,a)= f(xq,a)=z, (z</i><i>Va) thì ta nói hai giá trị w, y của a </i>


<i>được làm thô thành giá trị mới z. </i>
<i>Định lý 2.1 </i>


<i>Cho khối quyết định DB = (U,C</i><i>D,V,f ), với U là không </i>
<i>gian các đối tượng, a </i><i> C</i><i>D, Va</i> là tập các giá trị hiện có của


<i>thuộc tính chỉ số a. Khi đó, hai lớp tương đương Ep, Eq</i> nào đó


<i>(Ep, Eq</i><i>U/E, E</i><i>{C,D}) được làm thô thành lớp tương đương </i>


<i>mới Es</i> khi và chỉ khi <i>aj</i><i> a: f(Ep,aj) = f(Eq,aj). </i>


<i>Định lý 2.2 </i>


<i>Cho khối quyết định DB = (U,C</i><i>D,V,f ), với U là không </i>
<i>gian các đối tượng, a</i><i> C</i><i>D, Va</i> là tập các giá trị hiện có của


<i>thuộc tính chỉ số a. Khi đó, lớp tương đương Es (Es</i><i>U/E, </i>


<i>E</i><i>{C,D}) được làm mịn thành hai lớp tương đương mới Ep, Eq</i>


<i>nào đó khi và chỉ khi ta có thể đặt: f(Ep,a)=w, f(Eq,a)=y và Ep</i>


<i>Eq=Es, w, y</i><i>Va, w</i><i> y. </i>


<i>Định lý 2.3 </i>



</div>
<span class='text_page_counter'>(11)</span><div class='page_container' data-page=11>

có ý nghĩa trên khối quyết định thì nó cũng là một luật quyết định
<i>có ý nghĩa trên một lát cắt bất kì của khối quyết định tại x</i><i>id. </i>


<b>2.3.1 Làm mịn, thô các lớp tương đương điều kiện trên khối </b>
<b>quyết định và trên lát cắt. </b>


<i>Mệnh đề 2.3 </i>


<i>Cho khối quyết định DB = (U, C</i><i>D, V, f ), a=x(i)</i><i> C, Va</i>


<i>là tập các giá trị hiện có của thuộc tính chỉ số điều kiện a, giá trị </i>
<i><b>z của a được làm mịn thành hai giá trị mới w và y. </b></i>


<i>Khi đó, nếu lớp tương đương điều kiện Cs</i><i> U/C, </i>


<i>(f(Cs,a)=z ) được làm mịn thành hai lớp tương đương điều kiện </i>


<i>mới Cp,Cq (f(Cp,a)=w, f(Cq,a)=y, với w,y</i><i>Va ) nào đó thì trên lát </i>


<i>cắt rx, tồn tại lớp tương đương Cxi thỏa mãn: Cs</i><i> Cxi , cũng được </i>


<i>làm mịn thành hai lớp tương đương điều kiện mới Cxi’ và Cxi’’ </i>sao


<i>cho: Cp</i><i>Cxi’, Cq</i><i>Cxi’’ (f(Cxi’,a)=w, f(Cxi’’,a)=y). </i>


<i>Mệnh đề 2.5 </i>


<i>Cho khối quyết định DB = (U,C</i><i>D,V,f), a=x(i)</i><i> C, Va</i> là



<i>tập các giá trị hiện có của thuộc tính chỉ số điều kiện a, các giá </i>
<i>trị w và y của a được làm thô thành giá trị mới z. </i>


<i>Khi đó, nếu hai lớp tương đương điều kiện Cp,Cq</i><i>U/C, </i>


<i>(f(Cp,a)=w, f(Cq,a)=y) nào đó được làm thô thành lớp tương </i>


<i>đương điều kiện mới Cs</i><i> U/C (f(Cs,a)=z) thì trên lát cắt rx</i> tồn tại


<i>hai lớp tương đương điều kiện Cxi, Cxj thỏa mãn: Cp</i><i>Cxi, Cq</i><i>Cxj, </i>


<i>cũng được làm thô thành lớp tương đương điều kiện mới Cxk </i>sao


<i>cho: Cs </i><i>Cxk. </i>


<b>2.3.2 Làm mịn, thô các lớp tương đương quyết định trên khối </b>
<b>và trên lát cắt </b>


</div>
<span class='text_page_counter'>(12)</span><div class='page_container' data-page=12>

<i>Cho khối quyết định DB = (U,C</i><i>D,V,f), a=x(i)</i><i><sub> D, V</sub></i>
<i>a</i>


<i>là tập các giá trị hiện có của thuộc tính chỉ số quyết định a, giá </i>
<i><b>trị z của a được làm mịn thành hai giá trị mới w và y. </b></i>


<i>Khi đó, nếu lớp tương đương quyết định Ds</i><i> U/D </i>


<i>(f(Ds,a)=z) được làm mịn thành hai lớp tương đương quyết định </i>


<i>mới Dp,Dq (f(Dp,a)=w, f(Dq,a)=y, với w,y</i><i>Va) nào đó thì trên lát </i>



<i>cắt rx, tồn tại lớp tương đương Dxi thỏa mãn: Ds</i><i> Dxi</i> , cũng được


<i>làm mịn thành hai lớp tương đương quyết định mới Dxi’ và Dxi’’ </i>


<i>sao cho: Dp</i><i>Dxi’, Dq</i><i>Dxi’’ (f(Dxi’,a)=w, f(Dxi’’,a)=y). </i>


<i>Mệnh đề 2.9 </i>


<i>Cho khối quyết định DB = (U,CD,V,f), a=x(i)</i>


<i> D, Va</i>


<i>là tập các giá trị hiện có của thuộc tính chỉ số quyết định a, các </i>
<i>giá trị w và y của a được làm thô thành giá trị mới z. </i>


<i>Khi đó, nếu hai lớp tương đương quyết định Dp,Dq</i>,


<i>(f(Dp,a)=w, f(Dq,a)=y) nào đó được làm thô thành lớp tương </i>


<i>đương quyết định mới Ds</i><i> U/D (f(Ds,a)=z) thì trên lát cắt rx</i> tồn


<i>tại hai lớp tương đương quyết định Dxi, Dxj thỏa mãn: Dp</i><i>Dxi, </i>


<i>Dq</i><i>Dxj</i>, cũng được làm thô thành lớp tương đương quyết định


<i>mới Dxk sao cho: Ds </i><i>Dxk</i>.


<b>2.3.4 Thuật toán khai phá luật quyết định trên khối có giá trị </b>
<b>thuộc tính chỉ số thay đổi (MDLB_VAC). </b>



Thuật toán MDLB_VAC gồm các bước sau:


<i>Bước 1: Tính ma trận độ hỗ trợ Sup(C,D) của khối ban </i>
đầu.


</div>
<span class='text_page_counter'>(13)</span><div class='page_container' data-page=13>

<i>Bước 3: Tính ma trận độ chính xác Acc(C’,D’), ma trận </i>
<i>độ phủ Cov(C’,D’) sau khi làm thô/mịn giá trị thuộc tính chỉ số </i>
<i>từ ma trận Sup(C’,D’) </i>


Bước 4: Sinh luật quyết định trên khối.


<b>2.4 Độ phức tạp của các thuật tốn tính ma trận Sup trên </b>
<b>khối và lát cắt. </b>


<i><b>Mệnh đề 2.13: Thuật tốn tính ma trận độ hỗ trợ cho khối quyết </b></i>
<i>định và cho lát cắt tại điểm x</i><i>id cùng có độ phức tạp là O(|U|2<b>). </b></i>
<i><b>Mệnh đề 2.14: Thuật tốn tính ma trận độ hỗ trợ cho khối quyết </b></i>
<i>định và cho lát cắt tại điểm x</i><i>id sau khi làm thô các giá trị của </i>
<i>thuộc tính chỉ số điều kiện cùng có độ phức tạp là O(|U|2</i>


<i>). </i>
<i>Mệnh đề 2.15: Thuật tốn tính ma trận độ hỗ trợ cho khối quyết </i>
<i>định và cho lát cắt tại điểm x</i><i>id sau khi làm mịn giá trị của thuộc </i>
<i>tính chỉ số điều kiện cùng có độ phức tạp là O(|U|2</i>


<i>). </i>


<b>2.6 Kết luận </b>


Chương này trình bày những kết quả đầu tiên của luận


án: Xây dựng một số khái niệm cơ bản về khai phá luật trên khối.
Trên cơ sở đó một số tính chất, mệnh đề, định lí liên quan đã
được phát biểu và chứng minh.


- Xây dựng thuật toán MDLB tìm luật quyết định trên
khối và trên lát cắt.


</div>
<span class='text_page_counter'>(14)</span><div class='page_container' data-page=14>

<b>CHƯƠNG 3. KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN </b>
<b>KHỐI CÓ TẬP ĐỐI TƯỢNG THAY ĐỔI </b>


<b>3.1 Mơ hình bổ sung và loại bỏ các đối tượng trên khối và </b>
<b>trên lát cắt. </b>


<i><b>Mệnh đề 3.1: Cho khối quyết định DB = (U,C</b></i><i>D,V,f), AN và </i>
<i>DM là tập các đối tượng bổ sung và loại bỏ tương ứng đối với </i>
<i><b>khối quyết định DB. Khi đó ta có: </b></i>


<i>Acc(C’,D’)=Acc(C’i,D’j)ij với: i =1..m+p, j = 1..h+q và </i>


<i>𝐴𝑐𝑐(𝐶′</i>𝑖<i>, 𝐷′</i>𝑗) =


{


|𝐶𝑖∩ 𝐷𝑗| + 𝑁ij− 𝑀ij


|𝐶𝑖| + ∑ 𝑁ij'− ∑<i>ℎ𝑗′=1</i>𝑀ij'


<i>ℎ+𝑞</i>


<i>𝑗′=1</i>



<i>, 𝑖 = 1. . 𝑚, 𝑗 = 1. . ℎ,</i>
𝑁ij


|𝐶𝑖| + ∑ 𝑁ij'− ∑<i>ℎ𝑗′=1</i>𝑀ij'


<i>ℎ+𝑞</i>


<i>𝑗′=1</i>


<i>, 𝑖 = 1. . 𝑚, 𝑗 = ℎ + 1. . ℎ + 𝑞</i>
𝑁ij


∑<i>ℎ+𝑞</i>𝑗=1𝑁ij


<i>,  𝑖 = 𝑚 + 1. . 𝑚 + 𝑝, 𝑗 = 1. .  ℎ + 𝑞</i>


<i>Mệnh đề 3.3 </i>


<i>Cho khối quyết định DB = (U,C</i><i>D,V,f), AN và DM là </i>
tập các đối tượng bổ sung và loại bỏ tương ứng đối với khối quyết
<i>định DB. Khi đó ta có: </i>


<i>Cov(C’,D’) = Cov(C’i,D’j)ij(m+p)x(h+q),với i =1..m+p, j=1..h+q và </i>


<i>𝐶𝑜𝑣(𝐶′</i>𝑖<i>, 𝐷′</i>𝑗) =


{


|𝐶𝑖∩ 𝐷𝑗| + 𝑁𝑖𝑗− 𝑀𝑖𝑗



|𝐷𝑗| + ∑𝑚+𝑝<i>𝑖′=1</i> 𝑁<i>𝑖′𝑗</i>− ∑𝑚<i>𝑖′=1</i>𝑀<i>𝑖′𝑗</i>


<i>, 𝑖 = 1. . 𝑚, 𝑗 = 1. . ℎ</i>
𝑁𝑖𝑗


|𝐷𝑗| + ∑𝑚+𝑝<i>𝑖′=1</i> 𝑁<i>𝑖′𝑗</i>− ∑𝑚<i>𝑖′=1</i>𝑀<i>𝑖′𝑗</i>


<i>, 𝑖 = 𝑚 + 1. . 𝑚 + 𝑝, 𝑗 = 1. . ℎ</i>
𝑁𝑖𝑗


∑𝑚+𝑝<i>𝑖′=1</i> 𝑁<i>𝑖′𝑗</i>


<i>, 𝑖 = 1. . 𝑚 + 𝑝, 𝑗 = ℎ + 1. . ℎ + 𝑞</i>


<b>3.2 Tính tốn gia tăng Acc và Cov khi bổ sung và loại bỏ các </b>
<b>đối tượng trên khối quyết định. </b>


</div>
<span class='text_page_counter'>(15)</span><div class='page_container' data-page=15>

<i>Trường hợp 1: Sinh lớp điều kiện mới và lớp quyết định mới. </i>
<i> Acc(C’m+1,D’h+1) = 1 và Cov(C’m+1,D’h+1) = 1, </i>


<i>j=1..h: Acc(C’m+1,D’j) = Cov(C’m+1,D’j) = 0, </i>


<i> </i><i>i=1..m: Acc(C’i,D’h+1) = Cov(C’i,D’h+1) = 0. </i>


Mặt khác, <i>i=1..m, </i><i>j=1..h: </i>
<i> Acc(C’i,D’j) = Acc(Ci,Dj<b>) , </b></i>


<i> và Cov(C’i,D’j) = Cov(Ci,Dj) . </i>



<i>Trường hợp 2: Chỉ sinh lớp điều kiện mới. </i>
<i>Acc(C’m+1,D’j*) = 1 và Cov(C’m+1,D’j*) =</i>


1
|𝐷𝑗∗|+1<i>. </i>
<i>Nếu k</i><i> j* thì: Acc(C’m+1,D’k) = Cov(C’m+1,D’k) = 0. </i>


<i>Nếu i </i><i> m+1 thì: Acc(C’i,D’j*) = Acc(Ci,Dj*), Cov(C’i,D’j*) </i>


<i>=</i>|𝐶𝑖∩𝐷𝑗∗|


|𝐷𝑗∗|+1.


Mặt khác, <i>i </i><i> m+1, </i><i>j </i><i> j*: Acc(C’i,D’j) = Acc(Ci,Dj) và </i>


<i>Cov(C’i,D’j) = Cov(Ci,Dj). </i>


<i>Trường hợp 3: Chỉ sinh lớp quyết định mới. </i>
<i>Acc(C’i*,D’h+1) =</i>


1


|𝐶𝑗∗|+1<i>và Cov(C’</i>


<i>i*,D’h+1) = 1. </i>


<i>Nếu i </i><i> i* thì: Acc(C’i,D’h+1) = Cov(C’i,D’h+1) = 0. </i>


<i>Nếu k </i> <i> h+1 thì: Acc(C’i*,D’k) = </i>



|𝐶𝑖∩𝐷𝑘|


|𝐶𝑖∗|+1

,

<i> Cov(C’i*,D’k) = </i>
<i>Cov(Ci*,Dk). </i>


Mặt khác, <i>i </i><i> i*, </i><i>j </i><i> h+1: Acc(C’i,D’j) = Acc(Ci,Dj<b>) và </b></i>


<i>Cov(C’i,D’j) = Cov(Ci,Dj). </i>


<i>Trường hợp 4: Không sinh thêm lớp điều kiện mới hoặc lớp quyết </i>
<i>định mới. </i>


<i>Acc(C’i*,D’j*) =</i>


|𝐶𝑖∗∩𝐷𝑗∗|+1


|𝐶𝑖∗|+1 <i>và Cov(C’</i>


<i>i*,D’j*) =</i>


|𝐶𝑖∗∩𝐷𝑗∗|+1


</div>
<span class='text_page_counter'>(16)</span><div class='page_container' data-page=16>

<i>- Nếu k </i> <i> j* thì: Acc(C’i*,D’k)=</i>


|𝐶𝑖∗∩𝐷𝑘|+1


|𝐶𝑖∗|+1

;

<i>Cov(C’i*,D’k)= </i>
<i>Cov(Ci*,Dk). </i>


<i>- Nếu u </i><i> i* thì: Acc(C’u,D’j*) = Acc(Cu,Dj*) và Cov(C’u,D’j*) = </i>



|𝐶𝑢∩𝐷𝑗∗|


|𝐷𝑗∗|+1


<i>- Nếu i </i><i> i* và j </i><i> j* thì: Acc(C’i,D’j) = Acc(Ci,Dj) và </i>


<i>Cov(C’i,D’j) = Cov(Ci,Dj). </i>


<b>3.2.2 Loại bỏ phần tử x ra khỏi khối quyết định </b>


<i>Acc(C’i*,D’j*) =</i>


|𝐶𝑖∗∩𝐷𝑗∗|−1


|𝐷𝑖∗|−1 <i> và Cov(C’i*,D’j*) =</i>


|𝐶𝑖∗∩𝐷𝑗∗|−1


|𝐶𝑖∗|−1 .
<i>- Nếu k </i><i> j* thì: Acc(C’i*,D’k) =</i>


|𝐶𝑖∗∩𝐷𝑘|


|𝐶𝑖∗|−1<i>và Cov(C’</i>


<i>i*,D’k) = </i>


<i>Cov(Ci*,Dk) . </i>



<i>- Nếu u </i><i> i* thì: Acc(C’u,D’j*) = Acc(Cu,Dj*) và Cov(C’u,D’j*) </i>


<i>=</i>|𝐶𝑢∩𝐷𝑗∗|


|𝐷𝑗∗|−1

<i>.</i>



<i>- Nếu i </i><i> i* và j </i><i> j* thì: Acc(C’i,D’j) = Acc(Ci,Dj) và </i>


<i>Cov(C’i,D’j) = Cov(Ci,Dj). </i>


<b>3.3 Thuật toán sinh luật quyết định bằng phương pháp tính </b>
<b>gia tăng ma trận Acc và Cov sau khi bổ sung, loại bỏ các phần </b>
<b>tử (MDLB_OSC1) </b>


<i>Bước 1: Tính ma trận độ chính xác Acc(C,D) và độ phủ </i>
<i>Cov(C,D) của khối trước khi bổ sung, loại bỏ đối tượng. </i>


<i>Bước 2: Tính gia tăng ma trận độ chính xác Acc(C’,D’) </i>
<i>và độ phủ Cov(C’,D’) sau khi bổ sung, loại bỏ đối tượng. </i>


<i>Bước 3: Loại bỏ dòng/cột trong các ma trận Acc(C’,D’) </i>
<i>và Cov(C’,D’) mà có tồn giá trị 0. </i>


Bước 4: Sinh luật quyết định trên khối.


</div>
<span class='text_page_counter'>(17)</span><div class='page_container' data-page=17>

<i>Mệnh đề 3.5: Độ phức tạp thuật toán xác định Acc và Cov là </i>
<i>O(|U|2<b> ). </b></i>


<i><b>Mệnh đề 3.6: Độ phức tạp thuật tốn tính gia tăng Acc và Cov khi </b></i>
<i>bổ sung N đối tượng là O(N|U|2</i>



<i><b>). </b></i>


<i><b>Mệnh đề 3.7: Độ phức tạp thuật tốn tính gia tăng Acc và Cov khi </b></i>
<i>loại bỏ M đối tượng là O(M|U|2</i>


<i><b>). </b></i>


<i><b>Mệnh đề 3.8: Độ phức tạp thuật toán xóa dịng/cột của ma trận </b></i>
<i>Acc và Cov có tồn giá trị 0 là O(|U|2<b>). </b></i>


<b>3.5 Tính toán gia tăng Sup khi bổ sung và loại bỏ các đối </b>
<b>tượng trên khối quyết định và lát cắt. </b>


<i>Khi bổ sung Nđối tượng và loại bỏ M</i><b>đối tượng ta có: </b>
<i>Sup(C’i,D’j) = Sup(Ci,Dj) + Nij – Mij, i=1..m+p, j=1..h+q </i>


<i>ở đó Mij = 0 và Sup(Ci,Dj)=0, i=m+1..m+p, j=h+1..h+q </i>
<b>3.6 Thuật toán sinh luật quyết định bằng phương pháp tính </b>
<b>gia tăng ma trận Sup sau khi bổ sung và loại bỏ các đối tượng </b>
<b>(MDLB_OSC2). </b>


<i>Bước 1: Tính ma trận độ hỗ trợ Sup(C,D) trước khi khối được bổ </i>
sung, loại bỏ đối tượng.


<i>Bước 2: Tính gia tăng ma trận độ hỗ trợ Sup(C’,D’) sau khi bổ </i>
sung, loại bỏ đối tượng.


<i>Bước 3: Loại bỏ dòng/cột trong ma trận Sup(C’,D’) mà có tồn </i>
giá trị 0.



<i>Bước 4: Tính các ma trận Acc(C’,D’) và Cov(C’,D’) thông qua </i>
<i>các giá trị của ma trận Sup(C’,D’) </i>


Bước 5: Sinh luật quyết định trên khối.


<b>3.7 Độ phức tạp của các thuật toán MDLB_OSC2 </b>


</div>
<span class='text_page_counter'>(18)</span><div class='page_container' data-page=18>

<i><b>Mệnh đề 3.10: Độ phức tạp thời gian của thuật tốn tính gia tăng </b></i>
<i><b>ma trận Sup khi loại bỏ M đối tượng là O(M|U|). </b></i>


<i><b>Mệnh đề 3.11: Độ phức tạp thời gian của thuật tốn tính gia tăng </b></i>
<i>ma trận Sup để trích rút các luật quyết định có ý nghĩa khi bổ </i>
<i>sung, loại bỏ các đối tượng là O(|U|2<b>). </b></i>


<i><b>Mệnh đề 3.12: Độ phức tạp thời gian của thuật tốn tính gia tăng </b></i>
<i>ma trận Sup khi bổ sung N đối tượng xét trên lát cắt của khối tại </i>
<i>điểm x</i><i><b>id là O(N|U|). </b></i>


<i><b>Mệnh đề 3.13: Độ phức tạp thời gian của thuật toán tính gia tăng </b></i>
<i>ma trận Sup khi loại bỏ M đối tượng xét trên lát cắt của khối tại </i>
<i>điểm x</i><i><b>id là O(M|U|). </b></i>


<b>3.10 Thực nghiệm </b>


<i><b>3.10.1 Mục tiêu thực nghiệm </b></i>


(1) Đánh giá tính thực thi của các thuật tốn tìm luật kết
hợp trên khối và thuật toán gia tăng tìm luật trên khối trong
trường hợp khối có giá trị thuộc tính thay đổi.



(2) Đánh giá tính thực thi và hiệu quả thời gian thực hiện
của thuật tốn tính gia tăng ma trận độ chính xác, ma trận độ phủ
so với thuật tốn tính gia tăng ma trận độ hỗ trợ để tìm ra luật
quyết định trên khối khi tập đối tượng thay đổi.


<i><b>3.10.2 Dữ liệu thử nghiệm </b></i>


</div>
<span class='text_page_counter'>(19)</span><div class='page_container' data-page=19>

thuộc tính chỉ số quyết định là phác đồ điều trị và mức độ sốt vi
rút theo dõi qua 4 ngày.


Số phần tử của các bộ dữ liệu là:


<b>Tên CSDL </b> <b>BVBM2KNA </b> <b>BVBM2KNB </b> <b>KID PATIENT </b>
<b>FEVER VIRUS </b>


<b>Số đối tượng </b> <i>160 </i> <i>1360 </i> <i>939 </i>


<i>Bảng 3.2: Các thông tin cơ bản về cơ sở dữ liệu thực nghiệm </i>
<i><b>3.10.3 Công cụ và mơi trường thử nghiệm </b></i>


Cơng cụ thực hiện lập trình các thuật tốn là ngơn ngữ
Java. Mơi trường thử nghiệm là máy tính PC với cấu hình
Intel(R) Core™ i5 2.5Ghz, RAM 4G, Windows 7 OS.


<i><b>3.10.4. Kết quả thực nghiệm </b></i>


Sau khi chạy 3 thuật toán trên các bộ dữ liệu ta thu được
các kết quả như sau:



<i><b>- Với bài tốn 1: tìm luật quyết định trên khối và lát cắt của </b></i>
<i><b>khối: </b></i>


</div>
<span class='text_page_counter'>(20)</span><div class='page_container' data-page=20>

Khi thay đổi min_acc và min_cov thì số lượng luật thu được
cũng thay đổi:


<i><b>- Với bài toán 2: tìm luật quyết định trên khối và lát cắt của </b></i>
<i><b>khối khi làm mịn, làm thơ giá trị thuộc tính </b></i>


</div>
<span class='text_page_counter'>(21)</span><div class='page_container' data-page=21>

<i>Hình 3.11: Luật quyết định tìm được sau khi làm mịn, thơ giá trị thuộc tính </i>
<i><b>- Với bài tốn 3: tìm luật quyết định trên khối và lát cắt của </b></i>
<i><b>khối khi bổ sung, loại bỏ phần tử </b></i>


</div>
<span class='text_page_counter'>(22)</span><div class='page_container' data-page=22>

<i>+ Kết quả của chương trình tính theo phương pháp 2 (tính gia </i>
<i>tăng ma trận Sup):</i>


Ta thấy 2 phương pháp này cho cùng một kết quả tập luật
với cùng một tập nguồn, chỉ khác nhau về thời gian thực hiện:


<b>3.11 Kết luận </b>


</div>
<span class='text_page_counter'>(23)</span><div class='page_container' data-page=23>

Acc và Cov đã được chứng minh. Trên cơ sở đó, hai thuật tốn
tìm các luật quyết định trên khối và trên lát cắt đã được đưa ra:


- Thuật toán MDLB_OSC1 tính gia tăng ma trận Acc,
Cov để tìm ra các luật quyết định có ý nghĩa trên khối và trên lát
cắt.


- Thuật tốn MDLB_OSC2 tính gia tăng ma trận độ hỗ
trợ Sup để tìm ra các luật quyết định có ý nghĩa.



Cuối chương là phần so sánh hai thuật toán đề xuất và
cài đặt thực nghiệm.


<b>KẾT LUẬN </b>


<i><b>1) Những kết quả chính của luận án </b></i>


Luận án tập trung nghiên cứu bài toán khai phá luật quyết
định trên khối trong một số trường hợp với các kết quả chính như
sau:


- Xây dựng mơ hình khai phá luật quyết định trên khối
với các khái niệm, định lí, tính chất đã được chứng minh.


- Đề xuất 03 thuật tốn tìm luật quyết định trên khối trong
các trường hợp: dữ liệu khối cố định; giá trị thuộc tính chỉ số thay
đổi; và trong trường hợp tập đối tượng thay đổi.


<i><b>2) Hướng phát triển của luận án </b></i>


- Tiếp tục nghiên cứu vấn đề khai phá luật quyết định
trên khối có các thuộc tính thay đổi, dữ liệu khơng đầy đủ…


- Khai phá các luật quyết định có ý nghĩa trên chuỗi khối
quyết định được liên kết với nhau (tương đồng với công nghệ
blockchain).


</div>
<span class='text_page_counter'>(24)</span><div class='page_container' data-page=24>

Luận án có các đóng góp mới như sau:



- Xây dựng mơ hình khai phá luật quyết định trên khối
với các khái niệm, định lí, mệnh đề đã được chứng minh.


- Đề xuất ba thuật toán tìm luật quyết định trên khối trong
các trường hợp: dữ liệu khối cố định; giá trị thuộc tính chỉ số thay
đổi; và trong trường hợp tập đối tượng thay đổi.




<b>DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ </b>


CT1. Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan
Anh, “Khai phá luật quyết định trên khối dữ liệu có giá trị thuộc
tính thay đổi”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX: Một số
vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hà
Nội, 01- 02/10/2016, Tr 163 – 169.


CT2. Trịnh Đình Thắng, Trần Minh Tuyến, Đỗ Thị Lan
Anh, Nguyễn Thị Quyên, “Một số kết quả về khai phá luật quyết
định trên khối dữ liệu có giá trị thuộc tính thay đổi”, Kỷ yếu Hội
nghị Khoa học Công nghệ Quốc gia lần thứ X: Nghiên cứu cơ
bản và ứng dụng công nghệ thông tin, Đà Nẵng, 17-18/08/2017,
Tr 623 – 632.


CT3. Trịnh Đình Thắng, Đỗ Thị Lan Anh, “Một số thuật
toán xác định ma trận độ hỗ trợ trên khối dữ liệu có giá trị thuộc
tính thay đổi”, Kỷ yếu Hội thảo Quốc gia lần thứ XXI: Một số
vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Thanh
Hóa, 27- 28/07/2018, Tr 216 – 225.



</div>
<span class='text_page_counter'>(25)</span><div class='page_container' data-page=25>

Advanced Research in Computer Science, Volume 10 issue 2
March – April 2019.


CT5. Đỗ Thị Lan Anh, Trịnh Đình Thắng, “Một phương
pháp gia tăng để tính độ chính xác và độ phủ của các luật quyết
định trên khối dữ liệu có tập đối tượng thay đổi”, Chuyên san các
cơng trình nghiên cứu phát triển Cơng nghệ thơng tin và truyền
thơng, Tạp chí thơng tin Khoa học cơng nghệ của Bộ Thông tin
và truyền thông, Tập 2019 số 1, 2019, Tr 1 – 10.


</div>

<!--links-->

×