Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (373.2 KB, 27 trang )

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

……..….***…………

VŨ VĂN ĐỊNH

RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI

Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 62.46.01.10

TÓM TẮT NLUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2016

2

Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học 1: GS.TS Vũ Đức Thi
Người hướng dẫn khoa học 2: PGS.TS Ngô Quốc Tạo

Phản biện 1: …
Phản biện 2: …
Phản biện 3: ….

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại
Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công
nghệ Việt Nam vào hồi … giờ .. ’, ngày … tháng … năm 2016

Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam

1

MỞ ĐẦU
1. Tính cấp thiết của luận án
Lý thuyết tập thô do Pawlak đề xuất vào những năm đầu thập niên tám
mươi của thế kỷ hai mươi được xem là công cụ hữu hiệu để giải quyết các
bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc
chắn. Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị
trên miền giá trị thuộc tính. Trên bảng quyết định không đầy đủ,
Kryszkiewicz đã mở rộng quan hệ tương đương trong lý thuyết tập thô
truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai
nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Các
phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo
tiếp cận tập thô dung sai trong những năm gần đây là: phương pháp dựa
trên miền dương, phương pháp sử dụng hàm quyết định suy rộng, phương
pháp sử dụng lượng thông tin, phương pháp sử dụng metric, phương pháp
sử dụng hàm phân bố (distribution reduct), phương pháp sử dụng hàm ấn

định (assignment reduct), phương pháp sử dụng ma trận phân biệt, phương
pháp sử dụng ma trận dung sai. Trên cơ sở tổng kết các nghiên cứu liên
quan đến các phương pháp rút gọn thuộc tính luận án đặt ra các vấn đề cần
nghiên cứu như sau:
 Có thể nói rằng tập rút gọn chính là kết quả của một phương pháp rút
gọn thuộc tính. Trong bảng quyết định nhất quán, các công bố đã chỉ ra
tập rút gọn của phương pháp dựa trên miền dương, tập rút gọn của phương
pháp sử dụng hàm quyết định suy rộng, tập rút gọn sử dụng hàm phân bố,
phương pháp sử dụng hàm ấn định, là có định nghĩa độ đo tương đương
nhau. Tuy nhiên trên bảng quyết định không nhất quán, các tập rút gọn
của các phương pháp là khác nhau và theo tài liệu hiện có mà tác giả biết
thì chưa có nghiên cứu liên quan đến việc so sánh các tập rút gọn làm cơ
sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính.
 Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính thường
dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán heuristic tìm
tập rút gọn và khả năng phân lớp của tập rút gọn. Từ việc tổng kết các
phương pháp rút gọn thuộc tính, tác giả thấy rằng nếu cùng sử dụng một
đơn vị tính toán cơ sở trong tập thô dung sai (lực lượng các lớp dung sai)
thì độ phức tạp thời gian các thuật toán heuristic của các phương pháp là
gần như nhau (độ phức tạp thời gian đa thức). Do đó, việc so sánh, đánh
giá các phương pháp đều sử dụng tiêu chuẩn khả năng phân lớp (độ hỗ trợ
của tập luật) của tập rút gọn. Về mặt định tính, tập rút gọn bảo toàn khả
năng phân lớp của bảng quyết định. Về mặt định lượng, tập rút gọn bảo

2

toàn độ chắc chắn của tập luật quyết định. Tập rút gọn của phương pháp
nào có độ hỗ trợ của tập luật cao (luật quyết định phủ nhiều đối tượng) thì
có khả năng phân lớp cao. Do đó, khả năng phân lớp được tính bằng độ hỗ

trợ của tập luật. Các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ
trợ của tập luật quyết định trên bảng quyết định không đầy đủ. Tuy nhiên,
các tác giả chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút
gọn của các phương pháp rút gọn thuộc tính, do đó các độ đo này không
đánh giá được khả năng phân lớp của tập rút gọn và đòi hỏi phải có độ
chắc chắn, độ hỗ trợ mới để đánh giá khả năng phân lớp của tập rút gọn,
làm cơ sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính.
 Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả nhất
định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp mới vẫn
đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các phương pháp
rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương pháp phù hợp để
giải quyết các bài toán trong thực tiễn.
2. Mục tiêu nghiên cứu của luận án
1) Trong bảng quyết định nhất quán, các công bố đã chỉ ra tập rút
gọn của phương pháp trên là tương đương nhau. Tuy nhiên trên bảng
quyết định không nhất quán, các tập rút gọn của các phương pháp là khác
nhau và theo tài liệu hiện có mà tác giả biết thì chưa có nghiên cứu liên
quan đến việc so sánh các tập rút gọn để so sánh, đánh giá các phương
pháp rút gọn.
2) Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính
thường dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán
heuristic tìm tập rút gọn và khả năng phân lớp của tập rút gọn. Tác giả
thấy rằng nếu cùng sử dụng một đơn vị tính toán cơ sở trong tập thô dung
sai thì độ phức tạp thời gian các thuật toán heuristic của các phương pháp
là như nhau (độ phức tạp thời gian đa thức). Do đó, việc so sánh, đánh giá
các phương pháp đều sử dụng tiêu chuẩn khả năng phân lớp của tập rút
gọn(độ hỗ trợ của tập luật). Về mặt định tính, tập rút gọn bảo toàn khả
năng phân lớp của bảng quyết định. Về mặt định lượng, tập rút gọn bảo
toàn độ chắc chắn của tập luật quyết định. Tập rút gọn của phương pháp
nào có độ hỗ trợ của tập luật cao thì có khả năng phân lớp cao. Do đó, khả

năng phân lớp được tính bằng độ hỗ trợ của tập luật. Trong các nghiên cứu
trước, các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ trợ của
tập luật quyết định trên bảng quyết định không đầy đủ. Tuy nhiên, các tác
giả chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút gọn của
các phương pháp rút gọn thuộc tính, do đó các độ đo này không đánh giá

3

được khả năng phân lớp của tập rút gọn và đòi hỏi phải có độ chắc chắn,
độ hỗ trợ mới để đánh giá khả năng phân lớp của tập rút gọn, làm cơ sở để
so sánh, đánh giá các phương pháp rút gọn thuộc tính.
3) Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả
nhất định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp mới
vẫn đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các phương
pháp rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương pháp phù hợp
để giải quyết các bài toán trong thực tiễn.
3. Các nội dung nghiên cứu chính của luận án
Chương 1 trình bày các khái niệm cơ bản về mô hình tập thô dung sai
dựa trên quan hệ dung sai trong hệ thông tin không đầy đủ
Chương 2 trình bày hai kết quả chính. Thứ nhất là kết quả phân nhóm
các phương pháp rút gọn thuộc tính dựa vào kết quả nghiên cứu mối liên hệ
giữa các tập rút gọn. Thứ hai là đề xuất các độ đo mới đánh giá hiệu năng
tập luật quyết định và nghiên cứu sự thay đổi giá trị các độ đo này trên các
tập rút gọn nhằm so sánh, đánh giá các nhóm phương pháp rút gọn thuộc
tính trên tiêu chuẩn khả năng phân lớp của tập rút gọn (độ hỗ trợ).
Chương 3 trình bày ba kết quả chính. Thứ nhất là chọn tập tối tượng
đại diện cho bài toán rút gọn thuộc tính nhằm giảm thiểu số đối tượng (dữ
liệu), Thứ hai là đề xuất phương pháp mới rút gọn thuộc tính sử dụng hàm
quan hệ và so sánh, thử nghiệm phương pháp với các phương pháp đã có

trên các bộ số liệu UCI. Thứ ba là đề xuất phương pháp mới rút gọn thuộc
tính sử dụng lượng thông tin mở rộng và so sánh, thử nghiệm phương pháp
với các phương pháp đã có trên các bộ số liệu UCI.
Chương 1. CÁC KHÁI NIỆM CƠ BẢN
Chương này trình bày một số khái niệm cơ bản trong mô hình tập thô
mở rộng dựa trên quan hệ dung sai, trên các hệ thông tin không đầy đủ.
1.1.

Hệ thông tin không đầy đủ

Hệ thông tin là một cặp IS  U , A trong đó U là tập hữu hạn, khác rỗng
các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính
a  A xác định một ánh xạ: a : U  Va với Va là tập giá trị của thuộc tính
a A.
Với hệ thông tin IS  U , A , nếu tồn tại u U và a  A sao cho a  u  chứa
giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ,

4

trái lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký
hiệu là ‘*’ và hệ thông tin không đầy đủ là IIS  U , A .
1.2.

Mô hình tập thô dung sai

Xét hệ thông tin không đầy đủ IIS  U , A , với tập thuộc tính
định nghĩa một quan hệ nhị phân trên U như sau:



P A

ta

.

SIM  P    u , v   U  U a  P, a  u   a  v   a  u   '*'  a  v   '*'

Quan hệ SIM  P  không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng không có tính bắc cầu. Do đó, SIM  P  là một
quan hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity
relation) trên U. Ta có, SIM  P    aP SIM a .
1.3.

Bảng quyết định không đầy đủ

Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia
thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc
tính điều kiện và tập thuộc tính quyết định. Tức là DS  U , C  D  với
CD .
Xét bảng quyết định DS  U , C  D  với giả thiết u U , d  D , d  u  đầy
đủ giá trị, nếu tồn tại u U và c  C sao cho c  u  thiếu giá trị thì DS được
gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định
đầy đủ. Ta biểu diễn bảng quyết định không đầy đủ là IDS  U , C  D  với
d  D, '*'  Vd . Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc
tính quyết định duy nhất d  .
1.4.

Tập rút gọn và tập lõi

Định nghĩa 1.2 Cho hệ thông tin không đầy đủ IIS  U , A . Ta nói rằng
thuộc tính a  A là không cần thiết (dispensable) trong A nếu
U / SIM  A  U / SIM  A  a ; ngược lại, a được gọi là cần thiết (indispensable)
trong A. Tập tất cả các thuộc tính cần thiết trong A được gọi là tập lõi của
A. Khi đó, thuộc tính cần thiết chính là thuộc tính lõi.
Định nghĩa 1.3 Cho hệ thông tin không đầy đủ IIS  U , A . Tập thuộc tính
R  A là một tập rút gọn của A nếu U / SIM  R   U / SIM  A và với mọi r  R ,
U / SIM  R  r  U / SIM  A .
Hiển nhiên, A có nhiều tập rút gọn. Khi đó, tập lõi của A là giao của tất
cả các tập rút gọn của A.

5

Kết luận chương 1
Chương 1 đã trình bày một số khái niệm cơ bản trong mô hình tập thô
dung sai do Kryszkiewicz đề xuất và một số khái niệm cơ bản về tập rút
gọn và tập lõi trong hệ thông tin không đầy đủ và bảng quyết định không
đầy đủ. Các khái niệm này được sử dụng trong chương 2 và chương 3 của
luận án.
Chương 2. PHÂN NHÓM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP
RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG
ĐẦY ĐỦ
2.1. Mở đầu
Chương này trình bày các kết quả nghiên cứu sau đây:
1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết định
không đầy đủ dựa vào nghiên cứu mối liên hệ giữa các khái niệm tập rút
gọn.
2) Đánh giá các phương pháp rút gọn thuộc tính dựa vào nghiên cứu sự

thay đổi các độ đo đánh giá hiệu năng tập luật quyết định trên các khái
niệm tập rút gọn.
2.2. Phân nhóm các phương pháp rút gọn thuộc tính
Tiêu chí phân nhóm là: các phương pháp có tập rút gọn như nhau
được phân thành một nhóm. Các kết quả trong phần này đã được tác giả
công bố trong tài liệu [1].
2.2.1.

Các khái niệm tập rút gọn trong bảng quyết định không đầy đủ

Kryszkiewicz M và các cộng sự đã đư ra khái niệm tập rút gọn của
IDS dựa trên hàm quyết định suy rộng ( R ), Zuqiang Meng và các cộng sự
đưa ra khái niệm về tập rút gọn dựa trên miền dương ( RP ), Huang B và các
cộng sự đưa ra khái niệm về tập rút gọn dựa trên lượng thông tin
(information quantity)( RI ). Tác giả trước đã đưa ra khái niệm về tập rút
gọn dựa trên metric( RD ), Huasheng ZOU và cộng sự đưa ra khái niệm tập
rút gọn dựa trên ma trận phân biệt( RM ). Công trình trước tác giả đưa ra
khái niệm tập rút gọn dựa trên ma trận dung sai( RTM ), ngoài ra, trong các
công trình khác, các tác giả đưa ra khái niệm tập rút gọn phân bố
(distribution reduct)( R ), tập rút gọn ấn định (assignment reduct)( R ).
Kết quả nghiên cứu về mối liên hệ giữa các khái niệm tập rút gọn như
sau:

6

1) Nếu bảng quyết định nhất quán, các tác giả đã chỉ ra
là như nhau về định nghĩa độ đo.

RP , R , R , R

2) Nếu bảng quyết định không nhất quán, Renpu Li và cộng sự đã
chứng minh R và R là như nhau về định nghĩa độ đo. Huasheng ZOU và
cộng sự đã chứng minh R và RM như nhau về định nghĩa độ đo.
2.2.2.

Mối liên hệ giữa các khái niệm tập rút gọn

RD , RI , RTM

IDS  U , A  d 

Mệnh đề 2.1. Cho bảng quyết định không đầy đủ
Khi đó d E  K  R  , K  R  d    d E  K  A , K  A  d  
I  R d    I  A d   .

khi

và

và R  A .
chỉ khi

Mệnh đề 2.2. Cho bảng quyết định không đầy đủ IDS  U , A  d  , R  A và
TM   mi j 
là ma trận dung sai của IDS. Khi đó
nn
d E  K  R  , K  R  d    d E  K  A  , K  A  d   khi và chỉ khi R  mi j   với mọi
mi j   .
2.2.3.

Mối liên hệ giữa

R và RP

Mệnh đề 2.3. Cho bảng quyết định không đầy đủ IDS  U , A  d  và
Nếu  R  u    A  u  với mọi u U thì POS R d   POS A d  .
2.2.4.

Mối liên hệ giữa

RD

và

R  A.

R

Mệnh đề 2.4. Cho bảng quyết định không đầy đủ IDS  U , A  d  và R  A .
Nếu d E  K  R  , K  R  d    d E  K  A , K  A  d   thì u  U ,  R  u    A  u  .
2.2.5.

Mối liên hệ giữa

R

và

R

IDS  U , A  d 

Mệnh đề 2.5. Cho bảng quyết định không đầy đủ
Nếu u U ,  R  u    A  u  thì u  U ,  R  u    A  u  .
2.2.6.

và

R  A.

Phân nhóm các phương pháp rút gọn thuộc tính

Nếu bảng quyết định nhất quán, các tập rút gọn
RTM , R là như nhau.

RP , R , R , RM , RD , RI ,

Nếu bảng quyết định không nhất quán, mối liên hệ giữa các tập rút gọn
trong các nhóm như sau:


RP



R , R , RM

R D , R I , RTM



R

7

 Nếu R3 là một tập rút gọn thuộc Nhóm 3 thì tồn tại một tập rút gọn
R2 thuộc Nhóm 2 và một tập rút gọn R1 thuộc Nhóm 1 sao cho
R1  R2  R3 .
 Nếu R4 là một tập rút gọn thuộc Nhóm 4 thì tồn tại một tập rút gọn
R2 thuộc Nhóm 2 và một tập rút gọn R1 thuộc Nhóm 1 sao cho
R1  R2  R4 .
2.3. Đánh giá các phương pháp rút gọn thuộc tính
Chúng tôi đề xuất các độ đo mới và nghiên cứu sự thay đổi giá trị các
độ đo đề xuất trên các tập rút gọn nhằm đánh giá các phương pháp rút gọn
thuộc tính. Các kết quả trong phần này đã được tác giả công bố trong tài
liệu [2].
2.3.1.

Luật quyết định và các độ đo đánh giá hiệu năng

Yuhua Qian và các cộng sự, đã đưa ra độ chắc chắn, độ nhất quán và
độ hỗ trợ của tập luật trong bảng quyết định không đầy đủ dựa trên khái
niệm khối đồng nhất cực đại. Điểm hạn chế lớn nhất của công trình này là
các tác giả chưa đánh giá được sự thay đổi giá trị của các độ đo này trên
các tập rút gọn.
2.3.2.

Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định

Cho bảng quyết định không đầy đủ IDS  U , A  d  với U  u1,..., un  và
tập luật RULE  Zij Zij : des  S A  ui    des Y j   với S A  ui  U / SIM  A ,Y j U / d , i  1..n, j  1..m .
Độ chắc chắn

 của

IDS được định nghĩa

  IDS  

Độ nhất quán



1 n 1

n i 1 N i



Ni

S A  ui   Y j
S A  ui 

j 1

.

Ni


j 1

S A  ui   Y j
S A  ui 



1
n 1

của IDS được định nghĩa
  IDS  

Ký hiệu
sai S A  ui  .



của IDS được định nghĩa
1 n 1
  IDS  

n  1 i 1 N i

Độ hỗ trợ

Ni

1 n m S A  ui   Y j

n i 1 j 1
n

là số luật quyết định (số lớp quyết định) sinh bởi lớp dung

8

Mệnh đề 2.6. Cho hai bảng quyết định không đầy đủ IDS  U , A  d  ,
IDS '  U , B  d  và RULE  Z ij Z ij : des  S A  ui    des Y j   với S A  ui  U / SIM  A , Y j U / d  ,
i  1..n ,

j  1..m .

  IDS     IDS ' 

Nếu

B A

thì

  IDS     IDS '  ,

  IDS     IDS '  ,

2.3.3.

Nghiên cứu sự thay đổi giá trị các độ đo đề xuất trên các tập
rút gọn

Mệnh đề 2.7. Cho hai bảng quyết định không đầy đủ
IDS '  U , B  d  .

IDS  U , A  d 

và

a) Nếu IDS nhất quán và B là một tập rút gọn miền dương ( RP ) thì
  IDS '     IDS   1 ,   IDS '     IDS   1 ,   IDS '     IDS 

b) Nếu IDS không nhất quán và B là một tập rút gọn miền dương ( RP )
thì
  IDS '     IDS  ,   IDS '     IDS  ,   IDS '     IDS 

Như vậy, tập rút gọn miền dương ( RP ) làm giảm độ chắc chắn, giảm
độ nhất quán và tăng độ hỗ trợ của tập luật đối với bảng quyết định không
đầy đủ không nhất quán.
Mệnh đề 2.8. Cho hai bảng quyết định không đầy đủ IDS  U , A  d  và
IDS '  U , B  d  . Nếu B là một tập rút gọn dựa trên hàm quyết định suy
rộng ( R ) thì
  IDS '     IDS  ,   IDS '     IDS  ,   IDS '     IDS 

Như vậy, tập rút gọn dựa trên hàm quyết định suy rộng ( R ) bảo toàn
độ chắc chắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định.
Mệnh đề 2.9. Cho hai bảng quyết định không đầy đủ IDS  U , A  d  và
IDS '  U , B  d  . Nếu B là một tập rút gọn dựa trên khoảng cách ( RD ) thì
  IDS '     IDS  ,   IDS '     IDS  ,   IDS '     IDS 

Mệnh đề 2.10. Cho hai bảng quyết định không đầy đủ IDS  U , A  d  và
IDS '  U , B  d  . Nếu B là một tập rút gọn phân bố ( R ) thì
  IDS '     IDS  ,   IDS '     IDS  ,   IDS '     IDS 

9

2.3.4.

Thử nghiệm sự thay đổi giá trị các độ đo đề xuất trên các tập
rút gọn

Bảng 2.5. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 1
Thuật toán POSBAR
Bộ số liệu

U

C

1

Hepatitis.data

155

19

2

Lung-cancer.data

32

3

Automobile.data

4

STT

Thuật toán GDBAR







3

0.909

0.819

0.598

3

0.909

0.819 0.504

56

4

1

1

0.814

4

1

1

205

25

4

0.825

0.702

0.708

6

0.915

0.781 0.624

Anneal.data

798

38

6

0.804

0.713

0.586

7

0.852

0.755 0.503

5

Congressional
Voting Records

435

16

15

1

1

0.616

15

1

1

6

Credit Approval

690

15

3

0.716

0.708

0.786

5

0.884

0.802 0.615

R





R



0.814

0.616

Bảng 2.6. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 2
Thuật toán MBAR

Bộ số liệu

U

C

1

Hepatitis.data

155

19

2

Lung-cancer.data

32

3

Automobile.data

4

STT

Thuật toán DFBAR













4

0.909

0.819

0.415

5

0.909

0.819

0.402

56

4

1

1

0.814

4

1

1

0.814

205

25

8

0.915

0.781

0.518

8

0.915

0.781

0.518

Anneal.data

798

38

9

0.852

0.755

0.426

10

0.852

0.755

0.406

5

Congressional
Voting Records

435

16

15

1

1

0.616

15

1

1

0.616

6

Credit Approval

690

15

7

0.884

0.802

0.487

6

0.884

0.802

0.512

R

R

Hình 2.1 sau đây biểu diễn sự thay đổi của độ hỗ trợ  trên 6 bộ số
liệu được chọn đối với các thuật toán: Thuật toán POSBAR, Thuật toán
GDBAR, Thuật toán MBAR, Thuật toán DFBAR.

10

Hình 2.1. Sự thay đổi độ hỗ trợ  trên các tập rút gọn

2.3.5.

Lựa chọn, đánh giá các phương pháp rút gọn thuộc tính

1) Lựa chọn nhóm phương pháp phù hợp
1) Tập rút gọn

RP ,

tập rút gọn

R ,

tập rút gọn

RD và

tập rút gọn

R

đều

bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ
nhất quán.
2) Tập rút gọn

RP

làm giảm độ chắc chắc của tập luật đối với bảng

quyết định không đầy đủ không nhất quán
3) Tập rút gọn

R ,

tập rút gọn

RD

và tập rút gọn

R

đều bảo toàn độ

chắc chắn của tập luật đối với bảng quyết định không đầy đủ không nhất
quán.
2) Đánh giá các phương pháp
Với bảng quyết định không đầy đủ nhất quán, các tập rút gọn tốt nhất
của bốn nhóm phương pháp là như nhau nên chúng có chất lượng phân
lớp như nhau. Với bảng quyết định không nhất quán, chúng tôi đánh giá
ba nhóm phương pháp phù hợp (Nhóm 2, Nhóm 3, Nhóm 4) dựa trên tiêu
chuẩn chất lượng phân lớp tập rút gọn của nhóm phương pháp.
Giả sử

RDBest

là một tập rút gọn tốt nhất của các phương pháp thuộc

Nhóm 3 ( RDBest tìm được bởi thuật toán heuristic sử dụng khoảng cách,
lượng thông tin hay ma trận dung sai). Theo kết quả nghiên cứu về mỗi
liên hệ giữa các tập rút gọn đã trình bày, tồn tại một tập rút gọn dựa trên
hàm quyết định suy rộng R sao cho R  RDBest ( R tối thiểu hơn RDBest ).

11

Giả sử

RBest

là một tập rút gọn tốt nhất của các phương pháp thuộc

Nhóm 2 ( RBest tìm được bởi thuật toán heuristic sử dụng hàm quyết định
suy rộng, tập rút gọn ấn định hay ma trận phân biệt). Ta có hai trường hợp.
- Nếu
hơn

RDBest .

nghĩa là

RBest

tối thiểu

Theo Mệnh đề 2.6, độ hỗ trợ của tập luật dựa trên

RBest

cao hơn

RBest

chính là

R

( RBest  R ) thì

độ hỗ trợ của tập luật dựa trên
hơn

RBest  RDBest ,

, hay

RDBest

RBest

có chất lượng phân lớp tốt

RDBest .

- Nếu

RBest

khác

R

thì

có chất lượng phân lớp tốt hơn

RBest

có chất lượng phân lớp tốt nhất. Mặt khác, do
về chất lượng phân lớp. Do đó,

RBest

tốt hơn

Do đó, trong cả hai trường hợp
RDBest .

RBest

R  RDBest

RDBest

nên

R

do

RBest

tốt hơn

RDBest

R

về chất lượng phân lớp.

có chất lượng phân lớp tốt hơn

Từ đó kết luận các phương pháp thuộc Nhóm 2 hiệu quả hơn các

phương pháp thuộc Nhóm 3 theo tiêu chuẩn đánh giá chất lượng phân lớp
của tập rút gọn.
Tương tự như trên ta có các phương pháp thuộc Nhóm 2 hiệu quả hơn
các phương pháp thuộc Nhóm 4 theo tiêu chuẩn đánh giá chất lượng phân
lớp của tập rút gọn.
Các phương pháp thuộc Nhóm 3 không so sánh được với các phương
pháp thuộc Nhóm 4 do tập rút gọn RD và tập rút gọn R không có mối quan
hệ.
2.4. Kết luận chương 2
Chương 2 luận án đã thực hiện các nội dung nghiên cứu sau:
(1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết
định không đầy đủ không nhất quán dựa vào kết quả nghiên cứu mối liên
hệ giữa các khái niệm tập rút gọn, mối liên hệ giữa các tập rút gọn của các
nhóm phương pháp. Dựa trên tập rút gọn, các phương pháp được phân

thành bốn nhóm: Nhóm 1 (Tập rút gọn miền dương RP ), Nhóm 2 (tập rút
gọn dựa trên hàm quyết định suy rộng
gọn dựa trên ma trận phân biệt
thông tin

RI ,

RM ),

R ,

tập rút gọn ấn định

R ,

tập rút

Nhóm 3 (tập rút gọn dựa trên lượng

tập rút gọn dựa trên ma trận dung sai

RTM ,

tập rút gọn dựa trên

12

khoảng cách

RD ),

Nhóm 4 (Tập rút gọn phân bố

R ).

Kết quả này được

công bố trong công trình [1].
(2) Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định (độ
chắc chắn, độ nhất quán, độ hỗ trợ). Nghiên cứu sự thay đổi giá trị các độ
đo đề xuất trên các tập rút gọn của bốn nhóm phương pháp. Trên cơ sở đó,
lựa chọn và đánh giá các phương pháp rút gọn thuộc tính dựa trên tiêu
chuẩn chất lượng phân lớp của tập rút gọn. Kết quả này được công bố trong
công trình [2].
Chương 3. ĐỀ XUẤT CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC
TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
3.1. Mở đầu
Trong chương này, trước hết chúng tôi giải quyết bài toán rút gọn dữ
liệu bằng đề xuất phương pháp chọn tập đối tượng đại diện. Sau đó, chúng
tôi đề xuất phương pháp sử dụng lượng thông tin mở rộng và phương pháp
sử dụng hàm quan hệ. Chúng tôi chứng minh rằng cả 2 phương pháp này
đều thuộc Nhóm 2 (theo phân nhóm phương pháp đã trình bày ở Chương
2).
3.2. Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính
3.2.1. Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ
Thuật toán 3.1. Chọn tập đối tượng đại diện của hệ thông tin không đầy
đủ.
Đầu vào: Hệ thông tin không đầy đủ IIS  U , A với U  u1,..., un  ,
A  a1 ,..., a m 

Đầu ra: Hệ thông tin không đầy đủ đại diện IIS P  U P , A với U P  U .
Bước 1: Đặt U P   ;
Bước 2: Với mỗi ai  A, i  1..m , tính U / ai   u a  u U  với

u a   v U
i

i

.

Sai   u   Sai   v 

m

Bước 3: Tính U / A  u A / u  U  với u A  u a   ...  u a   u a  .
1

m

Giả sử U / A  X 1 ,..., X k  và X i  ui ,..., ui  với i  1..k .
Bước 4: Với mọi X i  U / A, , i  1..k , đặt U P : U P  ui  ;
Bước 5: Return IIS P  U P , A ;
1

l

1

i 1

i

13

3.2.2. Chọn tập đối tượng đại diện cho bảng quyết định không đầy đủ
Thuật toán 3.2. Chọn tập đối tượng đại diện của bảng quyết định không
đầy đủ.
Đầu vào: Bảng quyết định không đầy đủ IDS  U , A  d  với
U  u1 ,..., un  , A  a1 ,..., a m 
Đầu ra: Bảng quyết định không đầy đủ đại diện IDS p  U p , A  d  với
UP  U .
Bước 1: Đặt U P   ;
Bước 2: Với mỗi ai  A, i  1..m , tính U / ai   u a  u U  với

u a   v U
i

i

.

Sai   u   Sai   v 

m

Bước 3: Tính U / A  u A / u  U  với u A  u a   ...  u a   u a 
1

m

i 1

i

Giả sử U / A  X 1 ,..., X k ;
Bước 4: Với mỗi X i  U / A, , i  1..k , thực hiện lặp các bước 4.1 và 4.2
như sau:
Bước 4.1. Tính X i / d   u d  u  X i  với u d   v  X i d  u   d  v  . Giả sử
và Y j  u j ,..., u j  với j  1..l .
Bước 4.2. Với mỗi Y j  X i / d  , j  1..l , đặt U P : U P  u j  ;
Bước 5: Return IDS p  U p , A  d  ;
X i / d   Y1 ,..., Yl 

1

o

1

3.3. Phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở
rộng
3.3.1.

Độ đo lượng thông tin mở rộng

Cho hệ thông tin đầy đủ
U / P  P1 ,..., Pk 

IS  U , A ,

với

là phân hoạch sinh bởi tập thuộc tính

U  u1 ,..., u n ,
P  A.

thông tin mở rộng của P trên tập đối tượng U, ký hiệu là
bằng tổng khoảng cách Jaccard trung bình giữa tập U và
EI  P,U  

3.3.2.

Khi đó, lượng

EI P, U  ,

được tính
Pi như sau:

U  Pi  1 k 
Pi 
1 k 
1
1


   1    1 


k i 1 
U  Pi  k i 1 
U 
k

(3.1)

Xây dựng lượng thông tin mở rộng có điều kiện

Cho bảng quyết định không đầy đủ
P A

giả sử

ta có

U / SIM P   S p u i  u i  U , i  1..n

IDS  U , A  d 

và

U  u1 ,..., u n 

với

là một phủ của U. Khi đó, ta xây

14

dựng lượng thông tin mở rộng có điều kiện (conditional extended
information quantity) của tập thuộc tính P đối với thuộc tính d , ký hiệu
là



 , là trung bình cộng các lượng thông tin mở rộng thành phần

CEI P d 

của thuộc tính d  trên các tập đối tượng
EI d  , S P  ui    1 

1
kiP

với

k ip

S p u i  , EI d  , S P  ui   .

là số lớp tương đương của phân hoạch

Giả sử

S p u i  /d  .

Khi đó ta có:





CEI P d  

1 n
1 n 
1 
1 n 1
EI
d
,
S
u

1


1












P
i
n i 1
n i 1  k Pi 
n i 1 k Pi

Cho bảng quyết định không đầy đủ

IDS  U , A  d 

(3.2)

và U  u1 ,..., u n , với

ta có U / SIM P   S p u i  u i  U , i  1..n là một phủ của U. ta xây dựng

P A

lượng thông tin mở rộng có điều kiện của tập thuộc tính P và thuộc tính
quyết định d , ký hiệu là CEI  P d  , là trung bình cộng các lượng thông
tin mở rộng thành phần của thuộc tính d  trên các tập đối tượng
EI d  , S P  ui  

phân hoạch





CEI P d  

3.3.3.

Giả sử

S p u i  /d  .

EI d  , S P  ui    1 

1
kiP

với

k ip

S p u i  ,

là số lớp tương đương của

Khi đó ta có:

1 n
1 n 
1 
1 n 1
EI

d
,
S
u

1


1

   P  i   n 



n i 1
k Pi 
n i 1 k Pi
i 1 

(3.2)

Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều
kiện

Định nghĩa 3.1. Cho bảng quyết định không đầy đủ
thuộc tính R  A . Nếu







IDS  U , A  d 

và tập



1)

CEI R d   CEI A d 

2)

r  R, CEI

  R  r d   CEI  A d 

thì R là một tập rút gọn của A dựa trên lượng thông tin mở rộng có điều
kiện.

15

Định nghĩa 3.2. Cho bảng quyết định không đầy đủ IDS  U , A  d  , B  A
và b  A  B . Độ quan trọng của thuộc tính b đối với tập thuộc tính B được
định nghĩa bởi:









SIGB  b   CEI B d   CEI B  b d 

Thuật toán 3.3 (Thuật toán EIQBAR). Thuật toán heuristic tìm một tập
rút gọn sử dụng lượng thông tin mở rộng có điều kiện.
Đầu vào: Bảng quyết định không đầy đủ IDS  U , A  d 
Đầu ra: Một tập rút gọn R .
1. R   ;
2. Tính lượng thông tin mở rộng có điều kiện CEI  R d  và CEI  A d  ;
// Thêm vào R các thuộc tính có độ quan trọng lớn nhất
3. While CEI  R d   CEI  A d  do
4. Begin
5.
For

a A R

6.

Chọn

7.

R  R  a m  ;

8.

Tính

tính

sao cho

am  A  R









;

SIGR  a   CEI R d   CEI R  a d 
SIG R a m   MaxSIG R a ;
a A R

;

CEI R d 

9. End;

//Loại bỏ các thuộc tính dư thừa trong R nếu có
10.
For each a  R do
11.
Begin
12. Tính CEI  R  a d  ;
13.
14.
15.

If







 then

CEI R  a d   CEI R d 

End;
Return

R  R  a ;

R;

Xét vòng lặp While từ dòng lệnh 3 đến 9, để tính SIGR a  ta cần phải

tính phải tính CEI  R  a d  vì CEI  R d  đã được tính ở bước trước, nghĩa
là cần phải tính

S R a u i 

và phân hoạch

cộng sự [9], độ phức tạp để tính
tính là

S R a u i 

S R a u i  /d  .

với mọi

  , độ phức tạp để tính phân hoạch S

OU

2

Theo Zhang và các

ui  U

R a 

khi

S R u i  đã

u i  /d  với mọi

được

ui  U

là

16

  . Do đó, độ phức tạp thời gian để tính tất cả các SIG a  ở dòng lệnh

OU

2

R

số 5 là:

 A   A  1  ...  1 * U
với

A

2







 A *  A  / 2 * U  O A U

là số thuộc tính điều kiện và

U

2

2

2



là số đối tượng. Độ phức tạp thời

gian để chọn thuộc tính có độ quan trọng lớn nhất ở dòng lệnh số 6 là:
2
A   A  1  ...  1  A *  A  1 / 2  O  A  . Do đó, độ phức tạp thời gian của vòng

. Tương tự, độ phức tạp của vòng lặp For từ dòng
lệnh số 10 đến 14 là O A U . Vì vậy, độ phức tạp thời gian của Thuật
toán EIQBAR là O A U .
lặp While là



2

O A U

2

2

2

3.3.4.

2

2

Thử nghiệm và đánh giá kết quả

Chúng tôi chọn thuật toán MBAR tìm tập rút gọn của bảng quyết định
không đầy đủ sử dụng metric để so sánh với thuật toán sử dụng lượng
thông tin mở rộng đề xuất (Thuật toán EIQBAR) về thời gian thực hiện và
kết quả thực hiện.
Bảng 3.4. Kết quả thực hiện thuật toán MBAR và Thuật toán EIQBAR

STT

Bộ số liệu

U

Thuật toán

Thuật toán

MBAR

EIQBAR

C

R

t

R

t

1

Hepatitis.data

155

19

4

1.296 3

1.29

2

Lung-cancer.data

32

56

4

0.171 4

0.17

3

Automobile.data

205

25

8

1.687 6

1.68

4

Anneal.data

798

38

9

179

7

178

5

Congressional Voting Records

435

16

15

16.7

15

16.73

6

Credit Approval

690

15

7

15.7

5

15.68

17

Bảng 3.5. Tập rút gọn của thuật toán MBAR và Thuật toán EIQBAR
Tập rút gọn của

Tập rút gọn của

Thuật toán MBAR

Thuật toán EIQBAR

STT

Tập dữ liệu

1

Hepatitis.data

{1, 2, 4, 17}

{1, 2, 17}

2

Lung-cancer.data

{3, 4, 9, 43}

{3, 4, 9, 43}

3

Automobile.data

{1, 8, 9, 13, 14, 20, 21, 24}

{1, 4, 13, 14, 20, 21}

4

Anneal.data

{1, 3, 4, 5, 8, 9, 33, 34, 35}

{1, 3, 4, 5, 8, 9, 34}

5

Congressional

{1, 2, 3, 4, 5, 7, 8, 9, 10, 11, {1, 2, 3, 4, 5, 7, 8, 9,

Voting Records

12, 13, 14, 15, 16}

10, 11, 12, 13, 14, 15,
16}

6

Credit Approval

{1, 2, 3, 4, 5, 6, 8}

{1, 3, 4, 5, 8}

Kết quả thực hiện của hai thuật toán về tập rút gọn và tính toán giá trị
các độ chắc chắn , độ nhất quán , độ hỗ trợ  được mô tả ở Bảng 3.6 sau
đây:
Bảng 3.6. Kết quả tính toán độ chắc chắn, độ nhất quán và độ hỗ trợ trên các
tập rút gọn
S
T
T

Thuật toán EIQBAR
Bộ số liệu

U

C





R



Thuật toán MBAR





R



1

Hepatitis.data

155

19

3

0.909 0.819 0.504 4

0.909 0.819 0.415

2

Lung-cancer.data

32

56

4

1

1

3

Automobile.data

205

25

6

0.915 0.781 0.624 8

0.915 0.781 0.518

4

Anneal.data

798

38

7

0.852 0.755 0.503 9

0.852 0.755 0.426

5

Congressional
Voting Records

435

16

15 1

6

Credit Approval

690

15

5

1

1

0.814 4

0.616 15

0.884 0.802 0.615 7

1

1

1

0.814

0.616

0.884 0.802 0.487

18

Hình 3.1 biễu diễn sự thay đổi độ hỗ trợ  trên hai tập rút gọn của hai
thuật toán EIQBAR và MBAR.
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
Thuật toán EIQBAR
Thuật toán MBAR

0.100

ro
va
l

re
di
t
C

in
g
C

.V
ot

A

R

ea
l.d
nn
A

pp

ec
or

ds

at
a

at
a
ut
om
ob

ile
.d

at
a
A

ng
-c
an
ce
r.d

Lu

H

ep
at

iti

s.d
at
a

0.000

Hình 3.1. Sự thay đổi độ hỗ trợ  trên hai tập rút gọn của thuật toán EIQBAR,
MBAR.

1) Kết quả thử nghiệm từ Bảng 3.4 và Bảng 3.5 cho thấy:
 Trên các bộ số liệu Lung-cancer.data, Congressional Voting Records,
tập rút gọn thu được bởi Thuật toán EIQBAR và Thuật toán MBAR là như
nhau. Tuy nhiên, với các bộ số liệu còn lại, tập rút gọn thu được bởi Thuật
toán EIQBAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán MBAR.
Điều này cũng phù hợp với kết quả nghiên cứu về lý thuyết.
 Thời gian thực hiện Thuật toán EIQBAR và Thuật toán MBAR về cơ
bản là tương đương nhau.
2) Kết quả thử nghiệm từ Bảng 3.6 và Hình 3.1 cho thấy:
 Độ chắc chắn , độ nhất quán  của hai tập rút gọn thu được bởi hai
thuật toán EIQBAR và MBAR trên 6 bộ dữ liệu thử nghiệm là bằng nhau.

19

 Độ hỗ trợ của tập rút gọn thu được bởi Thuật toán EIQBAR cao hơn
độ hỗ trợ của tập rút gọn thu được bởi Thuật toán MBAR.
Phần tiếp theo, chúng tôi trình bày phương pháp rút gọn thuộc tính sử
dụng hàm quan hệ được xây dựng trên ma trận quan hệ. Phương pháp đề

xuất này cũng thuộc Nhóm 2.
3.4. Phương pháp rút gọn thuộc tính sử dụng hàm quan hệ
Trong phần này chúng tôi xây dựng thuật toán heuristic tìm một tập rút
gọn tốt nhất sử dụng hàm quan hệ. Các kết quả trong phần này đã được tác
giả công bố trong công bố [4].
3.4.1.

Ma trận quan hệ và hàm quan hệ

Định nghĩa 3.3. Cho bảng quyết định không đầy đủ
R A

và

U n.

Ma trận quan hệ của

IDS trên

IDS  U , A  d 

tập thuộc chính

R,

với

ký hiệu

  , là ma trận vuông cấp n, mỗi phần tử có giá trị 0 hoặc 1, được

M R  mijR

nxn

định nghĩa như sau:
d u j    R u i 

(1)

mijR  1

nếu

(2)

mijR  0

nếu d u j   R u i  .

Định nghĩa 3.4. Cho hai ma trận
""

  và Y  y  . Hai quan hệ " " và

X  xijR

R
ij mxn

mxn

được định nghĩa như sau:
(1)

X Y

khi và chỉ khi

xijR  y ijR , i  1, 2,..., m , j  1, 2,..., n

(2)

X Y

khi và chỉ khi

xijR  y ijR , i  1, 2,..., m , j  1, 2,..., n

Định nghĩa 3.5. Cho hệ quyết định không đầy đủ
và

  là ma trận quan hệ của

M R  mijR

nxn

hàm quan hệ của

IDS

trên R , ký hiệu là
n

n

DIS R    mijR
i 1 j 1

IDS

IDS  U , A  d  ,

trên tập thuộc tính

DIS R 

với
R.

R A

Khi đó,

, được định nghĩa như sau:

với 1  i  n, 1 

j n.

20

3.4.2.

Rút gọn thuộc tính sử dụng hàm quan hệ

Định nghĩa 3.6. Cho bảng quyết định không đầy đủ
R A

IDS  U , A  d  .

Nếu

thỏa mãn:

(1)

DIS R   DIS ( A)

(2)

R '  R , DIS R '  DIS ( A)

 

thì R được gọi là một tập rút gọn của

IDS

dựa trên hàm quan hệ.

Ta thấy rằng tập rút gọn sử dụng hàm quan hệ tương đương với tập rút
gọn sử dựa trên hàm quyết định suy rộng. Do đó, phương pháp rút gọn
thuộc tính sử dụng hàm quan hệ thuộc Nhóm 2
Định nghĩa 3.7. Cho bảng quyết định không đầy đủ

IDS  U , A  d  , R  A

và a  A  R . Độ quan trọng của thuộc tính a đối với tập thuộc tính
được định nghĩa bởi
SIG Rout a   DIS R  a  DIS R 
Định nghĩa 3.8. Cho hệ quyết định không đầy đủ
aR.

IDS  U , A  d  , R  A

Độ quan trọng của thuộc tính a trong tập thuộc tính
nghĩa bởi
SIG Rin a   DIS R   DIS R  a

R

R

và

được định

Từ đó ta có SIGRout a   0 và SIGRin a   0 Do đó, SIGRout a  và SIGRin a  được
tính bởi lượng thay đổi hàm quan hệ khi thêm thuộc tính a vào R hoặc loại
bỏ a khỏi R và SIGRout a  , SIGRin a  càng lớn thì lượng thay đổi này càng lớn,
hay thuộc tính a càng quan trọng và ngược lại.
Thuật toán 3.4.(RBAR) Thuật toán heuristic tìm một tập rút gọn tốt nhất
sử dụng hàm quan hệ.
Đầu vào: Bảng quyết định không đầy đủ IDS  U , A  d  .
Đầu ra: Một tập rút gọn R .
1. R   ;
// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất;
2.While DIS R   DIS ( A) do
3.Begin
4.
For each a  A  R tính SIGRout  a   DIS  R  a  DIS  R  ;

SIG Rout a ;
5.
Chọn a m  A  R sao cho SIGRout a m   aMax
A R

21

6.
R  R  am  ;
7.End;
//Loại bỏ các thuộc tính dư thừa trong R nếu có;
8.For each a  R
9.

If DIS  R  a  DIS  R  then R  R  a ;
10. Return R ;
Giả sử k là số thuộc tính điều kiện và n là số đối tượng. Dễ thấy rằng
độ phức tạp để tính M A là O  kn 2  , do đó độ phức tạp tính DIS  A là O  kn 2  .
Xét vòng lặp While từ dòng lệnh 2 đến dòng lệnh 7, độ phức tạp để tính
tất cả các SIGR  a  là  k   k  1  ...  1 * kn 2   k *  k  1 / 2  * kn 2  O  k 3n 2  . Độ phức tạp
thời gian để chọn thuộc tính có độ quan trọng lớn nhất là
k   k  1  ...  1  k *  k  1 / 2  O  k 2  . Do đó, độ phức tạp của vòng lặp While là
O  k 3n 2  .

Tương tự, độ phức tạp của vòng lặp For là

O  k 2n 2  .

Vì vậy, độ

phức tạp của Thuật toán GDMBAR là O  k 3n 2  .
3.4.3.

Thử nghiệm và đánh giá kết quả
Bảng 3.5. Kết quả thực hiện thuật toán MBAR,
Thuật toán EIQBAR và Thuật toán RBAR

STT

Bộ số liệu

U

Thuật toán

Thuật toán

Thuật toán

MBAR

EIQBAR

RBAR

C

R

t

R

t

R

t

1

Hepatitis.data

155

19

4

1.296

3

1.29

3

1.56

2

Lung-cancer.data

32

56

4

0.171

4

0.17

4

0.98

3

Automobile.data

205

25

8

1.687

6

1.68

6

1.92

4

Anneal.data

798

38

9

179

7

178

7

196

5

Congressional

435

16

15

16.7

15

16.73

15

18.45

690

15

7

15.7

5

15.68

5

17.02

Voting Records
6

Credit Approval

22

Bảng 3.6. Tập rút gọn của thuật toán MBAR,

Thuật toán EIQBAR và Thuật toán RBAR
STT

Tập dữ liệu

Tập rút gọn của

Tập rút gọn của

Tập rút gọn của

MBAR

EIQBAR

RBAR

1

Hepatitis.data

{1, 2, 4, 17}

{1, 2, 17}

{1, 2, 17}

2

Lung-cancer.data

{3, 4, 9, 43}

{3, 4, 9, 43}

{3, 4, 9, 43}

3

Automobile.data

{1, 8, 9, 13, 14, 20, {1, 4, 13, 14, 20, {1, 4, 13, 14, 20,
21, 24}

4

Anneal.data

6

21}

{1, 3, 4, 5, 8, 9, 33, {1, 3, 4, 5, 8, 9, {1, 3, 4, 5, 8, 9,
34, 35}

5

21}

34}

34}

Congressional

{1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 7, 8, {1, 2, 3, 4, 5, 7, 8,

Voting Records

10, 11, 12, 13, 14, 9, 10, 11, 12, 13, 9, 10, 11, 12, 13,

Credit Approval

15, 16}

14, 15, 16}

14, 15, 16}

{1, 2, 3, 4, 5, 6, 8}

{1, 3, 4, 5, 8}

{1, 3, 4, 5, 8}

Kết quả thử nghiệm cho thấy:
 Trên cả 6 bộ dữ liệu, tập rút gọn thu được bởi Thuật toán EIQBAR và
Thuật toán RBAR là như nhau. Điều này phù hợp với nghiên cứu lý thuyết,
phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng (Thuật
toán EIQBAR) và phương pháp rút gọn thuộc tính sử dụng hàm quan hệ

(Thuật toán RBAR) đều thuộc Nhóm 2.
 Trên các bộ số liệu nhất quán Lung-cancer.data, Congressional Voting
Records, tập rút gọn thu được bởi Thuật toán RBAR và Thuật toán MBAR
là như nhau. Tuy nhiên, với các bộ số liệu còn lại, tập rút gọn thu được bởi

23

Thuật toán RBAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán
MBAR. Điều này cũng phù hợp với kết quả nghiên cứu về lý thuyết.
 Thời gian thực hiện Thuật toán EIQBAR và Thuật toán MBAR về cơ
bản là tương đương nhau. Tuy nhiên, thời gian thực hiện của Thuật toán
RBAR lớn hơn thời gian thực hiện của Thuật toán EIQBAR. Bởi vì, độ
phức tạp thời gian của Thuật toán RBAR cao hơn so với Thuật toán
EIQBAR. Sở dĩ cao hơn là vì Thuật toán EIQBAR sử dụng công thức cải
tiến tính

S R a u i 

với mọi

ui  U

khi

S R u i  đã

được tính ở bước trước [17].

Còn Thuật toán 3.4 tính ma trận phân biệt mở rộng trực tiếp từ các lớp

dung sai

S R u i 

với mọi

ui  U .

3.5. Kết luận chương 3
Chương 3 luận án đã thực hiện các nội dung nghiên cứu sau:
(1) Theo hướng tiếp cận rút gọn dữ liệu, chương 3 đề xuất kỹ thuật
chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính trong hệ thông
tin không đầy đủ và bảng quyết định không đầy đủ nhằm giảm thiểu thời
gian thực hiện các thuật toán tìm tập rút gọn trên các bảng quyết định có
dung lượng dữ liệu lớn. Kết quả này được công bố trong công trình [3].
(2) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin
mở rộng và chứng minh phương pháp đề xuất thuộc Nhóm 2 (trong phân
nhóm các phương pháp rút gọn thuộc tính được trình bày ở Chương 2).
Kết quả này được công bố trong công trình [5].
(3) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ và
chứng minh phương pháp đề xuất cũng thuộc Nhóm 2 (trong phân nhóm
các phương pháp rút gọn thuộc tính được trình bày ở Chương 2). Kết quả
này được công bố trong công trình [4].
Các kết quả nghiên cứu này góp phần làm phong phú thêm về hướng
nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định
không đầy đủ.

Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về