1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
……..….***…………
VŨ VĂN ĐỊNH
RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 62.46.01.10
TÓM TẮT NLUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI - 2016
2
Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học 1: GS.TS Vũ Đức Thi
Người hướng dẫn khoa học 2: PGS.TS Ngô Quốc Tạo
Phản biện 1: …
Phản biện 2: …
Phản biện 3: ….
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại
Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công
nghệ Việt Nam vào hồi … giờ .. ’, ngày … tháng … năm 2016
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
1
MỞ ĐẦU
1. Tính cấp thiết của luận án
Lý thuyết tập thô do Pawlak đề xuất vào những năm đầu thập niên tám
mươi của thế kỷ hai mươi được xem là công cụ hữu hiệu để giải quyết các
bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc
chắn. Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị
trên miền giá trị thuộc tính. Trên bảng quyết định không đầy đủ,
Kryszkiewicz đã mở rộng quan hệ tương đương trong lý thuyết tập thô
truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai
nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Các
phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo
tiếp cận tập thô dung sai trong những năm gần đây là: phương pháp dựa
trên miền dương, phương pháp sử dụng hàm quyết định suy rộng, phương
pháp sử dụng lượng thông tin, phương pháp sử dụng metric, phương pháp
sử dụng hàm phân bố (distribution reduct), phương pháp sử dụng hàm ấn
định (assignment reduct), phương pháp sử dụng ma trận phân biệt, phương
pháp sử dụng ma trận dung sai. Trên cơ sở tổng kết các nghiên cứu liên
quan đến các phương pháp rút gọn thuộc tính luận án đặt ra các vấn đề cần
nghiên cứu như sau:
Có thể nói rằng tập rút gọn chính là kết quả của một phương pháp rút
gọn thuộc tính. Trong bảng quyết định nhất quán, các công bố đã chỉ ra
tập rút gọn của phương pháp dựa trên miền dương, tập rút gọn của phương
pháp sử dụng hàm quyết định suy rộng, tập rút gọn sử dụng hàm phân bố,
phương pháp sử dụng hàm ấn định, là có định nghĩa độ đo tương đương
nhau. Tuy nhiên trên bảng quyết định không nhất quán, các tập rút gọn
của các phương pháp là khác nhau và theo tài liệu hiện có mà tác giả biết
thì chưa có nghiên cứu liên quan đến việc so sánh các tập rút gọn làm cơ
sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính.
Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính thường
dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán heuristic tìm
tập rút gọn và khả năng phân lớp của tập rút gọn. Từ việc tổng kết các
phương pháp rút gọn thuộc tính, tác giả thấy rằng nếu cùng sử dụng một
đơn vị tính toán cơ sở trong tập thô dung sai (lực lượng các lớp dung sai)
thì độ phức tạp thời gian các thuật toán heuristic của các phương pháp là
gần như nhau (độ phức tạp thời gian đa thức). Do đó, việc so sánh, đánh
giá các phương pháp đều sử dụng tiêu chuẩn khả năng phân lớp (độ hỗ trợ
của tập luật) của tập rút gọn. Về mặt định tính, tập rút gọn bảo toàn khả
năng phân lớp của bảng quyết định. Về mặt định lượng, tập rút gọn bảo
2
toàn độ chắc chắn của tập luật quyết định. Tập rút gọn của phương pháp
nào có độ hỗ trợ của tập luật cao (luật quyết định phủ nhiều đối tượng) thì
có khả năng phân lớp cao. Do đó, khả năng phân lớp được tính bằng độ hỗ
trợ của tập luật. Các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ
trợ của tập luật quyết định trên bảng quyết định không đầy đủ. Tuy nhiên,
các tác giả chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút
gọn của các phương pháp rút gọn thuộc tính, do đó các độ đo này không
đánh giá được khả năng phân lớp của tập rút gọn và đòi hỏi phải có độ
chắc chắn, độ hỗ trợ mới để đánh giá khả năng phân lớp của tập rút gọn,
làm cơ sở để so sánh, đánh giá các phương pháp rút gọn thuộc tính.
Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả nhất
định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp mới vẫn
đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các phương pháp
rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương pháp phù hợp để
giải quyết các bài toán trong thực tiễn.
2. Mục tiêu nghiên cứu của luận án
1) Trong bảng quyết định nhất quán, các công bố đã chỉ ra tập rút
gọn của phương pháp trên là tương đương nhau. Tuy nhiên trên bảng
quyết định không nhất quán, các tập rút gọn của các phương pháp là khác
nhau và theo tài liệu hiện có mà tác giả biết thì chưa có nghiên cứu liên
quan đến việc so sánh các tập rút gọn để so sánh, đánh giá các phương
pháp rút gọn.
2) Việc so sánh, đánh giá các phương pháp rút gọn thuộc tính
thường dựa trên hai tiêu chuẩn: độ phức tạp thời gian của thuật toán
heuristic tìm tập rút gọn và khả năng phân lớp của tập rút gọn. Tác giả
thấy rằng nếu cùng sử dụng một đơn vị tính toán cơ sở trong tập thô dung
sai thì độ phức tạp thời gian các thuật toán heuristic của các phương pháp
là như nhau (độ phức tạp thời gian đa thức). Do đó, việc so sánh, đánh giá
các phương pháp đều sử dụng tiêu chuẩn khả năng phân lớp của tập rút
gọn(độ hỗ trợ của tập luật). Về mặt định tính, tập rút gọn bảo toàn khả
năng phân lớp của bảng quyết định. Về mặt định lượng, tập rút gọn bảo
toàn độ chắc chắn của tập luật quyết định. Tập rút gọn của phương pháp
nào có độ hỗ trợ của tập luật cao thì có khả năng phân lớp cao. Do đó, khả
năng phân lớp được tính bằng độ hỗ trợ của tập luật. Trong các nghiên cứu
trước, các tác giả đã đưa ra độ chắc chắn, độ nhất quán và độ hỗ trợ của
tập luật quyết định trên bảng quyết định không đầy đủ. Tuy nhiên, các tác
giả chưa nghiên cứu sự thay đổi của các độ đo này trên các tập rút gọn của
các phương pháp rút gọn thuộc tính, do đó các độ đo này không đánh giá
3
được khả năng phân lớp của tập rút gọn và đòi hỏi phải có độ chắc chắn,
độ hỗ trợ mới để đánh giá khả năng phân lớp của tập rút gọn, làm cơ sở để
so sánh, đánh giá các phương pháp rút gọn thuộc tính.
3) Hướng nghiên cứu rút gọn thuộc tính đã đạt được một số kết quả
nhất định. Tuy nhiên, việc nghiên cứu và tìm kiếm các phương pháp mới
vẫn đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm các phương
pháp rút gọn thuộc tính. Trên cơ sở đó, lựa chọn các phương pháp phù hợp
để giải quyết các bài toán trong thực tiễn.
3. Các nội dung nghiên cứu chính của luận án
Chương 1 trình bày các khái niệm cơ bản về mô hình tập thô dung sai
dựa trên quan hệ dung sai trong hệ thông tin không đầy đủ
Chương 2 trình bày hai kết quả chính. Thứ nhất là kết quả phân nhóm
các phương pháp rút gọn thuộc tính dựa vào kết quả nghiên cứu mối liên hệ
giữa các tập rút gọn. Thứ hai là đề xuất các độ đo mới đánh giá hiệu năng
tập luật quyết định và nghiên cứu sự thay đổi giá trị các độ đo này trên các
tập rút gọn nhằm so sánh, đánh giá các nhóm phương pháp rút gọn thuộc
tính trên tiêu chuẩn khả năng phân lớp của tập rút gọn (độ hỗ trợ).
Chương 3 trình bày ba kết quả chính. Thứ nhất là chọn tập tối tượng
đại diện cho bài toán rút gọn thuộc tính nhằm giảm thiểu số đối tượng (dữ
liệu), Thứ hai là đề xuất phương pháp mới rút gọn thuộc tính sử dụng hàm
quan hệ và so sánh, thử nghiệm phương pháp với các phương pháp đã có
trên các bộ số liệu UCI. Thứ ba là đề xuất phương pháp mới rút gọn thuộc
tính sử dụng lượng thông tin mở rộng và so sánh, thử nghiệm phương pháp
với các phương pháp đã có trên các bộ số liệu UCI.
Chương 1. CÁC KHÁI NIỆM CƠ BẢN
Chương này trình bày một số khái niệm cơ bản trong mô hình tập thô
mở rộng dựa trên quan hệ dung sai, trên các hệ thông tin không đầy đủ.
1.1.
Hệ thông tin không đầy đủ
Hệ thông tin là một cặp IS U , A trong đó U là tập hữu hạn, khác rỗng
các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính
a A xác định một ánh xạ: a : U Va với Va là tập giá trị của thuộc tính
a A.
Với hệ thông tin IS U , A , nếu tồn tại u U và a A sao cho a u chứa
giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ,
4
trái lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký
hiệu là ‘*’ và hệ thông tin không đầy đủ là IIS U , A .
1.2.
Mô hình tập thô dung sai
Xét hệ thông tin không đầy đủ IIS U , A , với tập thuộc tính
định nghĩa một quan hệ nhị phân trên U như sau:
P A
ta
.
SIM P u , v U U a P, a u a v a u '*' a v '*'
Quan hệ SIM P không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng không có tính bắc cầu. Do đó, SIM P là một
quan hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity
relation) trên U. Ta có, SIM P aP SIM a .
1.3.
Bảng quyết định không đầy đủ
Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia
thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc
tính điều kiện và tập thuộc tính quyết định. Tức là DS U , C D với
CD .
Xét bảng quyết định DS U , C D với giả thiết u U , d D , d u đầy
đủ giá trị, nếu tồn tại u U và c C sao cho c u thiếu giá trị thì DS được
gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định
đầy đủ. Ta biểu diễn bảng quyết định không đầy đủ là IDS U , C D với
d D, '*' Vd . Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc
tính quyết định duy nhất d .
1.4.
Tập rút gọn và tập lõi
Định nghĩa 1.2 Cho hệ thông tin không đầy đủ IIS U , A . Ta nói rằng
thuộc tính a A là không cần thiết (dispensable) trong A nếu
U / SIM A U / SIM A a ; ngược lại, a được gọi là cần thiết (indispensable)
trong A. Tập tất cả các thuộc tính cần thiết trong A được gọi là tập lõi của
A. Khi đó, thuộc tính cần thiết chính là thuộc tính lõi.
Định nghĩa 1.3 Cho hệ thông tin không đầy đủ IIS U , A . Tập thuộc tính
R A là một tập rút gọn của A nếu U / SIM R U / SIM A và với mọi r R ,
U / SIM R r U / SIM A .
Hiển nhiên, A có nhiều tập rút gọn. Khi đó, tập lõi của A là giao của tất
cả các tập rút gọn của A.
5
Kết luận chương 1
Chương 1 đã trình bày một số khái niệm cơ bản trong mô hình tập thô
dung sai do Kryszkiewicz đề xuất và một số khái niệm cơ bản về tập rút
gọn và tập lõi trong hệ thông tin không đầy đủ và bảng quyết định không
đầy đủ. Các khái niệm này được sử dụng trong chương 2 và chương 3 của
luận án.
Chương 2. PHÂN NHÓM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP
RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG
ĐẦY ĐỦ
2.1. Mở đầu
Chương này trình bày các kết quả nghiên cứu sau đây:
1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết định
không đầy đủ dựa vào nghiên cứu mối liên hệ giữa các khái niệm tập rút
gọn.
2) Đánh giá các phương pháp rút gọn thuộc tính dựa vào nghiên cứu sự
thay đổi các độ đo đánh giá hiệu năng tập luật quyết định trên các khái
niệm tập rút gọn.
2.2. Phân nhóm các phương pháp rút gọn thuộc tính
Tiêu chí phân nhóm là: các phương pháp có tập rút gọn như nhau
được phân thành một nhóm. Các kết quả trong phần này đã được tác giả
công bố trong tài liệu [1].
2.2.1.
Các khái niệm tập rút gọn trong bảng quyết định không đầy đủ
Kryszkiewicz M và các cộng sự đã đư ra khái niệm tập rút gọn của
IDS dựa trên hàm quyết định suy rộng ( R ), Zuqiang Meng và các cộng sự
đưa ra khái niệm về tập rút gọn dựa trên miền dương ( RP ), Huang B và các
cộng sự đưa ra khái niệm về tập rút gọn dựa trên lượng thông tin
(information quantity)( RI ). Tác giả trước đã đưa ra khái niệm về tập rút
gọn dựa trên metric( RD ), Huasheng ZOU và cộng sự đưa ra khái niệm tập
rút gọn dựa trên ma trận phân biệt( RM ). Công trình trước tác giả đưa ra
khái niệm tập rút gọn dựa trên ma trận dung sai( RTM ), ngoài ra, trong các
công trình khác, các tác giả đưa ra khái niệm tập rút gọn phân bố
(distribution reduct)( R ), tập rút gọn ấn định (assignment reduct)( R ).
Kết quả nghiên cứu về mối liên hệ giữa các khái niệm tập rút gọn như
sau:
6
1) Nếu bảng quyết định nhất quán, các tác giả đã chỉ ra
là như nhau về định nghĩa độ đo.
RP , R , R , R
2) Nếu bảng quyết định không nhất quán, Renpu Li và cộng sự đã
chứng minh R và R là như nhau về định nghĩa độ đo. Huasheng ZOU và
cộng sự đã chứng minh R và RM như nhau về định nghĩa độ đo.
2.2.2.
Mối liên hệ giữa các khái niệm tập rút gọn
RD , RI , RTM
IDS U , A d
Mệnh đề 2.1. Cho bảng quyết định không đầy đủ
Khi đó d E K R , K R d d E K A , K A d
I R d I A d .
khi
và
và R A .
chỉ khi
Mệnh đề 2.2. Cho bảng quyết định không đầy đủ IDS U , A d , R A và
TM mi j
là ma trận dung sai của IDS. Khi đó
nn
d E K R , K R d d E K A , K A d khi và chỉ khi R mi j với mọi
mi j .
2.2.3.
Mối liên hệ giữa
R và RP
Mệnh đề 2.3. Cho bảng quyết định không đầy đủ IDS U , A d và
Nếu R u A u với mọi u U thì POS R d POS A d .
2.2.4.
Mối liên hệ giữa
RD
và
R A.
R
Mệnh đề 2.4. Cho bảng quyết định không đầy đủ IDS U , A d và R A .
Nếu d E K R , K R d d E K A , K A d thì u U , R u A u .
2.2.5.
Mối liên hệ giữa
R
và
R
IDS U , A d
Mệnh đề 2.5. Cho bảng quyết định không đầy đủ
Nếu u U , R u A u thì u U , R u A u .
2.2.6.
và
R A.
Phân nhóm các phương pháp rút gọn thuộc tính
Nếu bảng quyết định nhất quán, các tập rút gọn
RTM , R là như nhau.
RP , R , R , RM , RD , RI ,
Nếu bảng quyết định không nhất quán, mối liên hệ giữa các tập rút gọn
trong các nhóm như sau:
RP
R , R , RM
R D , R I , RTM
R
7
Nếu R3 là một tập rút gọn thuộc Nhóm 3 thì tồn tại một tập rút gọn
R2 thuộc Nhóm 2 và một tập rút gọn R1 thuộc Nhóm 1 sao cho
R1 R2 R3 .
Nếu R4 là một tập rút gọn thuộc Nhóm 4 thì tồn tại một tập rút gọn
R2 thuộc Nhóm 2 và một tập rút gọn R1 thuộc Nhóm 1 sao cho
R1 R2 R4 .
2.3. Đánh giá các phương pháp rút gọn thuộc tính
Chúng tôi đề xuất các độ đo mới và nghiên cứu sự thay đổi giá trị các
độ đo đề xuất trên các tập rút gọn nhằm đánh giá các phương pháp rút gọn
thuộc tính. Các kết quả trong phần này đã được tác giả công bố trong tài
liệu [2].
2.3.1.
Luật quyết định và các độ đo đánh giá hiệu năng
Yuhua Qian và các cộng sự, đã đưa ra độ chắc chắn, độ nhất quán và
độ hỗ trợ của tập luật trong bảng quyết định không đầy đủ dựa trên khái
niệm khối đồng nhất cực đại. Điểm hạn chế lớn nhất của công trình này là
các tác giả chưa đánh giá được sự thay đổi giá trị của các độ đo này trên
các tập rút gọn.
2.3.2.
Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định
Cho bảng quyết định không đầy đủ IDS U , A d với U u1,..., un và
tập luật RULE Zij Zij : des S A ui des Y j với S A ui U / SIM A ,Y j U / d , i 1..n, j 1..m .
Độ chắc chắn
của
IDS được định nghĩa
IDS
Độ nhất quán
1 n 1
n i 1 N i
Ni
S A ui Y j
S A ui
j 1
.
Ni
j 1
S A ui Y j
S A ui
1
n 1
của IDS được định nghĩa
IDS
Ký hiệu
sai S A ui .
của IDS được định nghĩa
1 n 1
IDS
n 1 i 1 N i
Độ hỗ trợ
Ni
1 n m S A ui Y j
n i 1 j 1
n
là số luật quyết định (số lớp quyết định) sinh bởi lớp dung
8
Mệnh đề 2.6. Cho hai bảng quyết định không đầy đủ IDS U , A d ,
IDS ' U , B d và RULE Z ij Z ij : des S A ui des Y j với S A ui U / SIM A , Y j U / d ,
i 1..n ,
j 1..m .
IDS IDS '
Nếu
B A
thì
IDS IDS ' ,
IDS IDS ' ,
2.3.3.
Nghiên cứu sự thay đổi giá trị các độ đo đề xuất trên các tập
rút gọn
Mệnh đề 2.7. Cho hai bảng quyết định không đầy đủ
IDS ' U , B d .
IDS U , A d
và
a) Nếu IDS nhất quán và B là một tập rút gọn miền dương ( RP ) thì
IDS ' IDS 1 , IDS ' IDS 1 , IDS ' IDS
b) Nếu IDS không nhất quán và B là một tập rút gọn miền dương ( RP )
thì
IDS ' IDS , IDS ' IDS , IDS ' IDS
Như vậy, tập rút gọn miền dương ( RP ) làm giảm độ chắc chắn, giảm
độ nhất quán và tăng độ hỗ trợ của tập luật đối với bảng quyết định không
đầy đủ không nhất quán.
Mệnh đề 2.8. Cho hai bảng quyết định không đầy đủ IDS U , A d và
IDS ' U , B d . Nếu B là một tập rút gọn dựa trên hàm quyết định suy
rộng ( R ) thì
IDS ' IDS , IDS ' IDS , IDS ' IDS
Như vậy, tập rút gọn dựa trên hàm quyết định suy rộng ( R ) bảo toàn
độ chắc chắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định.
Mệnh đề 2.9. Cho hai bảng quyết định không đầy đủ IDS U , A d và
IDS ' U , B d . Nếu B là một tập rút gọn dựa trên khoảng cách ( RD ) thì
IDS ' IDS , IDS ' IDS , IDS ' IDS
Mệnh đề 2.10. Cho hai bảng quyết định không đầy đủ IDS U , A d và
IDS ' U , B d . Nếu B là một tập rút gọn phân bố ( R ) thì
IDS ' IDS , IDS ' IDS , IDS ' IDS
9
2.3.4.
Thử nghiệm sự thay đổi giá trị các độ đo đề xuất trên các tập
rút gọn
Bảng 2.5. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 1
Thuật toán POSBAR
Bộ số liệu
U
C
1
Hepatitis.data
155
19
2
Lung-cancer.data
32
3
Automobile.data
4
STT
Thuật toán GDBAR
3
0.909
0.819
0.598
3
0.909
0.819 0.504
56
4
1
1
0.814
4
1
1
205
25
4
0.825
0.702
0.708
6
0.915
0.781 0.624
Anneal.data
798
38
6
0.804
0.713
0.586
7
0.852
0.755 0.503
5
Congressional
Voting Records
435
16
15
1
1
0.616
15
1
1
6
Credit Approval
690
15
3
0.716
0.708
0.786
5
0.884
0.802 0.615
R
R
0.814
0.616
Bảng 2.6. Kết quả thử nghiệm sự thay đổi các độ đo đánh giá hiệu năng 2
Thuật toán MBAR
Bộ số liệu
U
C
1
Hepatitis.data
155
19
2
Lung-cancer.data
32
3
Automobile.data
4
STT
Thuật toán DFBAR
4
0.909
0.819
0.415
5
0.909
0.819
0.402
56
4
1
1
0.814
4
1
1
0.814
205
25
8
0.915
0.781
0.518
8
0.915
0.781
0.518
Anneal.data
798
38
9
0.852
0.755
0.426
10
0.852
0.755
0.406
5
Congressional
Voting Records
435
16
15
1
1
0.616
15
1
1
0.616
6
Credit Approval
690
15
7
0.884
0.802
0.487
6
0.884
0.802
0.512
R
R
Hình 2.1 sau đây biểu diễn sự thay đổi của độ hỗ trợ trên 6 bộ số
liệu được chọn đối với các thuật toán: Thuật toán POSBAR, Thuật toán
GDBAR, Thuật toán MBAR, Thuật toán DFBAR.
10
Hình 2.1. Sự thay đổi độ hỗ trợ trên các tập rút gọn
2.3.5.
Lựa chọn, đánh giá các phương pháp rút gọn thuộc tính
1) Lựa chọn nhóm phương pháp phù hợp
1) Tập rút gọn
RP ,
tập rút gọn
R ,
tập rút gọn
RD và
tập rút gọn
R
đều
bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ
nhất quán.
2) Tập rút gọn
RP
làm giảm độ chắc chắc của tập luật đối với bảng
quyết định không đầy đủ không nhất quán
3) Tập rút gọn
R ,
tập rút gọn
RD
và tập rút gọn
R
đều bảo toàn độ
chắc chắn của tập luật đối với bảng quyết định không đầy đủ không nhất
quán.
2) Đánh giá các phương pháp
Với bảng quyết định không đầy đủ nhất quán, các tập rút gọn tốt nhất
của bốn nhóm phương pháp là như nhau nên chúng có chất lượng phân
lớp như nhau. Với bảng quyết định không nhất quán, chúng tôi đánh giá
ba nhóm phương pháp phù hợp (Nhóm 2, Nhóm 3, Nhóm 4) dựa trên tiêu
chuẩn chất lượng phân lớp tập rút gọn của nhóm phương pháp.
Giả sử
RDBest
là một tập rút gọn tốt nhất của các phương pháp thuộc
Nhóm 3 ( RDBest tìm được bởi thuật toán heuristic sử dụng khoảng cách,
lượng thông tin hay ma trận dung sai). Theo kết quả nghiên cứu về mỗi
liên hệ giữa các tập rút gọn đã trình bày, tồn tại một tập rút gọn dựa trên
hàm quyết định suy rộng R sao cho R RDBest ( R tối thiểu hơn RDBest ).
11
Giả sử
RBest
là một tập rút gọn tốt nhất của các phương pháp thuộc
Nhóm 2 ( RBest tìm được bởi thuật toán heuristic sử dụng hàm quyết định
suy rộng, tập rút gọn ấn định hay ma trận phân biệt). Ta có hai trường hợp.
- Nếu
hơn
RDBest .
nghĩa là
RBest
tối thiểu
Theo Mệnh đề 2.6, độ hỗ trợ của tập luật dựa trên
RBest
cao hơn
RBest
chính là
R
( RBest R ) thì
độ hỗ trợ của tập luật dựa trên
hơn
RBest RDBest ,
, hay
RDBest
RBest
có chất lượng phân lớp tốt
RDBest .
- Nếu
RBest
khác
R
thì
có chất lượng phân lớp tốt hơn
RBest
có chất lượng phân lớp tốt nhất. Mặt khác, do
về chất lượng phân lớp. Do đó,
RBest
tốt hơn
Do đó, trong cả hai trường hợp
RDBest .
RBest
R RDBest
RDBest
nên
R
do
RBest
tốt hơn
RDBest
R
về chất lượng phân lớp.
có chất lượng phân lớp tốt hơn
Từ đó kết luận các phương pháp thuộc Nhóm 2 hiệu quả hơn các
phương pháp thuộc Nhóm 3 theo tiêu chuẩn đánh giá chất lượng phân lớp
của tập rút gọn.
Tương tự như trên ta có các phương pháp thuộc Nhóm 2 hiệu quả hơn
các phương pháp thuộc Nhóm 4 theo tiêu chuẩn đánh giá chất lượng phân
lớp của tập rút gọn.
Các phương pháp thuộc Nhóm 3 không so sánh được với các phương
pháp thuộc Nhóm 4 do tập rút gọn RD và tập rút gọn R không có mối quan
hệ.
2.4. Kết luận chương 2
Chương 2 luận án đã thực hiện các nội dung nghiên cứu sau:
(1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết
định không đầy đủ không nhất quán dựa vào kết quả nghiên cứu mối liên
hệ giữa các khái niệm tập rút gọn, mối liên hệ giữa các tập rút gọn của các
nhóm phương pháp. Dựa trên tập rút gọn, các phương pháp được phân
thành bốn nhóm: Nhóm 1 (Tập rút gọn miền dương RP ), Nhóm 2 (tập rút
gọn dựa trên hàm quyết định suy rộng
gọn dựa trên ma trận phân biệt
thông tin
RI ,
RM ),
R ,
tập rút gọn ấn định
R ,
tập rút
Nhóm 3 (tập rút gọn dựa trên lượng
tập rút gọn dựa trên ma trận dung sai
RTM ,
tập rút gọn dựa trên
12
khoảng cách
RD ),
Nhóm 4 (Tập rút gọn phân bố
R ).
Kết quả này được
công bố trong công trình [1].
(2) Đề xuất các độ đo mới đánh giá hiệu năng tập luật quyết định (độ
chắc chắn, độ nhất quán, độ hỗ trợ). Nghiên cứu sự thay đổi giá trị các độ
đo đề xuất trên các tập rút gọn của bốn nhóm phương pháp. Trên cơ sở đó,
lựa chọn và đánh giá các phương pháp rút gọn thuộc tính dựa trên tiêu
chuẩn chất lượng phân lớp của tập rút gọn. Kết quả này được công bố trong
công trình [2].
Chương 3. ĐỀ XUẤT CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC
TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
3.1. Mở đầu
Trong chương này, trước hết chúng tôi giải quyết bài toán rút gọn dữ
liệu bằng đề xuất phương pháp chọn tập đối tượng đại diện. Sau đó, chúng
tôi đề xuất phương pháp sử dụng lượng thông tin mở rộng và phương pháp
sử dụng hàm quan hệ. Chúng tôi chứng minh rằng cả 2 phương pháp này
đều thuộc Nhóm 2 (theo phân nhóm phương pháp đã trình bày ở Chương
2).
3.2. Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính
3.2.1. Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ
Thuật toán 3.1. Chọn tập đối tượng đại diện của hệ thông tin không đầy
đủ.
Đầu vào: Hệ thông tin không đầy đủ IIS U , A với U u1,..., un ,
A a1 ,..., a m
Đầu ra: Hệ thông tin không đầy đủ đại diện IIS P U P , A với U P U .
Bước 1: Đặt U P ;
Bước 2: Với mỗi ai A, i 1..m , tính U / ai u a u U với
u a v U
i
i
.
Sai u Sai v
m
Bước 3: Tính U / A u A / u U với u A u a ... u a u a .
1
m
Giả sử U / A X 1 ,..., X k và X i ui ,..., ui với i 1..k .
Bước 4: Với mọi X i U / A, , i 1..k , đặt U P : U P ui ;
Bước 5: Return IIS P U P , A ;
1
l
1
i 1
i
13
3.2.2. Chọn tập đối tượng đại diện cho bảng quyết định không đầy đủ
Thuật toán 3.2. Chọn tập đối tượng đại diện của bảng quyết định không
đầy đủ.
Đầu vào: Bảng quyết định không đầy đủ IDS U , A d với
U u1 ,..., un , A a1 ,..., a m
Đầu ra: Bảng quyết định không đầy đủ đại diện IDS p U p , A d với
UP U .
Bước 1: Đặt U P ;
Bước 2: Với mỗi ai A, i 1..m , tính U / ai u a u U với
u a v U
i
i
.
Sai u Sai v
m
Bước 3: Tính U / A u A / u U với u A u a ... u a u a
1
m
i 1
i
Giả sử U / A X 1 ,..., X k ;
Bước 4: Với mỗi X i U / A, , i 1..k , thực hiện lặp các bước 4.1 và 4.2
như sau:
Bước 4.1. Tính X i / d u d u X i với u d v X i d u d v . Giả sử
và Y j u j ,..., u j với j 1..l .
Bước 4.2. Với mỗi Y j X i / d , j 1..l , đặt U P : U P u j ;
Bước 5: Return IDS p U p , A d ;
X i / d Y1 ,..., Yl
1
o
1
3.3. Phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở
rộng
3.3.1.
Độ đo lượng thông tin mở rộng
Cho hệ thông tin đầy đủ
U / P P1 ,..., Pk
IS U , A ,
với
là phân hoạch sinh bởi tập thuộc tính
U u1 ,..., u n ,
P A.
thông tin mở rộng của P trên tập đối tượng U, ký hiệu là
bằng tổng khoảng cách Jaccard trung bình giữa tập U và
EI P,U
3.3.2.
Khi đó, lượng
EI P, U ,
được tính
Pi như sau:
U Pi 1 k
Pi
1 k
1
1
1 1
k i 1
U Pi k i 1
U
k
(3.1)
Xây dựng lượng thông tin mở rộng có điều kiện
Cho bảng quyết định không đầy đủ
P A
giả sử
ta có
U / SIM P S p u i u i U , i 1..n
IDS U , A d
và
U u1 ,..., u n
với
là một phủ của U. Khi đó, ta xây
14
dựng lượng thông tin mở rộng có điều kiện (conditional extended
information quantity) của tập thuộc tính P đối với thuộc tính d , ký hiệu
là
, là trung bình cộng các lượng thông tin mở rộng thành phần
CEI P d
của thuộc tính d trên các tập đối tượng
EI d , S P ui 1
1
kiP
với
k ip
S p u i , EI d , S P ui .
là số lớp tương đương của phân hoạch
Giả sử
S p u i /d .
Khi đó ta có:
CEI P d
1 n
1 n
1
1 n 1
EI
d
,
S
u
1
1
P
i
n i 1
n i 1 k Pi
n i 1 k Pi
Cho bảng quyết định không đầy đủ
IDS U , A d
(3.2)
và U u1 ,..., u n , với
ta có U / SIM P S p u i u i U , i 1..n là một phủ của U. ta xây dựng
P A
lượng thông tin mở rộng có điều kiện của tập thuộc tính P và thuộc tính
quyết định d , ký hiệu là CEI P d , là trung bình cộng các lượng thông
tin mở rộng thành phần của thuộc tính d trên các tập đối tượng
EI d , S P ui
phân hoạch
CEI P d
3.3.3.
Giả sử
S p u i /d .
EI d , S P ui 1
1
kiP
với
k ip
S p u i ,
là số lớp tương đương của
Khi đó ta có:
1 n
1 n
1
1 n 1
EI
d
,
S
u
1
1
P i n
n i 1
k Pi
n i 1 k Pi
i 1
(3.2)
Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều
kiện
Định nghĩa 3.1. Cho bảng quyết định không đầy đủ
thuộc tính R A . Nếu
IDS U , A d
và tập
1)
CEI R d CEI A d
2)
r R, CEI
R r d CEI A d
thì R là một tập rút gọn của A dựa trên lượng thông tin mở rộng có điều
kiện.
15
Định nghĩa 3.2. Cho bảng quyết định không đầy đủ IDS U , A d , B A
và b A B . Độ quan trọng của thuộc tính b đối với tập thuộc tính B được
định nghĩa bởi:
SIGB b CEI B d CEI B b d
Thuật toán 3.3 (Thuật toán EIQBAR). Thuật toán heuristic tìm một tập
rút gọn sử dụng lượng thông tin mở rộng có điều kiện.
Đầu vào: Bảng quyết định không đầy đủ IDS U , A d
Đầu ra: Một tập rút gọn R .
1. R ;
2. Tính lượng thông tin mở rộng có điều kiện CEI R d và CEI A d ;
// Thêm vào R các thuộc tính có độ quan trọng lớn nhất
3. While CEI R d CEI A d do
4. Begin
5.
For
a A R
6.
Chọn
7.
R R a m ;
8.
Tính
tính
sao cho
am A R
;
SIGR a CEI R d CEI R a d
SIG R a m MaxSIG R a ;
a A R
;
CEI R d
9. End;
//Loại bỏ các thuộc tính dư thừa trong R nếu có
10.
For each a R do
11.
Begin
12. Tính CEI R a d ;
13.
14.
15.
If
then
CEI R a d CEI R d
End;
Return
R R a ;
R;
Xét vòng lặp While từ dòng lệnh 3 đến 9, để tính SIGR a ta cần phải
tính phải tính CEI R a d vì CEI R d đã được tính ở bước trước, nghĩa
là cần phải tính
S R a u i
và phân hoạch
cộng sự [9], độ phức tạp để tính
tính là
S R a u i
S R a u i /d .
với mọi
, độ phức tạp để tính phân hoạch S
OU
2
Theo Zhang và các
ui U
R a
khi
S R u i đã
u i /d với mọi
được
ui U
là
16
. Do đó, độ phức tạp thời gian để tính tất cả các SIG a ở dòng lệnh
OU
2
R
số 5 là:
A A 1 ... 1 * U
với
A
2
A * A / 2 * U O A U
là số thuộc tính điều kiện và
U
2
2
2
là số đối tượng. Độ phức tạp thời
gian để chọn thuộc tính có độ quan trọng lớn nhất ở dòng lệnh số 6 là:
2
A A 1 ... 1 A * A 1 / 2 O A . Do đó, độ phức tạp thời gian của vòng
. Tương tự, độ phức tạp của vòng lặp For từ dòng
lệnh số 10 đến 14 là O A U . Vì vậy, độ phức tạp thời gian của Thuật
toán EIQBAR là O A U .
lặp While là
2
O A U
2
2
2
3.3.4.
2
2
Thử nghiệm và đánh giá kết quả
Chúng tôi chọn thuật toán MBAR tìm tập rút gọn của bảng quyết định
không đầy đủ sử dụng metric để so sánh với thuật toán sử dụng lượng
thông tin mở rộng đề xuất (Thuật toán EIQBAR) về thời gian thực hiện và
kết quả thực hiện.
Bảng 3.4. Kết quả thực hiện thuật toán MBAR và Thuật toán EIQBAR
STT
Bộ số liệu
U
Thuật toán
Thuật toán
MBAR
EIQBAR
C
R
t
R
t
1
Hepatitis.data
155
19
4
1.296 3
1.29
2
Lung-cancer.data
32
56
4
0.171 4
0.17
3
Automobile.data
205
25
8
1.687 6
1.68
4
Anneal.data
798
38
9
179
7
178
5
Congressional Voting Records
435
16
15
16.7
15
16.73
6
Credit Approval
690
15
7
15.7
5
15.68
17
Bảng 3.5. Tập rút gọn của thuật toán MBAR và Thuật toán EIQBAR
Tập rút gọn của
Tập rút gọn của
Thuật toán MBAR
Thuật toán EIQBAR
STT
Tập dữ liệu
1
Hepatitis.data
{1, 2, 4, 17}
{1, 2, 17}
2
Lung-cancer.data
{3, 4, 9, 43}
{3, 4, 9, 43}
3
Automobile.data
{1, 8, 9, 13, 14, 20, 21, 24}
{1, 4, 13, 14, 20, 21}
4
Anneal.data
{1, 3, 4, 5, 8, 9, 33, 34, 35}
{1, 3, 4, 5, 8, 9, 34}
5
Congressional
{1, 2, 3, 4, 5, 7, 8, 9, 10, 11, {1, 2, 3, 4, 5, 7, 8, 9,
Voting Records
12, 13, 14, 15, 16}
10, 11, 12, 13, 14, 15,
16}
6
Credit Approval
{1, 2, 3, 4, 5, 6, 8}
{1, 3, 4, 5, 8}
Kết quả thực hiện của hai thuật toán về tập rút gọn và tính toán giá trị
các độ chắc chắn , độ nhất quán , độ hỗ trợ được mô tả ở Bảng 3.6 sau
đây:
Bảng 3.6. Kết quả tính toán độ chắc chắn, độ nhất quán và độ hỗ trợ trên các
tập rút gọn
S
T
T
Thuật toán EIQBAR
Bộ số liệu
U
C
R
Thuật toán MBAR
R
1
Hepatitis.data
155
19
3
0.909 0.819 0.504 4
0.909 0.819 0.415
2
Lung-cancer.data
32
56
4
1
1
3
Automobile.data
205
25
6
0.915 0.781 0.624 8
0.915 0.781 0.518
4
Anneal.data
798
38
7
0.852 0.755 0.503 9
0.852 0.755 0.426
5
Congressional
Voting Records
435
16
15 1
6
Credit Approval
690
15
5
1
1
0.814 4
0.616 15
0.884 0.802 0.615 7
1
1
1
0.814
0.616
0.884 0.802 0.487
18
Hình 3.1 biễu diễn sự thay đổi độ hỗ trợ trên hai tập rút gọn của hai
thuật toán EIQBAR và MBAR.
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
Thuật toán EIQBAR
Thuật toán MBAR
0.100
ro
va
l
re
di
t
C
in
g
C
.V
ot
A
R
ea
l.d
nn
A
pp
ec
or
ds
at
a
at
a
ut
om
ob
ile
.d
at
a
A
ng
-c
an
ce
r.d
Lu
H
ep
at
iti
s.d
at
a
0.000
Hình 3.1. Sự thay đổi độ hỗ trợ trên hai tập rút gọn của thuật toán EIQBAR,
MBAR.
1) Kết quả thử nghiệm từ Bảng 3.4 và Bảng 3.5 cho thấy:
Trên các bộ số liệu Lung-cancer.data, Congressional Voting Records,
tập rút gọn thu được bởi Thuật toán EIQBAR và Thuật toán MBAR là như
nhau. Tuy nhiên, với các bộ số liệu còn lại, tập rút gọn thu được bởi Thuật
toán EIQBAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán MBAR.
Điều này cũng phù hợp với kết quả nghiên cứu về lý thuyết.
Thời gian thực hiện Thuật toán EIQBAR và Thuật toán MBAR về cơ
bản là tương đương nhau.
2) Kết quả thử nghiệm từ Bảng 3.6 và Hình 3.1 cho thấy:
Độ chắc chắn , độ nhất quán của hai tập rút gọn thu được bởi hai
thuật toán EIQBAR và MBAR trên 6 bộ dữ liệu thử nghiệm là bằng nhau.
19
Độ hỗ trợ của tập rút gọn thu được bởi Thuật toán EIQBAR cao hơn
độ hỗ trợ của tập rút gọn thu được bởi Thuật toán MBAR.
Phần tiếp theo, chúng tôi trình bày phương pháp rút gọn thuộc tính sử
dụng hàm quan hệ được xây dựng trên ma trận quan hệ. Phương pháp đề
xuất này cũng thuộc Nhóm 2.
3.4. Phương pháp rút gọn thuộc tính sử dụng hàm quan hệ
Trong phần này chúng tôi xây dựng thuật toán heuristic tìm một tập rút
gọn tốt nhất sử dụng hàm quan hệ. Các kết quả trong phần này đã được tác
giả công bố trong công bố [4].
3.4.1.
Ma trận quan hệ và hàm quan hệ
Định nghĩa 3.3. Cho bảng quyết định không đầy đủ
R A
và
U n.
Ma trận quan hệ của
IDS trên
IDS U , A d
tập thuộc chính
R,
với
ký hiệu
, là ma trận vuông cấp n, mỗi phần tử có giá trị 0 hoặc 1, được
M R mijR
nxn
định nghĩa như sau:
d u j R u i
(1)
mijR 1
nếu
(2)
mijR 0
nếu d u j R u i .
Định nghĩa 3.4. Cho hai ma trận
""
và Y y . Hai quan hệ " " và
X xijR
R
ij mxn
mxn
được định nghĩa như sau:
(1)
X Y
khi và chỉ khi
xijR y ijR , i 1, 2,..., m , j 1, 2,..., n
(2)
X Y
khi và chỉ khi
xijR y ijR , i 1, 2,..., m , j 1, 2,..., n
Định nghĩa 3.5. Cho hệ quyết định không đầy đủ
và
là ma trận quan hệ của
M R mijR
nxn
hàm quan hệ của
IDS
trên R , ký hiệu là
n
n
DIS R mijR
i 1 j 1
IDS
IDS U , A d ,
trên tập thuộc tính
DIS R
với
R.
R A
Khi đó,
, được định nghĩa như sau:
với 1 i n, 1
j n.
20
3.4.2.
Rút gọn thuộc tính sử dụng hàm quan hệ
Định nghĩa 3.6. Cho bảng quyết định không đầy đủ
R A
IDS U , A d .
Nếu
thỏa mãn:
(1)
DIS R DIS ( A)
(2)
R ' R , DIS R ' DIS ( A)
thì R được gọi là một tập rút gọn của
IDS
dựa trên hàm quan hệ.
Ta thấy rằng tập rút gọn sử dụng hàm quan hệ tương đương với tập rút
gọn sử dựa trên hàm quyết định suy rộng. Do đó, phương pháp rút gọn
thuộc tính sử dụng hàm quan hệ thuộc Nhóm 2
Định nghĩa 3.7. Cho bảng quyết định không đầy đủ
IDS U , A d , R A
và a A R . Độ quan trọng của thuộc tính a đối với tập thuộc tính
được định nghĩa bởi
SIG Rout a DIS R a DIS R
Định nghĩa 3.8. Cho hệ quyết định không đầy đủ
aR.
IDS U , A d , R A
Độ quan trọng của thuộc tính a trong tập thuộc tính
nghĩa bởi
SIG Rin a DIS R DIS R a
R
R
và
được định
Từ đó ta có SIGRout a 0 và SIGRin a 0 Do đó, SIGRout a và SIGRin a được
tính bởi lượng thay đổi hàm quan hệ khi thêm thuộc tính a vào R hoặc loại
bỏ a khỏi R và SIGRout a , SIGRin a càng lớn thì lượng thay đổi này càng lớn,
hay thuộc tính a càng quan trọng và ngược lại.
Thuật toán 3.4.(RBAR) Thuật toán heuristic tìm một tập rút gọn tốt nhất
sử dụng hàm quan hệ.
Đầu vào: Bảng quyết định không đầy đủ IDS U , A d .
Đầu ra: Một tập rút gọn R .
1. R ;
// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất;
2.While DIS R DIS ( A) do
3.Begin
4.
For each a A R tính SIGRout a DIS R a DIS R ;
SIG Rout a ;
5.
Chọn a m A R sao cho SIGRout a m aMax
A R
21
6.
R R am ;
7.End;
//Loại bỏ các thuộc tính dư thừa trong R nếu có;
8.For each a R
9.
If DIS R a DIS R then R R a ;
10. Return R ;
Giả sử k là số thuộc tính điều kiện và n là số đối tượng. Dễ thấy rằng
độ phức tạp để tính M A là O kn 2 , do đó độ phức tạp tính DIS A là O kn 2 .
Xét vòng lặp While từ dòng lệnh 2 đến dòng lệnh 7, độ phức tạp để tính
tất cả các SIGR a là k k 1 ... 1 * kn 2 k * k 1 / 2 * kn 2 O k 3n 2 . Độ phức tạp
thời gian để chọn thuộc tính có độ quan trọng lớn nhất là
k k 1 ... 1 k * k 1 / 2 O k 2 . Do đó, độ phức tạp của vòng lặp While là
O k 3n 2 .
Tương tự, độ phức tạp của vòng lặp For là
O k 2n 2 .
Vì vậy, độ
phức tạp của Thuật toán GDMBAR là O k 3n 2 .
3.4.3.
Thử nghiệm và đánh giá kết quả
Bảng 3.5. Kết quả thực hiện thuật toán MBAR,
Thuật toán EIQBAR và Thuật toán RBAR
STT
Bộ số liệu
U
Thuật toán
Thuật toán
Thuật toán
MBAR
EIQBAR
RBAR
C
R
t
R
t
R
t
1
Hepatitis.data
155
19
4
1.296
3
1.29
3
1.56
2
Lung-cancer.data
32
56
4
0.171
4
0.17
4
0.98
3
Automobile.data
205
25
8
1.687
6
1.68
6
1.92
4
Anneal.data
798
38
9
179
7
178
7
196
5
Congressional
435
16
15
16.7
15
16.73
15
18.45
690
15
7
15.7
5
15.68
5
17.02
Voting Records
6
Credit Approval
22
Bảng 3.6. Tập rút gọn của thuật toán MBAR,
Thuật toán EIQBAR và Thuật toán RBAR
STT
Tập dữ liệu
Tập rút gọn của
Tập rút gọn của
Tập rút gọn của
MBAR
EIQBAR
RBAR
1
Hepatitis.data
{1, 2, 4, 17}
{1, 2, 17}
{1, 2, 17}
2
Lung-cancer.data
{3, 4, 9, 43}
{3, 4, 9, 43}
{3, 4, 9, 43}
3
Automobile.data
{1, 8, 9, 13, 14, 20, {1, 4, 13, 14, 20, {1, 4, 13, 14, 20,
21, 24}
4
Anneal.data
6
21}
{1, 3, 4, 5, 8, 9, 33, {1, 3, 4, 5, 8, 9, {1, 3, 4, 5, 8, 9,
34, 35}
5
21}
34}
34}
Congressional
{1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 7, 8, {1, 2, 3, 4, 5, 7, 8,
Voting Records
10, 11, 12, 13, 14, 9, 10, 11, 12, 13, 9, 10, 11, 12, 13,
Credit Approval
15, 16}
14, 15, 16}
14, 15, 16}
{1, 2, 3, 4, 5, 6, 8}
{1, 3, 4, 5, 8}
{1, 3, 4, 5, 8}
Kết quả thử nghiệm cho thấy:
Trên cả 6 bộ dữ liệu, tập rút gọn thu được bởi Thuật toán EIQBAR và
Thuật toán RBAR là như nhau. Điều này phù hợp với nghiên cứu lý thuyết,
phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng (Thuật
toán EIQBAR) và phương pháp rút gọn thuộc tính sử dụng hàm quan hệ
(Thuật toán RBAR) đều thuộc Nhóm 2.
Trên các bộ số liệu nhất quán Lung-cancer.data, Congressional Voting
Records, tập rút gọn thu được bởi Thuật toán RBAR và Thuật toán MBAR
là như nhau. Tuy nhiên, với các bộ số liệu còn lại, tập rút gọn thu được bởi
23
Thuật toán RBAR tối thiểu hơn tập rút gọn thu được bởi Thuật toán
MBAR. Điều này cũng phù hợp với kết quả nghiên cứu về lý thuyết.
Thời gian thực hiện Thuật toán EIQBAR và Thuật toán MBAR về cơ
bản là tương đương nhau. Tuy nhiên, thời gian thực hiện của Thuật toán
RBAR lớn hơn thời gian thực hiện của Thuật toán EIQBAR. Bởi vì, độ
phức tạp thời gian của Thuật toán RBAR cao hơn so với Thuật toán
EIQBAR. Sở dĩ cao hơn là vì Thuật toán EIQBAR sử dụng công thức cải
tiến tính
S R a u i
với mọi
ui U
khi
S R u i đã
được tính ở bước trước [17].
Còn Thuật toán 3.4 tính ma trận phân biệt mở rộng trực tiếp từ các lớp
dung sai
S R u i
với mọi
ui U .
3.5. Kết luận chương 3
Chương 3 luận án đã thực hiện các nội dung nghiên cứu sau:
(1) Theo hướng tiếp cận rút gọn dữ liệu, chương 3 đề xuất kỹ thuật
chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính trong hệ thông
tin không đầy đủ và bảng quyết định không đầy đủ nhằm giảm thiểu thời
gian thực hiện các thuật toán tìm tập rút gọn trên các bảng quyết định có
dung lượng dữ liệu lớn. Kết quả này được công bố trong công trình [3].
(2) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin
mở rộng và chứng minh phương pháp đề xuất thuộc Nhóm 2 (trong phân
nhóm các phương pháp rút gọn thuộc tính được trình bày ở Chương 2).
Kết quả này được công bố trong công trình [5].
(3) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ và
chứng minh phương pháp đề xuất cũng thuộc Nhóm 2 (trong phân nhóm
các phương pháp rút gọn thuộc tính được trình bày ở Chương 2). Kết quả
này được công bố trong công trình [4].
Các kết quả nghiên cứu này góp phần làm phong phú thêm về hướng
nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định
không đầy đủ.