BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
NGUYỄN BÁ QUẢNG
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP
RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
KHƠNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội - 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
NGUYỄN BÁ QUẢNG
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP
RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
KHƠNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER
Chuyên ngành: Cơ sở toán học cho tin học
Mã số:
9 46 01 10
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. NGUYỄN LONG GIANG
2. TS. NGÔ TRỌNG MẠI
Hà Nội - 2021
i
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi, các số liệu,
kết quả nghiên cứu trong luận án này là hoàn toàn trung thực và chưa từng
được ai công bố trong bất kỳ công trình nào khác, các dữ liệu tham khảo được
trích dẫn đầy đủ.
Tác giả luận án
Nguyễn Bá Quảng
ii
LỜI CÁM ƠN
Tôi xin chân thành cám ơn Thủ trưởng Viện Khoa học và Cơng nghệ
qn sự, Phịng Đào tạo, Viện Công nghệ thông tin và các đồng nghiệp đã
luôn động viên, quan tâm, tạo điều kiện thuận lợi và giúp đỡ tơi trong q
trình học tập và nghiên cứu của mình.
Tơi xin bày tỏ sự biết ơn chân thành và sâu sắc đến PGS. TS Nguyễn
Long Giang, TS Ngô Trọng Mại đã tận tình chỉ bảo, hướng dẫn tơi trong suốt
q trình nghiên cứu và hồn thành bản luận án này.
Tôi xin chân thành cám ơn các nhà khoa học của Viện Khoa học và
Công nghệ quân sự, các nhà khoa học Viện Hàn lâm Khoa học và Công nghệ
Việt Nam, các nhà khoa học trong và ngoài quân đội đã giúp đỡ tơi hồn
thành luận án.
Xin chân thành cám ơn gia đình và bạn bè đã ln chia sẻ, động viên và
giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu.
iii
MỤC LỤC
Trang
LỜI CAM ĐOAN .................................................................................................................................................i
LỜI CÁM ƠN....................................................................................................................................................... ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .......................................................................... v
DANH MỤC CÁC BẢNG ............................................................................................................................. vi
DANH MỤC CÁC HÌNH VẼ.......................................................................................................................vii
MỞ ĐẦU ............................................................................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THƠ
DUNG SAI...............................................................................................................................10
1.1. Hệ thơng tin và mơ hình tập thô truyền thống............................................................ 10
1.1.1. Hệ thông tin ........................................................................................... 10
1.1.2. Mơ hình tập thơ truyền thống ................................................................ 11
1.2. Hệ thơng tin khơng đầy đủ và mơ hình tập thơ dung sai........................................... 12
1.2.1. Hệ thông tin không đầy đủ .................................................................... 12
1.2.2. Mơ hình tập thơ dung sai ....................................................................... 12
1.2.3. Bảng quyết định không đầy đủ .............................................................. 14
1.2.4. Ma trận dung sai .................................................................................... 16
1.3. Tổng quan về rút gọn thuộc tính theo tiếp cận tập thô dung sai ............................... 18
1.3.1. Tổng quan về rút gọn thuộc tính ............................................................ 18
1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính .................................. 19
1.3.3. Rút gọn thuộc tính theo tiếp cận tập thơ dung sai ................................. 21
1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ dung sai.... 24
1.4.1. Rút gọn thuộc tính theo tiếp cận tập thơ dung sai ................................. 24
1.4.2. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định không
đầy đủ theo tiếp cận tập thô dung sai ..................................................... 27
1.5. Kết luận chương 1 ......................................................................................................... 36
CHƯƠNG 2. THUẬT TỐN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA
BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ ................................................ 37
2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ ....................... 38
2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp ..................................... 39
2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính ........................... 40
iv
2.2. Rút gọn thuộc tính trong bảng quyết định khơng đầy đủ sử dụng khoảng cách..... 42
2.2.1. Xây dựng thuật tốn filter tìm tập rút gọn của bảng quyết định
khơng đầy đủ ......................................................................................... 43
2.2.2. Đề xuất thuật tốn filter-wrapper tìm tập rút gọn của bảng quyết định
không đầy đủ ......................................................................................... 46
2.2.3. Thực nghiệm và đánh giá kết quả............................................................ 49
2.3. Kết luận chương 2 ......................................................................................................... 54
CHƯƠNG 3. CÁC THUẬT TOÁN GIA TĂNG FILTER-WRAPPER TÌM TẬP
RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI .......................................55
3.1. Thuật tốn gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập
đối tượng ....................................................................................................................... 58
3.1.1. Công thức cập nhật khoảng cách khi bổ sung tập đối tượng ................. 58
3.1.2. Thuật tốn gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập
đối tượng ............................................................................................... 62
3.1.3. Công thức cập nhật khoảng cách khi loại bỏ tập đối tượng .................. 67
3.1.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ
tập đối tượng ......................................................................................... 70
3.1.5. Thực nghiệm và đánh giá các thuật toán ............................................... 74
3.2. Thuật tốn gia tăng filter-wrapper tìm tập rút gọn khi bổ sung, loại bỏ tập
thuộc tính....................................................................................................................... 92
3.2.1. Cơng thức cập nhật khoảng cách khi bổ sung tập thuộc tính ................ 92
3.2.2. Thuật tốn gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập
thuộc tính .............................................................................................. 93
3.2.3. Cơng thức cập nhật khoảng cách khi loại bỏ tập thuộc tính .................. 97
3.2.4. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ
tập thuộc tính ........................................................................................ 98
3.2.5. Thực nghiệm và đánh giá các thuật toán ............................................. 101
3.3. Kết luận chương 3 ....................................................................................................... 106
KẾT LUẬN.......................................................................................................................................................108
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ ................................................110
TÀI LIỆU THAM KHẢO ............................................................................................................................111
v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
C
Số thuộc tính điều kiện trong bảng quyết định
IDS U , C d
Bảng quyết định không đầy đủ
IIS U , A
Hệ thông tin không đầy đủ
PX
Tập xấp xỉ dưới của X đối với P
PX
POS P d
Tập xấp xỉ trên của X đối với P
Miền dương của P đối với d
SIM P
Quan hệ dung sai trên tập thuộc tính P
SP u
Lớp dung sai chứa u của phủ U / SIM P
SP u
Lực lượng lớp dung sai S P u
U
Số đối tượng
u a
Giá trị của đối tượng u tại thuộc tính a
U / SIM P
Phủ của U trên P
IDS_F_DAR
Filter Distance based Attribute Reduction in Incomplete
Decision Tables
Incremental Filter-Wrapper Algorithm for Distance
based Attribute Reduction in Incomplete Decision
Tables when Add Attributes.
Incremental Filter-Wrapper Algorithm for Distance
based Attribute Reduction in Incomplete Decision
Tables when Add Objects.
Incremental Filter-Wrapper Algorithm for Distance
based Attribute Reduction in Incomplete Decision
Tables when Delete Attributes.
Incremental Filter-Wrapper Algorithm for Distance
based Attribute Reduction in Incomplete Decision
Tables when Delete Objects.
Filter-Wrapper Distance based Attribute Reduction in
Incomplete Decision Tables
IDS_IFW_AA
IDS_IFW_AO
IDS_IFW_DA
IDS_IFW_DO
IDS_FW_DAR
vi
DANH MỤC CÁC BẢNG
Trang
Bảng 1.1. Bảng quyết định không đầy đủ về các xe hơi ...........................................16
Bảng 1.2. Các thuật toán tìm tập rút gọn của bảng quyết định khơng đầy đủ
theo tiếp cận tập thô dung sai ..................................................................24
Bảng 1.3. Các thuật tốn gia tăng tính tốn các tập xấp xỉ và tìm tập rút gọn
theo tiếp cận tập thơ truyền thống và các mơ hình mở rộng....................28
Bảng 1.4. Các thuật tốn gia tăng tính tốn các tập xấp xỉ và tìm tập rút gọn
theo tiếp cận tập thơ dung sai ..................................................................33
Bảng 2.1. Bảng quyết định của Ví dụ 2.1 .................................................................45
Bảng 2.2. Bộ dữ liệu thực nghiệm thuật toán IDS_FW_DAR .................................50
Bảng 2.3. Thời gian thực hiện ba thuật tốn (tính bằng giây) ..................................51
Bảng 2.4. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của ba
thuật tốn..................................................................................................52
Bảng 3.1. Bảng quyết định của Ví dụ 3.1 .................................................................61
Bảng 3.2. Bảng quyết định của Ví dụ 3.2 .................................................................69
Bảng 3.3. Bộ dữ liệu thử nghiệm thuật toán IDS_IFW_AO.....................................75
Bảng 3.4. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR (s) .77
Bảng 3.5. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật
toán IDS_IFW_AO và IDS_FW_DAR ...................................................80
Bảng 3.6. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật toán
IDS_IFW_AO và IARM-I .......................................................................82
Bảng 3.7. Thời gian thực hiện của thuật toán IDS_IFW_AO và IARM-I (s) ..........86
Bảng 3.8. Thời gian thực hiện của 03 thuật toán (s) .................................................89
Bảng 3.9. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của 03 thuật tốn .90
Bảng 3.10. Bộ dữ liệu thực nghiệm của thuật toán IDS_IFW_AA ........................102
Bảng 3.11. Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của thuật
tốn IDS_IFW_AA và UARA ............................................................103
Bảng 3.12. Thời gian thực hiện của thuật toán IDS_IFW_AA và UARA (s) ........105
vii
DANH MỤC CÁC HÌNH VẼ
Trang
Hình 1.1. Quy trình rút gọn thuộc tính .....................................................................20
Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính ..........................21
Hình 1.3. Mơ hình phương pháp rút gọn thuộc tính theo tiếp cận tập thơ dung sai .22
Hình 2.1. Thời gian thực hiện ba thuật tốn (tính bằng giây) ...................................51
Hình 2.2. Số lượng thuộc tính tập rút gọn của ba thuật tốn ....................................53
Hình 2.3. Độ chính xác phân lớp của ba thuật tốn ..................................................54
Hình 3.1. Thời gian thực hiện của thuật toán IDS_IFW_AO và IDS_FW_DAR ....79
Hình 3.2. Độ chính xác phân lớp của IDS_IFW_AO và IDS_FW_DAR ................81
Hình 3.3.a. Bộ số liệu Audiology..............................................................................84
Hình 3.3.b. Bộ số liệu Soybean-large .......................................................................84
Hình 3.3.c. Bộ số liệu Congressional Voting Records..............................................84
Hình 3.3.d. Bộ số liệu Arrhythmia ............................................................................85
Hình 3.3.e. Bộ số liệu Anneal ...................................................................................85
Hình 3.3.f. Bộ số liệu Advertisements ......................................................................85
Hình 3.3. Số lượng thuộc tính tập rút gọn và độ chính xác của thuật tốn
IDS_IFW_AO và IARM-I ........................................................................85
Hình 3.4. Thời gian thực hiện của thuật tốn IDS_IFW_AO và IARM-I ................88
Hình 3.5. Thời gian thực hiện của 03 thuật tốn (s) .................................................89
Hình 3.6. Độ chính xác phân lớp của 03 thuật tốn ..................................................91
Hình 3.7. Số thuộc tính tập rút gọn của 03 thuật toán...............................................91
1
MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án
Trong bối cảnh ngày nay, sự tăng trưởng không ngừng của dung lượng
dữ liệu và số lượng các thuộc tính đã gây khó khăn, thách thức cho việc thực
thi các thuật toán khai phá dữ liệu, phát hiện tri thức. Rút gọn thuộc tính (cịn
gọi là rút gọn chiều, hay rút gọn đặc trưng) là bài toán quan trọng trong bước
tiền xử lý dữ liệu với mục tiêu là loại bỏ các thuộc tính dư thừa, khơng cần
thiết nhằm tăng tính hiệu quả của các thuật toán khai phá dữ liệu. Hiện nay có
hai cách tiếp cận chính đối với bài tốn rút gọn thuộc tính [39-40]: filter (lọc)
và wrapper (đóng gói). Cách tiếp cận filter thực hiện việc rút gọn thuộc tính
độc lập với thuật khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn
chỉ dựa trên độ quan trọng của chúng trong việc phân lớp dữ liệu. Trong khi
đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng cách áp dụng ngay
thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn để lựa chọn
các tập con thuộc tính.
Lý thuyết tập thơ (Rough set) do Pawlak đề xuất [113] được xem là cơng
cụ hiệu quả giải quyết bài tốn rút gọn thuộc tính trong bảng quyết định đầy
đủ, đã và đang được cộng đồng nghiên cứu về tập thô thực hiện lâu nay.
Trong các bài toán thực tế, các bảng quyết định thường thiếu giá trị trên miền
giá trị thuộc tính, gọi là bảng quyết định khơng đầy đủ. Ví dụ với bảng quyết
định chẩn đoán bệnh viêm gan với các thuộc tính là các triệu chứng, các bác
sĩ khơng thể thu thập đầy đủ các triệu chứng của tất cả các bệnh nhân để ra
quyết định. Để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết
định khơng đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz
[67] mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành
quan hệ dung sai và xây dựng mơ hình tập thơ dung sai (tolerance rough set).
Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo
2
tiếp cận mơ hình tập thơ dung sai là các nghiên cứu mở rộng của các phương
pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống. Đây là các phương
pháp heuristic bao gồm các bước: xây dựng độ đo, định nghĩa tập rút gọn và
độ quan trọng của thuộc tính sử dụng độ đo được xây dựng, trên cơ sở đó xây
dựng thuật tốn heuristic tìm tập rút gọn theo tiêu chuẩn là độ quan trọng của
thuộc tính. Các nghiên cứu liên quan đến rút gọn thuộc tính trong bảng quyết
định không đầy đủ theo tiếp cận tập thơ dung sai tập trung vào các phương
pháp chính như: các phương pháp sử dụng miền dương mở rộng [25], [51],
[99], [114], [117], các phương pháp sử dụng ma trận phân biệt, hàm phân biệt
mở rộng [29], [45], [47], [57], [77], [80], [116], các phương pháp sử dụng
entropy thông tin mở rộng [26], [48-50], [64], [79], [107], các phương pháp
sử dụng độ đo lượng thông tin [72], [91], [94], phương pháp sử dụng khoảng
cách [62], [78] và một số phương pháp sử dụng các độ đo khác như quan hệ
không phân biệt mở rộng [85], độ bao phủ của thuộc tính [93]. Nhìn chung,
các phương pháp rút gọn thuộc tính theo tiếp cận tập thô và tập thô dung sai
đều hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mơ
hình phân lớp dựa trên các tiêu chí: giảm thiểu số thuộc tính tập rút gọn để
giảm thiểu độ phức tạp và nâng cao độ chính xác của mơ hình. Các thuật tốn
đã đề xuất trong các phương pháp nêu trên đều là các thuật toán heuristic theo
tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối
thiểu bảo toàn độ đo được định nghĩa. Việc đánh giá độ chính xác của mơ
hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn
của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ
chính xác phân lớp.
Tại Việt Nam, đã có một số luận án tiến sĩ giải quyết bài tốn rút gọn
thuộc tính trong bảng quyết định theo tiếp cận mơ hình tập thơ truyền thống
và các mơ hình tập thơ mở rộng của nhóm nghiên cứu của thầy hướng dẫn. Cụ
3
thể, luận án tiến sĩ [2] đề xuất các thuật tốn gia tăng tìm tập rút gọn của bảng
quyết định đầy đủ theo tiếp cận filter truyền thống. Luận án tiến sĩ [1] đề xuất
các thuật toán rút gọn thuộc tính trong bảng quyết định khơng đầy đủ cố định.
Trong luận án tiến sĩ [3], các tác giả đề xuất hướng tiếp cận kết hợp filterwrapper tìm tập rút gọn của bảng quyết định đầy đủ dựa trên lý thuyết tập thơ
mờ (fuzzy rough set). Trong đó, giai đoạn filter tìm các ứng viên cho tập rút
gọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính tốn
độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ
chính xác phân lớp cao nhất. Kết quả thử nghiệm cho thấy, số lượng thuộc
tính tập rút gọn giảm thiểu đáng kể so với các phương pháp filter, trong khi
độ chính xác phân lớp vẫn được bảo tồn và cải thiện hơn. Tuy nhiên, các
phương pháp trong luận án [3] đều thực hiện trên bảng quyết định đầy đủ theo
tiếp cận tập thơ mờ (fuzzy rough set). Do đó, mục tiêu nghiên cứu thứ nhất
của luận án là nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút
gọn của bảng quyết định không đầy đủ theo tiếp cận tập thơ dung sai nhằm
giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo toàn, cải
thiện độ chính xác mơ hình phân lớp.
Ngày nay, trong xu thế phát triển của dữ liệu lớn (Big data), các bảng
quyết định ngày càng có kích thước lớn và ln thay đổi, cập nhật. Việc áp
dụng các thuật tốn tìm tập rút gọn theo phương pháp truyền thống gặp nhiều
thách thức. Với trường hợp bảng quyết định có kích thước lớn, việc thực hiện
các thuật tốn tìm tập rút gọn gặp khó khăn do hạn chế về khơng gian lưu trữ
và tốc độ tính tốn. Với trường hợp bảng quyết định thay đổi, cập nhật, các
thuật tốn này phải tính tốn lại tập rút gọn trên tồn bộ bảng quyết định sau
khi thay đổi, do đó chi phí về thời gian tính tốn tăng lên đáng kể. Để vượt
qua các thách thức trên, các nhà nghiên cứu đề xuất hướng tiếp cận tính tốn
gia tăng tìm tập rút gọn. Phương pháp gia tăng tìm tập rút gọn là kỹ thuật chỉ
tính tốn sự thay đổi của tập rút gọn trên phần dữ liệu bổ sung (hoặc loại bỏ)
4
chứ khơng tính lại tập rút gọn trên tồn bộ tập dữ liệu ban đầu. Do các thuật
toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu bị thay đổi nên
chúng giảm thiểu đáng kể thời gian thực hiện khi thực thi trên các bảng dữ
liệu thay đổi, biến động. Hơn nữa, các thuật toán gia tăng có thể thực hiện
được trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng
quyết định thành nhiều phần, sau đó tập rút gọn được tính khi lần lượt bổ
sung từng phần vào bảng quyết định.
Hướng tiếp cận tính tốn gia tăng tìm tập rút gọn đã và đang thu hút sự
quan tâm của các nhà nghiên cứu trong suốt hơn hai thập kỷ qua. Theo tiếp
cận tập thơ truyền thống và các mơ hình mở rộng, các nghiên cứu liên quan
đến thuật toán gia tăng tìm tập rút gọn và tính tốn các tập xấp xỉ của bảng
quyết định thay đổi khá sôi động và phong phú. Các nghiên cứu liên quan đến
các thuật toán gia tăng tìm tập rút gọn và tập trung vào các trường hợp: bổ
sung và loại bỏ tập đối tượng [14], [20-21], [30], [33], [35], [37], [52], [55],
[59], [70], [87], [89], [95-96], [100], [102], [106], [108], [110-112], bổ sung
và loại bỏ tập thuộc tính [6], [19], [32], [53], [58], [60], [68], [76], [101],
[104], tập đối tượng thay đổi giá trị [10], [66], [88], [90], [103], tập thuộc tính
thay đổi giá trị [22], [31], [34], [36], [65]. Ngoài ra, một số cơng bố đề xuất
các thuật tốn gia tăng tính tốn các tập xấp xỉ trong các trường hợp: bổ sung
và loại bỏ tập đối tượng [12], [15], [43], [97], [105], [109], bổ sung và loại bỏ
tập thuộc tính [7], [24], [73], [75], tập đối tượng thay đổi giá trị [44], tập
thuộc tính thay đổi giá trị [11], [41], [74]. Theo tiếp cận tập thô dung sai,
trong mấy năm gần đây các nghiên cứu liên quan đến thuật toán gia tăng tính
tốn các tập xấp xỉ và tìm tập rút gọn của bảng quyết định không đầy đủ khá
sôi động và phong phú. Giống như tiếp cận tập thô truyền thống và các mơ
hình mở rộng được trình bày ở trên, các nghiên cứu liên quan chủ yếu tập
trung vào trường hợp bổ sung, loại bỏ tập đối tượng [9], [13], [18], [23], [28],
[38], [42], [46], [56], [71], [81-82], [86]. Ngoài ra, công bố [83] giải quyết bài
5
toán trong trường hợp bổ sung, loại bỏ tập thuộc tính; cơng bố [84] giải quyết
bài tốn trong trường hợp tập đối tượng thay đổi giá trị; công bố [92] giải
quyết bài tốn trong trường hợp tập thuộc tính thay đổi giá trị.
Giống như các thuật tốn tìm tập rút gọn trong bảng quyết định khơng
đầy đủ đã trình bày ở trên, các thuật tốn gia tăng tìm tập rút gọn trong các
phương pháp nêu trên đều theo hướng tiếp cận filter truyền thống. Do đó, tập
rút gọn tìm được chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân
lớp. Gần đây, các tác giả trong cơng trình [4] đề xuất thuật tốn gia tăng tìm
tập rút gọn theo tiếp cận kết hợp filter-wrapper. Tuy nhiên, thuật tốn gia tăng
trong [4] chỉ tìm tập rút gọn của bảng quyết định đầy đủ theo tiếp cận tập thơ
mờ trong trường hợp bổ sung tập đối tượng. Vì vậy, mục tiêu nghiên cứu thứ
hai của luận án là nghiên cứu các thuật tốn gia tăng tìm tập rút gọn của bảng
quyết định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu
số lượng thuộc tính tập rút gọn và cải thiện độ chính xác phân lớp so với các
thuật tốn đã cơng bố.
2. Mục tiêu nghiên cứu
Trên cơ sở phân tích các vấn đề cịn tồn tại của các nghiên cứu liên quan,
mục tiêu của luận án là:
1) Đề xuất thuật tốn filter-wrapper tìm tập rút gọn của bảng quyết định
không đầy đủ theo tiếp cận tập thơ dung sai nhằm giảm thiểu số lượng thuộc
tính tập rút gọn (từ đó giảm thiểu độ phức tạp của mơ hình) và cải thiện độ
chính xác của mơ hình phân lớp.
2) Đề xuất các thuật tốn gia tăng filter-wrapper tìm tập rút gọn của
bảng quyết định khơng đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm
giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mơ
hình phân lớp so với các thuật toán gia tăng khác.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là bảng quyết định không đầy đủ, mô
6
hình tập thơ dung sai, các phương pháp rút gọn thuộc tính theo tiếp cận tập
thơ dung sai và các phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập
thô dung sai.
Phạm vi nghiên cứu của luận án là các phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên
cứu thực nghiệm.
1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính
theo tiếp cận tập thơ dung sai đã cơng bố, bao gồm các thuật tốn trên bảng
quyết định khơng thay đổi và các thuật tốn gia tăng trên bảng quyết định
thay đổi. Phân tích ưu điểm, nhược điểm và các vấn đề cịn tồn tại của các
thuật tốn đã có. Trên cơ sở đó, đề xuất các độ đo cải tiến và các thuật toán
theo hướng tiếp cận kết hợp filter-wrapper. Các đề xuất, cải tiến được chứng
minh chặt chẽ về lý thuyết bởi các định lý, mệnh đề.
2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy
thử nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu
từ kho dữ liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về
lý thuyết.
5. Nội dung nghiên cứu
1) Nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết
định khơng đầy đủ dựa trên mơ hình tập thô dung sai theo tiếp cận kết hợp
filter-wrapper.
2) Nghiên cứu các phương pháp gia tăng rút gọn thuộc tính trong bảng
quyết định không đầy đủ thay đổi theo tiếp cận kết hợp filter-wrapper. Bảng
7
quyết định thay đổi trong trường hợp bổ sung, loại bỏ tập đối tượng, tập
thuộc tính.
3) Cài đặt, thử nghiệm, so sánh, đánh giá các thuật toán đề xuất với các
thuật tốn khác đã cơng bố trên các bộ dữ liệu thử nghiệm từ kho dữ liệu UCI
[118].
6. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Đề xuất các thuật tốn mới tìm tập rút gọn của bảng quyết định không
đầy đủ theo tiếp cận kết hợp filter-wrapper trong trường hợp bảng quyết định
cố định và bảng quyết định thay đổi. Cụ thể luận án có các kết quả chính như
sau:
1) Xây dựng một độ đo khoảng cách mới và đề xuất thuật toán theo tiếp
cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định
khơng đầy đủ sử dụng độ đo khoảng cách. Kết quả thử nghiệm trên các bộ số
liệu mẫu từ kho dữ liệu UCI (UC Irvine Machine Learning Repository) [118]
cho thấy, thuật thoán filter-wrapper IDS_FW_DAR giảm thiểu đáng kể số
lượng thuộc tính tập rút gọn và cải thiện độ chính xác mơ hình phân lớp so với
các thuật toán filter khác.
2) Xây dựng các cơng thức gia tăng tính khoảng cách và đề xuất 04
thuật tốn gia tăng filter-wrapper tìm tập rút gọn của bảng quyết định khơng
đầy đủ:
(1) Thuật tốn gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn
trong trường hợp bổ sung tập đối tượng;
(2) Thuật tốn filter-wrapper IDS_IFW_DO tìm tập rút gọn trong trường
hợp loại bỏ tập đối tượng;
(3) Thuật toán gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn
trong trường hợp bổ sung tập thuộc tính.
8
(4) Thuật tốn gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn
trong trường hợp loại bỏ tập thuộc tính.
Kết quả thử nghiệm trên các bộ số liệu mẫu từ kho dữ liệu UCI [118] cho
thấy, các thuật toán gia tăng filter-wrapper IDS_IFW_AO và IDS_IFW_AA
giảm thiểu đáng kể số lượng thuộc tính tập rút gọn và cải thiện độ chính xác
mơ hình phân lớp so với các thuật toán gia tăng filter khác.
Ý nghĩa thực tiễn
Các thuật tốn đề xuất có thể áp dụng để giải quyết bài tốn rút gọn
thuộc tính trong các ứng dụng thực tiễn nhằm loại bỏ các thuộc tính dư thừa,
nâng cao hiệu quả các mơ hình khai phá dữ liệu và học máy, đặc biệt là các hệ
thống cơ sở dữ liệu không đầy đủ, thiếu giá trị trong các lĩnh vực chẩn đoán y
tế, tài chính ngân hàng.
7. Bố cục của luận án
Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Chương 1 trình bày các khái niệm cơ
bản về lý thuyết tập thơ truyền thống, mơ hình tập thơ dung sai và tổng quan về
tiếp cận filter-wrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày các
nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai, các
nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận
tập thô dung sai trong mấy năm gần đây. Trên cơ sở đó, luận án phân tích các
vấn đề cịn tồn tại và nêu rõ các mục tiêu nghiên cứu cùng với tóm tắt các kết
quả đạt được.
Các đóng góp chính của luận án được trình bày trong chương 2, chương
3. Chương 2 trình bày kết quả nghiên cứu về xây dựng độ đo khoảng cách mới.
Sử dụng độ đo khoảng cách mới, chương 2 đề xuất thuật tốn IDS_F_DAR tìm
tập rút gọn theo tiếp cận filter và thuật toán IDS_FW_DAR tìm tập rút gọn
9
theo tiếp cận kết hợp filter-wrapper. Các thuật toán trên thực hiện trên bảng
quyết định không đầy đủ cố định.
Chương 3 xây dựng các cơng thức gia tăng tính độ đo khoảng cách và đề
xuất bốn thuật toán gia tăng filter-wrapper tìm tập rút gọn trong bảng quyết
định thay đổi, cụ thể là:
1) Thuật tốn IDS_IFW_AO tìm tập rút gọn trong trường hợp bổ sung
tập đối tượng;
2) Thuật toán IDS_IFW_DO tìm tập rút gọn trong trường hợp loại bỏ tập
đối tượng;
3) Thuật tốn IDS_IFW_AA tìm tập rút gọn trong trường hợp bổ sung
tập thuộc tính;
4) Thuật tốn IDS_IFW_DA tìm tập rút gọn trong trường hợp loại bỏ tập
thuộc tính.
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát
triển và những vấn đề quan tâm của tác giả.
10
CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH
THEO TIẾP CẬN TẬP THƠ DUNG SAI
1.1.
Hệ thơng tin và mơ hình tập thô truyền thống
Lý thuyết tập thô truyền thống do Z.Pawlak [113] đề xuất là cơng cụ
tốn học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn.
Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương
đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp. Khi đó, mọi tập
đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó.
Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở
để xây dựng các thuật tốn rút gọn thuộc tính và khai phá tri thức từ dữ liệu.
Trong phần này, luận án trình bày một số khái niệm cơ bản trong lý thuyết tập
thô truyền thống của Z.Pawlak [113], là cơ sở nền tảng cho mơ hình tập thơ
dung sai được trình bày ở phần 1.2.
1.1.1. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu
gồm n cột ứng với n thuộc tính và m hàng ứng với m đối tượng. Một cách
hình thức, hệ thông tin là một cặp IS U , A trong đó U là tập hữu hạn, khác
rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính
a A xác định một ánh xạ: a : U Va với Va
là tập giá trị của thuộc tính
a A .
Xét hệ thơng tin IS U , A . Mỗi tập con các thuộc tính P A xác định
một quan hệ hai ngơi trên U, ký hiệu là IND P , xác định bởi
IND P u, v U U a P, a u a v .
IND P là quan hệ P-không phân biệt được. Dễ thấy rằng IND P là một
quan hệ tương đương trên U. Nếu u, v IND P thì hai đối tượng u và v
11
khơng phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương
IND P xác định một phân hoạch trên U, ký hiệu là U / IND P hay U / P . Ký
hiệu lớp tương đương trong phân hoạch U / P chứa đối tượng u là u P , khi đó
u P v U u, v IND P .
1.1.2. Mơ hình tập thơ truyền thống
Cho hệ thông tin IS U , A và tập đối tượng X U . Với một tập thuộc
tính B A cho trước, chúng ta biểu diễn X thông qua các lớp tương đương
của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi
hợp của một số hữu hạn các lớp tương đương của U / B . Có hai cách xấp xỉ
tập đối tượng X thơng qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và Bxấp xỉ trên của X, ký hiệu là lượt là BX và BX , được xác định như sau:
BX u U u B X , BX u U u B X .
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính
B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BN B X BX BX : B-miền biên của X , U BX : B-miền ngoài của X.
B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc khơng
thuộc X, cịn B-miền ngồi của X chứa các đối tượng chắc chắn không thuộc
X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể
viết lại
BX
Y U / B Y X ,
BX
Y U / B Y X .
Trong trường hợp BN B X thì X được gọi là tập chính xác (exact
set), ngược lại X được gọi là tập thô (rough set).
12
Xét hệ thông tin IS U , A với B, D A , ta gọi B-miền dương của D là
tập được xác định như sau
BX
POS B ( D)
X U / D
Rõ ràng POSB ( D) là tập tất cả các đối tượng u sao cho với mọi v U mà
u B v B
ta
đều
có
u D v D
.
Nói
cách
khác,
POS B ( D) u U u B u D .
1.2.
Hệ thơng tin khơng đầy đủ và mơ hình tập thơ dung sai
Phần này trình bày một số khái niệm cơ bản về mơ hình tập thơ dung sai
trên hệ thơng tin không đầy đủ do Kryszkiewicz [67] đề xuất
1.2.1. Hệ thông tin không đầy đủ
Xét hệ thông tin IS U , A , nếu tồn tại u U và a A sao cho a u chứa
giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái
lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký hiệu là
‘*’ và hệ thông tin không đầy đủ là IIS U , A .
1.2.2. Mơ hình tập thơ dung sai
Xét hệ thơng tin khơng đầy đủ IIS U , A , với tập thuộc tính P, P A ta
định nghĩa một quan hệ nhị phân trên U như sau:
SIM P u, v U U a P, a u a v a u '*' a v '*' .
Quan hệ SIM P không phải là quan hệ tương đương vì chúng có tính
phản xạ, đối xứng nhưng khơng có tính bắc cầu. Do đó, SIM P là một quan
hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên
U. Dễ thấy rằng SIM P
aP
SIM a .
13
Gọi S P u là tập v U u, v SIM P . S P u là tập lớn nhất các đối
tượng khơng có khả năng phân biệt được với u trên tập thuộc tính P dựa trên
quan hệ dung sai, còn gọi là một lớp dung sai hay một hạt thông tin. Ký hiệu
tập tất cả các lớp dung sai sinh bởi quan hệ SIM(P) trên U là U / SIM P , khi
đó các lớp dung sai trong U / SIM P không phải là một phân hoạch của U mà
hình thành một phủ của U vì chúng có thể giao nhau và
uU
SP u U .
Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và
P-xấp xỉ trên của X trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX
và PX , được xác định như sau
PX u U S P u X u X S P u X
S
PX u U S P u X
P
u u U
Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập
BN P X PX PX , và P-miền ngoài của X là tập U PX . Trong trường hợp
BN P X thì X được gọi là tập chính xác (exact set), ngược lại X được gọi
là tập thô dung sai (tolerance rough set).
Với P, D A , ta gọi P-miền dương của D là tập được xác định như sau
POS P ( D )
PX
X U / D
Rõ ràng POSP ( D) là tập tất cả các đối tượng u sao cho với mọi v S P u
ta đều có u D v D . Nói cách khác, POSP ( D) u U SP u u D .
Như vậy, mơ hình tập thơ dung sai là mơ hình tập thơ mở rộng dựa trên
quan hệ dung sai trên các hệ thông tin không đầy đủ với các tập xấp xỉ dưới,
xấp xỉ trên được định nghĩa dựa trên quan hệ dung sai.
14
1.2.3. Bảng quyết định không đầy đủ
Một lớp đặc biệt của các hệ thơng tin có vai trị quan trọng trong nhiều
ứng dụng là bảng quyết định. Bảng quyết định là một hệ thơng tin DS với tập
thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt
được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là
DS U , C D với C D .
Xét bảng quyết định DS U , C D , nếu tồn tại u U và c C sao cho
c u thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS
được gọi là bảng quyết định đầy đủ. Ta biểu diễn bảng quyết định không đầy
đủ là IDS U , C D với d D,'*' Vd . Khơng mất tính chất tổng quát, giả
thiết D chỉ gồm một thuộc tính quyết định duy nhất d .
Định nghĩa 1.1. Cho bảng quyết định DS U , C D , nếu tồn tại u U
và c C sao cho c u thiếu giá trị thì DS được gọi là bảng quyết định không
đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ.
Bảng quyết định không đầy đủ được ký hiệu là IDS U , C D với giả
thiết d D,'*' Vd . (thuộc tính quyết định có đầy đủ giá trị).
Định nghĩa 1.2. Cho bảng quyết định không đầy đủ I D S U, C d ,
giả sử tập đối tượng U được bổ sung vào U hoặc loại bỏ từ U. Khi đó, IDS
được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập đối tượng và
bảng quyết định mới là IDS1 U U , C d hoặc IDS2 U U , C d
tương ứng.
Định nghĩa 1.3. Cho bảng quyết định không đầy đủ I D S U, C d ,
giả sử tập thuộc tính điều kiện C được bổ sung vào C hoặc loại bỏ từ C. Khi
đó, IDS được gọi là bảng quyết định thay đổi khi bổ sung hoặc loại bỏ tập
15
thuộc tính và bảng quyết định mới là IDS1 U , C C d hoặc
IDS2 U , C C d tương ứng.
Cho bảng quyết định không đầy đủ IDS U , C d . Với P C , u U ,
P (u ) d v v S P (u ) gọi là hàm quyết định suy rộng của đối tượng u trên tập
thuộc tính P. Nếu | C (u) | 1 với mọi u U thì IDS là nhất quán, trái lại IDS là
không nhất quán.
Với bảng quyết định không đầy đủ IDS, miền dương của C đối với d
là POSC (d ) {CX | X U / {d }} , khi đó IDS là nhất quán khi và chỉ khi
POSC (d ) U .
Với P C , quan hệ dung sai SIM P xác định một phủ (covering) trên U,
ký
hiệu
K P U / SIM P S P u u U
là
.
Ký
hiệu
COVER U K P P C là tập tất cả các phủ của U sinh bởi các tập con
thuộc
tính
PC
.
Trên
COVER U
được
K S A u S A u u, u U
,
phần
tử
nhỏ
nhất
gọi là phủ rời rạc, phần tử lớn nhất
K S A u S A u U , u U được gọi là phủ một khối. Một quan hệ thứ tự
bộ
phận
được
định
nghĩa
K P K Q S P u SQ u , u U
K P K Q S P u SQ u , u U
trên
.
.
COVER U
Dấu
K P
như
đẳng
K Q K P K Q
sau:
thức
và
K P K Q .
Ví dụ 1.1. Xét bảng quyết định về các xe hơi cho ở Bảng 1.1. Bảng 1.1 là
bảng quyết định không đầy đủ IDS U , C d với U {u1 , u2 , u3 , u4 , u5 , u6} ,
16
C {c1, c2 , c3 , c4} với c1 (Đơn giá), c2 (Km đã đi), c3 (Kích thước), c4 (Tốc độ)
và d (Gia tốc)
Bảng 1.1. Bảng quyết định không đầy đủ về các xe hơi
Ơ tơ
Đơn giá
Km đã đi
Kích thước
Tốc độ
Gia tốc
u1
Cao
Nhiều
Trung bình
Thấp
Nhanh
u2
Thấp
*
Trung bình
Thấp
Nhanh
u3
*
*
Gọn nhẹ
Cao
Chậm
u4
Cao
*
Trung bình
Cao
Nhanh
u5
*
*
Trung bình
Cao
Rất nhanh
u6
Thấp
Nhiều
Trung bình
*
Nhanh
Các lớp dung sai của các đối tượng như sau:
SC u1 u1
,
SC u2 u2 , u6
,
SC u3 u3
,
S B u4 u4 , u5
,
S B u5 u4 , u5 , u6 , S B u6 u2 , u5 , u6 .
Ta có U / d { X 1 , X 2 , X 3} với X1 {u1, u2 , u4 , u6}, X 2 {u3}, X 3 {u5} . Các
tập xấp xỉ dưới đối với C là CX 1 u1 , u2 , CX 2 u3 , CX 3 . Do đó,
POSC (d ) {u1 , u2 , u3} .
Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính C là:
C (u1 ) {Nhanh}, C (u2 ) {Nhanh}, C (u3 ) {Chậm}, C (u4 ) {Nhanh, Rất
nhanh}, C (u5 ) {Nhanh, Rất nhanh}, C (u6 ) {Nhanh, Rất nhanh}. Do đó,
IDS là bảng quyết định không đầy đủ không nhất quán.
1.2.4. Ma trận dung sai
Ma trận dung sai là công cụ biểu diễn giá trị quan hệ dung sai của các
đối tượng trong bảng quyết định không đầy đủ và được định nghĩa như sau: