B ộ■ GIÁO DỤC
* VÀ ĐÀO TẠO
•
TRƯỜNG ĐẠI
HỌC
s ư PHẠM
HÀ NỘI
2
•
•
•
•
= = = K )O c 8 = = =
TRÀN THỊ PHƯƠNG LIÊN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN
THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ MÁY TÍNH
HÀ NỘI, 2015
B ộ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC s ư PHẠM HÀ NỘI 2
= = = 8 d BŨIo 8===
TRẦN THỊ PHƯƠNG LIÊN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GON
THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH
KHÔNG ĐÀY ĐỦ VÀ ỨNG DỤNG
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60480101
LUẬN VĂN THẠC SĨ MÁY TÍNH
Ngưòi hướng dẫn khoa học: TS. Nguyễn Long Giang
HÀ NỘI, 2015
L Ờ I CÁM ƠN
Trong thời gian qua để hoàn thành luận văn này tôi đã nhận được sự giúp đỡ
tận tình của thầy hướng dẫn khoa học, của các thầy cô trường Đại học Sư phạm Hà
Nội 2. Tôi xin chân thành cảm ơn các thầy cô trường Đại học Sư phạm Hà Nội 2 đã
tạo điều kiện học tập, nghiên cứu và giúp đỡ tôi rất nhiều trong quá trình làm luận
văn. Đặc biệt tôi xin cảm ơn thầy TS.N guyễn long G iang đã tận tình hướng dẫn,
chỉ bảo tôi trong suốt quá trình học tập, nghiên cứu đề tài và giúp đỡ tôi hoàn thành
bản luận văn này.
Vĩnh Phúc, ngày 21 tháng 11 năm 2015
Học viên
T rầ n T hị P hư ơng Liên
LỜI CAM ĐOAN
Tôi xin cam đoan đây là kết quả nghiên cứu của tôi dưới sự hướng dẫn khoa
học của TS. N guyễn Long G iang.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Học viên
T rầ n T hị P hư ơng Liên
MỤC LỤC
L Ờ I CẢM ƠN
L Ờ I CAM ĐOAN
M ỤC L Ụ C ................................................................................................................................i
DANH M ỤC CÁC TH U Ậ T N G Ữ ..................................................................................iii
DANH M ỤC CÁC B Ả N G .................................................................................................iv
DANH M ỤC CÁC H ÌN H V Ẽ ............................................................................................ V
M Ở Đ Ầ U ..................................................................................................................................1
Chương 1. CÁC KHÁI NIỆM c ơ B Ả N ........................................................................ 4
1.1. Hệ thông tin đầy đủ và mô hình tập thô truyền thống...............................................4
1.1.1. Hệ thông tin đầy đ ủ ..................................................................................................... 4
1.1.2. Bảng quyết định đầy đủ...............................................................................................7
1.1.3. Tập rút gọn và tập lõ i.................................................................................................. 7
1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung s a i..........................................8
1.2.1. Hệ thông tin không đầy đ ủ ......................................................................................... 8
1.1.2. Bảng quyết định không đầy đ ủ ................................................................................. 9
C hương 2. RÚT GỌN THUỘC TÍNH VÀ T R ÍC H LỌ C LUẬT TRONG
BẢNG Q UYÉT ĐỊNH K H Ô N G ĐẦY Đ Ủ ................................................................... 11
2.1. Rút gọn thuộc tính và trích lọc luật toong bảng quyết định không đầy đ ủ ........... 11
2.1.1. Tổng kết, phân nhóm các phương pháp rút gọn thuộc tín h ................................ 11
2.1.2. Luật quyết định và các độ đo đánh giá hiệu năng................................................ 16
2.1.3. Lựa chọn, so sánh, đánh giá các phương pháp rút gọn thuộc tín h .................... 20
2.2. Xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ
sử dụng khoảng cách ............................................................................................................ 22
2.2.1. Xây dựng khoảng cách giữa hai tập thuộc tính.....................................................23
2.2.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách .........................................27
2.2.3. Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách .................. 32
C hương 3. TH Ử N G H IỆ M VÀ ĐÁNH G IÁ K Ế T Q U Ả ..........................................33
3.1. Bài to á n ........................................................................................................................ 33
ii
3.2. Phân tích, lựa chọn công c ụ ..................................................................................... 33
3.2.1. Phương pháp rút gọn thuộc tính sử dụng độ đo lượng thông t i n ......................34
3.2.2. Lựa chọn công cụ và cài đặt.................................................................................... 35
3.3. M ột số kết quả thử nghiệm..........................................................................................35
3.3.1. Ket quả thử nghiệm về rút gọn thuộc tính sử dụng khoảng cách...................... 35
3.3.2. Kết quả thử nghiệm về trích lọc luật trong mô hình tập thô dung sai.............. 37
3.4. ứ n g dụng trong bài toán chuẩn đoán bệnh viêm gan B .........................................39
3.4.1. Bài toán chuẩn đoán bệnh viêm gan B .................................................................. 39
3.4.2. Mô tả dữ liệ u ............................................................................................................. 39
3.4.3. Kết quả thực h iệ n ..................................................................................................... 40
K ÉT L U Ậ N ......................................................................................................................... 44
TÀ I LIỆU THAM K H Ả O ............................................................................................... 45
PHỤ LỤC
DANH MỤC CÁC THUẬT NGỮ
T h u ậ t ngữ tiếng Việt
T h u ậ t ngữ tiếng A nh
Tập thô
Rough Set
Tập thô dung sai
Tolerance Rough Set
Hệ thông tin
Information System
Hệ thông tin đầy đủ
Complete Information System
Hệ thông tin không đầy đủ
Incomplete Information System
Bảng quyết định
Decision Table
Bảng quyết định đầy đủ
Complete Decision Table
Bảng quyết định không đầy đủ
Incomplete Decision Table
Quan hệ không phân biệt được
Indiscernibility Relation
Quan hệ dung sai
Tolerance Relation
Xấp x ỉ dưới
Lower Approximation
Xấp x ỉ trên
Upper Approximation
Rút gọn thuộc tính
Attribute Reduction
Tập rút gọn
Reduct
Tập lõi
Core
Luật quyết định
Decision Rule
Khoảng cách
Distance
DANH MỤC CÁC BẢNG
B ảng 1.1. Bảng thông tin về bệnh c ú m ............................................................................ 6
B ảng 1.2. Bảng quyết định không đầ đủ về các xe h ơ i.................................................. 10
B ảng 2.1. Các phương pháp rút gọn thuộc tính trong công trình [3, 8, 14]..............13
B ảng 2.2. Bảng quyết định không đầy đủ ve các xe h ơ i................................................ 17
Bảng 2.3. Bảng quyết định không đầy đủ về các xe h ơ i................................................30
Bảng 3.1. Kết quả thực hiện Thuật toán DBAR và Thuật toán IQ BAR...................... 36
B ảng 3.2. Tập rút gọn của Thuật toán DBAR và Thuật toán IQ BAR..........................36
B ảng 3.3. Kết quả thực hiện Thuật toán DBAK và Thuật toán IQBAK trên các bộ số
liệu lớn...................................................................................................................................37
B ảng 3.4. Tập rút gọn tốt nhất của bộ số liệu Soybean-small.....................................38
B ảng 3.5. Các luật phân lớp trên bảng quyết định rút g ọ n .......................................... 38
V
DANH MỤC CÁC HÌNH VẼ
H ình 2.1. Moi liên hệ giữa các tập rút gọn của bảng quyết định không đầy đ ủ ....... 15
Hình 3.1. Ket quả rút gọn thuộc tính................................................................................ 42
Hình 3.2. Ket quả sinh luật quyết định.............................................................................43
1
MỞ ĐẦU
1. Lý do chọn đề tài
Rút gọn thuộc tính là bài toán quan trọng nhất trong bước tiền xử lý dữ liệu
của quá trình khai phá dữ liệu và khám phá tri thức. Mục tiêu của rút gọn thuộc tính
là loại bỏ các thuộc tính dư thừa của dữ liệu nhằm tìm ra các thuộc tính cốt lõi. Dựa
vào tập thuộc tính cốt lõi tìm được, các thuật toán khai phá dữ liệu đạt hiệu quả cao
nhất. Với lớp bài toán trích lọc luật trên bảng quyết định, rút gọn thuộc tính là quá
trình tìm tập rút gọn (reduct) của tập thuộc tính điều kiện mà bảo toàn thông tin
phân lớp của bảng quyết định. Dựa vào tập rút gọn, việc sinh luật quyết định đạt
hiệu quả cao nhất.
Lý thuyết tập thô truyền thống của Pawlak [11] được xem là một trong
những công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính và sinh luật trên
các bảng quyết định đầy đủ. Tuy nhiên với các bài toán thực tế, miền giá trị thuộc
tính trong bảng quyết định thường không đầy đủ giá trị. Yí dụ trong lĩnh vực y tế,
bác sỹ không thể thu thập đầy đủ các triệu trứng của một bệnh nhân để phục vụ
chuẩn đoán bệnh. Các bảng quyết định như vậy gọi là các bảng quyết định không
đầy đủ (Incomplete Decision Table). Đe giải quyết bài toán rút gọn thuộc tính và
trích lọc luật trên bảng quyết định không đầy đủ, công trình nghiên cứu của
Kryszkiewicz [5] đã thực hiện mở rộng quan hệ tương đương trong lý thuyết tập thô
truyền thống thành quan hệ dung sai và đề xuất mô hình tập thô dung sai nhằm rút
gọn thuộc tính và trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu. Dựa trên
mô hình tập thô dung sai, một số công trình công bố trong mấy năm gần đây đã đề
xuất một số độ đo không chắc chắn nhằm giải quyết bài toán rút gọn thuộc tính và
trích lọc luật, đáng chú ý là các công trình [2], [3], [4], [6], [7], [8], [9], [10].
Như đã trình bày ở trên, rút gọn thuộc tính là bài toán quan trọng của bước
tiền xử lý dữ liệu trong quá trình khai phá dữ liệu và khám phá toi thức. Do đó, việc
nghiên cứu các phương pháp rút gọn thuộc tính có ý nghĩa thực tiễn cao. Hơn nữa,
mô hình tập thô dung sai được chứng minh là công cụ hiệu quả để giải quyết bài
toán rút gọn thuộc tính, việc tiếp tục nghiên cứu nhằm tìm ra các phương pháp mới,
2
hiệu quả có ý nghĩa khoa học. Do đó, tôi chọn đề tài “Nghiên cứu các phương pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ và ứng dụng”
2. Mục đích nghiền cứu (Các kết quả cần đạt được)
Mục đích của luận văn trước hết là tổng kết các kết quả nghiên cứu về lĩnh
vực rút gọn thuộc tính và trích lọc luật toong bảng quyết định không đầy đủ theo
tiếp cận mô hình tập thô dung sai. Trên cơ sở đó, luận văn đề xuất phương pháp rút
gọn thuộc tính dựa trên độ đo khoảng cách phân hoạch và ứng dụng phương pháp
vào bài toán chuẩn đoán bệnh dựa vào các triệu chứng thu thập được từ bệnh nhân.
3. Nhiệm vụ nghiên cứu
- Nắm bắt được các khái niệm cơ bản về lý thuyết tập thô truyền thống trên
hệ thông tin đầy đủ và mô hình tập thô dung sai trên hệ thông tin không đầy đủ
- Tổng hợp các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và
trích lọc luật quyết định trong bảng quyết định không đầy đủ theo tiếp cận mô hình
tập thô dung sai, bao gồm phân nhóm các phương pháp, so sánh, đánh giá các
phương pháp dựa vào tập rút gọn...
- Xây dựng phương pháp rút gọn thuộc tính dựa vào khoảng cách phân
hoạch, đánh giá phương pháp đề xuất với các phương pháp đã có.
- ứ n g dụng phương pháp vào việc giải quyết một bài toán cụ thể trong lĩnh
vực chuẩn đoán bệnh, bao gồm: phát biểu bài toán, cài đặt chương trình, thử nghiệm
chương trình, đánh giá kết quả thu được.
4. Đối tượng và phạm vỉ nghiên cứu
- Đối tượng nghiên cứu: Các bảng quyết định không đầy đủ (thiếu giá trị) với
kích thước trung bình và kích thước lớn trong lĩnh vực nghiên cứu và bảng quyết
định đầy đủ
- Phạm vi nghiên cứu: Nghiên cứu bài toán rút gọn thuộc tính trong bước tiền
xử lý dữ liệu của quá trình khai phá dữ liệu và khám phá tri thức.
5. P hư ơng pháp nghiên cứu
- Nghiên cứu lý thuyết: Nghiên cứu các kết quả đã công bố trong lĩnh vực
liên quan. Trên cơ sở đó phân tích, tổng hợp, đánh giá các kết quả đã công bố.
3
-
Nghiên cứu thực nghiệm: Áp dụng kết quả nghiên cứu lý thuyết vào việc
giải quyết một bài toán trong thực tiễn, bao gồm cài đặt chương trình, thử nghiệm,
đánh giá kết quả thu được.
6. C ấu trú c của luận văn
Bổ cục của luận văn gồm: phần mở đầu và hai chương nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
C hương 1: trình bày các khái niệm cơ bản về hệ thông tin đầy đủ và mô hình
tập thô truyền thống, hệ thông tin không đầy đủ và mô hình tập thô dung sai
C hương 2: trình bày hai nội dung chính, thứ nhất là: tổng kết, phân nhóm các
phương pháp rút gọn thuộc tính. Luật quyết định và các độ đo đánh giá hiệu năng.
Lựa chọn, so sánh đánh giá các các phương pháp rút gọn thuộc tính. Nội dung thứ hai
là xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao gồm xây
dựng độ đo khoảng cách, định nghĩa tập rút gọn và độ quan trọng của thuộc tính
dựa trên khoảng cách, xây dựng thuật toán heuristic tìm m ột tập rút gọn dựa trên
khoảng cách. Phân nhóm và đánh giá phương pháp sử dụng khoảng cách với các
phương pháp đã có.
Chương 3 trình bày kết quả thử nghiệm và đánh giá phương pháp đề xuất
trên các bộ số liệu mẫu từ kho dữ liệu UCI [13] nhằm sáng tỏ các kết quả nghiên
cứu về lý thuyết. Chương 3 cũng trình bày ứng dụng phương pháp rút gọn thuộc
tính và trích lọc luật ưên bộ số liệu thử nghiệm của bệnh viêm gan B.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hướng phát triển
tiếp theo.
4
C hương 1. CÁC K H Á I N IỆM c ơ BẢN
Chương này trình bày các khái niệm cơ bản về mô hình tập thô truyền thống
trên các hệ thông tin đày đủ do Pawlak [10] đề xuất và mô hình tập thô dung sai trên
các hệ thông tin không đầy đủ do Kryszkiewicz [5] đề xuất. Các khái niệm cơ bản
này là kiến thức nền tảng để sử dụng cho các chương sau.
1.1. Hệ thống tin đầy đủ và mô hình tập thô tru y ền thống
1.1.1. Hệ thông tin đầy đủ
Hệ thông tin đầy đủ, gọi tắt là hệ thông tin, là một bảng dữ liệu gồm p cột ứng
với p thuộc tính và n hàng ứng với n đối tượng. M ột cách hình thức, hệ thông tin
được định nghĩa như sau.
Đ ịnh nghĩa 1.1. Hệ thông tin là một bộ tứ IS = { U ,A ,V ,f) trong đó и là tập hữu hạn,
khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính; V = ỊJ
với
Va là tập giá trị của thuộc tính a e Ấ ; / : í/ XА —»Va là hàm thông tin, Vô e Ậ H Ễ Ư
f{u ,à )& V a.
Yới mọi u e l ĩ , a e A , ta ký hiệu giá toi thuộc tính a tại đối tượng и là а(и )
thay vì f ( u , a ). Nếu в = {bl,b2,...,bk}c . A là một tập con các thuộc tính thì ta ký
hiệu bộ các giá trị bị (w) bởi B ị u ). Như vậy, nếu и và V là hai đối tượng, thì ta viết
5(m) = 5 (v ) nếu &;(«) = £,(v) với mọi ỉ = \,...,k.
Xét hệ thông tin IS = ( ơ ,A , y , / ) , mỗi tập con các thuộc tính F ç A xác định
một quan hệ hai ngôi trên u, ký hiệu là /л ю ( р ) , xác định bởi
/M )(.P) = |(M ,v )e ơ x ư ịV a e P , a(ỉí) = a (v )j.
/iVD(P)là quan hệ P-không phân biệt được. Dễ thấy rằng INDị^P) là một
quan hệ tương đương trên u . Neu ( и ,у ) е / м ) ( р ) thì hai đối tượng и và V không
phân biệt được bởi các thuộc tính trong p . Quan hệ tương đương IN D ịP ) xác định
5
một phân hoạch trên u , ký hiệu là u / IN D (p) hay u / p . Ký hiệu lớp tương đương
trong phân hoạch u /P c h ứ a đối tượng u là[w] ,
khi đó [«] =Ịve£/|(w ,v)e/iV D (.P)Ị.
Cho hệ thông tin IS = (ơ ,A ,V ,/) , tập thuộc tính S c Ấ và tập đối tượng
X c í / . Trong lý thuyết tập thô truyền thống của Pawlak [10], để biểu diễn tập X
thông qua các lớp tương đương của u / B (còn gọi là biểu diễn X bằng tri thức có
sẵn B ), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của
u / B . Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là
B-xẩp x ỉ dưới và B-xẩp xỉ trên của X, ký hiệu là lượt là B X và B X , được xác định
như sau:
B X = ịu z U \[ u ] c x Ị ,Ĩ Ỉ X = Ị w e ĩ/|[ M ] n X * 0 Ị .
Tập B X bao gồm tất cả các phần tử của u chắc chắn thuộc vào X, còn tập
B X bao gồm các phần tử của u có thể thuộc vào X dựa trên tập thuộc tính 5 . Từ
hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BNg ( x ) = BX - BX : B-miền biên của X , u - BX : B-miền ngoài của X.
B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X,
còn B-mỉền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các
lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
5X =U
Æ |F ç X } , 5 X = U
B \Y n X * 0 } .
Trong trường hợp BNB(X ^ = 0 thì X được gọi là tập chính xác (exact set),
ngược lại X được gọi là tập thô (rough set).
Yới B ,D œ A , ta gọi 5-m iền dương của D là tập được xác định như sau
POSB(D)= u
X
Rõ ràng POSB(D) là tập tất cả các đối tượng u sao cho với mọi VEƯ mà
«(2ĩ) = v(.B) ta đều có u { p ) = v (ơ ). Nói cách khác, POSB(D) = ịu e ĩ / | [w]
6
Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở Bảng 1.1.
Bảng 1.1. Bảng thông tin về bệnh cúm
u
Đ au đầu
T h ân nhiệt
Cảm cúm
Uj
Có
Bình thường
Không
u
2
Có
Cao
Có
u
3
Có
Rât cao
Có
U
4
Không
Bình thường
Không
u
5
Không
Cao
Không
u
6
Không
Rât cao
Có
Uy
Không
Cao
Có
u8
Không
Rât cao
Không
Ta có: u / ỊĐau đầu} = Ị|M1,M2,M3Ị,|M4,M5,M6,M7,MgỊỊ
u / {Thân nhiệt} =
u / {Cảm cúm} = |{M1,M4,M5,Mg},{M2,M3,M6,M7}|
u I{ Đ a u đầu, Cảm cúmỊ = |{M1Ị,{M2,ỉí3j,{ỉí4,M5,ỉí8j,Ịỉí6,ỉí7Ị |
Như vậy, các bệnh nhân u2,u3 không phân biệt được về đau đầu và cảm cúm,
nhưng phân biệt được về thân nhiệt.
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:
{^ 1 } ’
{ M 2 } ’ {« 3
} ’ { M 4 } ’ { M 5 ’ M 7 } ’ { M 6 ’ u %}
•
Đặt X ={k| uịCảm cúm) = Có} = {M2,M3,M6,M7}. Khi đó:
BX —|w2, W3Ị và
= Ịw2,w3,w5,w6,w7,wg}. Như vậy, B-miền biên của X là tập
hợp BN b ( X ) = {u5, u6, u7, u&} . N e u đ ặ tD = {Cảm cúm} thì
u lD
ị-^1
POSB{D)= | J
^5 5 ^8 ị 5^2
"Ị^25^35^65^7
,M2,M3,M4}.
5
BXị
|w ịjI j
BX2
{^ 2 5 M 3 } 5
7
Yới các khái niệm của tập xấp xỉ đối với phân hoạch u / B , mô hình tập thô
truyền thống phân chia các tập hợp thành bốn lớp cơ bản:
1) Tập X là B-xác định thô nếu BX
và BX * u .
2) Tập X là B-không xác định trong nếu BX = 0 và BX * u .
3) Tập X là B-không xác định ngoài nếu BX 9*0 và BX = u .
4) Tập X là B-không xác định hoàn toàn nếu BX = 0 và BX = u .
1.1.2. B ảng quyết định đầy đủ
M ột lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng
dụng là bảng quyết định đầy đủ, gọi tắt là bảng quyết định. Bảng quyết định là một
hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau c
và D , lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định.
Tức là DS = ( U ,C u D ,V ,f ) với C n ô = 0 .
Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào c , tức là với
mọi u ,v e U , c(w ) = c (v ) kéo theo D (ií) = £)(v). Ngược lại thì gọi là không nhất quán
hay mâu thuẫn. Theo định nghĩa miền dương, bảng quyết định là nhất quán khi và chỉ
khi POSc ( đ ) = u . Trong trường hợp bảng không nhất quán thì POSc (£>) chính là tập
con cực đại của u sao cho phụ thuộc hàm c —>D đúng.
1.1.3. T ập rứ t gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhổm:
thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc tính
dư thừa (redundant attribute). Thuộc tính lõi là thuộc tính không thể thiếu trong
việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất hiện trong tất cả các tập rút
gọn của bảng quyết định. Thuộc tỉnh dư thừa là những thuộc tính mà việc loại bỏ
chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không
xuất hiện trong bất kỳ tập rút gọn nào của bảng quyết định. Thuộc tính rút gọn là
thuộc tính xuất hiện toong một tập rút gọn nào đó của bảng quyết định.
8
Với bảng quyết định DS = ( í / , C u ũ , y , / ) . Thuộc tính c e C được gọi là
không cần thiết (dispensable) trong DS nếu POSc {D) = PO S^ ị ^ ị Ò ) ; Ngược lại, c
được gọi là cần thiết (indispensable). Tập tất cả các thuộc tính cần thiết trong DS
được gọi là tập lõi và được ký hiệu là PCORE ( c ) . Khi đó, thuộc tính cần thiết
chính là thuộc tính lõi. Như vậy, thuộc tính không cần thiết là thuộc tính dư thừa
hoặc thuộc tính rút gọn.
Nếu tập thuộc tính í c C thỏa mãn:
1) POSr (D) = POS c(D)
2) Vr e R, POSR_{r}(D) * POSc (D)
thì R là một tập rút gọn của c . Tập rút gọn định nghĩa như trên còn gọi là tập rút
gọn Pawlak.
1.2. Hệ thông tin khống đầy đủ và mô hình tập thô dung sai
Mô hình tập thô truyền thống do Pawlak đề xuất [10] là công cụ hiệu quả để
giải quyết bài toán phân lớp trên các hệ thông tin đầy đủ dựa trên quan hệ tương
đương. Tuy nhiên trong thực tế, các hệ thông tin thường thiếu giá trị trên miền giá
trị của thuộc tính, gọi là các hệ thông tin không đầy đủ. Trong hệ thông tin không
đầy đủ, Kryszkiewicz [5] được xem là người đầu tiên mở rộng quan hệ tương
đương thành quan hệ dung sai và xây dựng mô hình tập thô mở rộng dựa trên quan
hệ dung sai, gọi là mô hình tập thô dung sai. Trong mục này, tôi trình bày các khái
niệm cơ bản về mô hình tập thô dung sai.
1.2.1. Hệ thông tin không đầy đủ
Xét hệ thông tin IS = { U ,A ,V ,f) , nếu tồn tại « Ẽ Ư và a s A sao cho a(w)
thiếu giá trị thì IS được gọi là hệ thông tin không đầy đủ. Ta biểu diễn giá trị thiếu là
và hệ thông tin không đầy đủ là IIS = ( U ,A ,V ,f).
Xét hệ thông tin không đầy đủ IIS - (U ,A ,V ,/ ) ) , với tập thuộc tính P c A ta
định nghĩa một quan hệ nhị phân trên u như sau
5 /M (/>) = Ị(M ,v )e ơ x ĩ/| V ữ e P , a(w) = a(v) V «(«) = '* 'v a ( v ) = '*'j.
9
Quan hệ SIM (p ) không phải là quan hệ tương đương vì chúng có tính phản xạ,
đối xứng nhưng không có tính bẳc cầu. SIM (p ) là một quan hệ dung sai (tolerance
relation),
hay
quan
 B f(/> )= n
hệ
tương
tự
(similarity relation)
trên
u.
Theo
[5],
[{a}).
Gọi Sp(u) là tập |v e í/|(m, v )eS /M (.P )Ị. Sp (m) là tập lớn nhất các đối tượng
không có khả năng phân biệt được với u trên tập thuộc tính p , còn gọi là một lớp
dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ
SIM(P) trên u là u / SIM ( p ) , khi đó các lớp dung sai trong u / SIM (p ) không phải
là một phân hoạch của u mà hình thành một phủ của u vì chúng có thể giao nhau và
u
) = u . Ký hiệu tập tất cả các phủ của u
sinh bởi các tập con thuộc tính
P ^ A là COVER(u ).
Tương tự hệ thông tin đầy đủ, các tập P-xẩp xi dưới và P-xấp xỉ trên của X trong
hệ thông tin không đầy đủ, ký hiệu lần lượt là P X và P X , được xác định như sau
PX =Ịme u\sp(u) s x Ị = Ịme X\sp(u) s x Ị
P X = Ị M e ơ | S , ,( w ) n X * 0 } = U sp u « e ơ Ị
Yới các tập xấp xỉ nêu trên, ta gọi P-mỉền
biên của X
là tập
BNp ( x ) = P X - P X , và P-miền ngoài của X là tập u - PX .
Yới các tập xấp xỉ được định nghĩa như trên, mô hình tập thô truyền thống
được mở rộng thành mô hình tập thô dung sai, nghĩa là mô hình tập thô dựa trên
quan hệ dung sai.
1.1.2. Bảng quyết định không đầy đủ
Xét bảng quyết địnhDS = ( { / ,C u £ ) ,y ,/ ) , nếu tồn tại
« Ẽ Ơ và c e C sao cho
c(u) thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ. Ta biểu diễn giá
trị thiếu là
và bảng quyết định không đầy đủ là IDS = ( ơ , C u ơ , y , / ) với
w e D, '* ' Ể Vd. Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc tính
quyết định duy nhất {d } .
10
Cho bảng quyết định không đầy đủ IDS = {u ,C y j{d } ,V
. Với B c C ,
MGÍ/, ổB(«) = -Ị/ổ (v )|v e S B(«)j gọi là hàm quyết định suy rộng, nếu lổc (ỉí)l=l với
mọi M €Í/ thì IDS là nhất quán, trái lại IDS là không nhất quán [5]. Tương tự trong
bảng quyết định đầy đủ, với B c C , miền dương của {
P O Sgiịd}), được định nghĩa POSB({d}) = \ j { B X \ X G Ư /ỊrfỊ}, khi đó IDS là nhất
quán khi và chỉ khi POSB({dỊ) = u .
Ví dụ 1.2. Xét bảng quyết định không đầy đủ IDS = ị u ,C \j\d } ,V
cho ở Bảng 1.2,
với u ={u1,u2,u3,u4,u5,u6} , c = ịa1,a2,a3,a4} với dj (Đơn giá), a2 (Km đã đi), a3
(Kích thước), a4 (Tốc độ tối đa), d (Gia tốc).
Bảng 1.2. Bảng quyết định không đầ đủ về các xe hơi
Ô tô
Đ ơn giá
Km đã đi
K ích thước
Tốc độ
G ia tốc
Uj
Cao
Cao
Đây đủ
Thâp
Tôt
u2
Thâp
*
Đây đủ
Thâp
Tôt
u3
*
*
Gọn nhẹ
Cao
Xâu
U4
Cao
*
Đây đủ
Cao
Tôt
u5
*
*
Đây đủ
Cao
Tuyệt hảo
u6
Thâp
Cao
Đây đủ
*
Tôt
Ta có u I [ d } = { Xx, X 2, X ĩ \ với X 1 ={uv u2,u4,u6}, X 2 ={w3}, X 3 ={w5}.
Các tập xấp xỉ dưới đối với c là CX1 = Ịi/p w2}, CX2 = Ịw3Ị, C X3 = | 0 Ị .
Do đó, POSc {\dỴ) = {m1,m2,m3}.
Hàm quyết định suy rộng của các đối tượng trên tập thuộc tính c là
5c (w1)= {Tốt}, dc (u2)= ỊTốt}, õc (u3)= {Xấu}, ổc (m4)= {Tốt, Tuyệt hảo},
ôc (u5) = {Tốt, Tuyệt hảo}, dc (u6) = {Tốt, Tuyệt hảo}.
Do đó, IDS là bảng quyết định không nhất quán.
11
Chương 2. RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT
TRONG BẢNG QUYÉT ĐỊNH KHÔNG ĐẦY ĐỦ
Chương này trình bày hai nội dung chính như sau:
1) Tổng hợp các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và
trích lọc luật trong bảng quyết định không đầy đủ, bao gồm: tổng hợp và phân nhóm
các phương pháp rút gọn thuộc tính dựa vào tập rút gọn; tổng hợp các kết quả
nghiên cứu về luật quyết định và các độ đo đánh giá hiệu năng; tổng hợp các kết
quả nghiên cứu về so sánh, đánh giá các phương pháp rút gọn thuộc tính. Các kết
quả này được công bố trong các công trình [3, 8].
2) Xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao
gồm: xây dựng độ đo khoảng cách; định nghĩa tập rút gọn và độ quan trọng của
thuộc tính dựa trên khoảng cách; xây dựng thuật toán heuristic tìm tập rút gọn; phân
nhóm, đánh giá phương pháp với các phương pháp đã công bố.
2.1. Rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ
2.1.1. Tổng kết, phân nhóm các phương pháp rút gọn thuộc tính
Rút gọn thuộc tính theo tiếp cận tập thô truyền thống của Pawlak [10] là chủ đề
nghiên cứu sôi động trong nhiều năm qua [1]. Tuy nhiên trong các bài toán thực tế, các
hệ thông tin thường thiếu giá trị trên miền giá trị của thuộc tính, còn gọi là các hệ thông
tin không đầy đủ. Ví dụ, trong các kho dữ liệu thuộc lĩnh vực y khoa, các bác sỹ
thường không thu thập đủ các triệu trứng của các bệnh nhân để chuẩn đoán bệnh....
Trên hệ thông tin không đầy đủ, các nhà nghiên cứu quan tâm đến việc xây dựng
các mô hình hiệu quả nhằm giải quyết bài toán rút gọn thuộc tính và trích lọc luật.
Một trong những giải pháp hiệu quả là việc mở rộng mô hình tập thô truyền thống
thành mô hình tập thô dung sai dựa trên quan hệ dung sai do Kryszkiewicz [5] đề
xuất. Giống như cách tiếp cận mô hình tập thô truyền thống [10], các phương pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận mô hình tập thô
dung sai[5] cũng thực hiện các bước sau đây:
1) Đưa ra khái niệm tập rút gọn dựa trên một độ đo được xây dựng.
12
2) Đưa ra khái niệm độ quan trọng của thuộc tính, đặc trưng cho khả năng đóng
góp của thuộc tính vào việc phân lớp tập đối tượng. Thuộc tính có độ quan trọng càng
lớn thì khả năng đóng góp vào việc phân lớp đối tượng càng nhiều và ngược lại.
3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu
chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính)
Cho bảng quyết định không đầy đủ IDS = Ịí/, A u
và tập thuộc tính điều kiện
R < ^ .A . Theo tiếp cận mô hình tập thô dung sai[5], R được gọi là tập rút gọn của
bảng quyết định DS nếu R bảo toàn “khả năng phân lớp” của DS, nghĩa là việc phân
lớp đối tượng dựa trên tập thuộc tính R tương đương với tập thuộc tính A. Khả năng
phân lớp được “lượng hóa” bằng độ chắc chắn của tập luật quyết định sẽ trình bày ở
phần sau. Mỗi phương pháp rút gọn thuộc tính đều đưa ra một độ đo nhằm lượng hóa
khả năng phân lớp và đưa ra định nghĩa tập rút gọn dựa trên độ đo được chọn.
Kryszkiewicz [5] đưa ra khái niệm đầu tiên về tập rút gọn của bảng quyết
định không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn
hàm quyết định suy rộng của tất cả các đối tượng.
Định nghĩa 2.1. [5] Cho bảng quyết định không đầy đủ IDS =([/,Au{}). Nếu
R c ^ A thỏa mãn:
(1) ỡjj(m) = ỡa (w) với mọi u e t /
(2) V/? c R , tồn tại u & u sao cho ổfi. (w )^ ÔA (w)
thì R được gọi là một tập rút gọn của IDS dựa trên hàm quyết định suy rộng,
a) Các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ
Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều phương pháp
rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14]. Trong
công trình [7, 8, 14], các tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn
thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng.
13
Bảng 2.1. Các phương pháp rút gọn thuộc tính trong công trình [3, 8, 14]
Ký hiệu tập
STT
Phương pháp
Tập rút gọn
rút gọn
1
2
Phương pháp sử dụng miền
Tập rút gọn dựa trên
dương[10].
miền dương
Phương pháp sử dụng hàm
Tập rút gọn dựa trên
quyết định suy rộngl3].
hàm
quyết định
Rp
Re
suy
rộng
3
4
5
6
7
8
9
Phương pháp sử dụng hàm ấn
Tập rút gọn dựa trên
đ ịn h [ll].
hàm ấn định
Phương pháp sử dụng ma trận
Tập rút gọn dựa trên
phân bỉệt[8].
ma trận phân biệt
Phương pháp sử dụng độ đo
Tập rút gọn dựa trên
lượng thông tin[ 1].
lượng thông tin
Phương pháp sử dụng ma trận
Tập rút gọn dựa trên
dung sai[2].
ma trận dung sai
Phương pháp sử dụng metric
Tập rút gọn dựa trên
[7]
metric
Phương pháp sử dụng hàm
Tập rút gọn dựa trên
phấn biệt suy rộng [14]
hàm phân biệt suy rộng
Phương pháp sử dụng hàm
Tập rút gọn dựa trên
phân bố[9].
hàm phân bổ
Rs
Ru
*1
RTM
Rd
rf
R,
b) Phân nhóm các phương pháp rút gọn thuộc tính
Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra định
nghĩa về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn. Do đó, có thể
nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính. Yì vậy, việc phân
nhóm các phương pháp rút gọn thuộc tính cũng dựa vào tập rút gọn và được thực hiện
theo nguyên tắc: các phương pháp có tập rút gọn như nhau được phân thành một
14
nhổm. Trong công trình [7, 8, 14], các tác giả đã công bố về mối liên hệ giữa các tập
rút gọn và kết quả phân nhóm các phương pháp rút gọn thuộc tính như sau:
1) Neu bảng quyết định nhất quán, các tập rút gọn R p , Rg, Rs , RM , R j ,
RTM,Rd , Rf , R m là tương đương nhau.
2) Neu bảng quyết định không nhất quán:
- Tập rút gọn dựa trên hàm quyết định suy rộng (Rg) tương đương với tập rút
gọn dựa trên hàm ấn định Rg.
- Tập rút gọn dựa trên hàm quyết định suy rộng (Rg) tương đương với tập rút
gọn dựa trên ma trận phân biệt ( RM).
- Tập rút gọn dựa trên lượng thông tin (R ị ) tương đương với tập rút gọn dựa
trên ma trận dung sai ( Rj.M).
- Tập rút gọn dựa trên metric (RD) tương đương với tập rút gọn dựa trên độ
đo lượng thông tin ( Rj ) [7].
- Tập rút gọn dựa trên hàm phân biệt suy rộng (RF) tương đương với tập rút
gọn dựa trên độ đo lượng thông tin ( R ị ) [14].
- Tập rút gọn dựa trên miền dương (Rp) là tập con của tập rút gọn dựa trên hàm
quyết định suy rộng ( Rg), nghĩa là: nếu Rg là một tập rút gọn dựa trên hàm quyết định
suy rộng thì tồn tại Rp CỊ Rg với Rp là một tập rút gọn dựa trên miền dương.
- Tập rút gọn dựa trên hàm quyết định suy rộng (Rg) là tập con của tập rút
gọn dựa trên lượng thông tin (Rj), nghĩa là: nếu Rj là một tập rút gọn dựa trên
lượng thông tin thì tồn tại Rõ c Rj với Rs là một tập rút gọn dựa trên hàm quyết
định suy rộng.
- Tập rút gọn dựa trên hàm quyết định suy rộng (RẼ) là tập con của tập rút
gọn dựa trên hàm phân bố ( Rụ ), nghĩa là: nếu RM là một tập rút gọn phân bố thì tồn
tại Rẽ ^ RMvới Rg là một tập rút gọn dựa trên hàm quyết định suy rộng.
15
Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ không
H ình 2.1. Mối liên hệ giữa các tập rút gọn của bảng quyết định không đầy đủ
Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [7, 8, 14] đã
thực hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn
của các nhóm. Cụ thể:
Các tập rút gọn trong bảng không nhất quán được chia thành bốn nhổm:
Nhóm 1: Bao gồm tập rút gọn Rp.
Nhóm 2: Bao gồm các tập rút gọn Rg, Rs , RM .
Nhóm 3: Bao gồm các tập rút gọn R j, Rj.M , RD, Rp
Nhóm 4: Bao gồm tập rút gọn RM.
Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:
•
Nếu Rị là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn R2
thuộc nhóm 2 và một tập rút gọn
•
Nếu
/? 4
thuộc nhóm 1 sao cho /?J (Z / ? 2 C Rị .
là một tập rút gọn thuộc nhóm 4 thì tồn tại một tập rút gọn R2
thuộc nhóm 2 và một tập rút gọn
thuộc nhóm 1 sao cho
C / ? 2 C R4.
Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ cũng được phân thành bốn nhóm tương ứng.
Đe đánh giá tính hiệu quả của một phương pháp rút gọn thuộc tính, cộng đồng
nghiên cứu về tập thô sử dụng hai tiêu chuẩn: 1) độ phức tạp về thời gian thực hiện
thuật toán heuristic tìm một tập rút gọn tốt nhất và 2) chất lượng phân lớpcủa tập
rút gọn. Các công bố về rút gọn thuộc tính đều tính toán độ phức tạp thời gian thuật
16
toán tìm tập rút gọn. Do đó, hoàn toàn có thể so sánh được tính hiệu quả của các
phương pháp về tiêu chuẩn thời gian. Yì vậy, luận văn tập trung nghiên cứu việc
đánh giá các phương pháp dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn.
Việc đánh giá chất lượng phân lớp của tập rút gọn dựa vào số lượng thuộc tính
của tập rút gọn và chất lượng phân lớp của từng thuộc tính, v ề mặt định tính, tập rút
gọn có số thuộc tính càng ít thì chất lượng phân lớp càng cao. Tuy nhiên, điều này
chưa hẳn đã chính xác vì chất lượng phân lớp của từng thuộc tính khác nhau. Tóm
lại, ta cần phải sử dụng độ đo mang tính định lượng để đánh giá chất lượng phân lớp
của tập rút gọn. Trong lý thuyết tập thô, các nhà nghiên cứu sử dụng ba độ đo để
đánh giá tính đúng đắn và tính hiệu quả của một phương pháp rút gọn thuộc tính: độ
chắc chẳn (certainty measure), độ nhất quán (consistency measure) và độ h ễ trợ
(support measure), cụ thể là: tập rút gọn của phương pháp rút gọn thuộc tính phải
bảo toàn độ chính xác, độ nhất quán của tập luật quyết định. Độ hỗ trợ sử dụng để
đánh giá chất lượng phân lớp của tập rút gọn. Độ hỗ trợ của tập luật quyết định dựa
trên tập rút gọn càng cao thì chất lượng phân lớp của tập rút gọn đó càng cao.
Phần tiếp theo, tôi tổng kết các kết quả nghiên cứu liên quan đến luật quyết
định và các độ đo đánh giá hiệu năng trong bảng quyết định đầy đủ và không đầy đủ.
tôi cũng tổng hợp kết quả nghiên cứu về sự thay đổi các độ đo trên các tập rút gọn
của các nhóm phương pháp, từ đó trình bày kết quả so sánh, đánh giá các phương
pháp rút gọn thuộc tính dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn.
2.1.2. Luật quyết định và các độ đo đánh giá hiệu năng
a) Luật quyết định và các độ đo đánh giá hiệu năng
Khái niệm về luật quyết định trong bảng quyết định không đầy đủ trong công
trình [3] cũng được mở rộng từ luật quyết định trong lý thuyết tập thô của Pawlak
[10]. Cho bảng quyết định không đầy đủ IDS =ịlỉ,A\j[dỴj với u =
giả sử ta
có hai phủ U/SIM(Á) = {SA{ulị...,S A{un)} và ul {d} = {Yv Yv ...,Ym).
Với 5ẩ (mì)gí//5/M (A ), Yj e U ỉ ị d } và SAịuị)nY j * 0 , ký hiệu desịS^U ịỴị
và d e s ịy ^ lần lượt là các mô tả của lớp dung sai SA(w;) và lớp tương đương.