Tải bản đầy đủ (.pdf) (79 trang)

một số kỹ thuật đánh giá luật dựa trên lý thuyết tập thô

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (593.25 KB, 79 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN





NGUYỄN THỊ LY SA





MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT
DỰA TRÊN LÝ THUYẾT TẬP THÔ








LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH












Thành phố Hồ Chí Minh - 2010


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN





NGUYỄN THỊ LY SA





MỘT SỐ KỸ THUẬT ĐÁNH GIÁ LUẬT
DỰA TRÊN LÝ THUYẾT TẬP THÔ




Chuyên ngành: Khoa học máy tính







LUẬN VĂN THẠC SĨ





HƯỚNG DẪN KHOA HỌC
TS. VŨ THANH NGUYÊN









Thành phố Hồ Chí Minh - 2010
i

NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN



















TP Hồ Chí Minh, ngày …….tháng …… năm 2010
Cán bộ hướng dẫn



TS. Vũ Thanh Nguyên
ii


NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN



















TP Hồ Chí Minh, ngày …….tháng …… năm 2010
Cán bộ phản biện
iii

MỤC LỤC
Trang
NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN I
NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN II
MỤC LỤC III
DANH MỤC CÁC BẢNG VI
DANH MỤC CÁC HÌNH VII
DANH MỤC CÁC TỪ VIẾT TẮT VIII
CHƯƠNG 1. GIỚI THIỆU 1
1.1. KHAI PHÁ DỮ LIỆU 1
1.2. LUẬT KẾT HỢP 2
1.3. LÝ THUYẾT TẬP THÔ 2
1.4. ĐÁNH GIÁ LUẬT 3
1.5. TÓM LẠI 4
CHƯƠNG 2. KIẾN THỨC CƠ BẢN 5

2.1. LÝ THUYẾT TẬP THÔ 5
2.1.1. Các khái niệm 5
2.1.2. Thuật toán tìm các rút gọn 12
2.1.3. Thuật toán tìm rút gọn tối ưu 16
2.1.4. Tập thô và rời rạc hóa dữ liệu 17
2.2. PHÁT SINH LUẬT KẾT HỢP 23
2.2.1. Giới thiệu 23
2.2.2. Khai thác tập phổ biến 23
2.2.3. Khai thác luật kết hợp từ tập phổ biến 28
2.2.4. Sử dụng luật kết hợp vào việc phân lớp 30
CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ LUẬT DỰA TRÊN LÝ
THUYẾT TẬP THÔ 32
3.1. ĐỘ ĐO SỰ HỮU ÍCH CỦA LUẬT 32
3.1.1. Độ hỗ trợ 33
3.1.2. Độ tin cậy 33
3.1.3. Độ đo Lift 34
iv

3.1.4. Độ đo Laplace 34
3.1.5. Độ chắc chắn 35
3.1.6. Độ đo Leverage 35
3.1.7. Độ đo Correlation 35
3.1.8. Độ đo Jaccard 36
3.1.9. Độ đo Cosine 36
3.1.10. Độ đo Odds Ratio 36
3.1.11. Rule Template 36
3.2. ĐỘ ĐO TẦM QUAN TRỌNG CỦA LUẬT 38
3.2.1. Các định nghĩa 38
3.2.2. Một ví dụ về độ đo RIM 39
3.2.3. Nhận xét về độ đo RIM 40

3.3. ĐỘ ĐO XEM LUẬT NHƯ THUỘC TÍNH 41
3.3.1. Xây dựng bảng quyết định mới 41
3.3.2. Các định nghĩa 43
3.3.3. Một ví dụ về độ đo RAM 43
3.3.4. Nhận xét giữa hai độ đo RIM và độ đo RAM 44
3.4. ĐỘ ĐO TẦM QUAN TRỌNG CẢI TIẾN 45
3.4.1. Định nghĩa 45
3.4.2. Quá trình thực hiện 45
3.4.3. Một ví dụ về độ đo ERIM 46
3.4.4. Nhận xét về độ đo ERIM 47
3.5. ĐỘ ĐO WAERIM 47
3.5.1. Định nghĩa 48
3.5.2. Quá trình thực hiện 48
3.6. ĐỘ ĐO AIERIM 49
3.6.1. Định nghĩa 49
3.6.2. Một ví dụ về độ đo AIERIM 50
CHƯƠNG 4. XÂY DỰNG ỨNG DỤNG SO SÁNH KỸ THUẬT ĐÁNH GIÁ
LUẬT GIỮA CÁC ĐỘ ĐO 51
4.1. GIỚI THIỆU 51
4.1.1. Nguồn dữ liệu “Nursery” 51
4.1.2. Nguồn dữ liệu “BankLoan” 52
v

4.2. MÔ HÌNH XÂY DỰNG ỨNG DỤNG 54
4.3. KẾT QUẢ SO SÁNH GIỮA CÁC ĐỘ ĐO 55
4.3.1. Sử dụng nguồn “Nursery” 55
4.3.2. Sử dụng nguồn “BankLoan” 56
4.3.3. Kết luận 57
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 65
TÀI LIỆU THAM KHẢO 67



vi

DANH MỤC CÁC BẢNG
Bảng 2.1. Một ví dụ về Hệ thông tin 5
Bảng 2.2. Một ví dụ về Bảng quyết định 6
Bảng 2.3. Ma trận khả phân xây dựng từ Bảng 2.2 11
Bảng 2.4. Một ví dụ về Bảng quyết định 11
Bảng 2.5. Ma trận khả phân xây dựng từ Bảng 2.4 12
Bảng 2.6. Quá trình rời rạc hoá 18
Bảng 2.7. Bảng quyết định mới

T
21
Bảng 2.8. Kết quả rời rạc hóa dữ liệu 23
Bảng 2.9. Ví dụ về cơ sở dữ liệu dạng giao dịch 24
Bảng 2.10. Một ví dụ về tập phổ biến 24
Bảng 2.11. Luật kết hợp thỏa minSupp=50%, minConf=80% 29
Bảng 3.1. Ví dụ cho mẫu luật 37
Bảng 3.2. Một số rút gọn từ nguồn Zoo 39
Bảng 3.3. Tập luật quan trọng theo độ đo RIM từ nguồn Zoo 40
Bảng 3.4. Bảng quyết định ví dụ cho độ đo RAM 42
Bảng 3.5. Xây dựng bảng quyết định mới 43
Bảng 3.6. Các luật kết hợp từ nguồn Lenses với minSupp=3% và minConf=70% 44
Bảng 3.7. Tập luật quan trọng theo độ đo RAM từ nguồn Lenses 44
Bảng 3.8. Trọng số cho từng thuộc tính điều kiện của nguồn Car 46
Bảng 3.9. Tập luật với độ đo ERIM từ nguồn Car 46
Bảng 3.10. Mức độ quan trọng của các tập thuộc tính trên nguồn Car 50
Bảng 3.11. Tập luật với độ đo AIERIM từ nguồn Car 50

Bảng 4.1. Các thuộc tính của nguồn Nursery 51
Bảng 4.2. Các thuộc tính của dữ liệu BankLoan 52
Bảng 4.3. Trọng số các thuộc tính điều kiện của BankLoan 53
Bảng 4.4. Kết quả 10 lần thử nghiệm với Nursery 60
Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 1) 62
Bảng 4.5. Kết quả 10 lần thử nghiệm với BankLoan (trường hơp 2) 64
vii

DANH MỤC CÁC HÌNH
Hình 1.1. Quá trình phát hiện tri thức 1
Hình 2.1. Tập các điểm cắt trên thuộc tính a 19
Hình 2.2. Tập các điểm cắt cực tiểu 22
Hình 2.3. Cây tìm kiếm IT-tree 26
Hình 2.4. Cây tìm kiếm tập phổ biến với minSupp=50% 27
Hình 4.1. Mô hình xây dựng ứng dụng 54
Hình 4.2. Biểu đồ so sánh giữa các độ đo từ nguồn Nursery 55
Hình 4.3. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 1) 56
Hình 4.4. Biểu đồ so sánh giữa các độ đo từ nguồn BankLoan (trường hợp 2) 57
viii

DANH MỤC CÁC TỪ VIẾT TẮT
AIERIM Attributes Importance Degree Based Enhanced Rule
Importance Measure
CBA Classification Based on Associations
CSDL Cơ Sở Dữ Liệu
ERIM Enhanced Rule Importance Measure
IT-pair Itemset-Tidset pair
IT-tree Itemset-Tidset tree
KDD Knowledge Discovery in Database
RIM Rule Importance Measure

RAM Rule-as-Attribute Measure
WAERIM Weight Average Based Enhanced Rule Importance
Measure







1

Chương 1. GIỚI THIỆU
1.1. KHAI PHÁ DỮ LIỆU
Phát hiện tri thức trong cơ sở dữ liệu (KDD-Knowledge Discovery in
Database) là quá trình tìm kiếm những thông tin ẩn có giá trị từ tập dữ liệu lớn,
là quá trình hoạt động tương tác giữa con người và cơ sở dữ liệu với sự hỗ trợ
của công cụ tin học để chọn ra những tri thức có ích phục vụ cho một mục đích
nhất định trong một lĩnh vực nhất định. Khai phá dữ liệu (Data Mining) là một
trong những hoạt động của quá trình phát hiện tri thức, là kỹ thuật chính giúp ta
lấy được các tri thức hữu ích, quan trọng.
Quá trình phát hiện tri thức có thể được biểu diễn bằng Hình 1.1:

Hình 1.1. Quá trình phát hiện tri thức
Hiện nay trên thế giới đã có nhiều ngành công nghiệp sử dụng kỹ thuật khai
phá dữ liệu để phục vụ cho các hoạt động kinh doanh của mình và bước đầu
thành công như ngành tài chính, y học, bảo hiểm, sản xuất… Mặc dù kỹ thuật
khai phá dữ liệu hiện nay vẫn còn nhiều vấn đề nổi cộm nhưng với những tri
thức mà nó đem lại cũng đã chứng tỏ khai phá dữ liệu có một tiềm năng to lớn
trong việc tạo ra những lợi nhuận đáng kể trong nền kinh tế.

Các hướng tiếp cận khai phá dữ liệu phổ biến đang được nghiên cứu và sử
dụng hiện nay: mạng nơron, kỹ thuật phân cụm và phân đoạn, phương pháp
Xác định mục tiêu
Thu thập và tiền xử lý
dữ liệu
KHAI PHÁ DỮ LIỆU

(Triết xuất tri thức)
Phát biểu kết quả và
đánh giá
Sử dụng tri thức đ
ã phát
hiện được
2

láng giềng gần nhất, giải thuật di truyền, phương pháp phát hiện luật kết hợp…
Trong đó, các hướng tiếp cận khai phá luật kết hợp: luật kết hợp nhị phân, luật
kết hợp mờ, luật kết hợp nhiều mức, luật kết hợp tiếp cận theo hướng tập thô,
luật kết hợp với các thuộc tính được đánh trọng số…
Luận văn này tập trung vào kỹ thuật phát hiện luật kết hợp theo hướng tiếp
cận tập thô trong quá trình khai phá dữ liệu, tiếp theo đó giới thiệu những kỹ
thuật đánh giá luật dựa trên cơ sở lý thuyết tập thô để rút trích những luật quan
trọng và có ích để tri thức phát hiện được thật sự có ý nghĩa cho ứng dụng.
1.2. LUẬT KẾT HỢP
Luật kết hợp là lĩnh vực quan trọng trong khai phá dữ liệu, là kỹ thuật khai
phá dữ liệu khá đơn giản nhưng thiết thực. Phát hiện luật kết hợp giúp ta tìm ra
được các mối liên quan của các thành phần trong dữ liệu. Chẳng hạn, từ việc
phân tích dữ liệu bán hàng của siêu thị, ta có thể phát hiện thói quen mua hàng
của khách hàng như: khi khách hàng mua bánh mì thì hầu như họ sẽ mua
sữa. Luật kết hợp có thể được sử dụng để tìm hiểu các thói quen này của khách

hàng, giúp gia tăng số lượng hàng bán được trong siêu thị bằng cách sắp xếp
những mặt hàng liên quan với nhau một cách hợp lý.
Một luật kết hợp được xem là có ý nghĩa nếu độ hỗ trợ và độ tin cậy của
luật cao hơn ngưỡng hỗ trợ minSup và ngưỡng tin cậy minConf do người dùng
định nghĩa. Một ví dụ nhỏ: từ tập dữ liệu bán hàng của siêu thị ta phát hiện luật
kết hợp bread

cheese với độ hỗ trợ là 80% và độ tin cậy 60% (minSup=50%,
minConf=50%); điều này có nghĩa: trong số các khách hàng mua hàng ở siêu
thị thì có 80% khách hàng vừa mua bread vừa mua cheese và trong số các
khách hàng có mua bread thì có 60% khách hàng mua cheese.
1.3. LÝ THUYẾT TẬP THÔ
Phát hiện luật theo hướng tiếp cận của lý thuyết tập thô được phát triển bởi
Zdzislaw Pawlak vào đầu những năm 1980[12] là một trong những phương
pháp đang được nhiều nhà khoa học nghiên cứu và sử dụng trong quá trình khai
phá tri thức từ dữ liệu. Dữ liệu thực tế thường không đầy đủ, dư thừa, hoặc
3

không chính xác, gây ảnh hưởng không tốt đến quá trình khai phá dữ liệu. Ý
tưởng “rút gọn” trong lý thuyết tập thô được sử dụng cho phép loại bỏ những
thông tin dư thừa mà vẫn giữ được đầy đủ ý nghĩa của tập dữ liệu đang xét,
mục tiêu chính là lựa chọn các thuộc tính cốt yếu và cần thiết trong cơ sở dữ
liệu. Dựa vào đó, việc phát hiện luật vẫn đạt hiệu quả cao nhất mà chỉ cần sử
dụng tập con của tập thuộc tính điều kiện thay vì toàn bộ tập thuộc tính điều
kiện.
1.4. ĐÁNH GIÁ LUẬT
Một vấn đề đáng quan tâm của quá trình phát sinh luật kết hợp là số lượng
luật kết hợp tìm được thường khá lớn, gây khó khăn trong việc xác định luật
nào thực sự hữu ích và đáng tin cậy. Một giải pháp cho vấn đề này là sử dụng
các độ đo hữu ích (Interesting Measures)[11] như độ tin cậy, độ hỗ trợ, Lift,

2
χ
, Laplace, Conviction,…. Độ đo sự hữu ích của luật được chia làm hai loại
chính: độ đo khách quan (Object Measure) – là độ đo tùy thuộc vào cấu trúc
của mô hình và dữ liệu sẵn có trong quá trình phát hiện luật, độ đo chủ quan
(Subject Measure) – là độ đo tùy thuộc vào sự chọn lựa mô hình do người sử
dụng quyết định.
Nhóm tác giả Jiye Li cũng đã đề xuất một số độ đo dựa vào lý thuyết tập
thô: độ đo Tầm quan trọng của luật (Rule Importance Measure - RIM)[6] là độ
đo khách quan được định nghĩa tương tự độ đo hữu ích dùng để đánh giá mức
độ quan trọng của luật, độ đo Xem luật như thuộc tính (Rule-as-Attribute
Measure - RAM)[7] cũng là độ đo khách quan dùng để chọn ra những luật quan
trọng nhất từ tập luật, và độ đo Tầm quan trọng cải tiến (Enhanced Rule
Importance Measure - ERIM)[9] là sự kết hợp hai độ đo chủ quan và khách
quan được định nghĩa dựa vào trọng số của các thuộc tính điều kiện.
Trong luận văn này, tôi có nhận xét về hạn chế của độ đo ERIM và đề xuất
2 độ đo mới: độ đo WAERIM (Weight Average Based Enhanced Rule
Importance Measure) và độ đo AIERIM (Attributes Importance Degree Based
Rule Importance Measure). Tiếp theo, tôi so sánh khả năng đánh giá luật giữa 2
độ đo luận văn đề xuất với các độ đo hữu ích và với các độ đo mà nhóm tác giả
4

Jiye Li đã đề xuất bằng các ứng dụng thực tế trên các nguồn dữ liệu từ UCI và
trên nguồn dữ liệu cho vay ngân hàng (BankLoan).
1.5. TÓM LẠI
Luận văn giới thiệu các cách tiếp cận để đánh giá luật kết hợp dựa trên cơ
sở lý thuyết tập thô: độ đo RIM, độ đo RAM, độ đo ERIM, độ đo WAERIM,
độ đo AIERIM và chứng minh hiệu quả đánh giá luật của các độ đo này bằng
ứng dụng thực tế.
Các phần tiếp theo của luận văn được tổ chức như sau:

Chương 2: Kiến thức nền tảng về lý thuyết tập thô và kiến thức cơ bản về
luật kết hợp, ứng dụng lý thuyết tập thô vào quá trình phát sinh luật.
Chương 3: Các phương pháp đánh giá luật sử dụng các độ đo, giới thiệu
một số độ đo dựa trên cơ sở lý thuyết tập thô và đề xuất hai độ đo mới.
Chương 4: Cài đặt các độ đo, dùng các nguồn dữ liệu thực tế để so sánh khả
năng đánh giá luật giữa các độ đo này.
Cuối cùng là phần Kết luận và hướng phát triển trong tương lai.
5

Chương 2. KIẾN THỨC CƠ BẢN
2.1. LÝ THUYẾT TẬP THÔ
Lý thuyết tập thô(Rough Set Theory) được phát triển bởi Zdzislaw
Pawlak[12] vào đầu những năm 1980 được xem như một cách tiếp cận mới để
phát hiện tri thức và nó tạo thành một cơ sở vững chắc cho các ứng dụng khai
phá dữ liệu, vấn đề nỗi bật của lý thuyết tập thô là việc đưa ra ý tưởng để giải
quyết tính mơ hồ và không chắc chắn của hệ thông tin. Thêm vào đó, việc sử
dụng rút gọn (Reduct) thay vì toàn bộ tập thuộc tính điều kiện trong quá trình
khai phá dữ liệu đã loại bỏ được những thông tin dư thừa, thiếu chính xác. Rút
gọn chính là tập các thuộc tính quan trọng và cần thiết nhất trong CSDL, do đó
việc tìm các rút gọn hoàn toàn tự nhiên và cần thiết. Chương này trình bày về
các khái niệm trong lý thuyết tập thô và các thuật toán tìm các rút gọn và lõi.
2.1.1. Các khái niệm
2.1.1.1. Hệ thông tin
Hệ thông tin (Information System) là một cặp (U, A) với U là tập hữu hạn
khác rỗng các đối tượng (còn được gọi là tập vũ trụ các đối tượng), và A là tập
hữu hạn khác rỗng các thuộc tính.
Với mỗi thuộc tính Aa

, ta ký hiệu V
a

là tập các giá trị của thuộc tính a
(hay còn gọi là miền của thuộc tính a). Nếu Ux

và Aa

, ta ký hiệu
a
Vax ∈)( là giá trị thuộc tính a của đối tương x.
U Đau đầu Đau cơ Thân nhiệt
u
1
Không Có Cao
u
2
Có Không Cao
u
3
Có Có Rất cao
u
4
Không Có Bình thường
u
5
Có Không Cao
u
6
Không Có Rất cao
Bảng 2.1. Một ví dụ về Hệ thông tin
6


Xem ví dụ đơn giản về hệ thông tin trong Bảng 2.1, ta có tập vũ trụ
},,,,,{
654321
uuuuuuU = , tập các thuộc tính
=
A
{Đau đầu, Đau cơ, Thân nhiệt}.
2.1.1.2. Bảng quyết định
Bảng quyết định (Decision Table) là một hệ thống thông tin có dạng
),( AUT
=
với DCA

=

φ


DC , trong đó C là tập các thuộc tính điều
kiện (Condition Attributes) và D là tập các thuộc tính quyết định (Decision
Attributes). Trong một số trường hợp, người ta ký hiệu ),( DCT
=
.
U Đau đầu Đau cơ Thân nhiệt Cúm
u
1
Không Có Cao Có
u
2
Có Không Cao Có

u
3
Có Có Rất cao Có
u
4
Không Có Bình thường Không
u
5
Có Không Cao Không
u
6
Không Có Rất cao Có
Bảng 2.2. Một ví dụ về Bảng quyết định
Bảng quyết định trong Bảng 2.2 tương tự như Bảng 2.1, nhưng thêm vào
thuộc tính “Cúm” với V
cúm
= {Có, Không}. Tập thuộc tính
=
A
{Đau đầu, Đau
cơ, Thân nhiệt, Cúm}, trong đó tập thuộc tính điều kiện C = {Đau đầu, Đau cơ,
Thân nhiệt} và tập thuộc tính quyết định D = {Cúm}.
2.1.1.3. Quan hệ không phân biệt được
Quan hệ không phân biệt được (Indiscernibility Relation): Hệ thống
thông tin ),( DCAUT

=
=
, với mỗi tập AB


xác định một quan hệ không
phân biệt được )(BIND được định nghĩa như sau:

{
}
)()(,|),()( yaxaBaUUyxBIND =∈∀×∈=
Nếu (x, y) ∈ IND(B), ta nói rằng x và y là không phân biệt được ứng với tập
thuộc tính B.

Quan hệ không phân biệt được còn gọi là một quan hệ tương đương và chia
tập vũ trụ U thành một họ các lớp tương đương, họ các lớp tương đương này
được xem như là sự phân lớp và được ký hiệu U/IND(B).
7

Ví dụ : Xét Bảng 2.2 minh họa cho quan hệ không phân biệt được. Nhận
thấy các bệnh nhân u
2
, u
3
, u
5
không phân biệt được với thuộc tính “Đau đầu”,
bệnh nhân u
2
, u
5
không phân biệt được với thuộc tính “Đau đầu”, “Đau cơ”…
U/IND({Đau đầu}) = {{u
2
, u

3
, u
5
}, {u
1
, u
4
, u
6
}}
U/IND({Đau đầu, Đau cơ}) = {{u
1
, u
4
, u
6
}, {u
2
, u
5
}, {u
3
}}
U/IND({Đau đầu, Đau cơ, Thân nhiệt}) = {{u
1
}, {u
2
, u
5
}, {u

3
}, {u
4
}, {u
6
}}
U/IND({Cúm}) = {{u
1
, u
2
, u
3
, u
6
}, {u
4
, u
5
}}
2.1.1.4. Xấp xỉ
Xem từ Bảng 2.2 ta nhận thấy rằng khái niệm Cúm hay Không cúm không
thể định nghĩa được với các thuộc tính “Đau đầu”, “Đau cơ”, “Nhiệt độ”. Vì
bệnh nhân u
2
và u
5
có cùng các triệu chứng, tức là có cùng giá trị các thuộc tính
điều kiện “Đau đầu”, “Đau cơ”, “Nhiệt độ” nhưng bệnh nhân u
2
bị cúm còn u

5

thì không. Bởi vậy, lý thuyết tập thô đưa ra định nghĩa hai tập, gọi là xấp xỉ
dưới và xấp xỉ trên. Xấp xỉ dưới (Lower Approximation) trong trường hợp
Bảng 2.2 là tập tất cả các bệnh nhân có thể phân biệt được bệnh cúm rõ ràng,
xấp xỉ trên (Upper Approximation) là tập các bệnh nhân không thể phân biệt
được bệnh cúm.
Cho bảng quyết định ),( DCAUT

=
=
và UXAB


, . Xấp xỉ dưới và
xấp xỉ trên của tập X tương ứng với B, ký hiệu theo thứ tự là XB và
X
B
được
định nghĩa như sau:
}][|{ XxUxXB
B
⊆∈=
}][|{
φ
≠∩∈= XxUxXB
B

với [x]
B

là lớp tương đương chứa phần tử x của quan hệ IND(B)
Rõ ràng XBXXB ⊆⊆ . Tập XBXBXBN
B
\)( = được gọi là B-miền biên
của X, là các đối tượng không thể quyết định thuộc về X hay không khi dựa trên
các thuộc tính của B. Còn tập XBU \ là B-miền ngoài của X, là các đối tượng
không thuộc về X dựa trên các thuộc tính của B.
8

2.1.1.5. Miền dương
Với bảng quyết định ),( DCAUT

=
=
và AQB

, . Miền dương (Positive
Region) của phân lớp U/IND(Q) tương ứng với tập thuộc tính B ký hiệu
)(QPOS
B
được định nghĩa như sau:
)()(
)(
XBQPOS
QINDX
B

= U
Khi đó )(QPOS
B

được gọi là B-miền dương của Q. Hay nói cách khác,
)(QPOSu
B
∈ nếu và chỉ nếu )()( BvBu
=
kéo theo )()( QvQu
=
với mọi Uv

.
Ví dụ: Xét bảng quyết định cho trong Bảng 2.2, với X= {x | Cúm(x) = Có}
= {u
1
, u
2
, u
3
, u
6
}. Ta có:
 =XC {u
1
, u
3
, u
6
}
 =XC {u
1
, u

2
, u
3
, u
5
, u
6
}
 =XBN
C
{u
2
, u
5
}
 =− XCU {u
4
}
 =)(DPOS
C
C X


C X
Không
={u
1
, u
3
, u

6
}

{u
4
}={u
1
, u
3
, u
4
, u
6
}
2.1.1.6. Thuộc tính cần thiết và không cần thiết
Định nghĩa 1. Một thuộc tính Cc
j
∈ được gọi là không cần thiết
(Dispensable) trong T nếu:
)()(
}\{
DPOSDPOS
j
CCC
=
Định nghĩa 2. Một thuộc tính Cc
j
∈ được gọi là cần thiết (Indispensable)
trong T nếu:
)()(

}\{
DPOSDPOS
j
cCC

Ví dụ: Xét bảng quyết định T cho trong Bảng 2.2, ta có:
=)(DPOS
C
C X


C X
Không
={u
1
, u
3
, u
6
}

{u
4
}={u
1
, u
3
, u
4
, u

6
}
POS
C\{Đau đầu}
(D)={u
1
, u
3
, u
6
}

{u
4
}={u
1
, u
3
, u
4
, u
6
}
POS
C\{Đau cơ}
(D)={u
1
, u
3
, u

6
}

{u
4
}={u
1
, u
3
, u
4
, u
6
}
POS
C\{Thân Nhiệt}
(D)={u
3
}

φ
={u
3
}
Vậy ta có thể kết luận:
9

 Thuộc tính “Đau đầu”, “Đau cơ” không cần thiết trong T
 Thuộc tính “Thân nhiệt” cần thiết trong T
2.1.1.7. Mức độ phụ thuộc liên quan

Với bảng quyết định ),( DCUT

=
, mức độ phụ thuộc liên quan (Relative
Dependency) của D trên B ( CB

) được định nghĩa như sau:
U
DPOS
Dk
B
B
)(
)( ==
γ

Nếu k = 1: D phụ thuộc hoàn toàn vào B
Nếu k < 1: D phụ thuộc một phần vào B (phụ thuộc mức độ k)
2.1.1.8. Rút gọn và lõi
Định nghĩa 1. Tập thuộc tính CF

được gọi là một phân biệt (Discern)
của C nếu và chỉ nếu thỏa điều kiện:
)()( DPOSDPOS
CF
=
Định nghĩa 2. Một phân biệt
R
được gọi là một rút gọn (reduct) của C nếu
và chỉ nếu thỏa điều kiện:

)()(, DPOSDPOSRR
CR
≠⊂




Hiển nhiên một tập thuộc tính điều kiện có ít nhất một rút gọn. Tập tất cả
các rút gọn của C ký hiệu RED(C)
Có thể nói, nếu F là một phân biệt thì )(CREDR


và FR


Định nghĩa 3. Giao của tất cả các rút gọn được gọi là lõi (core), ký hiệu
CORE(C)

I
)(
)(
CREDR
RCCORE

=
Lõi là tập hợp tất cả các thuộc tính cần thiết trong T, lõi được chứa trong tất
cả các rút gọn, và lõi có khả năng là tập rỗng.
Ví dụ: Với bảng quyết định T cho trong Bảng 2.2. Xét R
1
= {Đau cơ, Thân

Nhiệt}, ta có:
=)(
1
DPOS
R
{u
1
, u
3
, u
4
, u
6
} = )(DPOS
C

10

POS
{Đau cơ}
(D) =
φ


)(DPOS
C

POS
{Thân Nhiệt}
(D) ={u

3
, u
4
, u
6
}

)(DPOS
C

Suy ra {Đau cơ, Thân Nhiệt} là một rút gọn của C. Tương tự, ta cũng có
R
2
={Đau đầu, Thân nhiệt} là một rút gọn của C.
Vậy C có hai rút gọn R
1
, R
2
.
Lõi của C:
21
)( RRCCORE ∩= = {Thân nhiệt}
Định nghĩa 4. Một thuộc tính Cc
j
∈ được gọi là thuộc tính rút gọn nếu nó
là một phần tử của rút gọn.
Ví dụ: Với các rút gọn tìm được trong ví dụ trên, “Đau cơ” và “Đau đầu” là
hai thuộc tính rút gọn. Theo lý thuyết tập thô, dựa trên bảng quyết định trong
Bảng2.2, để có được mô hình phân lớp tốt cho thuộc tính “Cúm”, chúng ta cần
thông tin của thuộc tính “Thân nhiệt” cùng với thông tin của thuộc tính “Đau

đầu” hoặc “Đau cơ”, hai thuộc tính “Đau đầu” và “Đau cơ” không cần thiết
trong cùng một lúc.
 Nhận xét: Rút gọn và lõi là hai khái niệm quan trọng trong lý thuyết tập
thô, một rút gọn là tập con của tập thuộc tính điều kiện, tìm được bằng cách
loại bỏ đi các thuộc tính thừa mà không làm mất đi sức mạnh phân loại của
bảng quyết định, hay nói cách khác rút gọn là tập thuộc tính điều kiện cực
tiểu có khả năng quyết định giống như toàn tập thuộc tính điều kiện. Thuật
toán tìm các rút gọn và lõi sẽ được trình bày cụ thể trong phần kế tiếp.
2.1.1.9. Ma trận khả phân
Giả sử tập vũ trụ }, ,,{
21 n
uuuU = . Ma trận khả phân (hay ma trận phân
biệt được) của T, ký hiệu
nnijDis
mD
×
= )( là một ma trận đối xứng mà mỗi phần
tử của nó là một tập hợp các thuộc tính, được xác định như sau:





≠∈
=
=
)()(|
)()(
cucuCc
DuDu

m
ji
ji
ij
λ

Như vậy, m
ij
là tập hợp gồm tất cả các thuộc tính điều kiện có thể xếp các
đối tượng u
i
và u
j
vào các lớp tương đương khác nhau theo phân hoạch trên U
, nếu
, nếu ngược lại.
11

đối với thuộc đó. Nếu
φ
=
ij
m thì bảng quyết định là không nhất quán (có hai
đối tượng u
i
và u
j
bằng nhau trên C nhưng khác nhau trên D). Giá trị
λ
hàm ý

rằng cặp đối tượng u
i
và u
j
không phân biệt trên tập thuộc tính quyết định.
Nếu R là một rút gọn thì với mỗi Rba

, ta có Dis({a})

Dis({b}).
Ví dụ: Xét bảng quyết định trong Bảng 2.2, ma trận khả phân trong Bảng
2.3, trong đó Các ký hiệu Đ, C, N tượng trưng tương ứng cho các thuộc tính
“Đau đầu”, “Đau cơ”, “Thân nhiệt”.
U u
1
u
2
u
3
u
4
u
5
u
6

u
1

λ



u
2

λ

λ


u
3

λ

λ

λ


u
4
{N} {Đ, C, N} {Đ, N}
λ


u
5
{Đ, C}
φ


{C, N}
λ

λ


u
6

λ

λ

λ

{N} {Đ, C, N}
λ

Bảng 2.3. Ma trận khả phân xây dựng từ Bảng 2.2
Từ ma trận phân biệt được trong Bảng 2.3, ta có thể kết luận bảng quyết
định cho trong Bảng 2.2 là không nhất quán, vì
φ
=
25
m .
Ví dụ: Xét một bảng quyết định khác trong Bảng 2.4:
U Bằng Cấp Kinh nghiệm Tiếng Anh

Lời giới thiệu Tuyển dụng

x
1
Cao học 2-3 năm Lưu loát Xuất sắc Chấp nhận
x
2
Cao học 1 năm Lưu loát Bình thường Từ chối
x
3
Trung cấp 1 năm Lưu loát Tốt Từ chối
x
4
Đại học Hơn 3 năm Lưu loát Bình thường Chấp nhận
x
5
Đại học 2-3 năm Lưu loát Bình thường Từ chối
x
6
Đại học Hơn 3 năm Lưu loát Xuất sắc Chấp nhận
x
7
Cao học Hơn 3 năm Không Tốt Chấp nhận
x
8
Trung cấp 1 năm Không Xuất sắc Từ chối
Bảng 2.4. Một ví dụ về Bảng quyết định
Các ký hiệu b, k, t, l tương trưng tương ứng cho các thuộc tính “Bằng cấp”,
“Kinh nghiệm”, “Tiếng Anh”, “Lời giới thiệu". Dựa vào ma trận khả phân
(Bảng 2.5) ta có thể kết luận bảng quyết định trong Bảng 2.4 là nhất quán.

12



U x
1
x
2
x
3
x
4
x
5
x
6
x
7
x
8

x
1

λ


x
2

{k,l}
λ



x
3

{b,k,l}

λ

λ


x
4

λ

{b,k} {b,k,l}

λ


x
5

{b,l}
λ

λ


{k}
λ


x
6

λ

{b,k,l}

{b,k,l}

λ

{k,l}
λ


x
7

λ

{k,t,l} {b,k,t}

λ

{b,k,t,l}


λ

λ


x
8

{b,k,t}

λ

λ

{b,k,t,l}

λ

{b,k,t} {b,k,l}
λ

Bảng 2.5. Ma trận khả phân xây dựng từ Bảng 2.4
2.1.1.10. Hàm khả phân
Hàm khả phân f của một hệ thống thông tin là hàm số bool được định nghĩa
như sau:
t
ffff
21
∧∧=
với },|{

λ
≠∈∨=
ijiji
mmccf
Ví dụ: Hàm khả phân tương ứng với ma trận khả phân trong Bảng 2.5
)()()()( tkblblkblkf









=

)()( lkbkb






)()()( tkblkblkb











)( ltkbk






)()( ltkblk







)( tkb




)( lkb





2.1.2. Thuật toán tìm các rút gọn
Thông thường, bảng quyết định có nhiều hơn một rút gọn. Có thể nói rút
gọn đóng vai trò khá quan trọng lĩnh vực khai phá dữ liệu, việc tìm tất cả các
rút gọn trong bảng quyết định là một vấn đề rất khó khăn và được rất nhiều nhà
nghiên cứu quan tâm, Skowron[2] đã chứng minh rằng tìm tất cả các rút gọn là
13

một bài toán với độ phức tạp là NP-khó, bởi vì thời gian tính toán các rút gọn
tăng theo hàm mũ với số lượng các thuộc tính.
Thuật toán mà luận văn sử dụng để tìm tất cả các rút gọn là thuật giải di
truyền. A.Ohrn[3] đã sử dụng một thuật giải di truyền tìm các rút gọn được
Wroblewski[8] đề xuất để tích hợp vào bộ công cụ ROSETTA – đây là bộ công
cụ được sử dụng trong nhiều các ứng dụng phân tích dữ liệu với những hiệu
quả đáng khích lệ.
2.1.2.1. Hitting Set
Cho tập hợp },{ NiSS
i
∈= là tập các phần tử có được từ vũ trụ U, một
hitting set là tập UH

sao cho
φ
≠∩
i
SH với i

. Nếu loại bỏ bất kỳ nguyên
tử (element) nào trong H đều làm H không còn là hitting set nữa, khi đó H là
minimal hitting set.
HS(S) là tập tất cả các hitting set có được từ S và MHS(S) là tập tất cả các

minimal hitting set.
Ví dụ: Cho tập S gồm các phần tử như sau:
S = {S
1
= {1, 2, 3, 4}, S
2
= {1, 2, 4}, S
3
= {1, 2}, S
4
= {2, 3}, S
5
= {4}}
=> MHS(S) = {H
1
={1, 3, 4}, H
2
={2, 4}}
Việc tìm minimal hiting set ở ví dụ này có thể xem như là vấn đề của giáo
viên và lớp học. Có tất cả 5 lớp học {S
1
, S
2
, S
3
, S
4
, S
5
} và 4 giáo viên 1, 2, 3, 4.

Giáo viên 1, 2, 3, 4 có thể dạy lớp S
1
, giáo viên 1, 2, 4 có thể dạy lớp S
2
, giáo
viên 1, 2 có thể dạy lớp S
3
, Ta muốn tìm số giáo viên ít nhất mà có thể dạy tất
cả các lớp, đó chính là tìm minimal hitting set, ở ví dụ này ta thu được tập
MHS(S) gồm 2 minimal hiting set.
2.1.2.2. Rút gọn và Hiting set
Rút gọn là tập thuộc tính nhỏ nhất có khả năng quyết định giống như toàn
bộ tập thuộc tính điều kiện C, nói cách khác rút gọn R là tập các thuộc tính nhỏ
nhất mà hai đối tượng bất kỳ trong bảng quyết định nếu phân biệt được dựa vào
C+D thì cũng phân biệt được dựa vào R+D. Với ma trận khả phân, việc tìm rút
14

gọn chính là tìm tập thuộc tính nhỏ nhất R mà giao của R với từng phần tử
(khác
λ
và khác
φ
) trong ma trận khả phân đều khác rỗng.
Như vậy, vấn đề tìm các rút gọn dễ dàng chuyển thành vấn đề tìm các
minimal hitting set với tập tập S chính là các phần tử (khác
λ
và khác
φ
) trong
ma trận khả phân.

2.1.2.3. Tìm Minimal Hitting Set với thuật giải di truyền
Thuật giải di truyền (Genetic Algorithm-GA) là kỹ thuật giúp giải quyết vấn
đề bằng cách mô phỏng sự tiến hóa của con người hay của sinh vật nói chung
(dựa trên thuyết tiến hóa muôn loài của Darwin) trong điều kiện qui định sẵn
của môi trường, mục tiêu của GA không nhằm đưa ra lời giải chính xác tối ưu
mà đưa ra lời giải tương đối tối ưu.
Để tìm minimal hitting set bằng thuật giải di truyền chúng ta sử dụng chuỗi
nhị phân để biểu diễn các phần tử (cá thể), mỗi chuỗi nhị phân được xem là
nhiễm sắc thể (chromosome) tương ứng với một cá thể, mỗi bit ứng với mỗi
element được xem là gen (genome) và tập hợp các cá thể được xem là quần thể
(population).
Chẳng hạn, các phần tử và các minimal hiting set trong ví dụ phần 2.1.2.1
có thể được mã hóa thành các nhiễm sắc thể như sau:
{
}
{0,0,0,1} S{0,1,1,0},S{1,1,0,0},S{1,1,0,1},S{1,1,1,1},S
54321
======S

{
}
{0,1,0,1}H {1,0,1,1},H)(
21
===SMHS
Các toán tử di truyền được sử dụng để tìm các minimal hiting set bao gồm:
lai ghép (crossover), đột biến (mutation), chọn lọc (selection), nghịch chuyển
(inversion) và tồn tại (obtain).
Toán tử lai ghép: Giả sử có hai nhiễm sắc thể
}, ,,{
112111 n

sssS =

}, ,,{
222212 n
sssS =
, chọn một số nguyên ngẫu nhiên từ ),0( nr

, hai nhiễm
sắc thể con được lai ghép từ S
1
và S
2
là:

}, ,,, ,,{
212112113 nrr
sssssS
+
=

}, ,,, ,,{
111222214 nrr
sssssS
+
=

15

Toán tử đột biến: Giả sử có nhiễm sắc thể
}, ,,{

112111 n
sssS =
, chọn một số
ngẫu nhiên ],0( nr

, S
3
là nhiễm sắc thể đột biến của S
1
:

}, ,,1,, ,{
21111112113 nrrr
ssssssS
+−
−=

Toán tử nghịch chuyển: Với r và l là số ngẫu nhiên, giả sử nhiễm sắc thể
}, ,, ,,, ,,{
1,1,11,1112111 nlrlrrr
sssssssS
++++
=
, S
2
là nghịch chuyển của S
1
:
}, ,, ,,, ,,{
1,11,1,1112112 nlrrlrr

sssssssS
++++
=

Toán tử chọn lọc: Giả sử có m cá thể trong quần thể, ta muốn chọn ra [m/2] cá
thể và loại bỏ các cá thể còn lại, các cá thể được chọn phải đảm bảo độ thích
nghi “fitness”. Hàm thích nghi (fitness function) trong thuật giải di truyền tìm
các minimal hitting set phụ thuộc vào 2 yếu tố: số lượng các element trong cá
thể (càng ít càng tốt) và số lượng tập giao khác rỗng của cá thể với các phần tử
trong tập S - tập cần tìm các minimal hitting set (càng nhiều càng tốt). Hàm
thích nghi được định nghĩa như sau:
S
SBSS
C
BC
Bf
ii
φ
≠∩∈
+

=
|
)(
Toán tử tồn tại: Giả sử tồn tại tập SS
i
∈ chỉ có 1 element ( 1)( =
i
Scard ), khi
đó tất cả các hiting set cần phải chứa element này, nghĩa là gen của các nhiễm

sắc thể ứng với element này phải luôn luôn bằng 1, ta gọi toán tử này là
“obtain”.
 Thuật giải GA tìm các minimal hitting set[8]
Bước 1. Phát sinh ngẫu nhiên
i
SSk ** nhiễm sắc thể để tạo thành quần
thể ban đầu, với k là một hằng số.
Bước 2. Kiểm tra xem có điều kiện dừng nào thỏa mãn hay không? nếu có
thì dừng quá trình. Ở thuật toán này, điều kiện dừng là số thế hệ vượt
ngưỡng cho phép T.
Bước 3. Sử dụng toán tử chọn lọc để chọn lựa những cá thể tốt, loại bỏ
những cá thể xấu từ quần thể.

×