MỤC LỤC
MỞ ĐẦU ..................................................................................................... - 1 CHƢƠNG 1. CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ
THUYẾT VỀ CƠ SỞ DỮ LIỆU ............................................................... - 3 1.1. CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ ................................ - 4 1.1.1 Hệ thông tin đầy đủ ......................................................................... - 4 1.1.2. Mô hình tập thô truyền thống......................................................... - 5 1.1.3. Bảng quyết định đầy đủ ................................................................. - 7 1.1.4 Tập rút gọn và tập lõi ...................................................................... - 8 1.1.5. Ma trận phân biệt và hàm phân biệt ............................................. - 10 1.2. LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU ................................................ - 11 1.2.1. Quan hệ ........................................................................................ - 11 1.2.2. Phụ thuộc hàm .............................................................................. - 11 1.2.3. Hệ tiên đề Armstrong ................................................................... - 12 1.2.4. Sơ đồ quan hệ ............................................................................... - 12 1.2.5. Khoá và phản khoá ....................................................................... - 12 1.2.6. Hệ bằng nhau và hệ bằng nhau cực đại........................................ - 13 1.3. MỘT SỐ THUẬT TOÁN CƠ BẢN .................................................. - 14 CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ
TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH ............. - 19 2.1.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric ..... - 19 2.1.1.Khoảng cách Jaccard giữa hai tập hợp hữu hạn............................ - 19 2.1.2. Một số tính chất của metric trên bảng quyết định........................ - 21 2.2. THUậT TOÁN TÌM TậP TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG QUYếT
ĐịNH NHấT QUÁN ....................................................................................... - 33 -
2.2.1. Đặt vấn đề .................................................................................... - 33 2.2.2. Thuật toán..................................................................................... - 34 -
2.3. THUậT TOÁN TÌM Họ TấT Cả CÁC TậP RÚT GọN CủA BảNG QUYếT ĐịNH NHấT
QUÁN ......................................................................................................... - 37 -
2.4. THUậT TOÁN XÂY DựNG CÁC PHụ THUộC HÀM Từ BảNG QUYếT ĐịNH NHấT QUÁN
.................................................................................................................. - 40 2.5. THUậT TOÁN XÂY DựNG BảNG QUYếT ĐịNH Từ TậP PHụ THUộC HÀM...... - 41 CHƢƠNG 3: THỰC NGHIỆM THUẬT TOÁN TÌM MỘT TẬP RÚT
GỌN ........................................................................................................... - 46 3.1. THử NGHIệM CÁC THUậT TOÁN HEURISTIC TÌM MộT TậP RÚT GọN TốT NHấT - 46 3.1.1.Mô tả thuật toán CEBARKCC ...................................................... - 47 3.1.2.Thử nghiệm và đánh giá các thuật toán trên các bộ số liệu mẫu trong
UCI ......................................................................................................... - 48 3.2. THử NGHIệM THUậT TOÁN TÌM TậP RÚT GọN THEO THAM Số Độ CHắC CHắN . - 51 3.3. THử NGHIệM THUậT TOÁN TÌM TấT Cả CÁC THUộC TÍNH RÚT GọN CủA BảNG
QUYếT ĐịNH NHấT QUÁN .............................................................................. - 52 -
3.4. MộT Số GIAO DIệN CHƢƠNG TRÌNH THử NGHIệM ...................................... - 53 3.4.1. Giao diện chính của chƣơng trình ................................................ - 53 3.4.2.Nạp các tệp dữ liệu mẫu lấy từ kho dữ liệu UCI .......................... - 53 3.4.3. Thực hiện thuật toán CEBARKCC .............................................. - 54 3.4.4. Thực hiện thuật toán sử dụng khoảng cách.................................. - 55 3.4.5.Thực hiện thuật toán sinh luật quyết định từ tập rút gọn .............. - 55 3.4.6.Thực hiện thuật toán tìm tất cả thuộc tính rút gọn ........................ - 56 KẾT LUẬN ............................................................................................... - 57 -
-1-
MỞ ĐẦU
Khai phá dữ liệu là một trong những vấn đề rất sôi động hiện nay và
đƣợc ứng dụng rộng rãi. Có rất nhiều phƣơng pháp khai phá dữ liệu, một
trong những phƣơng pháp đó là sử dụng lý thuyết tập thô - một trong những
công cụ quan trọng trong khai phá dữ liệu. Từ khi xuất hiện, lý thuyết tập thô
đã đƣợc sử dụng hiệu quả trong các bƣớc của quá trình khai phá dữ liệu và
khám phá tri thức, bao gồm rút gọn dữ liệu, trích lọc các tri thức tiềm ẩn trong
dữ liệu dƣới dạng mẫu và các luật quyết định, bảng quyết định.
Trong thực tế, dữ liệu trong bảng quyết định thƣờng đa dạng và không
đầy đủ, thiếu chính xác mà lại dƣ thừa nên bài toán rút gọn thuộc tính đƣợc
đặt ra nhằm mục tiêu tạo ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ
liệu (bảng). Hay nói cách khác, Rút gọn là bài toán quan trọng nhất trong lý
thuyết tập thô. Mục tiêu của bài toán rút gọn thuộc tính trong bảng quyết định
là loại bỏ (tối đa) các thuộc tính dƣ thừa mà phần còn lại cũng chứa đầy đủ
thông tin của bảng, dựa vào tập thuộc tính rút gọn thu đƣợc, việc sinh luật và
phân lớp đạt hiệu quả cao nhất.
Trong những năm gần đây đã chứng kiến sự phát triển mạnh mẽ và sôi
động của các hƣớng nghiên cứu về rút gọn thuộc tính trong lý thuyết tập thô.
Trong xu thế đó nhiều nhóm nhà khoa học trên thế giới đã nghiên cứu các
phƣơng pháp rút gọn thuộc tính theo các phƣơng pháp khác nhau, đáng chú ý
là phƣơng pháp dựa trên miền dƣơng, phƣơng pháp sử dụng lý thuyết thông
tin, phƣơng pháp sử dụng ma trận phân biệt đƣợc, phƣơng pháp dựa trên tính
toán hạt, phƣơng pháp dựa trên metric… Mỗi phƣơng pháp đều phù hợp với
một lớp bài toán trong thực tế.
Đối với một bảng quyết định nhất quán có thể có nhiều thuật toán khác
nhau. Tuy nhiên, trong thực hành thƣờng không đòi hỏi tìm tất cả các tập rút
gọn mà chỉ cần tìm đƣợc một tập rút gọn tốt nhất theo một tiêu chuẩn đánh
giá nào đó là đủ. Vì vậy, mỗi phƣơng pháp rút gọn thuộc tính đều đề xuất một
-2-
thuật toán heuristic tìm tập rút gọn. Các thuật toán này giảm thiểu đáng kể
khối lƣợng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối
lƣợng dữ liệu lớn. Chính vì vậy, mà Tôi đã chọn đề tài: “Nghiên cứu một số
thuật toán trong bảng quyết định nhất quán” làm luận văn tốt nghiệp.
Trong luận văn này, chúng tôi nghiên cứu các vấn đề chính sau:
- Tìm hiểu một số lý thuyết về hệ thống thông tin, bảng quyết định, tập
rút gọn.
- Tìm hiểu một số lý thuyết về cơ sở dữ liệu
- Tìm hiểu một số thuật toán tìm một tập rút gọn và tất cả các tập rút
gọn trong bảng quyết định
- Cài đặt thử nghiệm một thuật toán tìm tập rút gọn trong bảng quyết định.
Bố cục luận văn gồm:
Mở đầu: Đặt vấn đề về ý nghĩa, tính cấp thiết của đề tài
Chƣơng 1: Các khái niệm cơ bản
Trong chƣơng này, sẽ đi tìm hiểu về các khái niệm hệ thống thông tin,
bảng quyết định, tập rút gọn, quan hệ, phụ thuộc hàm, tiên đề Armstrong,
khoá, phản khoá... và một số thuật toán cơ bản trong cơ sở dữ liệu quan hệ
đƣợc sử dụng để xây dựng các thuật toán rút gọn trong bảng quyết định....
Đây là những phần lý thuyết cơ sở để triển khai, nghiên cứu trong các chƣơng
tiếp theo.
Chƣơng 2: Tìm hiểu về một số thuật toán tìm một tập rút gọn và thuật
toán tìm tất cả các tập rút gọn trong bảng quyết định.
Trong chƣơng này, chúng tôi đề xuất một số thuật toán trên bảng quyết
định liên quan đến tập rút gọn: xác định một tập rút gọn và tất cả các tập rút
gọn trong bảng quyết định (dựa trên lý thuyết cơ sở dữ liệu quan hệ).
Chƣơng 3: Triển khai cài đặt thử nghiệm một thuật toán tìm một tập rút
gọn trong bảng quyết định, từ đó rút ra một số kết luận.
Kết luận
-3-
Chƣơng 1. CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ VÀ LÝ
THUYẾT VỀ CƠ SỞ DỮ LIỆU
Lý thuyết tập thô - do Zdzislaw Pawlak [12] đề xuất vào những năm đầu
thập niên tám mƣơi của thế kỷ hai mƣơi - đƣợc xem là công cụ hữu hiệu để giải
quyết các bài toán phân lớp, phát hiện luật…chứa dữ liệu mơ hồ không chắc
chắn. Công cụ này cho phép biểu diễn một mô hình toán học về tri thức, nhờ đó
tri thức đƣợc định nghĩa một cách rõ ràng dƣới dạng toán học và có thể đƣợc
phân tích và xử lý bằng các công cụ mạnh mẽ và hiệu quả của toán học. Từ khi
xuất hiện, lý thuyết tập thô đã đƣợc sử dụng hiệu quả trong các bƣớc của quá
trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc
các tri thức tiềm ẩn trong dữ liệu và đánh giá kết quả thu đƣợc.
Trong lý thuyết tập thô, dữ liệu đƣợc biểu diễn thông qua một hệ thông
tin IS U , A với U là tập các đối tƣợng và A là tập các thuộc tính. Phƣơng
pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ không phân biệt
được để đƣa ra các tập xấp xỉ biểu diễn tập đối tƣợng cần quan sát. Khi đó,
mọi tập đối tƣợng đều đƣợc xấp xỉ bởi hai tập rõ là xấp xỉ dƣới và xấp xỉ trên
của nó. Xấp xỉ dƣới bao gồm các đối tƣợng chắc chắn thuộc tập đó, còn xấp
xỉ trên chứa tất cả các đối tƣợng có khả năng thuộc về tập đó. Nếu tập xấp xỉ
dƣới bằng tập xấp xỉ trên thì tập đối tƣợng cần quan sát là tập rõ, ngƣợc lại là
tập thô. Các tập xấp xỉ là cơ sở để đƣa ra các kết luận từ dữ liệu. Bảng quyết
định là một hệ thông tin IS với tập thuộc tính A đƣợc chia thành hai tập con
khác rỗng rời nhau C và D , lần lƣợt đƣợc gọi là tập thuộc tính điều kiện và
tập thuộc tính quyết định. Nói cách khác, DS U , C D với C D . Bảng
quyết định là mô hình thƣờng gặp trong thực tế, khi mà giá trị dữ liệu tại các
thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính
quyết định. Bảng quyết định là nhất quán khi phụ thuộc hàm C D là đúng,
trái lại là không nhất quán.
-4-
1.1. CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ
1.1.1 Hệ thông tin đầy đủ
Hệ thông tin là công cụ biểu diễn tri thức dƣới dạng một bảng dữ liệu
gồm p cột ứng với p thuộc tính và n hàng ứng với n đối tƣợng. Một cách hình
thức, hệ thông tin đƣợc định nghĩa nhƣ sau.
Định nghĩa 1.1. Hệ thông tin là một bộ tứ IS U , A,V , f trong đó U là
tập hữu hạn, khác rỗng các đối tƣợng; A là tập hữu hạn, khác rỗng các thuộc
tính; V Va với Va là tập giá trị của thuộc tính a A ; f là hàm thông tin,
a A
với mọi a A và u U hàm f cho giá trị f u, a Va .
Với mọi u U , a A , ta ký hiệu giá trị của đối tƣợng u tại thuộc tính a
là u a thay vì f u, a . Nếu B b1, b2 ,..., bk A là một tập con các thuộc tính
thì ta ký hiệu bộ các giá trị u bi bởi u B . Nhƣ vậy, nếu u và v là hai đối
tƣợng, thì ta viết u B v B nếu u bi v bi với mọi i 1,..., k .
Nếu với mọi u U và a A , u a đều chứa giá trị khác rỗng thì hệ
thông tin đƣợc gọi là hệ thông tin đầy đủ. Trong luận văn này, hệ thông tin đầy
đủ đƣợc gọi tắt là hệ thông tin và đƣợc ký hiệu là IS U , A,V , f .
Xét hệ thông tin IS U , A,V , f . Với mỗi tập con các thuộc tính P A ,
tồn tại một quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi
IND P u, v U U a P, u a v a .
IND P đƣợc gọi là quan hệ B - không phân biệt đƣợc. Dễ thấy rằng đây là
một quan hệ tƣơng đƣơng trên U. Nếu u, v IND B thì hai đối tƣợng u và v
không phân biệt đƣợc bởi các thuộc tính trong B. Quan hệ tƣơng đƣơng IND P
xác định một phân hoạch trên U, ký hiệu là U / IND P hay U / P . Ký hiệu lớp
-5-
tƣơng đƣơng trong phân hoạch U / P chứa đối tƣợng
u là u P , khi đó
u P v U u, v IND P .
Định nghĩa 1.2. [9] Cho hệ thông tin IS U , A,V , f và P, Q A . Ta nói:
1) Phân hoạch U / P
và phân hoạch U / Q là nhƣ nhau (viết
U / P U / Q ), khi và chỉ khi u U , u P u Q .
2) Phân hoạch U / P mịn hơn phân hoạch U / Q (viết U / P U / Q ) khi và
chỉ khi u U , u P u Q .
Tính chất 1.1 [9] Xét hệ thông tin IS U , A,V , f và P, Q A .
1) Nếu P Q thì U / Q U / P , mỗi lớp của U / P là một lớp hoặc hợp
của một số lớp thuộc U / Q .
2) Với mọi u U ta có u PQ u P u Q .
1.1.2. Mô hình tập thô truyền thống
Cho hệ thông tin IS U , A,V , f và tập đối tƣợng X U . Với một tập
thuộc tính B A cho trƣớc, chúng ta có các lớp tƣơng đƣơng của phân hoạch
U / B , thế thì một tập đối tƣợng X có thể biểu diễn thông qua các lớp tƣơng
đƣơng này nhƣ thế nào?
Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp
tƣơng đƣơng của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), ngƣời ta
xấp xỉ X bởi hợp của một số hữu hạn các lớp tƣơng đƣơng của U / B . Có hai cách
xấp xỉ tập đối tƣợng X thông qua tập thuộc tính B , đƣợc gọi là B-xấp xỉ dưới và
B-xấp xỉ trên của X, ký hiệu là lƣợt là BX và BX , đƣợc xác định nhƣ sau:
BX u U u B X , BX u U u B X .
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có khả năng đƣợc phân loại vào X dựa
-6-
vào tập thuộc tính B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BNB X BX BX : B-miền biên của X , U BX : B-miền ngoài của X.
Dễ thấy B-miền biên của X là tập chứa các đối tƣợng có thể thuộc X,
còn B-miền ngoài của X chứa các đối tƣợng chắc chắn không thuộc X. Sử
dụng các lớp của phân hoạch U/B, các xấp xỉ dƣới và trên của X có thể viết lại
BX Y U / B Y X , BX Y U / B Y X .
Trong trƣờng hợp BN B X , X đƣợc gọi là tập rõ, ngƣợc lại X đƣợc gọi là
tập thô.
Với B, D A , ta gọi B- miền dƣơng của D là tập đƣợc xác định nhƣ sau
POS B ( D )
BX
X U / D
Rõ ràng POS B ( D) là tập tất cả các đối tƣợng u sao cho với mọi v U mà
u B v B ta đều có u D v D . Nói cách khác,
POS B ( D) u U u B u D .
Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho
ở Bảng 1.1.
Bảng 1.1. Bảng thông tin về bệnh cúm
Đau đầu
Thân nhiệt
Cảm cúm
Có
Bình thƣờng
Không
Có
Cao
Có
Có
Rất cao
Có
Không
Bình thƣờng
Không
Không
Cao
Không
Không
Rất cao
Có
Không
Cao
Có
Không
Rất cao
Không
Ta có: U / {Đau đầu} = u1 , u2 , u3 , u4 , u5 , u6 , u7 , u8
U
u1
u2
u3
u4
u5
u6
u7
u8
U / {Thân nhiệt} =
u , u ,u , u , u ,u , u , u
1
4
2
5
7
3
6
8
-7-
u , u , u , u ,u , u , u , u
U / {Cảm cúm} =
1
4
5
U / {Đau đầu, Cảm cúm} =
8
2
3
6
7
u ,u , u ,u , u , u ,u , u
1
2
3
4
5
8
6
7
Nhƣ vậy, các bệnh nhân u2 , u3 không phân biệt đƣợc về đau đầu và cảm
cúm, nhƣng phân biệt đƣợc về thân nhiệt.
Các lớp không phân biệt đƣợc bởi B = {Đau đầu, Thân nhiệt} là:
u1, u2 , u3, u4 , u5 , u7 , u6 , u8 .
Đặt X {u u (Cảm cúm) = Có} = u2 , u3 , u6 , u7 . Khi đó:
BX u2 , u3 và BX u2 , u3 , u5 , u6 , u7 , u8 .
Nhƣ vậy, B-miền biên của X là tập hợp BNB X u5 , u6 , u7 , u8 . Nếu đặt
D = {Cảm cúm} thì
U / D X1 u1, u4 , u5 , u8 ; X 2 u2 , u3 , u6 , u7 , BX1 u1 , u4 ; BX 2 u2 , u3 ,
POS B ( D)
BX u , u , u , u .
1
2
3
4
X U / D
Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô
đƣợc chia thành bốn loại nhƣ sau:
1) Tập X là B-xác định thô nếu BX và BX U .
2) Tập X là B-không xác định trong nếu BX và BX U .
3) Tập X là B-không xác định ngoài nếu BX và BX U .
4) Tập X là B-không xác định hoàn toàn nếu BX và BX U .
1.1.3. Bảng quyết định đầy đủ
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều
ứng dụng là bảng quyết định.
Bảng quyết định đầy đủ là một dạng đặc biệt của hệ thông tin đầy đủ,
trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: tập các
thuộc tính điều kiện C và tập các thuộc tính quyết định D. Trong luận văn
-8-
này, bảng quyết định đầy đủ đƣợc gọi tắt là bảng quyết định và đƣợc ký hiệu
là DS U , C D,V , f với C D .
Bảng quyết định DS đƣợc gọi là nhất quán khi và chỉ khi phụ thuộc hàm
CD nghiệm đúng, nghĩa là với mọi u, v U , u C v C kéo theo u D v D .
Ngƣợc lại DS là không nhất quán. Dễ thấy bảng quyết định DS là nhất quán khi
và chỉ khi POSC D U . Trong trƣờng hợp bảng không nhất quán thì POSC D
chính là tập con cực đại của U sao cho phụ thuộc hàm C D đúng.
1.1.4 Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện đƣợc phân thành thuộc
tính lõi và thuộc tính không cần thiết. Thuộc tính lõi là thuộc tính cốt yếu,
không thể thiếu trong việc phân lớp chính xác tập dữ liệu. Thuộc tính không
cần thiết là thuộc tính dƣ thừa mà việc loại bỏ thuộc tính này không ảnh
hƣởng đến việc phân lớp dữ liệu. Các thuộc tính không cần thiết đƣợc phân
thành hai nhóm: Thuộc tính dư thừa thực sự và thuộc tính rút gọn. Thuộc tính
dư thừa thực sự là những thuộc tính dƣ thừa mà việc loại bỏ tất cả các thuộc
tính nhƣ vậy không ảnh hƣởng đến việc phân lớp dữ liệu. Thuộc tính rút gọn,
với một tổ hợp thuộc tính nào đó, nó là thuộc tính dƣ thừa và với một tổ hợp
các thuộc tính khác nó có thể là cốt yếu.
Định nghĩa 1.3. [8] (Tập lõi dựa trên miền dƣơng) Cho bảng quyết định
DS U , C D,V , f . Thuộc tính c C đƣợc gọi là không cần thiết (dƣ thừa)
trong DS dựa trên miền dƣơng nếu POSC D POS(C c) D ; Ngƣợc lại, c đƣợc
gọi là cần thiết. Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập
lõi dựa trên miền dƣơng và đƣợc ký hiệu là PCORE C . Lúc đó, thuộc tính
cần thiết còn đƣợc gọi là thuộc tính lõi.
Định nghĩa 1.4. [8] (Tập rút gọn dựa trên miền dƣơng) Cho bảng quyết
định DS U , C D,V , f và tập thuộc tính R C . Nếu
-9-
1) POS R ( D) POSC ( D)
2) r R, POSRr (D) POSC (D)
thì R là một tập rút gọn của C dựa trên miền dƣơng.
Tập rút gọn định nghĩa nhƣ trên còn gọi là tập rút gọn Pawlak. Ký hiệu
PRED C
là họ tất cả các tập rút gọn Pawlak của C. Khi đó
PCORE C
R.
RPRED C
Định nghĩa 1.5. Cho bảng quyết định DS U , C D,V , f và a C . Ta
nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn
R PRED C sao cho a R .
Định nghĩa 1.6. Cho bảng quyết định DS U , C D,V , f và a C . Ta
nói rằng a là thuộc tính dư thừa thực sự của DS nếu a C
R.
RPRED C
Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2.
Bảng 1.2. Bảng quyết định về bệnh cúm
U
Mệt mỏi
Đau đầu
Đau cơ
Thân nhiệt
u1
Có
Có
Có
Bình thƣờng Không
u2
Có
Có
Có
Cao
Có
u3
Có
Có
Có
Rất cao
Có
u4
Có
Không
Có
Bình thƣờng Không
u5
Có
Không
Không
Cao
Không
u6
Có
Không
Có
Rất cao
Có
Cảm cúm
Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 = {Đau
đầu, Thân nhiệt}. Nhƣ vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt
là thuộc tính cần thiết duy nhất. Các thuộc tính không cần thiết bao gồm:
Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham gia vào rút
gọn nào
- 10 -
Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có
mặt trong một tập rút gọn. Hai thuộc tính này đều không cần thiết theo nghĩa
là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn
đoán đúng bệnh. Tức là
POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}).
1.1.5. Ma trận phân biệt và hàm phân biệt
Ma trận phân biệt do Andrzej Skowron và các cộng sự [2] đề xuất là
công cụ sử dụng để tìm tập rút của bảng quyết định. Xét bảng quyết định
DS U , C D,V , f với U u1, u2 ,..., un . Ma trận phân biệt của DS , ký hiệu
M mi j
nn
, là một ma trận đối xứng mà mỗi phần tử của nó là một tập hợp các
thuộc tính đƣợc xác định nhƣ sau
c C ui (c) u j (c)
mi j
if
ui ( D) u j ( D),
if
ui ( D) u j ( D) .
Định nghĩa 1.7. [2, 7] (Tập rút gọn dựa trên ma trận phân biệt) Cho
bảng quyết định DS U , C D,V , f , M mi j nn là ma trận phân biệt của DS
và tập thuộc tính R C . Nếu
1) R mi j với mọi mi j
2) Với mọi r R , R r không thỏa mãn 1) thì R đƣợc gọi là một tập
rút gọn của C dựa trên ma trận phân biệt. Ký hiệu SRED C là họ tất cả các tập
rút gọn dựa trên ma trận phân biệt.
Định nghĩa 1.8. [2, 7] (Tập lõi dựa trên ma trận phân biệt) Cho bảng
quyết định DS U , C D,V , f , M mi j nn là ma trận phân biệt của DS.
Thuộc tính c C đƣợc gọi là không cần thiết (dƣ thừa) trong DS dựa trên ma
trận phân biệt nếu C c mi j với mọi mi j . Ngƣợc lại, c đƣợc gọi là
- 11 -
cần thiết. Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa
trên ma trận phân biệt và đƣợc ký hiệu là SCORE C . Theo
SCORE C
[7],
R.
RSRED C
1.2. LÝ THUYẾT VỀ CƠ SỞ DỮ LIỆU
Một số khái niệm cơ bản
Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quan hệ
của E.F. Codd. Những khái niệm này bao gồm quan hệ, phụ thuộc hàm, hệ tiên
đề Armstrong, sơ đồ quan hệ, khoá, phản khoá... Các khái niệm này có thể xem
trong [3,4,5,13].
1.2.1. Quan hệ
Cho R a1,..., an là tập hữu hạn, khác rỗng các thuộc tính, mỗi thuộc
tính a i có miền giá trị là D ai . Quan hệ r trên R là tập các bộ h1 ,..., hm với
h j : R D ai ,1 j m là một hàm sao cho hj ai D ai .
ai R
Về mặt trực quan, quan hệ r là một bảng, mỗi cột là một thuộc tính và
mỗi dòng là một bộ.
1.2.2. Phụ thuộc hàm
Cho
R a1,..., an là
tập hữu hạn, khác rỗng các thuộc tính,
r h1 ,..., hm là một quan hệ trên tập thuộc tính R a1,..., an . Phụ thuộc hàm
(PTH) trên R là một dãy ký tự có dạng A B với A, B R. PTH A B thỏa
mãn quan hệ r trên R nếu hi , h j r a A hi a hj a b B hi b hj b .
Đặt Fr A, B : A, B R, A B là họ đầy đủ các PTH thỏa mãn quan hệ
r. Khi đó tất cả các PTH đúng trong r.
- 12 -
1.2.3. Hệ tiên đề Armstrong
Giả sử R là tập các thuộc tính, ký hiệu P R là tập các tập con của R.
Cho F P R P R . Ta nói rằng F là một họ f
trên R nếu với mọi
A, B, C, D R
1 A, A F.
2 A, B F , B, C F A, C F.
3 A, B F , A C, D B C, D F.
4 A, B F, C, D F A C, B D F.
Rõ ràng là Fr là một họ f trên R. Nếu F là một họ f trên R thì có một
quan hệ r trên R sao cho Fr = F. Ký hiệu F là tập tất cả các PTH đƣợc dẫn
xuất từ F bằng việc áp dụng các quy tắc 1 4 .
1.2.4. Sơ đồ quan hệ
Sơ đồ quan hệ (SĐQH) s là một cặp R, F với R là tập thuộc tính và F
là tập các phụ thuộc hàm trên R. Ký hiệu A a : A a F , A đƣợc gọi là
bao đóng của A trên s. Dễ thấy A B F khi và chỉ khi B A . Tƣơng tự ký
hiệu Ar a : A a F , Ar đƣợc gọi là bao đóng của A trên quan hệ r. Nếu
+
s R, F là một sơ đồ quan hệ r trên R sao cho Fr =F , quan hệ r nhƣ vậy
gọi là Armstrong của s. Trong trƣờng hợp này hiển nhiên các PTH của s đúng
trong r.
1.2.5. Khoá và phản khoá
Cho r là một quan hệ, s R, F là một SĐQH và A R . Khi đó A là
một khóa của r (tƣơng ứng của s) nếu A R A R F . Ta gọi A là một
khóa tối thiểu của r (tƣơng ứng của s) nếu:
- A là một khóa của r (tƣơng ứng của s).
- 13 -
- Bất kỳ một tập con thực sự của A không là khóa của r (tƣơng ứng của
s). Ký hiệu K r và K s tƣơng ứng là tập tất cả các khóa tối thiểu của r và s.
Cho s R, F là SĐQH trên R, a R . Đặt K as A R : A a, B : B a B A .
Khi đó, K as đƣợc gọi là họ các tập tối thiểu của thuộc tính a trên s. Tƣơng tự,
cho r là một quan hệ trên R và a R . Đặt K ar A R : A a , B : B a B A .
Khi đó, K
r
a
đƣợc gọi là họ các tập tối thiểu của thuộc tính a trên r.
Gọi K P R là một hệ Sperner trên R nếu với mọi A, B K kéo theo
A B . Dễ thấy K r , K s , K ar , K as là các hệ Sperner trên R. Với tập K là một hệ
Sperner trên R, Giả sử K là một hệ Sperner trên R. Ta định nghĩa tập các
phản khoá của K là K
K
1
1
nhƣ sau:
A R : B K B A và nếu A C B K
Dễ thấy K
1
B C
cũng là một hệ Sperner trên R.
Nhận xét: Nếu K là một hệ Sperner trên R đóng vai trò là tập các
khóa tối thiểu của quan hệ r (hoặc SĐQH s) thì K
1
là họ tất cả các tập không
phải khóa lớn nhất của r (hoặc của s), gọi là tập các phản khóa. Nếu K là một
hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của thuộc tính a trên r
(hoặc trên s), hay K K ar (hoặc K K as ), thì K
1
K ar
1
(hoặc K
1
K as
1
)
là họ tất cả các tập lớn nhất không phải là tập tối thiểu của thuộc tính a, đƣợc
định nghĩa nhƣ sau [4]
K A R : A a F
r
a
1
r
K A R : A a F
s
a
1
, A B B a Fr ,
, A B B a F .
1.2.6. Hệ bằng nhau và hệ bằng nhau cực đại
Cho r một quan hệ trên R. Đặt Er Eij :1 i j r với Eij a R : hi a h j a .
E r đƣợc gọi là hệ bằng nhau của r. Đặt M r A P R : Eij A, E pq : A E pq .
M
r
đƣợc gọi là hệ bằng nhau cực đại của r.
- 14 -
1.3. Một số thuật toán cơ bản
Thuật toán 2.1. [3] Tính bao đóng của tập thuộc tính trên quan hệ.
Đầu vào: r h1,..., hm là một quan hệ trên R, A R .
Đầu ra: Ar .
Bƣớc 1. Từ r ta xây dựng hệ bằng nhau Er Eij :1 i j r với
Eij a R : hi a h j a .
Bƣớc 2. Ar Eij nếu tồn tại Eij Er : A Eij
Ar R trong trƣờng hợp ngƣợc lại.
Dễ thấy, độ phức tạp thuật toán là đa thức theo kích thƣớc của r.
Thuật toán 2.2 [13] Tìm tập K
1
Đầu vào: K B1,..., Bm là hệ Sperner trên R.
Đầu ra: K
1
Bước 1: Đặt K1 R a : a B1 . Hiển nhiên K1 B1 .
1
Bước q 1 (q
chứa Bq 1 và Fq A K q : Bq 1 A . Đối với mỗi i i 1,..., tq ta tìm tập Bq 1
1
trên X i tƣơng tự nhƣ K 1 . Ký pháp của chúng là A1i ,..., Ari . Đặt
i
K q1 Fq Aip : A Fq Api A,1 i tq ,1 p ri .
Cuối cùng ta đặt K
1
Km .
Độ phức tạp Thuật toán 2.2
Rõ ràng, K và K
1
xác định duy nhất lẫn nhau và thuật toán không phụ
thuộc vào thứ tự của dãy B1,…,Bm. Đặt K q Fq X 1 ,..., X t
q
và I 1 q m 1
q
là số phần tử của K q . Theo [13], độ phức tạp thời gian của Thuật toán 2.2 là
2 m1
O R tq uq với uq I q tq nếu I q tq và uq = 1 nếu I q tq .
q 1
- 15 -
- Trong mỗi bƣớc của thuật toán, K q là hệ Sperner trên R. Theo [5],
kích
Cn
n /2
thƣớc
của
2n1/2 / .n1/2
hệ
Sperner
bất
kỳ
trên
R
không
vƣợt
quá
với n R . Do đó, độ phức tạp thời gian của Thuật toán
2.2 là hàm số mũ theo n.
- Trƣờng hợp Iq Im q 1,..., m 1 , độ phức tạp của Thuật toán 2.2
không lớn hơn O R 2 K K 1
theo R , K và K
1
2
, khi đó độ phức tạp Thuật toán 2.2 là đa thức
. Nếu số lƣợng các phần tử của K là nhỏ thì Thuật toán
2.2 rất hiệu quả, đòi hỏi thời gian đa thức theo R .
Nhận xét
Nếu K là hệ Sperner trên R đóng vai trò là tập khóa tối thiểu của
quan hệ r (hoặc SĐQH s) thì Thuật toán 2.2 thực hiện tìm tập phản khóa K
1
Nếu K là hệ Sperner trên R đóng vai trò là họ các tập tối thiểu của
thuộc tính a trên r (hoặc trên s), hay K K ar (hoặc K K as ), thì Thuật toán 2.2
thực hiện tìm tập K ar (hoặc K as ).
1
1
Thuật toán 2.3. [5] Tìm một tập D K từ tập K
Đầu vào: Cho K
B K
1
1
1
là hệ Sperner trên R và C b1,..., bm R sao cho
:BC
Đầu ra: D K
Bước 1: Đặt T 0 C .
Bước i 1 : Đặt
T (i 1) T i bi 1
nếu B K 1 không có T B
T (i 1) T i
ngƣợc lại.
Cuối cùng đặt D T m .
- 16 -
Thuật toán 2.4. [5] Tìm tập K từ tập K 1 .
Đầu vào: Cho tập K 1 B1,..., Bm là hệ Sperner trên R
Đầu ra: Tập K
Bước 1: Bởi Thuật toán 2.3 tính A1 , đặt H 1 A1 .
Bước i 1 : Nếu có B H i 1 sao cho B B j j :1 j k thì bởi Thuật
toán 2.3 tính Ai 1 , ở đây Ai 1 K , Ai 1 B . Đặt H i 1 H i Ai 1 . Trong trƣờng hợp
ngƣợc lại, đặt K H i .
Độ phức tạp Thuật toán 2.4
Theo [5], độ phức tạp thời gian của Thuật toán 2.4 là
K 1
O R K
q 1
-
1
I q R tq uq K
1 2
R với I q , tq , uq nhƣ trong Thuật toán 2.2.
Tƣơng tự Thuật toán 2.2, độ phức tạp thời gian của Thuật toán 2.4
là hàm số mũ theo n.
- Trƣờng hợp I q K 1 q 1,..., m 1 , độ phức tạp của thuật toán là
2
O R K
1 2
K
, độ phức tạp này là đa thức theo
R,K
1
và K . Nếu K là
đa thức theo R , K 1 thì Thuật toán 2.4 là hiệu quả. Nếu K là nhỏ thì Thuật
toán 2.4 rất hiệu quả.
Nhận xét
- Nếu K
1
là hệ Sperner trên R đóng vai trò là tập phản khóa của quan
hệ r (hoặc SĐQH s) thì Thuật toán 2.4 thực hiện tìm tập khóa tối thiểu K
- Nếu K
1
là hệ Sperner trên R đóng vai trò là tập K ar (hoặc K as )
1
1
thì Thuật toán 2.4 thực hiện tìm họ các tập tối thiểu của thuộc tính a trên r
(hoặc trên s).
Thuật toán 2.5. Tìm một tập tối thiểu của thuộc tính a trên s.
Đầu vào: Cho s R a1,..., an , F là SĐQH, a a1 .
- 17 -
Đầu ra: A K as .
Bước 1: Đặt L 0 R .
Bước i+1: Đặt
L(i 1) L i ai 1
nếu L i ai 1 a
L(i 1) L i ngƣợc lại.
Khi đó A L n .
Theo [4], độ phức tạp của Thuật toán 2.5 là O R F .
2
Thuật toán 2.6. [4] Tìm họ các tập tối thiểu của thuộc tính a trên s.
Đầu vào: Cho s R, F là SĐQH và a R .
Đầu ra: K as .
Bước 1: Đặt L 1 E1 a .
Bước i+1: Nếu có C và A B mà C L i , A B F , E L i E A C B
thì bởi Thuật toán 2.5 ta xây dựng Ei 1 , ở đây Ei1 A C B , Ei1 K as . Đặt
L(i 1) L i Ei 1 . Trong trƣờng hợp ngƣợc lại đặt K as L i .
Độ phức tạp Thuật toán 2.6
Theo [4], độ phức tạp thời gian tồi nhất của Thuật toán 2.6 là
O R F K as R K as
. Nhƣ vậy, độ phức tạp này là đa thức theo
R , F và
K as . Nếu số lƣợng phần tử của K as đối với s R, F là đa thức theo kích
thƣớc của s thì thuật toán hiệu quả, đặc biệt khi K as nhỏ.
u2
Thấp
*
Đầy đủ
Thấp
Tốt
u3
*
*
Gọn nhẹ
Cao
Xấu
u4
Cao
*
Đầy đủ
Cao
Tốt
u5
*
*
Đầy đủ
Cao
Tuyệt hảo
u6
Thấp
Cao
Đầy đủ
*
Tốt
- 18 -
Bảng 2.1 là bảng quyết định không đầy đủ IDS U , C d ,V , f với
U u1, u2 , u3 , u4 , u5 , u6 , U 6 và C a1, a2 , a3 , a4 với a1 (đơn giá), a 2 (Km đã
đi), a3 (Kích thƣớc), a 4 (Tốc độ tối đa).
Các lớp dung sai của phủ U / SIM C là
SC (u1 ) {u1}, SC (u2 ) {u2 , u6 }, SC (u3 ) {u3}, SC (u4 ) {u4 , u5}
SC (u5 ) {u4 , u5 , u6 }, SC (u6 ) {u2 , u5 , u6 }
Các lớp dung sai của phủ U / SIM a1 là
Sa (u1 ) Sa (u4 ) {u1 , u3 , u4 , u5}, Sa (u2 ) Sa (u6 ) {u2 , u3 , u5 , u6 }
1
1
1
1
Sa (u3 ) Sa (u5 ) U .
1
1
Các lớp dung sai của phủ U / SIM a2 là
Sa (u1 ) Sa (u2 ) Sa (u3 ) Sa (u4 ) Sa (u5 ) Sa (u6 ) U
2
2
2
2
2
2
Các lớp dung sai của phủ U / SIM a3 là
Sa (u1 ) Sa (u2 ) Sa (u4 ) Sa (u5 ) Sa (u6 ) {u1 , u2 , u4 , u5 , u6 }, Sa (u3 ) {u3} .
3
3
3
3
3
3
Các lớp dung sai của phủ U / SIM a4 là
Sa (u1 ) Sa (u2 ) {u1 , u2 , u6 } , Sa (u3 ) Sa (u4 ) Sa (u5 ) {u3 , u4 , u5 , u6}, Sa (u6 ) U
4
4
4
4
4
4
Các lớp dung sai của phủ U / SIM d là
Sd (u1 ) Sd (u2 ) Sd (u4 ) S d (u6 ) {u1 , u2 , u4 , u6 }, S d (u3 ) {u3}, S d (u5 ) {u5 }
Thực hiện các bƣớc của Thuật toán 4.2 ta có
d E K C , K C d
U
4
S u S u S u 36
U
1
2
C
i 1
i
C
i
i
d
Đặt R và tính
SIG a1
SIG a2
U
1
U
2
i 1
i
d
i
a1
i
a 1 ,d
U
1
U
S u S u S u S
2
S u S u S u S
i 1
i
d
i
a2
i
a 2 ,d
ui 0
ui 0
- 19 -
Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ
TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH
Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô.
Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dƣ thừa để tìm ra các
thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu. Với bảng quyết định, rút
gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn
thông tin phân lớp của bảng quyết định.
Đối với một bảng quyết định có thể có nhiều tập rút gọn khác nhau. Số
lƣợng các tập rút gọn trong trƣờng hợp xấu nhất có thể là 2k - 1, với k là các
thuộc tính điều kiện. Tuy nhiên, trong thực tế thƣờng không đòi hỏi tìm tất cả
các tập rút gọn mà chỉ cần tìm đƣợc một tập rút gọn theo tiêu chí đánh giá nào
đó là đủ.
Trong phần này, chúng tôi xin giới thiệu một số phƣơng pháp tìm tập
rút gọn và đƣa ra một số thuật toán tìm một tập rút gọn mới với độ phức tạp
có thời gian đa thức đồng thời đƣa ra một số thuật toán tìm tất cả các tập rút
gọn.
2.1. Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric
2.1.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn
Định nghĩa 2.1. [7] Cho U là tập hữu hạn các đối tƣợng và X , Y U .
Biểu thức
D X ,Y 1
X Y
X Y
đƣợc gọi là khoảng cách Jaccard (Jaccard distance) giữa X và Y và biểu thức
J X ,Y
X Y
X Y
đƣợc gọi là hệ số Jaccard. Hệ số Jaccard đo độ tƣơng tự giữa hai tập hợp X và
Y. Hiển nhiên D X , Y J X , Y 1 .
- 20 -
Định lý 2.1. Cho U là tập hữu hạn các đối tượng và P U là tập các tập
con của U. Khoảng cách Jaccard là một metric trên P U , nghĩa là mọi
X ,Y , Z P U thỏa mãn các điều kiện sau:
(P1) D X , Y 0 , điều kiện D X , Y 0 khi và chỉ khi X = Y.
(P2) D X , Y D Y , X .
(P3) D X , Y D Y , Z D X , Z .
Chứng minh
Hiển nhiên, D X , Y thỏa mãn điều kiện (P1) và (P2). Để chứng minh
điều kiện (P3) (bất đẳng thức tam giác), ta cần chứng minh bất đẳng thức sau
J X , Y J Y , Z 1 J X , Z
(3.1)
Giả sử U N và U u1, u2 ,..., uN . Ta biểu diễn tập X U bởi một véc tơ
N chiều V X v1X , v2X ,..., vNX với vkX 1 nếu uk X và vkX 0 trong trƣờng hợp
ngƣợc lại.
Đặt V XY V X V Y , khi đó J X , Y đƣợc biểu diễn:
J X ,Y
V XX
V XY
V YY V XY
(3.2)
Nếu J X , Y J X , Z hoặc J Y , Z J X , Z thì hiển nhiên (3.1) thỏa
mãn. Do đó, ta cần chứng minh (3.1) đối với trƣờng hợp đồng thời
J X , Y J X , Z và J Y , Z J X , Z . Từ (3.2) ta có
V XY
J X ,Y
V XX V YY
1 J X ,Y
(3.3)
Dễ thấy V Y V X V Y V Z 0 hoặc V YY V YZ V XY V XY 0 thỏa mãn vì
phần tử thứ k của V Y V X và V Y V Z là 0 và 1. Kết hợp với (3.2) ta có
V YY
J Y , Z
J X ,Y
J X,Z
V YY V ZZ
V XX V YY
V XX V ZZ 0
1 J Y , Z
1 J X ,Y
1 J X , Z
- 21 -
J X ,Y
J Y , Z YY
1
V
1 J X , Y 1 J Y , Z
J X ,Y
J X , Z XX J Y , Z
J X , Z ZZ
V
V
1 J X ,Y 1 J X , Z
1 J Y , Z 1 J X , Z
Rõ ràng V XX V XY , sử dụng (3.3) thu đƣợc V XX
(3.4)
J X ,Y
V XX V YY hay
1 J X ,Y
V XX J X , Y V XY
(3.5)
Từ giả thiết J X ,Y J X ,Z 0 ta có
J X ,Y
J X,Z
0 . Do đó từ (3.5)
1 J X ,Y 1 J X , Z
J X ,Y
J X ,Y
J X , Z XX
J X , Z YY
V J X , Y
V
1 J X ,Y 1 J X , Z
1 J X ,Y 1 J X , Z
(3.6)
Tƣơng tự
J Y , Z
J Y , Z
J X , Z ZZ
J X , Z YY
V J Y , Z
V
1 J Y , Z 1 J X , Z
1 J Y , Z 1 J X , Z
(3.7)
Từ (3.4), (3.6), (3.7) ta có
J X ,Y
J X ,Y
J Y , Z YY
J X , Z YY
1
V J X , Y
V
1 J X , Y 1 J Y , Z
1 J X ,Y 1 J X , Z
J Y , Z
J X , Z YY
J Y , Z
V
1 J Y , Z 1 J X , Z
(3.8)
Nếu V YY 0 thì hiển nhiên (3.1) thỏa mãn. Giả sử V YY 0 . Khi đó, (3.8)
tƣơng đƣơng với:
J X , Y J Y , Z
J X ,Y J X ,Y
J Y , Z J Y , Z
1
J X , Z
1 J X ,Y
1 J Y , Z
1 J X , Z
2
2
J X , Y J Y , Z 1 J X , Z . Do đó, đẳng thức (3.1) đƣợc chứng minh.
2.1.2. Một số tính chất của metric trên bảng quyết định
Với bảng quyết định DS U , C D,V , f , Mệnh đề 3.1 sau đây xây
dựng công thức tính khoảng cách giữa hai tri thức K C và K C D dựa vào
các phân hoạch U / C và U / D .
- 22 -
Mệnh đề 3.1. Cho bảng quyết định DS U , C D,V , f , giả sử
U / C {C1 , C2 ,..., Cm } và U / D {D1 , D2 ,..., Dn } . Ta có
n
m
d J K C , K C D 1
i 1 j 1
Di C j
2
.
U Cj
Chứng minh.
Giả sử Di C j ui1 , ui 2 ,..., uis với Di C j s j và Di ti , khi đó
j
n
và
t
s
j 1
j
ti
U . Ta có
i
i 1
m
Di C j ui1 D ui1 C ui 2 D ui 2 C ... uis j uis j .
D C
Di C j ui1 D ui1 C ui 2 D ui 2 C ... uis j uis j s j
D C
Di C j
2
Cj
Di C j Di C j
Cj
ui1 D ui1 C
ui1 C
ui 2 D ui 2 C
ui 2 C
...
uis uis
j D j C
uis
j C
uik D uik C
.
k 1
uik C
sj
Vì vậy
m
Di C j
Cj
j 1
n
m
m
Cj
n
m
i 1 j 1
sj
Di C j
i 1 j 1
1
1
U
uik D uik C
j 1 k 1
uik C
2
2
uik D uik C
i 1 k 1
uik C
ti
n
Di C j
Cj
2
1
1
U
U
U
i 1
ui D ui C
ui C
ui C ui C D
i C ui C D
u
i 1
uik D uik C
k 1
uik C
ti
d J K C , K C D .
- 23 -
Mệnh đề 3.2. Cho bảng quyết định DS U , C D,V , f . Giả sử
d J K C , K C D là khoảng cách giữa hai tri thức K C và K C D ,
DS là độ chắc chắn của DS. Ta có
d J K C , K C D DS 1 .
Chứng minh
Suy ra từ Mệnh đề 3.1 và công thức tính DS theoYuhua Qian và cộng
sự [15]
Mệnh đề 3.2 chứng minh một tính chất quan trọng của metric đƣợc xây
dựng trên bảng quyết định: metric được xây dựng là đại lượng đối ngẫu với
độ chắc chắn của tập luật quyết định.
Mệnh đề 3.3. (Tính phản đơn điệu) Cho bảng quyết định
DS U , C D,V , f và hai tập thuộc tính P, Q C . Nếu Q P C thì
d J K Q , K Q D d J K P , K P D .
Dấu đẳng thức d J K Q , K Q D d J K P , K P D xảy ra khi và
chỉ khi H D Q H D P .
Chứng minh
Xét hai bảng quyết định DS1 U , Q D và DS2 U , P D . Từ giả
thiết
Q P,
theo
Mệnh
đề
2.11
ta
có
DS1 DS2
1 DS1 1 DS2 . Do đó theo Mệnh đề 3.2 ta có
d J K Q , K Q D d J K P , K P D .
Dấu đẳng thức xảy ra khi và chỉ khi DS1 DS2 . Từ Nhận xét 2.2 ta
kết
luận
d J K Q , K Q D d J K P , K P D
khi
và
chỉ
khi
H D Q H D P .
Mệnh đề 3.3 cho thấy tập thuộc tính P càng lớn thì khoảng cách giữa
hai tri thức K P và K P D càng nhỏ, hay K P càng gần (càng tƣơng tự)