TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
PHÒNG ĐÀO TẠO SĐH-KHCN&QHĐN
BÀI THU HOẠCH MÔN
TOÁN KHOA HỌC MÁY TÍNH
TÌM HIỂU LÝ THUYẾT TẬP THÔ
VÀ TIẾP CẬN TẬP THÔ ĐỂ KHÁM
PHÁ LUẬT KẾT HỢP
HỌC VIÊN:
VŨ THỊ HƯỜNG (CH1301089)
HÀ THANH NHẤT (CH1301104)
GIẢNG VIÊN: TS. DƯƠNG TÔN ĐẢM
TP. HỒ CHÍ MINH, THÁNG 11/2014
LỜI CẢM ƠN
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Nhóm xin chân thành cảm ơn sâu sắc đến TS. Dương Tôn Đảm , người thầy đã
truyền đạt cho nhóm những kiến thức về lý thuyết tập thô, cung cấp những tài
liệu qúy báu trong suốt quá trình học.
Nhóm xin cảm ơn đến PGS.TS Đỗ Phúc đã dành thời gian một buổi lên lớp để
hướng dẫn cũng như trình bày những ứng dụng liên quan đến tập thô.
Xin được cảm ơn các anh/chị học cùng khóa đã đóng góp và chia sẻ tài liệu về
môn học, giúp nhóm hoàn thành tốt bài thu hoạch này.
Xin chân thành cảm ơn
MỤC LỤC
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
LỜI NÓI ĐẦU
Theo xu hướng mới đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ
hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương pháp
khác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ (Fuzzy set theory), lý
thuyết tập thô (Rough set theory), tính toán hạt (Granular computing) hay phân
tích khái niệm hình thức (Formal concept analysis) … Trong các phương pháp
này, phương pháp tập thô được nhiều nhóm khoa học trên thế giới quan tâm
nghiên cứu và phát triển. Điều này có thể lý giải là do lý thuyết tập thô được xây
dựng trên một nền toán học vững chắc, cung cấp những công cụ hữu ích để giải
quyết các bài toán phân lớp dữ liệu, phát hiện luật …, đặc biệt là phục vụ cho
việc nghiên cứu các hệ thống thông minh, khai phá dữ liệu.
Lý thuyết tập thô do Z.Pawlak đề xuất vào đầu những năm 80 của thế kỷ XX đã
được áp dụng ngày càng rộng rãi trong lĩnh vực khám phá tri thức. Trong những
năm gần đây, lý thuyết tập thô được nhiều nhóm nghiên cứu hoạt động trong lĩnh
vực tin học nói chung và khai phá tri thức từ cơ sở dữ liệu nói riêng nghiên cứu
và áp dụng vào thực tế. Những phương pháp dựa trên lý thuyết tập thô đặc biệt
hữu ích đối với những bài toán mà dữ liệu không rõ ràng, không chắc chắn.
Ngoài ra, lý thuyết tập thô cho phép trình diễn một mô hình hình thức về tri thức.
Mô hình này được xác định như họ các mối quan hệ “không phân biệt được”.
Nhờ đó, tri thức được định nghĩa một cách rõ ràng theo nghĩa toán học, có thể
phân tích và xử lý bằng những công cụ toán học.
Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua hệ thông tin hay bảng
quyết định. Ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuất
phát từ những khái niệm về sự xấp xỉ tập, về quan hệ “không phân biệt được”. Từ
những bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên tục hay
dữ liệu biểu diễn dưới dạng ký hiệu. Lý thuyết tập thô cho phép khai thác từ
những loại dữ liệu như vậy nhằm phát hiện ra những quy luật tiềm ẩn. Tri thức
được biểu diễn dưới dạng các luật, mẫu mô tả mối quan hệ bị che giấu trong dữ
liệu. Chất lượng thông tin trong việc vận dụng lý thuyết tập thô được đo bằng tập
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
xấp xỉ trên và tập xấp xỉ dưới. Nhằm thu hẹp nhiều nhất chính xác thông tin, loại
bỏ những thông tin dư thừa không cần thiết mà vẫn giữ được ý nghĩa. Khi tìm
được những quy luật chung nhất, người ta có thể tính toán độ mạnh, độ phụ thuộc
giữa các thuộc tính trong hệ thông tin.
Việc tiếp cận tập thô để khám phá luật có rất nhiều những lợi ích như:
Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dư thừa, dữ liệu bị
thiếu, dữ liệu liên tục.
Hiệu quả cao trong việc tìm kiếm những mẫu tiềm ẩn trong dữ liệu.
Sử dụng được các kinh nghiệm về tri thức.
Nhận ra các mối quan hệ mà khi sử dụng các phương pháp thống kê khác
không phát hiện được.
Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu.
Làm việc hiệu quả trên tập dữ liệu rút gọn.
Với những ưu điểm trên, nhóm đã thống nhất tìm hiểu về lý thuyết tập thô đồng
thời cũng vận dụng trong việc khám phá tri thức luật.
Bài thu hoạch được trình bày thành hai phần chính:
Tìm hiểu về lý thuyết tập thô.
Vận dụng tập thô trong việc khám phá luật kết hợp.
Đánh giá các luật dựa vào các độ đo.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
1 LÝ THUYẾT TẬP THÔ
1.1 Các khái niệm cơ bản
1.1.1 Hệ thông tin
Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu
diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo
được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp). Bảng
này được gọi là một hệ thông tin.
Hình thức hơn, hệ thông tin là một cặp S = (U, A), U là một tập hữu hạn khác
rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn
khác rỗng các thuộc tính. Với mỗi u∈U và a∈A, ta ký hiệu u(a) là giá trị của đối
tượng u tại thuộc tính a. Nếu gọi I
a
là tập tất cả giá trị của thuộc tính a, thì u(a)∈I
a
với mọi u∈U. Bây giờ, nếu B = {b
1
, b
2
, ,b
k
} ⊂ A, ta ký hiệu bộ các giá trị u(b
i
)
bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu
u(b
i
)= v(b
i
), với mọi i =1, 2, , k.
1.1.2 Quan hệ không phân biệt được
Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B ⊂ A tạo ra một mối quan
hệ hai ngôi trên U, ký hiệu là IND(B).
IND(B) = {(u,v)∈U x U | u(a) = v(a), ∀a∈B}
IND(B) được gọi là B_không phân biệt được.
Ví dụ: Xét hệ thông tin cho bên dưới
U Đau đầu Đau cơ Nhiệt độ Cúm
x
1
Không Có Cao Có
x
2
Có Không Cao Có
x
3
Có Có Rất cao Có
x
4
Không Có Bình thường Không
x
5
Có Không Cao Không
x
6
Không Có Rất cao Có
Bảng 1-1: Bảng dữ liệu bệnh cúm
Trong đó: U = {x1, x2, x3, x4, x5, x6}.
A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Trong bảng, các bệnh nhân x
2
, x
3
và x
5
không phân biệt được đối với thuộc tính
Đau đầu, bệnh nhân x
3
và x
6
không phân biệt được đối với thuộc tính Đau cơ,
Cúm và bệnh nhân x
2
, x
5
không phân biệt được đối với thuộc tính Đau đầu, Đau
cơ và Nhiệt độ.
Do đó:
IND( {Đau đầu}) = {{x
1
, x
4
, x
6
},{x
2
, x
3
, x
5
}}
IND( {Đau cơ}) = {{x
1
, x
3
, x
4
, x
6
}, {x
2
, x
5
}}
IND( {Nhiệt độ}) = {{x
1
, x
2
, x
5
}, {x
3
, x
6
}, {x
4
}}
IND( {Cúm}) = {{x
1
, x
2
, x
3
, x
6
}, {x
4
, x
5
}}
IND( {Đau đầu, Đau cơ}) = {{x
1
, x
4
, x
6
}, {x
2
, x
5
}, {x
3
}}
1.1.3 Tập thô
Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác
định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ:
Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, ký
hiệu R = IND(B), ta có 2 tập con sau:
lần lượt được gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X.
Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X.
Tập bao gồm các phần tử của U có khả năng phân loại vào những phần tử
thuộc X ứng với quan hệ R.
Từ hai tập xấp xỉ, người ta định nghĩa các tập sau:
: B-miền biên của X.
: B-vùng dương của X.
: B-vùng âm của X.
Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên và dưới của X có
thể viết lại:
Trong trường hợp BN
B
(X) ≠ ∅, X được gọi là tập thô, ngược lại X được gọi là
tập rõ.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Đối với một hệ thông tin S = (U,A), B, D ⊆ A, ký hiệu R = IND(B), người ta
gọi B-miền dương của D là tập được xác định như sau:
Rõ ràng, là tập tất cả các đối tượng u sao cho ∀v∈U mà u(B) = v(B) ta đều có
u(D) = v(D). Nói cách khác, = {u∈U | [u]
B
⊆ [u]
D
}.
1.1.4 Các tính chất của xấp xỉ
Định lý: Cho một hệ thông tin S = (U, A), ∀X, Y ⊆ U và B ⊆ A, đặt R =
IND(B). Khi đó:
1.1.5 Độ đo chính xác của xấp xỉ
Cho một hệ thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, đặt
R=IND(B), đại lượng đo sự chính xác của tập xấp xỉ X đối với phân hoạch trên B
là giá trị:
Trong đó, Card(X) = |X| là lực lượng của tập X. Rõ ràng 0 ≤ ≤ 1, nếu ta nói là
chính xác đối với R, còn ta nói là thô đối với R.
1.1.6 Bảng quyết định
Bảng quyết định là một hệ thông tin có dạng T = (U, A), trong đó tập thuộc tính
A được chia thành hai tập thuộc tính rời nhau C và D, C được gọi là tập thuộc
tính điều kiện, còn D là tập thuộc tính quyết định. Tức là T = (U, C ∪ D), với
C∩D = ∅. Ngoài ra, ta có thể ký hiệu T = (U, C, D).
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Ví dụ: sử dụng lại Bảng 1-1: Bảng dữ liệu bệnh cúm là một bảng quyết định
T=(U,C ∪ D). Trong đó:
U = {x
1
, x
2
, x
3
, x
4
, x
5
, x
6
}
A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}
Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Nhiệt độ}
Tập thuộc tính quyết định D = {Cúm}
Cho một bảng quyết định T = (U, C ∪ D), giả sử U/C = {X
1
, X
2
, …, X
m
} và
U/D = {Y
1
, Y
2
, …, Y
n
}. Một lớp X
i
∈ U/C được gọi là nhất quán nếu u(d) = v(d),
∀u,v ∈ X
i
, ∀d ∈ D. Một lớp Y
j
∈ U/D được gọi là nhất quán ngược nếu
u(a)=v(a), ∀u,v ∈ Y
j
, ∀a ∈ C.
Một bảng quyết định T = (U, C ∪ D) là nhất quán nếu mọi lớp X
i
∈ U/C là nhất
quán, ngược lại T được gọi là không nhất quán. Dễ thấy, nếu U/C ≤ U/D thì
T=(U, C ∪ D) là nhất quán.Tương tự, nếu U/D ≤ U/C thì T là nhất quán ngược.
Ta có thể thấy, bảng quyết định là nhất quán khi và chỉ khi POS
C
(D) = U.
Trong trường hợp bảng không nhất quán thì POS
C
(D) chính là tập con cực đại
của U sao cho phụ thuộc hàm C→D đúng.
1.1.7 Rút gọn và nhân
Xét một bảng quyết định T = (U, C ∪ D).
Tập thuộc tính R ⊆ C được gọi là một rút gọn của C nếu POS
R
(D) = POS
C
(D).
Nhân của tập thuộc tính điều kiện C, ký hiệu CORE(C) được định nghĩa:
Ở đây, RED(C) là tập hợp tất cả rút gọn của C.
Ngoài ra, người ta cũng định nghĩa rút gọn C-miền khẳng định dương của D:
Nếu B ⊆ C thỏa
POS
B
(D) = POS
C
(D)
∀a ∈ B, POS
C
(D) ≠ POS
C-{a}
(D)
Thì B được gọi là rút gọn C-miền khẳng định dương của D
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
1.1.8 Ma trận phân biệt được và hàm phân biệt được
Xét bảng quyết định T = (U, C ∪ D), với U = {u
1
, u
2
, …, u
n
}. Ma trận phân biệt
của T, ký hiệu là M(T) = (m
ij
)
nxn
là một ma trận đối xứng, trong đó mỗi phần tử
của nó là một tập thuộc tính được xác định như sau:
Hàm phân biệt được f
T
là một hàm boole, được xác định từ ma trận phân biệt
M(T) như sau:
Trong đó, mỗi thuộc tính được đặt tương ứng một biến logic cùng tên và
∨ m
ij
là biểu thức tuyển của tất cả các biến c ∈ m
ij
, nếu m
ij
≠ ∅
∨ m
ij
= true, nếu m
ij
= ∅ và
∨ m
ij
= false, nếu m
ij
= ∅ và
1.1.9 Luật quyết định
Cho một bảng quyết định T = (U, C ∪ D), giả sử U/C = {X
1
, X
2
, …, X
m
} và
U/D= {Y
1
, Y
2
, …, Y
n
}. Nếu X
i
∩ Y
i
≠ ∅, ký hiệu des(X
i
), des(Y
j
) lần lượt là các
mô tả của các lớp tương đương ứng với X
i
, Y
j
. Một luật quyết định xác định bởi
X
i
, Y
j
có dạng:
Độ đo chắc chắn và độ hỗ trợ của luật quyết định Z
ij
được định nghĩa như sau:
Dễ nhận thấy rằng, giá trị của của luật quyết định Z
ij
rơi vào đoạn .
1.1.10 Phụ thuộc độ k
Cho hệ thông tin S = (U, A), X, Y ⊆ A. Ta nói rằng, tập thuộc tính Y phụ thuộc
độ k ∈[0,1] vào tập thuộc tính X, ký hiệu với k được xác định như sau:
Dễ thấy rằng, phụ thuộc độ k là sự tổng quát hóa của phụ thuộc hàm và là phụ
thuộc hàm đã biết trong cơ sở dữ liệu quan hệ.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
1.2 Phủ tập thô
1.2.1 Định nghĩa các loại phủ và không gian xấp xỉ phủ
1.2.1.1 Định nghĩa “phủ”
Cho U là một tập phổ dụng, ζ là họ các tập con khác rỗng của U, khi ∪ζ = U, ζ
được gọi là một phủ của U.
Từ định nghĩa trên, ta suy ra một phân hoạch của U là một phủ của U. Vì vậy,
khái niệm phủ là mở rộng của khái niệm phân hoạch.
1.2.1.2 Định nghĩa “không gian xấp xỉ phủ”
Cho U là một tập phổ dụng, ζ là 1 phủ của U. Cặp thứ tự (U, ζ) được gọi là một
không gian xấp xỉ phủ (CAS).
1.2.1.3 Định nghĩa “mô tả tối tiểu”
Cho một không gian xấp xỉ phủ (U, ζ), họ các tập hợp được xác định bởi x∈ U:
Md(x) = {K∈ζ | x∈K ∧ (∀S∈ζ ∧ x∈S ∧ S⊆K ⇒K=S)} được gọi là mô tả tối
thiểu của x.
1.2.1.4 Định nghĩa “phủ nửa thu gọn”
Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là (phủ) nửa thu gọn hay nửa
không dư thừa nếu nó thỏa điều kiện sau:
1.2.1.5 Định nghĩa “phủ đơn vị”
Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ đơn vị nếu ∀x∈U,|
Md(x)| = 1.
1.2.1.6 Định nghĩa “phủ tựa điểm”
Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ tựa điểm nếu ∀K∈ζ
và x∈K thì K ⊆ ∪Md(x).
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
1.2.1.7 Địng nghĩa “phần tử loại được của một phủ”
Cho một không gian xấp xỉ phủ (U, ζ) và K∈ζ. Nếu K là hợp của một số tập
hợp nào đó của ζ - {K}, ta nói rằng K là phần tử loại được của ζ, ngược lại K là
phần tử không loại được.
1.2.1.8 Định nghĩa “phủ rút gọn được”
Cho một không gian xấp xỉ phủ (U, ζ). Nếu mọi phần tử của ζ là phần tử không
loại được thì ζ là phủ không rút gọn được, ngược lại ζ là phủ rút gọn được.
1.2.1.9 Định nghĩa “rút gọn của một phủ”
Cho một không gian xấp xỉ phủ (U, ζ). Một phủ không rút gọn có được từ việc
loại bỏ các phần tử rút gọn được của ζ gọi là rút gọn của phủ ζ, ký hiệu là
reduct(ζ).
1.2.2 Các phép xấp xỉ dựa vào phủ tập thô
Cho một không gian xấp xỉ phủ (U, ζ). Một tập X ⊆ U, xấp xỉ phủ dưới, xấp xỉ
phủ trên loại 1, 2, 3 của X được định nghĩa:
Tên phép xấp xỉ Biểu thức xác định Ký hiệu
Xấp xỉ phủ dưới loại 1,
2, 3 lần lượt là X
*
= =
X
#
∪ {K∈ζ | K ⊆ X}
FL(X), SL(X), TL(X)
Ký hiệu chung: CL(X)
Xấp xỉ phủ trên loại 1:
X
*
X
*
∪ (∪ {Md(x) | x∈X-
X
*
})
FH(X)
Xấp xỉ phủ trên loại 2:
∪ {K∈ζ | K ∩ X ≠ ∅}
SH(X)
Xấp xỉ phủ trên loại 3:
X
#
∪ {Md(x) | x ∈X}
TH(X)
Bảng 1-2: Các phép xấp xỉ dựa vào phủ tập thô
Ký hiệu: ℘(U) là tập hợp chứa tất cả tập con của U: ℘(U) = {X | X ⊆ U}; ¬ là
phép phủ định mệnh đề; ~X = U – X = X
C
.
1.2.2.1 Phép xấp xỉ phủ tập thô loại 1
Cho ζ là một phủ của U, các phép toán CL và FH: ℘(U)→℘(U) được định
nghĩa: ∀X ⊆ U,
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Ta gọi CL là phép xấp xỉ phủ dưới và FH là phép xấp xỉ phủ trên loại 1 của X
được sinh bởi ζ.
1.2.2.2 Phép xấp xỉ phủ tập thô loại 2
Cho ζ là một phủ của U. Phép xấp xỉ phủ trên loại 2 được sinh bởi ζ, ký hiệu
SH được định nghĩa:
1.2.2.3 Phép xấp xỉ phủ tập thô loại 3
Cho ζ là một phủ của U. Phép xấp xỉ phủ trên loại 3 được sinh bởi ζ ký hiệu
TH được định nghĩa: TH(X) = ∪{Md(x) | x∈X}.
1.2.3 Ánh xạ đóng
Toán tử D: ℘(U)→℘(U) được gọi là một ánh xạ đóng nếu D thỏa các tính chất
sau: ∀X,Y⊆U,
Mặc dù tính chất đặc trưng của ánh xạ đóng khá đơn giản nhưng có nhiều ứng
dụng được đề cập trong cơ sở dữ liệu dựa trên ánh xạ đóng. Hệ tiên đề đặc trưng
của phép xấp xỉ dưới trong lý thuyết tập thô cổ điển chỉ ra rằng nó là một ánh xạ
đóng. Vì vậy, tìm xem các phép xấp xỉ phủ thỏa tính chất nào của ánh xạ đóng.
Kết quả tìm được sẽ là cơ sở cho việc kế thừa những kết quả đã có của ánh xạ
đóng, nhất là các luật sinh thể hiện mối quan hệ giữa các thuộc tính.
1.2.4 Không gian topo
Xét tập hợp X, một họ τ các tập con của X được gọi là topo trên X nếu thỏa các
điều kiện:
X và ∅ thuộc τ
Hợp tùy ý các tập thuộc τ là thuộc τ
Giao của hữu hạn các tập thuộc τ là thuộc τ
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Một tập X cùng một topo trên X gọi là một không gian topo. Để chỉ rõ τ là topo
trên X ta viết (X, τ). Trên một không gian topo (X, τ), ta có các khái niệm sau:
Tập mở, tập đóng: Tập G∈τ được gọi là tập mở của X. Tập con F của X
được gọi là tập đóng nếu X-F là tập mở.
Lân cận: Xét x∈X, tập con V của X được gọi là một lân cận của x nếu tồn
tại một tập mở G sao cho x∈G ⊂ V. Nếu lân cận V của x là một tập mở thì
V được gọi là một lân cận mở của x.
Bao đóng: Xét A ⊆ X, ta gọi bao đóng của A, ký hiệu là là giao tất cả các
tập đóng chứa A.
Phần trong: Cho A ⊆ X, ta gọi phần trong của A, ký hiệu là Int(A) hay A
0
là
hợp tất cả các tập mở được chứa trong A.
Biên của tập A trong topo τ ta tập hợp A
b
= – A
0
1.2.5 Cơ sở và tiền cơ sở
Một họ con β của τ được gọi là một cơ sở của τ nếu mọi tập thuộc τ đều bằng
hợp của một họ các tập thuộc β. Nói cách khác, họ con β của τ là cơ sở của τ
nếu: ∀G∈τ, ∀x∈G, ∃V∈β: x∈V ⊂ G.
Một họ con σ của τ gọi là một tiền cơ sở của τ nếu họ tất cả các giao hữu hạn
của các tập thuộc σ là một cơ sở của τ:
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
2 KHÁM PHÁ TRI THỨC TIẾP CẬN TẬP THÔ
2.1 Khám phá luật trong bảng quyết định
2.1.1 Luật trong bảng quyết định
Giả sử, ta có bảng quyết định T = (U, C ∪ D), X biểu thị sự kết hợp giữa các từ
nhận dạng bao hàm trong các thuộc tính điều kiện C. Y biểu thị một từ nhận dạng
D = V trong đó V là giá trị bất kỳ nào của thuộc tính quyết định.
Một luật quyết định có dạng “Nếu X thì Y” được biểu diễn bởi X → Y với S biểu
thị độ mạnh của luật.
2.1.2 Hai đặc trưng của luật: độ mạnh và độ nhiễu của luật
Cho luật X → Y, độ mạnh của luật, ký hiệu là S(X → Y) được cho bởi công
thức:
Với s(X) gọi là độ mạnh của X được xác định qua công thức:
Trường hợp không sử dụng tri thức kinh nghiệm
• Với là số đối tượng quan sát thỏa mãn trong lần thứ i
Trong trường hợp sử dụng tri thức kinh nghiệm
Độ nhiễu r(X → Y) được tính như sau:
Với ) là số các đối tượng thuộc lớp Y trong các trường hợp thỏa mãn bộ
sinh X.
2.2 Quá trình khám phá luật
Giả sử ta có bảng quyết định T = (U, C ∪ D) gồm n đối tượng và m thuộc tính,
tỷ lệ nhiễu r.
Bước 1: Các đối tượng với các giá trị thuộc tính điều kiện được coi là một đối
tượng gọi là đối tượng ghép.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Bước 2: Tính toán tỉ lệ nhiễu r cho mỗi đối tượng ghép.
Bước 3: Chọn một đối tượng u từ U và tạo một vector phân biệt được cho u
Bước 4: Tìm tất cả các tập rút gọn cho đối tượng u sử dụng hàm phân biệt
được.
Bước 5: Tạo các luật từ tập rút gọn cho u và xem lại độ mạnh của mỗi luật.
Bước 6: Chọn luật tốt nhất từ các luật ở bước 5, sử dụng phương pháp đánh giá
kinh nghiệm khi lựa chọn luật.
Bước 7: U = U – {u}. Nếu U ≠ ∅, thì quay lại bước 3, trường hợp khác thì đến
bước 8.
Bước 8: Kết thúc nếu số các luật được chọn trong bước 6 cho mỗi trường hợp
là 1, trường hợp còn lại tìm một tập tối thiểu các luật mà chứa tất cả các trường
hợp trong bảng quyết định.
2.3 Tiêu chuẩn lựa chọn luật trong tập thô
Chọn các luật mà bao phủ nhiều nhất có thể các trường hợp.
Chọn các luật mà có chứa ít nhất các thuộc tính có thể, nếu chúng bao phủ
số các trường hợp giống nhau.
Chọn các luật với độ mạnh lớn, nếu chúng có giống nhau số các thuộc tính
điều kiện và bao phủ số các trường hợp giống nhau.
Mối liên hệ giữa mẫu và luật theo hướng tiếp cận tập thô
Trong quá trình khám phá tri thức, một trong những mục tiêu chính của việc
phân tích dữ liệu theo hướng tiếp cận tập thô là tìm ra những mẫu hay từ dữ liệu
(các dữ liệu này được biểu diễn dưới dạng hệ thông tin hay bảng quyết định).
Như vậy, luật quyết định là một kiểu đặc biệt của mẫu. Một tập các mẫu giống
như một tập các luật trong trường hợp tập luật đó không chứa kết quả. Mẫu là kết
quả của việc tính toán trên tập rút gọn khi người ta không quan tâm đến thuộc
tính quyết định. Luật quyết định phản ánh một quan hệ hay một xác suất có thể
giữa tập thuộc tính điều kiện và tập thuộc tính quyết định.
Với mẫu người ta sử dụng các độ đo là độ phù hợp fitness
S
(T) biểu thị số đối
tượng trong tập tổng thể phù hợp với mẫu T và độ chất lượng quantity
S
(T) =
fitness
S
(T) x length(T) (tích của độ phù hợp với số các từ khác nhau trong mẫu)
biểu thị chất lượng của mẫu tìm được. Còn với luật, người ta sử dụng độ mạnh để
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
biểu thị số các đối tượng thỏa mãn bộ sinh luật và độ nhiễu để biểu thị độ mạnh
của luật khi xử lý loại dữ liệu có nhiễu.
Chúng ta nhận thấy rằng, việc phát hiện số lượng các luật là rất lớn, gây khó
khăn cho người sử dụng trong việc chọn ra những tri thức thật sự có ích cho ứng
dụng. Ở phần tiếp theo bên dưới, nhóm xin trình bày các phương pháp đánh giá
tập luật dựa trên tập thô.
2.4 Một số phương pháp đánh giá luật dựa trên tập thô
2.4.1 Độ đo sự hữu ích của luật
Độ đo sự hữu ích của luật được chia làm hai loại chính: độ đo khách quan và độ
đo chủ quan. Phần lớn các độ đo sự hữu ích của luật sử dụng định nghĩa về xác
suất.
2.4.1.1 Độ hỗ trợ
Độ hỗ trợ của luật X → Y được định nghĩa là số bộ giá trị chứa cả X và Y:
Độ hỗ trợ có giá trị trong khoảng [0,1]. Nếu X và Y không đồng thời xuất hiện
cùng nhau trong các bộ giá trị thì độ hỗ trợ của X → Y bằng 0 và ngược lại nếu
chúng cùng xuất hiện trong tất cả các bộ giá trị thì độ hỗ trợ của nó bằng 1.
2.4.1.2 Độ tin cậy
Độ tin cậy của luật X → Y được định nghĩa:
Các luật có độ tin cậy càng cao càng được xem là hữu ích. Tuy nhiên, trong
một số ứng dụng độ đo này cũng cho kết quả khá mơ hồ.
2.4.1.3 Độ đo Lift
Độ đo này dùng để đánh giá mối quan hệ giữa X và Y trong luật X → Y. Độ đo
Lift được tính như sau:
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Giá trị của Lift thuộc vào nửa đoạn [0, ∞), các luật kết hợp với Lift > 1 được
xem là hữu ích vì khi đó conf(X → Y) > supp(Y) có nghĩa xác suất của Y thỏa
điều kiện X lớn hơn xác suất của Y không cần thỏa điều kiện nào, nói cách khác,
sự tồn tại của Y phụ thuộc vào sự tồn tại của X. Nếu Lift = 1 thì X và Y độc lập.
2.4.1.4 Độ đo Laplace
Để đảm bảo luật kết hợp phát hiện được từ sự phân bố các mẫu giữa các lớp là
thực sự có ý nghĩa chứ không phải do sự phân bố ngẫu nhiên. Độ đo này được
xem là trường hợp đặc biệt của việc đánh giá xác suất:
Trong đó, N là tổng các bộ dữ liệu và k là số lượng các phân lớp. Giá trị của
Laplace nằm trong [0,1] và giá trị này càng cao thì luật càng hữu ích.
2.4.1.5 Độ chắc chắn
Độ chắc chắn của luật X → Y được định nghĩa như sau:
Độ chắc chắn được xem như là sự thay thế cho độ tin cậy trong trường hợp
không thu được kết quả thỏa đáng từ độ tin cậy, công thức conv khá giống lift
nhưng khác nhau ở đặc điểm hướng của luật (Conv(X → Y) ≠ Conv(Y → X)).
Giá trị của conv thuộc khoảng [0, ∞).
2.4.1.6 Độ đo Leverage
Độ đo Leverage được xem như độ mạnh của luật được định nghĩa:
Leverage dùng để đo khoảng cách xác suất giữa X, Y xuất hiện cùng nhau và
xác suất mà X và Y thỏa điều kiện phụ thuộc. Giá trị của Leverage thuộc khoảng
[-0.25, 0.25].
2.4.1.7 Độ đo Correlation
Correlation là một trong các kỹ thuật thống kê dùng để đo độ mạnh của sự kết
hợp giữa X và Y.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Độ đo này có giá trị trong khoảng [-1,1], Corelation bằng 1 nếu X và Y bao phủ
cùng các trường hợp (có nghĩa là phụ thuộc hoàn toàn vào nhau), bằng -1 nếu X
và Y bao phủ các trường hợp trái ngược nhau và bằng 0 nếu chúng hoàn toàn độc
lập.
2.4.1.8 Độ đo Jaccard
Jaccard dùng để đo độ trùng lắp các trường hợp được bao phủ bởi X và Y. Giá
trị của Jaccard thuộc khoảng [0, 1] và giá trị này càng cao thì càng chứng tỏ X và
Y bao phủ tất cả các trường hợp:
2.4.1.9 Độ đo Cosine
Tương tự như Jaccard, độ đo Cosine cũng có giá trị thuộc [0, 1]:
2.4.1.10Độ đo Odds Ratio
Độ đo thống kê này cũng được dùng để đo sự phụ thuộc giữa X và Y
Giá trị của độ đo này thuộc khoảng [0, ∞), nếu X và Y độc lập thì thứ tự này
bằng 0, ngược lại luật kết hợp X → Y càng mạnh nếu giá trị càng tiến tới giá
trị∞.
2.4.2 Độ đo tầm quan trọng của luật
2.4.2.1 Độ đo RIM
Nếu một luật xuất hiện thường xuyên trong các tập luật phát hiện được từ các
rút gọn, ta nói rằng nó quan trọng hơn các luật ít xuất hiện thường xuyên trong
cùng các tập luật.
Có thể tổng quát hóa công thức về độ đo RIM như sau:
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Trong đó n là số lượng các rút gọn, RIM
i
là tầm quan trọng của luật rule
i
,
ruleset
j
là tập luật thứ j phát sinh từ rút gọn thứ j và RuleSets là các tập luật phát
sinh từ các rút gọn.
Nhận xét về độ đo RIM
Độ đo tầm quan trọng luật đã phân biệt được các luật với nhau bằng cách chỉ ra
luật nào quan trọng hơn luật nào từ tập luật phát hiện được. Càng nhiều các rút
gọn, càng dễ phân biệt được tầm quan trọng của các luật kết hợp.
Các luật có tất cả các thuộc tính vế trái thuộc lõi đều có độ đo RIM = 100%,
điều này hoàn toàn hợp lý vì các thuộc tính lõi là các thuộc tính quan trọng nhất.
Độ đo RIM khá đơn giản và tính toán dễ dàng, cung cấp một cái nhìn rõ ràng
và trực diện về sự quan trọng của một luật kết hợp. Độ đo này thuộc loại độ đo
khách quan.
Hạn chế của độ đo RIM là khi bảng quyết định có số quyết định càng ít thì càng
nhiều luật có độ đo RIM như nhau. Cụ thể như khi chỉ tìm được duy nhất một rút
gọn từ bảng quyết định. Lúc đó, độ đo RIM của tất cả các luật (có giá trị RIM >
0) đều là 100%.
2.4.2.2 Độ đo RAM
Ý tưởng của độ đo này cũng dựa trên tính chất của tập rút gọn trong lý thuyết
tập thô nhằm loại bỏ đi những thông tin dư thừa và giữ lại những thông tin cần
thiết. Cũng giống như trong độ đo RIM, rút gọn được sử dụng trực tiếp trong quá
trình phát sinh luật. Giai đoạn đầu là phát sinh trực tiếp từ dữ liệu gốc, sau đó
tiến hành xây dựng lại bảng quyết định mới tương ứng với tập luật bằng cách
xem mỗi luật phát hiện được như là một thuộc tính điều kiện và thuộc tính quyết
định trong bảng quyết định mới là thuộc tính quyết định trong bảng quyết định
gốc.
Với ý nghĩa của rút gọn trong lý thuyết tập thô, rút gọn là tập các thuộc tính
tiêu biểu thiết yếu có thể mô tả toàn bộ tập dữ liệu. Do đó, rút gọn tìm được từ
bảng quyết định mới sẽ chứa các luật quan trọng thiết yếu nhất của tập luật và ta
nói các luật này là luật rút gọn.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Phần tiếp theo sau, nhóm sẽ trình bày cách xây dựng bảng quyết định mới
2.4.2.3 Xây dựng bảng quyết định mới
Bảng quyết định mới được xây dựng bằng cách xem các luật như là các thuộc
tính điều kiện. Xét bảng quyết định gốc T = (U, C, D) với tập vũ trụ U={u
1
,u
2
,
…,u
m
}, tập các luật phát sinh từ bảng quyết định T ký hiệu RU = {Rule
1
, Rule
2
,
…, Rule
n
}. Dựa trên các luật này, ta xây dựng lại bảng quyết định mới A
mx(n+h)
trong đó, các đối tượng của A là u
1
, u
2
, …, u
m
, các thuộc tính điều kiện của A là
các luật Rule
1
, Rule
2
, …, Rule
n
và h thuộc tính quyết định trong bảng quyết định
gốc.
Ta nói rằng, một luật X→Y có thể áp dụng cho một dòng dữ liệu trong bảng
quyết định nếu X và Y cùng xuất hiện trong dòng dữ liệu này. Với mỗi luật Rule
j
(j ∈[1,…,n]), ta gán A[i, j] = 1 (i∈[1,…,m]) nếu luật Rule
j
có thể áp dụng dòng
dữ liệu u
i
, ngược lại A[i, j] = 0. Đối với thuộc tính quyết định trong bảng quyết
định mới, các giá trị A[i, n+k] (i∈[1,…,m] và k∈[1,…,h]) được gán bằng với giá
trị của thuộc tính quyết định trong bảng dữ liệu gốc. Ta có thể tổng quát hóa như
sau:
Trong đó, i∈[1,…,m], j∈[1, ,n+k] và k∈[1,…,h].
Lõi phát sinh từ bảng quyết định mới là một tập luật lõi (core rule set). Tập luật
lõi chứa các luật lõi (core rule).
Đối với độ đo RAM, bằng cách xem các luật của bảng quyết định gốc như là
các thuộc tính điều kiện để xây dựng bảng quyết định mới, rút gọn phát sinh từ
bảng quyết định mới chứa các thuộc tính tiêu biểu, đó chính là các luật rút gọn –
luật quan trọng của bảng quyết định gốc, trong đó các luật thuộc lõi của bảng
quyết định mới chính là các luật lõi – luật quan trọng nhất.
2.4.2.4 So sánh độ đo RIM và độ đo RAM
Cả hai độ đo đều được ứng dụng để đánh giá luật dựa vào lý thuyết tập thô (cụ
thể là dựa trên các rút gọn và lõi). Cả hai thuộc loại độ đo khách quan.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
Đầu ra của độ đo RIM là tập các luật được sắp xếp theo thứ tự tầm quan trọng
của chúng, mỗi luật có một giá trị RIM cụ thể. Còn đầu ra của độ đo RAM là tập
các luật quan trọng, trong đó có thể có một vài luật là quan trọng nhất (luật lõi),
các luật không có giá trị RAM cụ thể.
Hạn chế của độ đo RAM là khi rút gọn của bảng quyết định mới tìm được gồm
tất cả các thuộc tính điều kiện, có nghĩa là tập luật rút gọn chính là tập luật từ dữ
liệu gốc nên tất cả các luật từ dữ liệu gốc theo độ đo RAM đều quan trọng như
nhau.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
KẾT LUẬN
Lý thuyết tập thô ngày càng được nhiều người quan tâm nghiên cứu, phát triển
về mặt lý thuyết cũng như ứng dụng. Chính vì thế, trong bài thu hoạch này, nhóm
đã tập trung nghiên cứu về lý thuyết này đồng thời vận dụng trong việc tìm luật
kết hợp để khai phá dữ liệu. Bài thu hoạch đã đạt được những kết quả sau:
Trình bày lý thuyết cơ bản về tập thô
Các bước cơ bản trong quá trình khám phá luật dựa trên tập thô
Từ một số cơ sở lý thuyết: khái niệm về mẫu và luật, quá trình phát hiện
mẫu và luật theo tiếp cận tập thô, nhóm đã đưa ra được mối liên hệ giữa
mẫu và luật để từ đó thấy được luật trong bảng quyết định là một trường
hợp đặc biệt của mẫu
Tìm hiểu các phương pháp đánh giá tập luật dựa trên độ đo thông qua tập
thô.
Lĩnh vực khám phá tri thức đã và đang được ứng dụng rỗng rãi tại nhiều nước
công nghiệp tiên tiến và là một trong những nội dung trọng tâm của công nghệ tri
thức. Việc tiếp cận tập thô trong lĩnh vực này có vẻ rất hiệu quả. Vì vậy, hướng
phát triển trong thời gian sắp tới của nhóm như sau:
Tìm hiểu về công cụ hỗ trợ tìm luật kết hợp dựa trên tập thô để từ đó có thể
làm một ứng dụng thực tế.
Tiếp tục tìm hiểu các độ đo khác kết hợp giữa độ đo chủ quan và khách
quan để đưa ra các kỹ thuật đánh giá luật tốt hơn trong ứng dụng cụ thể.
Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm
TÀI LIỆU THAM KHẢO
[1] Phủ tập thô và độ đo đánh giá hiệu năng tập luật quyết định. Tác giả:
Nguyễn Đức Thuần.
[2] Đánh giá luật dựa trên tập thô. Tác giả: Nguyễn Thị Ly Sa.
[3] Ứng dụng lý thuyết tập thô trong khai phá dữ liệu. Tác giả: Nguyễn Văn
Chức.
[4] Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông tin. Tác giả:
Hà Quang Thụy.
[5] Rough sets: A tutorial. Authors: Jan Komorowski, Zdzislaw Pawlak, Lech
Polkowski, Andrzej Skowron.