Tải bản đầy đủ (.pdf) (65 trang)

Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá luật kết hợp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.15 MB, 65 trang )

i

MỤC LỤC
LỜI CẢM ƠN .......................................................................................................... iii
LỜI CAM ĐOAN...................................................................................................... iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ............................................ v
DANH MỤC BẢNG ................................................................................................. vi
DANH MỤC HÌNH VẼ ........................................................................................... vii
MỞ ĐẦU .................................................................................................................... 1
CHƯƠNG 1. KHAI PHÁ TRI THỨC MỜ .............................................................. 6
1.1. Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ ........................... 6
1.1.1. Kiến thức cơ sở về tập mờ ......................................................................... 6
1.1.2. Khai phá tri thức với thông tin mờ ............................................................. 7
1.2. Một số kiến thức cơ bản ĐSGT ...................................................................... 9
1.2.1. Đại số gia tử .............................................................................................. 9
1.2.2. Một số tính chất của đại số gia tử............................................................. 11
1.3. Khai phá tri thức từ CSDL với hệ luật mờ .................................................. 14
1.4. Luật kết hợp mờ ........................................................................................... 17
1.4.1. Một số khái niệm cơ bản .......................................................................... 17
1.4.2. Thuật toán Apriori ................................................................................... 21
1.5. Giải thuật di truyền ...................................................................................... 23
1.5.1. Khái niệm ................................................................................................ 23
1.5.2. Các thành phần cơ bản của giải thuật di truyền ........................................ 23
CHƯƠNG 2. XÁC ĐỊNH CÁC HÀM THUỘC TRÊN MIỀN XÁC ĐỊNH
THUỘC TÍNH MỜ.................................................................................................. 27
2.1. Phương pháp giải bài toán phân chia miền xác định thuộc tính ................ 27
2.1.1. Một số phương pháp phân chia miền mờ ................................................. 27
2.1.2. Phương pháp tiếp cận Đại số gia tử.......................................................... 28


ii



2.2. Phương pháp xác định các hàm thuộc phân chia miền xác định thuộc
tínhmờ dựa trên dữ liệu ...................................................................................... 30
2.2.1. Biểu diễn nhiễm sắc thể ........................................................................... 30
2.2.2. Hàm tối ưu............................................................................................... 32
CHƯƠNG 3. GIẢI BÀI TOÁN KHAI PHÁ LUẬT KẾT HỢP MỜ DỰA TRÊN
PHÂN HOẠCH MỜ TỐI ƯU ................................................................................. 35
3.1. Bài toán khai phá luật kết hợp mờ ............................................................... 35
3.1.1. Rời rạc hóa thuộc tính dựa vào tập mờ ..................................................... 35
3.1.2. Rời rạc hóa thuộc tính mờ ........................................................................ 38
3.1.3. Bài toán khai phá luật kết hợp mờ ............................................................ 40
3.2. Thuật toán và chương trình thử nghiệm ..................................................... 45
3.2.1. Thuật toán khai phá hàm thuộc và luật kết hợp ........................................ 45
3.2.2. Một số kết quả thử nghiệm ...................................................................... 47
KÊT LUẬN .............................................................................................................. 56
TÀI LIỆU THAM KHẢO ....................................................................................... 57


iii

LỜI CẢM ƠN
Xây dựng các hàm thuộc trên miền xác định thuộc tính mờ giải bài toán khai phá
luật kếthợp căn cứ vào ý kiến đánh giá của các chuyên gia theo một số tiêu chí cho
trước là một bài toán thường gặp trong các hoạt động thường xuyên của con người.
Có rất nhiều phương pháp để giải quyết bài toán sắp xếp mờ theo nhiều hướng
tiếp cận khác nhau, mỗi hướng tiếp cận đều có ưu nhược điểm riêng.
Được sự đồng ý của trường Đại học công nghệ thông tin và truyền thồng và Thầy
giáo hướng dẫn em mạnh dạn nhận đề tài: “Xây dựng các hàm thuộc trên miền xác
định thuộc tính mờ giải bài toán khai phá luật kết hợp” làm đề tài luận văn thạc sỹ
của mình.

Sau một thời gian nghiên cứu nghiêm túc được sự hướng dẫn nhiệt tình của Thầy
giáo hướng dẫn, luận văn em đã hoàn thành 3 chương và chương trình thử nghiệm.
Em xin gửi lời cảm ơn sâu sắc tới Ts. Trần Thái Sơn, người đã tận tình hướng
dẫn tôi trong suốt quá trình hoàn thành luận văn.Em cũng xin chân thành cảm ơn gia
đình, bạn bè đã hết sức ủng hộ về vật chất lẫn tinh thần để em hoàn thành luận văn.
Xin chân thành cảm ơn!


iv

LỜI CAM ĐOAN
Tên tôi là: Lê Minh Hiệp
Sinh ngày 19 tháng 07 năm 1987
Học viên cao học lớp: CK13A - Trường Đại học Công nghệ thông tin và Truyền
thông – Đại học Thái Nguyên.
Xin cam đoan: Đề tài “Xây dựng các hàm thuộc trên miền xác định thuộc tính
mờ giải bài toán khai phá luật kết hợp” do Ts.Trần Thái Sơnhướng dẫn là công trình
nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng.
Tôi xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong
đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi xin hoàn toàn chịu trách
nhiệm trước Hội đồng khoa học và trước pháp luật.
Thái Nguyên, ngày.......tháng.......năm 2016
Tác giả luận văn

Lê Minh Hiệp


v

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Các kí hiệu
α

Tổng độ đo tính mờ của các gia tử âm

β

Tổng độ đó tính mờ của các gia tử dương

AX, AT

Đại số gia tử

AX

Đại số gia tử tuyến tính đầy đủ

W

Phần tử trung hòa trong đại số gia tử

Các chữ viết tắt
FB

Fuzzy Base

RB

Rule Base


KB

Knowledge base

MF

Membership Function

CSDL

Cơ sở dữ liệu

KPDL

Khai phá dữ liệu

ĐSGT

Đại số gia tử

ĐLNN

Định lượng ngữ nghĩa

GA

Giải thuật di truyền

MFRBS


Mamdani Fuzzy Rule - Base System


vi

DANH MỤC BẢNG
Bảng 1: Cơ sở dữ liệu giao tác

17

Bảng 2: CSDL thống kế dân số của 10 gia đình

36

Bảng 3: Rời rạc hóa thuộc tính số rời rạc hữu hạn hoặc thuộc tính hạng mục

36

Bảng 4: Rời rạc hóa thuộc tính số "Tuổi"

37

Bảng 5: Bảng các ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ

43

Bảng 6: Cở sở dữ liệu giao dịch gồm 10 bản ghi

48


Bảng 7: Cở sử dữ liệu giao dịch sau khi chuẩn hóa về đoạn [0,1]

48

Bảng 8: Các tham số của ĐSGT được thiết lập dựa vào kinh nghiệm

49

Bảng 9: Các tham số của ĐSGT sau khi thực hiện tối ưu

51

Bảng 10: Số lượng 1-Itemset thu được với tham số sau khi chạy GA

53

Bảng 11: Một số luật thu được khi sử dụng hàm thuộc như trong hình 3.5

55


vii

DANH MỤC HÌNH VẼ
Hình 2.1: Xây dựng hàm thuộc dựa trên giá trị ĐLNN............................................... 29
Hình 2.2: Lược đồ tìm kiếm hàm thuộc và khai phá luật kết hợp mờ ......................... 30
Hình 2.3: Hàm thuộc cho thuộc tính

....................................................................... 31


Hình 2.4: Hàm thuộc cho thuộc tính Milk .................................................................. 31
Hình 2.5: Biểu diễn nhiễm sắc thể cho tập hàm thuộc trong Hình 2.3. ....................... 32
Hình 2.6: Hai hàm thuộc không hợp lý ................................................................ 34
Hình 3.1: Hàm thuộc của các tập mờ "Tuổi_trẻ", "Tuổi_trung_niên", và "Tuổi_già" . 38
Hình 3.2: Hàm thuộc cho thuộc tính Age với α=β=0.5, fm(N)=fm(P)=w=0.5 ............ 49
Hình 3.3: Cấu trúc Gen cho 10 thuộc tính .................................................................. 49
Hình 3.4:Các hàm thuộc với các tham số không tối ưu...............................................51
Hình 3.5: Các hàm thuộc sau khi tối ưu ..................................................................... 53
Hình 3.6: Biểu đồ quan hệ giữa tập lớn 1-itemsets và minimum support .................... 54


1

MỞ ĐẦU
1. Đặt vấn đề
Lĩnh vực nghiên cứu khai phá tri thức nói chung và ứng dụng trong việc giải các
bài toán trích xuất luật kết hợp mờvà xây dựng các hệ luật mờ trong điều khiển nói
riêng đang phát triển mạnh mẽ. Nếu như trước kia các kết quả nghiên cứu dựa trên nền
tảng khoa học cổ điển, lô gic và sự chính xác thì hiện tại, việc nghiên cứu phải dựa
trên những công nghệ mới, mang đặc tính mềm dẻo, có khả năng tương tác với con
người tốt hơn do lĩnh vực khai phá tri thức là lĩnh vực liên quan chặt chẽ đến suy nghĩ,
lập luận của con người. Ta thấy, trong lập luận, con người thường dùng những khái
niệm không được đo đếm chính xác, phổ biến là các từ ngôn ngữ tự nhiên, như “xa”,
“gần”, “giỏi”, “rất khá”.. Nếu muốn mô phỏng lập luận con người, đòi hỏi phải có
những phương pháp mới khác với những phương pháp cổ điển đã có.Khái niệm công
nghệ tính toán mềm ra đời, với tư tưởng đưa ra các nghiên cứu nền tảng và các công
cụ hữu ích giúp chúng ta xử lý một cách mềm dẻo nhiều vấn đề trong khoa học theo
triết lý gần với lập luận của con người. Dựa trên công nghệ tính toán mềm, rất nhiều
các thuật toán đã và tiếp tục được nghiên cứu đề xuất liên quan đến lĩnh vực khai phá
dữ liệu. Để giải quyết vấn đề, việc sử dụng kinh nghiệm của các chuyên gia trong lĩnh

vực quan tâm rõ ràng là không đủ vì các lí do về thời gian, về khả năng biểu diễn tri
thức bản thân dưới dạng dễ cho các chuyên gia khác hiểu, xử lí. Do đó xuất hiện nhu
cầu khai phá tri thức một cách tự động nhờ các thuật toán từ những kho thông tin lớn
hiện có ở khắp nơi. Về tổng thể, bài toán đặt ra là cho trước một Cơ sở dữ liệu (thường
là CSDL số, tức các giá trị của CSDL là các số thực), từ đó, bằng các phương pháp xử
lý nhất định, rút ra một hệ tri thức phản ánh các quy luật ngầm chứa trong CSDL số
này. Các quy luật này có thể biểu diễn dưới dạng luật kết hợp X ->Y, trong đó X,Y là
các tập thuộc tính (không giao nhau) của CSDL thỏa mãn các điều kiện XY xuất hiện
với tần số đủ lớn trong CSDL (tức độ hỗ trợ của luật lớn hơn một ngưỡng xác định để
đảm bảo luật có ý nghĩa) và điều kiện nếu có X (tức giá trị CSDL ở hàng nào đó thuộc


2

về X) thì trên hàng đó cũng có Y sẽ sảy ra với tần suất đủ cao (có độ tin cậy vượt
ngưỡng) ví dụ luật “Nếu Sinh viên A chăm chỉ và khỏe mạnh và có tư duy khá Thì kết
quả học tập sẽ rất khá”. Hoặc tri thức có thể biểu diễn dưới dạng mộthệ luật dạng IF X
is A and Y is B THEN Z is C, trong đó X, Y, Z là các biến mờ (thường là các biến
ngôn ngữ), A, B, C là các giá trị biến ngôn ngữ (thường là các tập mờ).
Thí dụ luật IF đường là xa và tốc độ di chuyển là trung bình THEN thời gian đến
đích sẽ là lâu.
Để có thể sinh ra những luật như vậy, đầu tiên ta phải chuyển hóa miền giá trị
của các thuộc tính định tính “khoảng cách”, “tốc độ”, “thời gian” thành các miền mờ,
hay nói cách khác là chia miền giá trị đó thành các miền mờ bằng cách xác định các
hàm thuộc (MF - Mebership Function) trên đó. Chẳng hạn, có thể chia miền giá trị
thuộc tính độ dài (có các giá trị min, max tương ứng chẳng hạn là 0km, 200km) thành
các miền mờ “gần”, “trung bình”, “xa”. Trong lý thuyết tập mờ, mỗi miền mờ như vậy
được coi là một tập mờ và ứng với một hàm thuộc nhằm xác định độ “thuộc” của giá
trị biến vào tập mờ đã cho. Khi đó, một giá trị của một thuộc tính CSDL sẽ ứng với
một tập các giá trị của các hàm thuộc ứng với với các tập mờ của thuộc tính đó và ta sẽ

xử lý tập giá trị độ thuộc này thay cho xử lý bản thân giá trị đó của CSDL. Và từ
CSDL ban đầu với nhiều giá trị số, ta nhận được một CSDL mờ (FB - Fuzzy Dase) để
tiến hành xây dựng các luật quan tâm. Hệ luật nhận được gọi là RB (Rule Base). Kết
hợp FB và RB cho ta Hệ tri thức (KB – Knowledge Base).
Các thuật toán trích rút các luật mờ hay hệ luật mờ gần đây thông thường phát
triển trên các giải thuật di truyền (GA - Genetic Algorithm) hay khái quát hơn là các
giải thuật tiến hóa (EA - Evolutionary Alg) vì chúng phù hợp với tính tối ưu đa mục
tiêu của bài toán đặt ra là phải đưa ra những hệ luật mờ vừa có độ chính xác cao vừa
đơn giản ở mức người sử dụng có thể chấp nhận được (ít luật và ít số thuộc tính tham
gia vào trong mỗi luật).
Một điểm chung giữa các loại thuật toán là trước tiên đều phải có bước tạo ra FB.
Giai đoạn trước của nghiên cứu, thường người ta ít để ý đến việc tạo ra một FB tốt một
cách có cơ sở, mặc nhiên công nhận đã có FB được sinh ra theo một cách nào đó rồi và


3

chỉ quan tâm đến việc xây dựng các thuật toán sinh RB. Gần đây, người ta nhận thấy,
xây dựng FB tốt sẽ là cơ sở để có những thuật toán tốt ở bước sau, bước xây dựng RB.
Thí dụ, miền xác định của thuộc tính tuổi là [0,120], nếu cứ máy móc chia làm 3
miền đều nhau ứng với 3 tập mờ “trẻ”, “trung niên” và “già” thì rõ ràng tập mờ “già”
chẳng hạn sẽ ứng với những người ở khoảng tuổi [80,120], trong khi nếu ta khai phá
dữ liệu tập nhân sự của cơ quan nào đó, khái niệm “già” thuộc về những người ít tuổi
hơn nhiều (trong khoảng 55 đến tuổi về hưu).
Vì vậy, việc xây dựng các tập mờ trên miền xác định của thuộc tính về cơ bản
phụ thuộc vào bài toán cụ thể, dữ liệu cụ thể. Đã có những nghiên cứu sâu hơn về vấn
đề này và đã xuất hiện các thuật toán khá lý thú xây dựng FB mà cốt lõi là tiến hành
phân chia miền giá trị thuộc tính thành các miền mờ. Có thể liệt kê các nhóm thuật
toán chính như sau:
1. Phân chia một cách ngẫu nhiên: Trong phương pháp này, ta chọn một số cố

định các miền cần chia (thông thường lấy số 3, tức phân làm 3 miền mờ) và chia thuộc
tính thành các vùng đều nhau. Phương pháp này đơn giản và có lẽ là tốt khi ta không
có thông tin nào khác, nhưng hiển nhiên là không đáp ứng tính đa dạng của dữ
liệu.([7])
2. Phân chia theo dữ liệu (data driven):
- Phân chia theo phương pháp phân cụm (học không mẫu): Trong phương pháp
này, dữ liệu được phân thành cụm căn cứ vào độ gần gũi theo một tiêu chuẩn nào đó
giữa chúng. Thuật toán biết đến nhiều trong hướng phân cụm (clustering – học không
mẫu) là k - mean. Cũng thông thường, số cụm có thể chọn cố định trước, có thể là 3.
Chỉ khác phương pháp trước là ta không chia đều miền xác định của thuộc tính mà căn
cứ vào phân bố cụ thể của số liệu. Phương pháp này tính đến sự đa dạng của việc phân
bố dữ liệu nhưng đòi hỏi phải tiến hành chạy các thuật toán tốn nhiều thời gian.
- Phân chia theo các tiêu chuẩn thống kê: ở đây dữ liệu được phân miền theo
các tiêu chuẩn thống kê như student s - test, χ2. Phương pháp loại này tính toán thường


4

đơn giản hơn dùng các giải thuật di truyền nhưng phụ thuộc vào dữ liệu có được liệu
có đủ lớn và phân bố tốt hay không.([8])
3. Phân chia theo phương pháp ràng buộc động: Trong phương pháp này, dữ
liệu được phân chia thành các miền mờ theo các ràng buộc trên các hàm thuộc để đảm
bảo một số tiêu chí cho trước. Các MF có thể thay đổi hình dạng, vị trí. Theo ([9]), các
tiêu chí đó có thể là: số lượng các (hàm thuộc) MF mỗi biến là vừa phải, độ chồng lấn
của các MF là ít, miền giá trị được phủ hoàn toàn bởi các miền mờ tương ứng...
Hiện nay, các nghiên cứu liên quan đến xây dựng FB chủ yếu dùng cách tiếp cận
lý thuyết tập mờ của L.Zadeh. Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một
cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ
điển. Tuy vậy, vẫn còn nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào
cho hợp lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợpvà cách xử lý

các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng vì khi chạy các thuật
toán GA, các hàm thuộc này có thể biến đổi theo hướng không mong muốn... Các
nghiên cứu về sử dụng lý thuyết tập thô, lý thuyết khả năng để xây dựng FB... còn ít
được quan tâm. Cách tiếp cận Đại số gia tử cũng bắt đầu những bước nghiên cứu đầu
tiên. Như vậy còn rất nhiều nỗ lực cần có để nghiên cứu sâu hơn về bản chất của việc
phân chia miền mờ, gắn việc phân chia này với ngữ nghĩa các nhãn ngôn ngữ để có thể
xây dựng được các FB tốt dẫn đến có một KB tốt phục vụ các bài toán khai phá tri
thức, sử dụng các công cụ khác nhau của công nghệ tính toán mềm.
Với những nhận xét nêu trên, luận văn dự kiến nghiên cứu về việc xây dựng FB
tối ưu (theo một số tiêu chuẩn định trước) từ một CSDL cho trước theo hướng tiếp cận
dựa trên dữ liệu (data driven - mục 2 nêu trên), sử dụng các công cụ mới nhất của công
nghệ tính toán mềm và trên cơ sở FB tối ưu này tiến hành khai phá thử nghiệm các luật
kết hợp từ một CSDL cho trước.
Được sự đồng ý của trường Đại học Công nghệ thông tin và Truyền thông với sự
hướng dẫn của Thầy giáo em thực hiện đề tài: “Xây dựng các hàm thuộc trên miền
xác định thuộc tính mờ giải bài toán khai phá luật kết hợp”làm đề tài luận văn của
mình.


5

2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là cơ sở dữ liệu đầu vào dùng để khai phá dữ
liệu. Các công cụ công nghệ tính toán mềm, đặc biệt là lý thuyết tập mờ và đại số gia
tử (ĐSGT) cũng được nghiên cứu như là công cụ để giải bài toán đặt ra.
3. Hướng nghiên cứu của đề tài
Luận văn nghiên cứu các phương pháp giải bài toán phân lớp miền xác định
thuộc tính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các
phương phápđã có vànghiên cứu cách giải bài toán theo cách tiếp cận của lý thuyết tập
mờ và ĐSGT, sử dụng giá trị định lượng ngữ nghĩa của các giá trị biến ngôn ngữ, phân

chia miền thuộc tính tiến hành khai phá dữ liệu


6

CHƯƠNG 1. KHAI PHÁ TRI THỨC MỜ
Để có thể theo dõi nội dung luận văn một cách có hệ thống, chúng tôi xin trình
bày vắn tắt các khái niệm cơ bản của lý thuyết tập mờ và Đại số gia tử (ĐSGT) trong
các mục sau.
1.1. Khai phá tri thức theo cách tiếp cận của lý thuyết tập mờ
1.1.1. Kiến thức cơ sở về tập mờ
Lý thuyết tập mờ lần đầu tiên được Lofti A.Zadeh, một giáo sư thuộc trường Đại
học Caliornia, Berkley giới thiệu trong một công trình nghiên cứu vào năm 1965 và
sau đó liên tục phát triển mạnh mẽ.
Năm 1970, tại trường đại học Mary Queen, thành phố London - Anh, Ebrahim
Mamdani đã sử dụng logic mờ để điều khiển một máy hơi nước màông không thể điều
khiển bằng kỹ thuật cổ điển.
Tại Nhật, logic mờ được ứng dụng vào nhàmáy xử lý nước của hãng Fuji
Electronic vào năm 1983, hệ thống xe điện ngầm của Hitachi năm 1987. Tuy logic mờ
ra đới ở Mỹ, ứng dụng lần đầu ở Anh, nhưng nó lại được phát triển và ứng dụng nhiều
nhất ở Nhật.
Định nghĩa 1.1: Cho không gian nền U, tập A  U được gọi là tập mờ nếu A
được xác định bởi hàmµA(x): X→ [0,1]
 A được gọi là hàm thuộc, hàm liên thuộc hay hàm thành viên (membership

function). Với x X thì  A (x) được gọi là mức độ thuộc của x vào A.
Trọng tâm của lý thuyết tập mờ là việc đề xuất khái niệm tập mờ (fuzzy sets). Về
mặt toán học, một tập mờ A là một hàm số (gọi là hàm thuộc (membership function))
xác định trên khoảng giá trị số mà đối số x có thể chấp nhận (gọi là tập vũ trụ
(universe of discourse)) X cho bởi:



7

A

(x): X→ [0,1]Trong đó, A là nhãn mờ của biến X, thường mang một ý

nghĩa ngôn ngữ nào đó, mô tả định tính thuộc tính của đối tượng, chẳng hạn như cao,
thấp, nóng, lạnh, sáng, tối,...

A

được gọi là hàm thuộc, hàm liên thuộc hay hàm thành viên (membership

function)

 A (x) được gọi là mức độ thuộc của x vào A.

Với x  X thì

Như vậy ta có thể coi tập rõ là một trường hợp đặc biệt của tập mờ, trong đó hàm
thuộc chỉ nhận 2 giá trị 0 và 1.
Ký hiệu tập mờ, ta có các dạng ký hiệu sau:
-

Liệt kê phần tử: giả sử U={a,b,c,d} ta có thể xác định một tập mờ

A


0 .1 0 .3 0 .2 0



a
b
c
d

-

A

x ,  A ( x )  | x  U 

-

A 





A

xU

-

A 






A

(x)
trong trường hợp U là không gian rời rạc
x

( x ) / x trong trường hợp U là không gian liên tục

U

Lưu ý: Các ký hiệu







không phải là các phép tính tổng hay tích phân, mà

chỉ là ký hiệu biểu thị tập hợp mờ.
Ví dụ: Tập mờ A là tập “số gần 2” xác định bởi hàm thuộc

thể ký hiệu:




2



A  x,( x  2) | x  U



A  e( x2)



hoặc A =

  ( x  2)

2



1.1.2. Khai phá tri thức với thông tin mờ
Các hướng tiếp cận và các kỹ thuật chính trong khai phá dữ liệu

/x

2

ta có



8

Các hướng tiếp cận của KPDL có thể được phân chia theo chức năng hay lớp các
bài toán khác nhau. Sau đây là một số hướng tiếp cận chính:
- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một
trong những lớp đã biết trước.
Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này thường sử
dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng
nơ ron nhân tạo (neural network),... Phân lớp còn được gọi là học có giám sát (học có
thầy – supervised learning).
- Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn
giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% - 13 - trong số họ
sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh
doanh, y học, tin - sinh, tài chính & thị trường chứng khoán,.v.v.
- Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương tự như
khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này
được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính
dự báo cao.
- Phân cụm (clustering/segmentation): xếp các đối tượng theo từng cụm (số
lượng cũng như tên của cụm chưa được biết trước. Phân cụm còn được gọi là học
không giám sát (học không có thầy – unsupervised learning).
- Mô tả khái niệm (concept description & summarization): thiên về mô tả, tổng
hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản,...
Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ
liệu khác nhau. Sau đây là một số kiểu dữ liệu điển hình.
- CSDL quan hệ (relational databases)
- CSDL đa chiều (multidimensional structures, data warehouses)

- CSDL dạng giao dịch (transactional databases)


9

- CSDL quan hệ - hướng đối tượng (object - relational databases)
- Dữ liệu không gian và thời gian (spatial and temporal data)
- Dữ liệu chuỗi thời gian (time - series data)
- CSDL đa phương tiện (multimedia databases) như âm thanh (audio), hình ảnh
(image), phim ảnh (video),.v.v.
- Dữ liệu Text và Web (text database & www)
1.2. Một số kiến thức cơ bản ĐSGT
Để xây dựng phương pháp luận tính toán nhằm giải quyết vấn đề mô phỏng các
quá trình tư duy, suy luận của con người chúng ta phải thiết lập ánh xạ: gán mỗi khái
niệm mờ một tập mờ trong không gian tất cả các hàm F(U, [0, 1]).Nghĩa là ta mượn
cấu trúc tính toán rất phong phú của tập để mô phỏng phương pháp lập luận của con
người thường vẫn được thực hiện trên nền ngôn ngữ tự nhiên.
Vậy một vấn đề đặt ra là liệu bản thân ngôn ngữ có cấu trúc tính toán không?
Nếu có thì các phương pháp lập luận xây dựng trên đó đem lại những lợi ích gì?
Thông qua lý thuyết về đại số gia tử ta có thể thấy rằng tập các giá trị của một biến
ngôn ngữ (biến mà giá trị của nó được lấy trong miền ngôn ngữ) là một cấu trúc đại số
đủ mạnh để tính toán.
Lý thuyết đại số gia tử đã cố gắng nhúng tập ngôn ngữ vào một cấu trúc đại số
thích hợp và tìm cách xem chúng như là một đại số để tiên đề hóa sao cho cấu trúc thu
được mô phỏng tốt ngữ nghĩa ngôn ngữ.
1.2.1. Đại số gia tử
Xét một tập giá trị ngôn ngữ là miền của biến ngôn ngữ (linguistic domain) của
biến chân lý TRUTH gồm các từ sau:
T = dom(TRUTH) = {true, false, very true, very false, more true, more false,
approximately true, approximately false, little true, little false, less true, less false, very

more true, very more false, very possible true, very possible false, very more true, very
more false, …}


10

Khi đó miền ngôn ngữ T = dom (TRUTH) có thể biểu thị như là một cấu trúc đại
số AT = (T, G, H, ≤), trong đó:
- T: Là tập cơ sở của AT.
- G: Là tập các từ nguyên thủy (tập các phần tử sinh: true, false).
- H: Là tập các toán tử một ngôi, gọi là các gia tử (các trạng từ nhấn).
- ≤: Là biểu thị quan hệ thứ tự trên các từ (các khái niệm mờ), nó được “cảm
sinh” từ ngữ nghĩa tự nhiên. Ví dụ: dựa trên ngữ nghĩa, các quan hệ thứ tự sau là đúng:
false≤ true, more true ≤ very true, very false ≤ more false, possible true ≤ true, false ≤
possible false, …
Ta luôn giả thiết rằng các gia tử trong H là các toán tử thứ tự, nghĩa là (∀h ∈ H,
h: T → T), (∀x ∈ T) {hx ≤ x hoặc hx ≥ x}. Hai gia tử h, k ∈ H được gọi là ngược nhau
nếu (∀x ∈ T) {hx ≤ x khi và chỉ khi kx ≥ x} và chúng được gọi là tương thích nhau nếu
(∀x ∈ T) {hx ≤ x khi và chỉ khi kx ≤ x}.
Ta ký hiệu h ≥ k nếu h, k tương thích nhau và (∀x ∈ T) {hx ≤ kx ≤ x hoặc hx ≥
kx ≥ x}.
Ngoài ra, tập H còn có thể được phân hoạch thành hai tập H+ và H - với các gia
tử trong tập H+ hay H - là tương thích nhau, mỗi phần tử trong H+ cũng ngược với bất
kỳ phần tử nào trong H - và ngược lại.
Giả sử trong tập H+ có phần tử V (ngầm định là very – rất) và trong tập H - có
phần tử L (ngầm định là less – ít) là phần tử lớn nhất thì phần tử sinh g ∈ G là dương
nếu g ≤ Vg và là âm nếu g ≥ Vg (hoặc g ∈ G là âm nếu g ≥ Lg và là âm nếu g ≤ Lg).
Một gia tử h dương (hoặc âm) đối với một gia tử k nếu (∀x ∈ T) {hkx ≤ kx ≤ x
hoặc hkx ≥ kx ≥ x} (hoặc (∀x ∈ T) { kx ≤ hkx ≤ x hoặc kx ≥ hkx ≥ x}).
T được sinh ra từ G bởi các gia tử trong H. Như vậy mỗi phần tử của T sẽ có

dạng biểu diễn là x = h h

n n-1

h…h u, u ∈ G.
1

Tập tất cả các phần tử được sinh ra từ phần tử x có dạng biểu diễn là H(x).


11

Nếu G chỉ có đúng 2 từ nguyên thủy mờ, thì một được gọi là phần tử sinh dương
ký hiệu là t, một được gọi là phần tử sinh âm ký hiệu là f và ta có f < t (Trong ví dụ
trên, t tương ứng với true là dương, còn f tương ứng với false là âm).
1.2.2. Một số tính chất của đại số gia tử
Một cấu trúc đại số AT = (T, G, H, ≤) với H được phân hoạch thành H+ và H các gia tử ngược nhau được gọi là một đại số gia tử nếu nó thỏa mãn các tiên đề sau:
(1) Mỗi gia tử hoặc là dương hoặc là âm đối với bất kỳ một gia tử nào khác, kể cả
với chính nó.
(2) Nếu hai khái niệm u và v là độc lập nhau, nghĩa là u H(v) và v H(u), thì
(∀x∈H(u)) {x H(v)}. Ngoài ra nếu u và v là không sánh được thì bất kỳ x∈H(u) cũng
không sánh được với bất kỳ y∈H(v). (H(u) là tập các giá trị được sinh ra do tác động
của các gia tử của H vào u).
(3) Nếu x ≠ hx thì x H(hx) và nếu h ≠ k và hx ≤ kx thì h’hx ≤ k’kx, với mọi gia
tử h, k, h’ và k’. Hơn nữa nếu hx ≠ kx thì hx và kx là độc lập.
(4) Nếu u H(v) và u ≤ v (hoặc u ≥ v) thì u ≤ hv (hoặc u ≥ hv) đối với mọi gia tử
h.
Xét đại số gia tử AT có đúng 3 phần tử sinh: dương, âm và một phần tử trung hòa
w nằm giữa hai phần tử sinh kia và có tính chất hw = w, với mọi h∈H. Một phần tử y
được gọi là phần tử đối nghịch của phần tử x nếu có tồn tại một biểu diễn của x có

dạng x = h …h g, w ≠ g
n

1

G, sao cho y = h …h g’, với w ≠ g’∈G và g’ ≠ g (nói cách
n

1

khác: hai phần tử của đại số gia tử được gọi là đối nghịch nhau nếu chúng có dạng
biểu diễn với cùng một dãy các gia tử nhưng phần tử sinh của chúng khác nhau, một
cái là dương và một cái là âm).
Đặc biệt phần đối nghịch của w được định nghĩa chính là w. Phần tử đối nghịch
của x được ký hiệu là –x với chỉ số nếu cần thiết. Nhìn chung một phần tử có thể có
nhiều phần tử đối nghịch.


12

Nếu mỗi phần tử của T chỉ có duy nhất một phần tử đối nghịch thì AT được gọi
là đại số gia tử đối xứng.
Định lý sau cho thấy tính thứ tự ngữ nghĩa của các hạng từ trong ĐSGT.
Định lý 1: Cho tập H - và H+ là các tập sắp thứ tự tuyến tính của ĐSGT AX = (X,
G, H, ). Khi đó ta có các khẳng định sau:
(1) Với mỗi uX thì H(u) là tập sắp thứ tự tuyến tính.
(2) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X
cũng là tập sắp thứ tự tuyến tính. Hơn nữa nếu uuH(v) và vH(u), thì H(u) H(v).
Định lý tiếp theo xem xét sự so sánh của hai hạng từ trong miền ngôn ngữ của

biến X.
Định lý 2: Cho x = hn…h1u và y = km…k1u là hai biểu diễn chính tắc của x và y
đối với u. Khi đó tồn tại chỉ số j ≤ min{n, m} + 1 sao cho hj' = kj' với mọi j'nếu j = min {n, m} + 1 thì hoặc hj là toán tử đơn vị I, hj = I, j = n + 1 ≤ m hoặc kj = I, j
= m + 1 ≤ n) và
(1) x(2) x = y khi và chỉ khi m = n và hjxj = kjxj.
(3) x và y là không so sánh được với nhau khi và chỉ khi hjxj và kjxj là không so
sánh được với nhau.
Định lý 3: Một đại số gia tử AT là đối xứng nếu với mọi x, x là điểm dừng khi và
chỉ khi –x cũng là điểm dừng.
Định lý trên chứng tỏ rằng đại số gia tử đối xứng, dù chỉ dựa trên các tính chất tự
nhiên của khái niệm ngôn ngữ cũng có những tính chất rất quan trọng và đủ phong phú
để xây dựng và phát triển một cơ sở logic cho lập luận xấp xỉ. Rõ ràng nó sẽ là một
logic không kinh điển (non - classical logic). Ngoài ra có thể thấy rằng tập G là đại số
gia tử đối xứng con của AT và nó thỏa mãn các tính chất của đại số cho logic 3 - trị.


13

Với những lý do đó có thể xem mỗi một đại số gia tử đối xứng là một cơ sở đại số cho
một logic các giá trị ngôn ngữ. Định lý tiếp theo nói về mối quan hệ với miền [0, 1].
Định lý 4: Nếu tập các toán tử (gia tử) H+ và H - có quan hệ thứ tự sắp xếp tuyến
từ đại số gia tử đối xứng AT = (T, G, H, -,∪, ∩, ⇒,

tính thì có tồn tại một đẳng cấu

≤) vào cấu trúc logic đa trị tựa trên đoạn [0, 1] sao cho:
(1) Bảo toàn quan hệ thứ tự.
(2) (u ∪ v) = max{

(3)

(u),

(u ⇒ v) = max{1 -

(u ∪ v)} = min{
(u),

(v)} và

(u),

( - u) = 1 -

(v)}.
(u). Cần lưu ý rằng cấu

trúc logic đa trị tựa trên đoạn [0, 1] là cơ sở để xây dựng và phát triển logic mờ và lập
luận mờ. Vì vậy sự “tương đồng” dựa trên định lý trên chứng tỏ thêm giá trị của cách
tiếp cận đại số này.
Các kết quả mở rộng đối với các toán tử sup, inf, gọi là đại số gia tử mở rộng đối
xứng, đồng thời mịn hoá đại số gia tử, đưa thêm các toán tử hoặc, và liên kết các gia
tử tạo thành các gia tử mới. Nhưng vấn đề tiếp tục này được quan tâm ở đây là trong
các ví dụ trên thường đề cập đến biến chân lý, có miền giá trị được sắp xếp thứ tự khá
rõ, trong khi với các khái niệm ngôn ngữ mà con người tiếp xúc hàng ngày thì không
được như vậy. Hoặc bản thân một số gia tử như có thể, ít nhiều, xấp xỉ cũng không
sánh được với nhau, trong khi suy luận rất cần sự sắp xếp đó.
Như trong phần mở đầu của luận văn đã nêu, bài toán khai phá dữ liệu có thể
chia làm 2 phần cơ bản: phần phân chia để xác định các tập mờ trên miền xác định của

các thuộc tính, trên cơ sở đó, tiến hành phần sau là giải bài toán đặt ra. Để dễ hình
dung, phần tiếp theo chúng tôi xin trình bày 2 trong số các bài toán thường gặp và
được tập trung nghiên cứu nhiều trong thời gian gần đây: bài toán xây dựng hệ luật mờ
(Mamdani) MFRBS dùng cho phân loại tự động, hồi quy và bài toán trích xuất luật kết
hợp. Trong cả hai bài toán, chúng tôi trình bày cả 2 công đoạn cơ bản đã nêu để thấy
rõ thêm sự cần thiết của cả 2 công đoạn dẫn đến sự cần thiết của các giải thuật tối ưu
các hàm thuộc (MF) phân chia miền xác định thuộc tính.


14

1.3. Khai phá tri thức từ CSDL với hệ luật mờ
Hệ luật mờ Mamdani (MFRBS - Mamdani Fuzzy Rule - Base System) bao gồm
M luật có dạng
Rm: IF X1 is

,

,

AND …AND XF is

,

,

THEN XF+1 is

,


,

(1)

m = 1,..., M
Ở đó X = {X1,..., Xf,..., XF} là tập các biến ngôn ngữ đầu vào và XF+1 là biến đầu
ra. Giả sử Uf, với f = 1,..., F+1 là miền xác định của biến thứ f. Giả sử Pf=
{

,

,…,

,

} là một phân hoạch mờ của Tf tập mờ trên biến Xf.

MFRBS có đặc điểm khác các mô hình khác là các biến đầu vào và ra đều là mờ
dưới dạng từ của ngôn ngữ tự nhiên. Đặc điểm này mang lại tính “thân thiện” với con
người vì suy luận trên các từ của ngôn ngữ tự nhiên là đặc điểm của con người.Các
luật cũng được biểu diễn dưới dạng quen thuộc với suy nghĩ và lập luận của con
người. Hiện tại MFRBS được nghiên cứu sử dụng rộng rãi trong nghiên cứu ở các lĩnh
vực điều khiển tự động, khai phá dữ liệu... Bài toán hồi quy mờ sử dụng MFRBS
thường được giải quyết cơ bản theo các bước như sau.
1) Xác định một phân hoạch biến đầu vào Xfthành Tftập mờ

,

. Ví dụ biến ngôn


ngữ “Tuổi” có thể được phân thành 4 tập mờ “trẻ”, “khá trẻ”, “trung niên” và “già”.
2) Xác định các hàm thuộc tương ứng với các tập mờ nói trên.
3) Chuyển đổi số liệu từ CSDL mẫu thành các giá trị biến ngôn ngữ tương ứng.
Ví dụ căn cứ vào các hàm thuộc đã xác định, tuổi 27 có thể chuyển đổi thành “khá trẻ”
với độ thuộc 0,8.
4) Từ dữ liệu chuyển đổi xác định một tập luật ban đầu, mỗi luật có dạng (1).
5) Tiến hành rút gọn tập luật theo các quy tắc heuristic để có được tập luật cuối
cùng, đảm bảo tính đơn giản nhưng có độ chính xác tốt. Thí dụ nếu 2 luật gần giống
nhau (theo các tiêu chuẩn nào đó) thì có thể gộp lại. Hoặc các thuộc tính ít ảnh hưởng
(cũng theo tiêu chuẩn đánh giá nào đó) có thẻ loại bỏ khỏi luật...
6) Trên cơ sở hệ (1), với một giá trị đầu vào, có thể nội suy ra giá trị đầu ra tương
ứng sử dụng mạng nơron và giải thuật di truyền.


15

Hiện nay, các thuật toán liên quan đến việc giải bài toán hồi quy mờ dựa trên
MFRBS được liên tục nghiên cứu phát triển, chủ yếu để cải thiện thời gian tính toán
trên cơ sở vẫn đảm bảo sai số thấp với những CSDL cỡ rất lớn. Thuật toán được nhắc
đến nhiều nhất là thuật toán tiến hóa đa mục tiêu (MOEM: multi - objective
evolutionary method), kết hợp đồng thời việc phân hoạch tối ưu các tập mờ và sinh hệ
luật trên các tập mẫu rút gọn (theo các tiêu chí khác nhau), giảm được khối lượng tính
toán đáng kể trong khi vẫn đảm bảo sai số mô hình không cao. (xem [9][10])
Như đã thấy, có rất nhiều các thuật toán trích xuất hệ luật mờ Mamdani được đề
xuất. Các thuật toán này khá đa dạng, nhưng về cơ bản đều bao gồm 2 khối xử lý
chính như sau:
a) Khối xử lý CSDL ban đầu, chuyển CSDL (thường là dạng số) thành CSDL
(DB) có các giá trị là các từ ngôn ngữ bằng cách phân chia miền xác định của thuộc
tính thành các miền mờ. DB này là một thành phần của Cơ sở tri thức (KB –
Knowledge Base) cần xây dựng.

b) Khối xây dựng hệ luật mờ (RB –Rule Base) Mamdani dựa trên DB hiện có.
Thực chất kết quả cho ra không chỉ là một hệ luật mờ mà là cả một tập các hệ luật mờ
là xấp xỉ một Pareto Front. Một lời giải xX được gọi trội hơn (dominate) lời giải yX
(tức là x tốt hơn y), ký hiệu x  y, nếu:
i, fi(y) fi(x) và j, fj(y) Nếu không có bất kỳ một lời giải y trội hơn x thì ta gọi x là một lời giải tối ưu
Pareto của bài toán (1). Tập tất cả các lời giải như vậy gọi là tập tối ưu Pareto, ký hiệu
Sp. Tập ảnh của lời giải tối ưu Pareto trên không gian mục tiêu được gọi là mặt Pareto
(frontier). Tương tự, đối với một tập lời giải S X nếu không có bất kỳ lời giải yS
trội hơn x thì x được gọi là một lời giải không bị chiếm ưu thế bởi tập S đó, ta cũng ký
hiệu x  S (tức x tốt hơn tập S).
Một lời giải tối ưu Pareto x không thể nói tốt hơn một lời giải Pareto, do đó
chúng ta càng tìm ra nhiều lời giải tối ưu Pareto cho bài toán càng tốt. Các phương
pháp tối ưu cổ điển thực hiện chuyển bài toán đa mục tiêu về một mục tiêu bằng việc


16

tập trung vào một mục tiêu tại một thời điểm và phải thực hiện nhiều lần phương pháp
này để tìm tập các lời giải. Các phương pháp tối ưu mới nhất có xu hướng giải quyết
bài toán tối ưu đa mục tiêu trong cùng một vòng lặp.
Trên 2 khối xử lý chính đó, có thể liệt kê một số kiểu thuật toán cơ bản như sau:
- Thuật toán xử lý 2 bước riêng rẽ: tạo DB (tối ưu hoặc không) cố định trước, sau
đó xây dựng RB. Có thể xem [8], ở đó tác giả cố định DB trên cơ sở chọn các MF có
hình dạng đồng nhất (là tam giác cân) và phân bố đều trên miền xác định; hoặc [7], ở
đó các MF có thể thay đổi chút ít nhằm tới một DB tương đối tốt cho việc xây dựng
RB tiếp theo
- Thuật toán kiểu xử lý 2 bước trong một vòng lặp: tạo DB xong dùng DB đó xây
dựng RB. Bước tiếp theo là kiểm tra độ phù hợp (fitness) của hàm mục tiêu, nếu chưa
đạt lại quay lại chọn DB mới và xây dựng RB... Các thuật toán kiểu này đều dựa trên

lõi là giải thuật đồng tiến hóa (coevolutionary approach) (xem [9][10])
Có thể nhận xét chung về các thuật toán này như sau:
- Những thuật toán xử lý 2 bước đơn giản hơn nhưng thường cho ra những RB
kém tốt hơn do 2 bước tối ưu xử lý riêng rẽ và không có đảm bảo là DB tối ưu ở bước
trước sẽ là DB tối ưu cho cả bước sau:
- Hiện nay, xu hướng là xây dựng các thuật toán đồng tiến hóa. Tuy nhiên các
thuật toán này đòi hỏi khối lượng tính toán và bộ nhớ rất lớn. Do đó, gần đây xuất hiện
các thuật toán làm việc với các DB rút gọn, dùng để kiểm tra độ phù hợp ([9]) hoặc để
sinh luật ([10]). Các thuật toán này đã giảm được đáng kể khối lượng tính toán trong
khi vẫn giữ được hiệu năng khi sinh RB.
- Các thuật toán đã liệt kê đều dựa trên cách tiếp cận tập mờ và do đó đều gặp ít
nhiều khó khăn khi xây dựng MF ban đầu để vừa đảm bảo sự phù hợp ngữ nghĩa, vừa
đơn giản trong xử lý. Thông thường, các thuật toán đã liệt kê đều đưa ra các ngưỡng
bắt buộc để giới hạn số luật có trong RB và số thuộc tính tham gia trong mỗi luật.


17

1.4. Luật kết hợpmờ
1.4.1. Một số khái niệm cơ bản
Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR)
là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu.
Bài toán giỏ mua hàng trong siêu thị: Giả định chúng ta có rất nhiều mặt hàng,
ví dụ như "bánh mì", "sữa",…(coi là tính chất hoặc trường). Khách hàng khi đi siêu thị
sẽ bỏ vào giỏ mua hàng của họ một số mặt hàng nào đó, và chúng ta muốn tìm hiểu
các khách hàng thường mua các mặt hàng nào đồng thời, thậm chí chúng ta không
cần biết khách hàng cụ thể là ai. Nhà quản lý dùng những thông tin này để điều chỉnh
việc nhập hàng về siêu thị, hay đơn giản là để bố trí sắp xếp các mặt hàng gần nhau,
hoặc bán các mặt hàng đó theo một gói hàng, giúp cho khắc đỡ mất công tìm kiếm.
Bảng 1: Cơ sở dữ liệu giao tác

Giao tác

Mục dữ liệu

t1

A, B, E

t2

B, D

t3

B, C

t4

A, B, D

t5

A, C

t6

B, C

t7


A, C

t8

A, B, C, E

t9

A, B, C, G

Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiện những sự kiện xuất hiện thường xuyên một các đồng thời. Nhiệm vụ chính
của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một
khối lượng giao dịch lớn của một cơ sở dữ liệu cho trước. Nói cách khác,
thuật toán khai phá luật kết hợp cho phép tạo ra các luật mô tả các sự kiện xảy
ra đồng thời (một cách thường xuyên) như thế nào. Các thuật toán này trải
qua 2 pha: pha một: Đi tìm các sự kiện xảy ra thường xuyên, pha hai là tìm luật.


18

Cho I= {I1, I2,.., Im} là tập hợp của m tính chất riêng biệt. Giả sử D là
CSDL, với các bản ghi chứa một tập con T các tính chất (có thể coi như T  I), các
bản ghi đều có chỉ số riêng. Một luật kết hợp là một mệnh đề kéo theo có dạng X→Y,
trong đó X, Y  I, thỏa mãn điều kiện XY=. Các tập hợp X và Y được gọi là các
tập hợp tính chất (itemset). Tập X gọi là nguyên nhân, tập Y gọi là hệ quả.
Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy
(confidence), được định nghĩa như phần dưới đây.
Độ hỗ trợ:
Định nghĩa 1.2: Độ hỗ trợ của một tập hợp X trong cơ sở dữ liệu D là tỷ số giữa
các bản ghi T ⊆ D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của

các bản ghi trong D có chứa tập hợp X), ký hiệu là support(X) hay supp(X) (support sẽ
tự sinh ra khi cài thuật toán).
( )=

|{ ⊂ : ⊃ }|

(1.1)

| |

Ta có: 0 ≤ supp(X) ≤ 1 với mọi tập hợp X.
Định nghĩa 1.3: Độ hỗ trợ của một luật kết hợp X→Y là tỷ lệ giữa số lượng các
bản ghi chứa tập hợp X ∪ Y, so với tổng số các bản ghi trong D - Ký hiệu supp(X→Y)
( → )=

|{ ⊂ : ⊇

}|

| |

(1.2)

Khi chúng ta nói rằng độ hỗ trợ của một luật là 50%, có nghĩa là có 50% tổng số
bản ghi chứa X ∪ Y. Như vậy, độ hỗ trợ mang ý nghĩa thống kê của luật.
Trong một số trường hợp, chúng ta chỉ quan tâm đến những luật có độ hỗ trợ cao.
Nhưng cũng có trường hợp, mặc dù độ hỗ trợ của luật thấp, ta vẫn cần quan tâm (ví dụ
luật kết hợp liên quan đến nguyên nhân gây ra sự đứt liên lạc ở các tổng đài điện
thoại).
Độ tin cậy:



×