Vấn đề phát hiện luật kết hợp trong cơ sở dữ liệu và khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (39.21 MB, 73 trang )

Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I
KHOA CÔNG NGHÊ

NG U Y ỄN TH Ị T H O A

VẤN ĐỂ PHÁT HIỆN
• LUẬT
• KẾT HỢP
•
TRONG Cơ SỞ Dữ LIỆU VÀ
KH AI PHÁ Dữ LIỆU

C huyên ngành: Công nghệ thông tin
M ã số: 1.01.10

LUẬN VĂN T H Ạ C s ĩ

NGƯỜI HƯỚNG DẨN KHOA HỌC
PGS TS ĐOÀN VĂN BAN

H à Nội - 2003
ro Ặ n iộ c "

g u c x

:

g

;-\

hả

'N Ọ I

ỉ

ITRliNGTÁMTHCHGTIN.Tilự VIỆNí
N" i - . L i U . U ?

1

M ỤC LỤC

Danh inục bảng biểu, hình v ẽ ................................................................................. 3
Các ký hiệu và từ viết tắt......................................................................................... 4
VIỞ đ ầ u .......................................................................................................................... 5

Chương 1. Tổng quan về khai phá dữ liệu............................................................7
1.1. Khai phá dữ liệu.................................................................................................7
1.1.1. Định nghĩa..................................................................................................7
1.1.2. Các ứng dụng của khai phá dữ liệu ...........................................................7
1.2. Các giai đoạn chính của quá trình phát hiện tri thức....................................... 8
1.3. Các bài toán trong khải phá dữ liệu..............................................................10
1.3.1. Phát hiện sự phụ thuộc dữ liệu ..............................................................11
1.3.2. Phát hiện sự biến đổi và độ lệch............................................................11
1.3.3. Phát hiện luật kết hợp............................................................................ 12
1.3.4. Mô hình hoá sự phụ thuộc..................................................................... 12
1.3.5. Phân lớp........ ......................................................................................... 13
1.3.6. Hồi quy...................................................................................................13

1.3.7. Tổng hợp................................................................................................13
1.4. Các kỹ thuật khai phá dữ liệu phổ biến........................................................14
1.4.1. Các công cụ truy vấn............................................................................. 14
1.4.2. K-láng giềng gần................................................................................... 15
1.4.3. Cây quyết định ..................................................................................... 15
1.4.4. Các luật kết hợp....................................................................................... 17

Chương 2. Phát hiện luật kết hợptrong cơ sở dữ liệu lớn.................................. 20
2.1. Phát biểu bài toán phát hiện luật kết hợp.......................................................20
2.2. Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân.................................. 22
2.2.1. Các định nghĩa hình thức trên hệ thông tin nhị phân............................22
2.2.2. Thuật toán phát hiện tập chỉ báo và luật kết hợp nhị phân....................25
2.2.3. Ví dụ minh hoạ........................................................................................27
2.3. Phát hiện luật kết hợp dựa trên hệ thông tin mờ........................................... 30

2

2.3.1. Các định nghĩa hình thức trên hệ thông tin m ờ....................................... 30
2.3.2. Ví dụ minh hoạ.......................................................................................... 32
2.3.3. Thuật toán phát hiện tập chỉ báo và các luật kết hợp m ờ ....................... 34
Chương 3. Một sô th u ật toán phát hiện luật kết hợp............................................ 37
3.1. Thuật toán AIS...................................................................................................37
3.2. Thuật toán SETM..... ........................................................................................ 39
3.3. Thuật toán Apriori............................................................................................ 42
3.4. Thuật toán AprioriTid....................................................................................... 44
3.5. Thuật toán phân hoạch......................................................................................46
3.6. Thuật toán CHARM ......................................................................................... 51
Chương 4. áp dung kỹ thuật khai phá dữ liệu vào bài toán bảo hiểm ............. 58
5.1. Bài toán.............................................................................................................. 58

5.2. Cài đặt chương trìn h .........................................................................................60
5.3. Kết quả chạy chương trình................................................................................ 61
5.4. Nhận xét kết quả...... :....................................................................................... 67
Kết luận........................................................................................................................ 6 8
Tài liệu tham k h ảo ..................................................................................................... 69
Phụ lụ c................................................................................................................................................ 72

3

D A N H M ỤC BẢNG BIỂU, H ÌN H VẼ
Hình 1.1: Quá trình khám phá tri thức.......................................................................9
Bảng 2.1: Thuật toán phát hiện tập chỉ báo phổ biếnnhị phân................................ 26
Bảng 2.2: Thuật toán phát hiện luật kết hợp nhị phân.............................................. 27
Bảng 2.3: Bảng của giao dịch và các chỉ mục............................................................ 33
Bảng 2.4: Hệ thông tin nhị phân................................................................................ 33
Bảng 2.5: Hệ thông tin mờ......................................................................................... 34
Bảng 2.6: Thuật

toán phát hiện tập chỉ báo mờ....................................................35

Bảng 2.7: Thuật

toán phát hiện luật kết hợp m ờ.................................................. 36

Bảng 3.1: Thuật toán AIS........................................................................................... 37
Bảng 3.2: Ví dụ thuật toán AIS.................................................................................. 38
Bảng 3.3: Thuật toán SETM....................................................................................... 40
Bảng 3.4: Ví dụ thuật toán SETM..............................................................................42
Bảng 3.5: Thuật toán Apriori.....................................................................................42

Bảng 3.6: Hàm apriori_gen........................................................................................ 43
Bảng 3.7: Ví dụ thuật toán Apriori.............................................................................44
Bảng 3.8: Algorithm AprioriTid................................................................................45
Bảng 3.9: Ví dụ thuật toán AprioriTid...................................................................... 46
Bảng 3.10: Ký hiệu sử dụng trong thuật toán phân hoạch........................................48
Bảng 3.11: Thuật toán phân hoạch............................................................................ 49
Bảng 3.12: Thủ tục gen_large_itemsets.................................................................... 49
Bảng 3.13: Thủ tục prune...........................................................................................50
Bảng 3.14: Thủ tục gen_final_count..........................................................................51
Bảng 3.15: Thuật toán CHARM............................................................................... 54
Hình 3.1: CH ARM sắp xếp Iheo thứ tự từ điển.........................................................55
Hình 3.2: CHARM sắp xếp theo độ hỗ trợ tăng dần............................................... 56
Hình 4.1: Sơ đồ quan hệ.............................................................................................59
Hình 4.2: Cửa sổ giao diện chính của chương trình KDD on Insurance................. 72

C Â C K Ÿ H IÊU VÀ T Ü V IÉ T T Â T

Kÿ hiêu,
tir viét tât

Tê'ng Anh

Tien g Viêt

conf

confidence

Dô tin cây

CSDL

Database

Ca sa du lieu

minconf

minimum confidence

Dô tin cây toi thiëu

minsup

minimum support

Dô hô tra toi thiëu

sup

support

Dô hô tra

TID

Transacstion Identification

Dinh danh giao dich

k-itemset

k-itemset

Tâp gôm k mue

U

Tâp câc k-itemset pho bien.
Môi thành viên cüa tâp cô hai truông:
i) tâp mue và ii) dô hô tra

Q

Tâp câc k-itemset ung eu.
Môi thành viên cüa tâp cô hai truàng:
i) tâp mue và ii) dô hô trçf

5

M Ở ĐẦU

Sự tăng trưởng vượt bậc của các CSDL thương mại, quản lý, và khoa học đã
thúc đấy nhanh chóng năng lực phân tích, khai phá dữ liệu đó, tạo ra nhu cầu đòi
hòi một thế hệ mới của các công cụ và kỹ thuật phân tích dữ liệu tự động, thông
minh. Các công cụ và kỹ thuật này là chủ đề của một lĩnh vực mới xuất hiện đó là
lĩnh vực khám phá tri thức trong CSDL.
Khả năng tăng trưởng vượt bậc của dữ liệu được xem xét theo hai mặt: tạo

mới và thu thập dữ liệu. Sự mở rộng trong thu thập dữ liệu khoa học, kỹ thuật, sự
giới thiệu rộng rãi mã vạch đối với hầu hết các sản phẩm thương mại và máy móc
hoá các thương vụ (mua bằng thẻ tín dụng) và giao dịch quản lý (như thu thuế) đã
sinh ra các dòng dữ liệu nhanh chóng và dễ dàng. Sự mở rộng của công nghệ lưu
trữ, chẳng hạn các thiết bị lựu trữ dữ liệu làm việc nhanh hơn, chất lượng cao hơn,
giá thành rẻ hơn, rồi sự phát triển của các công nghệ Intranet, Internet, và công
nghệ Data warehouse đã tạo ra nhiều cơ hội cho chúng ta trong việc thu thập, phân
tích, xử lý và duy trì dữ liệu. Vì thê' dữ liệu của các doanh nghiệp, các tổ chức và
đơn vị ngày càng nhiều thông tin, phong phú và đa dạng. Các phương pháp phân
tích dữ liệu truyền thống không còn phù hợp với dữ liệu kiểu này. Các phương pháp
truyền thống có thể tạo ra các báo cáo từ dữ liệu nhưng không thể phân tích nội
dung các báo cáo làm nổi bật các tri thức quan trọng. Điều đó dẫn đến nhu cầu đòi
hỏi sự ra đời thế hệ mới của các công cụ và kỹ thuật có khả năng thông minh và tự
động giúp con người phân tích hình núi dữ liệu để khai thác tri thức hữu dụng. Các
kỹ thuật và công cụ đó là đề tài của các lĩnh vực nổi bật là khám phá tri thức trong
các CSDL. Khai phá dữ liệu là một giai đoạn quan trọng trong khai phá tri thức từ
CSDL. Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.
Mục đích của luận văn là nghiên cứu, tổng hợp các kiến thức về khai phá dữ
liệu; tìm hiểu một số thuật toán khai phá luật kết hợp trong CSDL lớn và áp dụng
vào một bài toán trong thực tế.

6

Luận văn gồm các nội dung chính sau :
Chương 1, trình bày tổng quát về khai phá dữ liệu, cụ thể là định nghĩa khai
phá dữ liệu và các ứng dụng của nó, các giai đoạn của quá trình phát hiện tri thức,
các bài toán trong khai phá dữ liệu. Cuối chương 1, luận văn trình bày các kỹ thuật
khai phá dữ liệu phổ biến hiện nay.
Chương 2, phát biểu bài toán phát hiện luật kết hợp, tiếp đến tìm hiểu hệ

thông tin nhị phân và hệ thông tin mờ cùng thuật toán phát hiện luật kết hợp trên hệ
thông tin nhị phân và thuật toán phát hiện luật kết hợp trên hệ thông tin mờ.
Chương 3, giới thiệu một số thuật toán được sử dụng để khai phá dữ liệu
như: AIS, SETM, Apriori, AprioriTid, phân hoạch, CHARM.
Chương 4, đề xuất áp dụng khai phá dữ liệu vào bài toán bảo hiểm và viết
chương trình thử nghiệm.
Cuối cùng là kết luận những kết quả đạt được của luận văn và hướng phát
triển trong tương lai.

7

C H Ư Ơ N G 1. T Ổ N G Q U A N VỂ KHAI PH Á D Ữ LIỆU
1.1. Khai phá dữ liệu
11.1. Định nghĩa
Phát hiện tri thức trong CSDL là quá trình kết xuất tri thức từ dữ liệu. Khai
piá dữ liệu được dùng để mô tả giai đoạn phát hiện tri thức trong CSDL. Khai phá
dĩ liệu nhằm kết xuất ra những tri thức tiềm ẩn từ dữ liệu để giúp cho việc dự báo
tiong kinh doanh, .v.v. Khai.phá dữ liệu làm giảm chi phí về thời gian so với các
piương pháp truyền thống trước kia (bằng thống kê) rất mất thời gian.
Sau đây là một số định nghĩa mang tính mô tả mà Friedman đã lựa chọn từ
cíc bài giảng về khai phá dữ liệu [6 ]:
- Định nghĩa của Fayyad: “Khai phá tri thức là một quá Irình không tầm
thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích tiềm năng và có thể hiểu
được.”
- Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập các phương pháp được
dàng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và
các mẫu chưa biết bên trong dữ liệu.”
- Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL

lớn.”

1.1.2. Các ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực nghiên cứu mới ra đời vào những năm 80
của thế kỷ 2 0 nhưng đã thu hút được sự quan tâm, chú ý của rất nhiều nhà nghiên
cứu nhờ vào những ứng dụng thực tiễn của nó. Các kỹ thuật khai phá dữ liệu có thể
áp dụng vào nhiều tình huống thực hiện quyết định đa dạng và phạm vi rộng trong
kinh doanh. Các lĩnh vực chiếm tỷ lệ áp dụng đáng kể gồm có:

8

- Marketing-, các ứng dụng gồm phân tích nhu cầu khách hàng dựa trên các
mẫu mua; xác định các chiên lược kinh doanh gồm: quảng cáo, vị trí kho hàng, và
mục tiêu phấn đấu; phân loại khách hàng, kho hoặc sản phẩm; và thiết kế danh
mục, xếp đặt kho hàng, và chiến dịch quảng cáo.
- Tài chính, chứng khoán : các ứng dụng gồm phân tích khả năng trả nợ của
khách hàng, phân loại tài khoản có thể nhận được, hiệu quả, phân tích đầu tư tài
chính như chứng khoán, các hợp đồng (khế ước), và công trái; mệnh giá của các lựa
chọn tài chính; và phát hiện sự gian lận.
- Sản xuất, chế tạo: các ứng dụng gồm tối ưu hoá tài nguyên như các thiết
bị, nhân lực, và vật liệu; tối ưu thiết kế quy trình sản xuất, bố trí khu chế tạo, và
thiết kế sản phẩm, chẳng hạn.như ỏtò.
- Chăm sóc sức klioẻ: các ứng dụng gồm phân tích hiệu qủa điều trị chắc
chắn; tối ưu quá thời gian điều trị (tối ưu thời gian nằm viện), dữ liệu liên quan đến
sức khoẻ bệnh nhân với chứng nhận của bác sỹ; và phân tích tác động của ma tuý,
•V.V.

- Tin-sinh học : Phát hiện các đoạn lặp trong trình tự ADN và protein,.v.v.
- Phân tích dữ liệu v à hỗ trợ quyết địnli

- Giáo dục
- Phân loại v ă n bản
- Khai phá Web
- .v.v.
1.2. Các giai đoạn chính của quá trình phát hiện tri thức
Trong mục này, chúng ta khảo sát quá trình, phân tích các giai đoạn phát
hiện tri thức. Có 5 giai đoạn chính trong quá trình phát hiện tri thức [4,7,8,18]:
- Trích chọn dữ liệu
- Tiền xử lý dữ liệu

9

- Biến đổi dữ liệu
- Khai phá dữ liệu
- Biểu diẽn và đánh giá tri thức

Trans
formation

^ Data
Mining

Interpretation1,'
Evaluation

•M
Target
Data

Data

Preprocessed
Data

Transformed
Data

Patterns

ềl

Knowledge

Hình 1.1 : Quá trình khám phá tri thức

Trích chọn dữ liệu (data selection): là bước chọn lọc dữ liệu cần được
khai phá từ các nguồn dữ liệu nhằm phục vụ mục đích khai phá tri thức theo một số
tiêu chí nhất định. Chẳng hạn, trong CSDL về bán hàng, ta chọn ra các dữ liệu về
các khách hàng, đặt hàng và hoá đơn. Cụ thể hơn, dữ liệu chọn ra chính là các bản
ghi bao gồm số hiệu khách hàng, tên, địa chỉ, ngày mua, số lượng và loại hàng.

Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu và làm
giàu dữ liệu. Nghĩa là xử lý các dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không
nhất quán,

.V .V .,

do dữ liệu được lấy từ nhiều nguồn dữ liệu không đồng nhất, nhầm

rút gọn dữ liệu, rời rạc hoá dữ liệu. Sau bước này dữ liệu dùng cho việc khai phá tri
thức sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hoá. Ví dụ, một khách hàng
có thể có nhiều bản ghi do việc viết sai tên, thay đổi địa chỉ và gây ra sự lầm tưởng
là có nhiều khách hàng khác nhau. Thậm chí, có khách hàng cố ý phát âm hoặc viết
sai tên hoặc đưa thông tin liên quan đến việc họ bị từ chối một vài hình thức
khuyến mại hay bảo hành, .v.v. Làm giàu dữ liệu là chuẩn hoá và làm mịn dữ liệu
dể đưa về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá dữ liệu ở
bước sau. Các dữ liệu ở các khuôn dạng khác nhau cũng cần được qui đổi và tính
toán lại để đưa về một kiểu thống nhất tiện cho quá trình phân tích, chẳng hạn qui
đổi đơn vị tiền tệ, tuổi hay ngày sinh, địa chỉ chi tiết hay chia theo vùng, .v.v.

10

Biến đổi dữ liệu (data transformation): Chính là bước mã hoá dữ liệu.
Các thiết kế để chọn lọc, làm sạch và làm giàu dữ liệu sẽ được mã hoá dưới dạng
các thủ tục, chương tinh hay tiện ích nhằm tự động hoá việc kết xuất, biến đổi và di
chuyển dữ liệu nhằm mục đích khai phá. Các chương trình có thể thực hiện các
công việc theo định kỳ để làm tươi dữ liệu cho phân tích.

Khai phá dữ liệu (data mining): bước khai phá dữ liệu bắt đầu khi hệ
thống dữ liệu được xây dựng và biến đổi. Các bước trước là công việc của người
thiết kế và lập trình. Bắt đầu từ bước này là công việc của các nhà phân tích và ra
quyết định. Đây là bước áp dụng các kỹ thuật khai phá để khai phá, trích chọn được
các mẫu thông tin, những mối quan hệ đặc biệt trong dữ liệu. Bước này được xem
là quan trọng và tốn nhiều thời gian nhất của quá trình khai phá tri thức.

Biểu diễn và đánh giá tri thức (knowlede representation & evolution):
Các kết quả khai phá dữ liệu cùng với các kết quả từ các công cụ phân tích khác có

thể được tổng hợp dưới dạng các báo cáo cho các mục đích hỗ trợ quyết định khác
nhau. Các mẫu thông tin và mối quan hệ trong dữ liệu khai phá được ở bước trên
được chuyển thành dạng gần gũi với người sử dụng như biểu đồ, cây, bảng biểu,
luật, .v.v. Đồng thời đánh giá những tri thức khám phá được theo những tiêu chí
nhất định.
Khai phá dữ liệu chỉ là một giai đoạn của quá trình phát hiện tri thức trong
CSDL. Mặc dù có 5 giai đoạn, nhưng quá trình xây dựng và hoàn chỉnh việc phát
hiện tri thức không chỉ qua 5 bước mà theo chu trình liên tục kiểu xoáy ốc, trong
đó các giai đoạn được lặp đi lặp lại, lần sau hoàn chỉnh hơn lần trước và các giai
đoạn sau dựa trên các kết quả đã đạt được của giai đoạn trước.

1.3. Các bài toán trong khai phá dữ liệu
Hai mục tiêu chính của khai phá dữ liệu trong thực tế cần đạt được là dự
đoán và mô tả. Dự đoán đòi hỏi sử dụng một số biến hoặc trường trong cơ sở dữ
liệu để dự đoán về các biến khác cần quan tâm mà chưa biết hoặc sẽ có giá trị trong
tương lai. Mô tả tập trung vào việc tìm ra các mẫu được biểu diễn bởi người mô tả

11

dữ liệu. Tầm quan trọng trong mối quan hệ dự báo và mô tả đối với các thuật toán
khai phá dữ liệu cụ thể riêng có thể được quan tâm khác nhau.
Do sự phát triển mạnh mẽ của các loại hệ thống phát hiện tri thức trong
CSDL theo yêu cầu nhằm đáp ứng những đòi hỏi trong nhiều lĩnh vực ứng dụng
khác nhau, việc phát hiện tri thức cũng trở nên đa dạng hơn, do đó, nhiệm vụ của
phát hiện tri thức cũng trở nên phong phú. Một trong các bước đầu tiên trong quá
trình khai phá tri thức là quyết định xem loại kiến thức nào mà thuật toán phát hiện
tri thức cần phải kết xuất từ dữ liệu. Điều này phụ thuộc vào yêu cầu của lĩnh vực
ứng dụng và lợi ích của người dùng. Do vậy, việc phân loại các kiểu nhiệm vụ phát
hiện tri thức là vấn đề đáng quan tâm nhằm tạo ra một hệ thống phát hiện tri thức

trong CSDL hữu hiệu,

1.3.1. Phát hiện sự phụ thuộc dữ liệu
Trong mô hình dữ liệu quan hệ, chúng ta nghiên cứu quan hệ trong CSDL
không tính đến quan hệ giữa các thuộc tính. Các quan hệ này thường được thể hiện
thông qua sự phụ thuộc dữ liệu hoặc ràng buộc tính toàn vẹn, ở đây sẽ sử dụng
thuật ngữ phụ thuộc dữ liệu để chỉ sự phụ thuộc dữ liệu kiểu này. Sự phụ thuộc dữ
liệu được sử dụng trong thiết kế và duy trì một CSDL. Phương pháp phát hiện tự
động các sự phụ thuộc dữ liệu này là một kiểu nhiệm vụ của khai phá dữ liệu [4].

1.3.2. Phát hiện sự biến đổi và độ lệch
Nhiệm vụ này tập trung vào việc khám phá hầu hết sự thay đổi có ý nghĩa
dưới dạng độ đo đã biết trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội
dung của tập con dữ liệu thực và nội dung mong đợi. Hai mô hình độ lệch hay dùng
là lệch theo thời gian và lệch theo nhóm. Độ lệch theo thời gian là sự thay đổi có ý
nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác nhau không chờ đợi
giữa dữ liệu trong hai tập con dữ liệu, ở đây tính đến cả trường hợp tập con này
thuộc tập con kia, nghĩa là xác định dữ liệu trong một nhóm con của đối tượng có
khác đáng kể so với toàn bộ đối tượng không. Theo cách này, các sai sót dữ liệu
hay sai lệch so với giá trị thông thường được phát hiện [4, 18].

12

1.3.3. Phát hiện luật kết hợp
Ta xét một tập các thuộc tính nhị phân gọi là các mục. Mỗi mục tương ứng
với một giao dịch của khách hàng, trong đó thu thập các mục có giá trị có hoặc
không phụ thuộc vào khách hàng tương ứng có mua mục đó trong giao dịch hay
không. Loại dữ liệu này thường được gọi là dữ liệu mục và thường được thu thập
thông qua công nghệ, ví dụ mã vạch trong các hoạt động kinh doanh siêu thị.

Cho một tập các giao dịch, trong đó mỗi giao dịch là một tập các mục, một
luật kết hợp là một biểu thức X => Y, trong đó X và Y là tập các mục. Phần trăm số
giao dịch trong CSDL mà chứa các mục trong X thì cũng chứa các mục trong Y
được gọi là độ tin cậy của luật. Độ hỗ trợ của luật X => Y là phần trăm số giao dịch
chứa cả X và Y. Bài toán phát hiện luật kết hợp là tìm tất cả các luật thoả mãn độ
hỗ trợ tối thiểu và độ tin cậy tối thiểu được xác định bởi người sử dụng [14, 12, 3,
4, 7].

1.3.4. Mô hình hoá sự phụ thuộc
Công việc này bao gồm việc tìm ra một mô hình mô tả sự phụ thuộc có ý
nghĩa giữa các biến, phát hiện sự phụ thuộc giữa các thuộc tính. Mô hình phụ thuộc
bao gồm hai mức [18, 4]: mức cấu trúc của mô hình mô tả (thường dưới dạng đồ
thị) trong đó các biến phụ thuộc bộ phận vào các biến khác, mức định lượng của
mô hình mô tả mức độ phụ thuộc. Những pnụ thuộc này thường được hiển thị dưới
dạng theo luật “nếu- thì” (nếu tiền đề là đúng thì kết luận là đúng). Về nguyên tắc,
cả tiền đề và kết luận của luật đều có thể là sự kết hợp logic của các giá trị thuộc
tính. Trên thực tế, tiền đề thựờng là nhóm các giá trị thuộc tính và kết luận chỉ là
một giá trị thuộc tính. Hơn nữa, hệ thống có thể phát hiện các luật với nhiều thuộc
tính trong phần kết luận của luật. Điều này khác với luật phân lớp trong đó tất cả
các luật cần phải có cùng một thuộc tính do người dùng chỉ ra trong kết luận.
Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy Bayes. Đó
là một đồ thị có hướng, không chu trình. Các nút biểu diễn thuộc tính và trọng số
của liên kết giữa hai nút biểu diễn mức độ phụ thuộc giữa các nút đó.

13

1.3.5. Phân lớp
Phân lớp là cách xác định ánh xạ ( hay phân loại ) mục dữ liệu vào một
trong một số lớp đã biết trước [18]. Mục tiêu của thuật toán phân lớp là tìm mối

quan hệ nào đó giữa các thuộc tính dự báo và thuộc tính phân lớp [4]. Như thế quá
trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới. Trong
trường hợp các kiến thức được phát hiện biểu diễn dưới dạng các luật, các luật được
phát hiện có thể biểu diễn theo cách sau: “nếu các thuộc tính dự báo của một mục
thoả mãn các điều kiện của các tiền đề, thì mục có lớp chỉ ra trong kết luận”. Ví
dụ, một mục biểu diễn một bản ghi nhân viên trong đó các thuộc tính dự báo là
tuổi, giới tính, Irình độ học vấn,.v.v., của nhân viên và thuộc tính phân lớp là trình
độ lãnh đạo của nhân viên.
1.3.6. Hồi quy
Hồi quy là cách ánh xạ một mục dữ liệu vào tập các giá trị thực [18,4].
Nhiệm vụ hồi quy tương tự như phân lớp. Điểm khác nhau chính là ở chỗ thuộc
tính để dự báo là liên tục chứ không phải rời rạc. Việc dự báo các giá trị số thường
được làm bởi các phương pháp thống kê cổ điển, chẳng hạn như hổi quy tuyến tính.
Tuy nhiên, các phương pháp mô hình hoá cũng được sử dụng, ví dụ cây quyết định.
ứng dụng của hồi quy rất nhiều, ví dụ như: dự đoán số lượng sinh vật phát
quang hiện thời trong khu rừng bằng việc dò vi sóng bằng các cảm biến từ xa, ước
lượng xác suất mà người bệnh có thể chết bằng kết quả kiểm tra các triệu chứng, dự
báo nhu cầu của người dùng đối với một sản phẩm mới,.v.v.
1.3.7. Tổng hợp
Tổng hợp bao gồm các phương pháp tìm một mô tả cô đọng đối với một tập
con dữ liệu [18,4]. Kỹ thuật tổng hợp thường được áp dụng trong việc phân tích dữ
liệu thăm dò có tương quan và tự động hoá sinh báo cáo. Nhiệm vụ chính là sản
sinh ra các mô tả đặc trưng cho một lớp. Mô tả loại này là một kiểu tổng hợp, tóm
tắt các đặc tính chung của tất cả hay hầu hết các mục thuộc một lớp. Các mô tả đặc
trưng thể hiện dưới dạng luật có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong

14

tiền đề thì mục có tất cả các thuộc tính đã nêu trong kết luận”. Lưu ý rằng luật

dạng này có những khác biệt so với luật phân lớp. Luật phát hiện đặc trưng cho một
lớp chỉ sản sinh khi các mục đã thuộc về lớp đó.
1.4. C ác kỹ th u ậ t khai phá dữ liệu phổ biến
Các kỹ thuật khai phá dữ liệu là vấn đé “bất kỳ sự hoạt động nào” dùng các
tiếp cận từ nhiều lĩnh vực kiến thức (như thống kê, học máy, phục hồi thông tin, và
tính toán hiệu năng cao). Các phương pháp khác như mạng nơron, giải thuật di
truyền, nhận dạng mẫu, phân tích dữ liệu không gian, xử lý tín hiệu, lý thuyết đồ
thị, xác suất, và lập trình logic quy nạp, cây quyết định,

.V .V .,

có thể được phỏng

theo và tích hợp vào các hệ thống lai để khai phá dữ liệu. Các phương pháp phân
tích một tập dữ liệu lớn đã lừng được phát triển theo thống kê trong nhiều nám
nghiên cứu, tuy nhiên với dữ liệu lưu trữ rất lớn trong CSDL muốn khai phá thì các
phương pháp này đối diện với các thử thách về mặt hiệu quả và quy mô.
Trong mục nay, chúng tôi chỉ xem xét một sô' kỹ thuật quan trọng được
dùng trong khai phá dữ liệu: các công cụ truy vấn, k-láng giềng gần, cây quyết
định, các luật kết hợp.
1.4.1. Các công cụ truy vấn
Bước đầu tiên trong khai phá một tập dữ liệu luôn phải phân tích dữ liệu thô
sử dụng các công cụ truy vấn truyền thống.
Ví dụ, bằng việc áp dụng các ngôn ngữ truy vấn có cấu trúc đơn giản, như
SQL, có thể thu được tri thức có ích trong CSDL. Nó cho phép nhìn cùng một
thông tin theo nhiều chiều, có nghĩa là các phép toán của đại số quan hệ mà cho
phép một người dùng lựa chọn từ các bảng (các dòng và các cột của dữ liệu) hoặc
nối thông tin liên quan từ các bảng dựa trên các trường chung.
SQL chỉ có thể phát hiện dữ liệu không sâu, nhưng dễ sử dụng. SQL không
thực sự thuộc các kỹ thuật khai phá dữ liệu. Tuy nhiên, hầu hết các thông tin quan

tâm (gần 80%) có thể được lấy từ CSDL sử dụng SQL. Các kỹ thuật tinh vi hơn cần

15

cho việc khai phá các thông tin quan tâm còn lại (gần 2 0 %), nó gồm các tri thức ẩn
có thể là của các chiến lược quan trọng đối với các tổ chức lớn [7, 4].
1.4.2. K-Iáng giềng gần
Sự miêu tả của các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều
chiều là rất có ích đối với việc phân tích dữ liệu [7]. Việc dùng các miêu tả này, nội
dung của vùng lân cận có thể được định nghĩa, trong đó các bản ghi gần nhau trong
không gian được xem xét thuộc về lân cận (hàng xóm) của nhau. Khái niệm này
được dùng trong kỹ thuật học mạnh mà đơn giản, gọi là Ẩ:-láng giềng gần, trong đó

k là số láng giềng được dùng. Ý tưởng cơ bản của thuật toán học ẤMáng giềng gần
là “ thực hiện như các láng giềng của bạn làm”. Ví dụ, để dự đoán cách hoạt động
của cá thể xác định, k-láng giềng tốt nhất của cá thể đó được xem xét, và trung
bình của cách hoạt động củà các láng giềng đưa ra sự dự đoán về cách hoạt động
của cá thể đó [7, 3, 4].
Kỹ thuật A'-láng giềng là một phương pháp tìm kiếm đơn giản. Tuy nhiên, nó
có một số mặt hạn chế, nó giới hạn khả năng ứng dụng phổ biến của nó. Ví dụ,
thuật toán Ẩ:-láng giềng có độ phức tạp tính toán bậc hai (theo số các bản ghi của
tập dữ liệu).
Vấn đề khác là liên quan đến số thuộc tính của bản ghi. Một bản ghi gồm
nhiều thuộc tính độc lập bằng một điểm trong không gian tìm kiếm có số chiểu lớn.
Trong các không gian có số chiều lớn, hai điểm hầu như cùng khoảng cách, vì thế
kỹ thuật Ẩ:-láng giềng không .cho ta thông tin có ích nào, khi tất cả các cặp điểm là
các láng giềng. Cuối cùng, kỹ thuật Ấr-láng giềng không đưa ra một lý thuyết để
hiểu cấu trúc của dữ liệu. Hạn chế cuối cùng có thể khắc phục bằng kỹ thuật cây
quyết định.

1.4.3. Cây quyết định
Cây quyết định trình bày các hàm nhị phân [7, 18, 3, 4]. Cho vào một bản
ghi, cây quyết định cho kết quả quyết định là “yes” hoặc “no”. Mỗi nút bên trong
thể hiện một giá trị thử của các thuộc tính, và các nhánh được gán nhãn với các giá

16

trị có thể có. Mỗi nút lá trong cây xác định giá trị nhị phân được trả về nếu nút lá
đó được tìm kiếm.
Ví dụ, giả sử chúng ta dựa vào một CSDL xuất bản tạp chí bao gồm các bản
ghi chứa các thuộc tính của có dạng: tuổi, thu nhập, số tiền gửi ngân hàng, và các
thuộc tính nhị phân diễn tả thu nhập hàng năm của 5 loại tạp chí mà nhà xuất bản
bán, cụ thể là ô tô, nhà, thể thao, âm nhạc và truyện tranh.
Giả sử mục đích là dự đoán về số người sẽ mua tạp chí ô tô. Thuộc tính đích
là ’’khách hàng sẽ mua tạp chí ô tô”. Thuộc tính đích thường được dùng để phân
hoạch CSDL thành hai lớp mẫu: lớp các mẫu khẳng định bao gồm các bản ghi
trong đó thuộc tính tạp chí ô tô là đúng; và lớp các mẫu phủ định, bao gồm các bản
ghi trong đó thuộc tính ô tô là sai.
Giả sử rằng thuộc tính tạp chí thể thao hiện chiếm 90% các mẫu có giá trị
đúng (vì vậy, 1 0 % mẫu còn lại có giá trị sai), trong khi tất cả các thuộc tính khác
hiện chỉ chiếm 50% đến 60% các mẫu có giá trị đúng. Thì tạp chí thể thao là thuộc
tính quan trọng nhất.
Thuộc tính quan trọng nhất thường được dùng khi duyệt cây lần đầu tiên.
Với mỗi giá trị của thuộc tính này, một cạnh có giá trị này đối với thuộc tính được
chọn được kết hợp với cạnh đó. Theo cách này, kiểm tra thuộc tính đầu tiên tách
tập dữ liệu, và mỗi kết quả là bài toán học quyết định mới trong chính nó, với số
bản ghi ít hơn và thuộc tính ít hơn. Có thổ phân biệt ba trường hợp cho bài toán đệ
quy này.
1. Tập dữ liệu hiện tại chỉ chứa các mẫu khẳng định hoặc chỉ chứa các mẫu phủ

định (các bản ghi có cùng giá trị đối với thuộc tính tạp chí ô tô). Nếu tất cả các
mẫu là khẳng định, thì một nút với quyết định “yes” được tạo. Ngược lại, nếu
tất cả các mẫu là phủ định, thì một nút với quyết định “no” được tạo.
2. Tập dữ liệu hiện tại chứa cả các mẫu khẳng định và phủ định (các bản ghi có
giá trị khác nhau đối với thuộc tính tạp chí ô tô).

17

(a) Nếu có các thuộc tính phía trái thì có thể chọn thuộc tính quan trọng nhất
đối với tập này để tách các bản ghi còn lại.
(b) Ngược lại, có nghĩa là có nhiễu trong dữ liệu, VI các bản ghi trong tập đó
có cùng mô tả nhưng khác phân lớp.
3. Tập dữ liệu hiện tại là rỗng, nghĩa là không có dấu hiệu của giá trị thuộc tính
đó. Trong trường hợp này, một giá trị ngầm định có thể được tính

toántừmột

lớp chiếm đa số tại nút cha và được trả về là quyết định.
Có nhiều thuật toán hiệu quả cho quy nạp cây quyết định có độ phức tạp
tính toán là 0 (nlog(/ỉ)), trong đó n là số các bản ghi trong tập dữ liệu ban đầu.
Thuật toán quy nạp cây quyết định. Thuật toán quy nạp cây quyết định tốt đối với
các tập dữ liệu lớn. Một ưu điểm khác là nó đưa ra mô tà rõ ràng với quá trình
quyết định của tự nhiên một cách logic. Tuy nhiên, trong một số trường hợp, các
cây quyết định có thổ có độ phức tạp hàm mũ theo số các thuộc tính. Một cách
tổng quát, bất kỳ loại trình bày nào được sử dụng là tốt đối với một số loại chức
năng, và không tốt đối với cái khác.
1.4.4. Các luật kết hợp
Các luật kết hợp có dạng: 98% khách hàng mua tạp chí thể thao cũng mua
tạp chí ô tô. Các loại mô tả này cung cấp rõ ràng thuộc tính khách hàng mà có thể

dùng cho các quyết định tiếp thị. Một cách hình thức, một luật kết hợp được viết là
x=> Y I (c,s). Ở đây, X và Y là các tập thuộc tính nhị phân gọi là các tập mục,
X nY = 0 ; c là độ tin cậy của luật; và s là độ hỗ trợ của luật. Độ tin cậy được đo
bằng độ bén luật, đó là, phần trăm của các bản ghi với tất cả các thuộc tính trong Y
có tất cả các thuộc tính trong X u Y với giá trị True.
Ví dụ: xem xét dữ liệu giỏ mua hàng, các bản ghi của nó mô

tảdanhsách

các sản phẩm được mua trong siêu thị như “sữa, bơ, bánh mỳ, nước ép trái cây”, thì
luật kết hợp (Bánh mỳ, sữa}=> {nước ép trái cây} I (98, 70) có nghĩa 70% số bản
ghi chứa bánh mỳ, sữa và nước ép trái cây và 98% số bản ghi chứa nước trái cây
cũng chứa bánh mỳ và sữa.
Ị'đ

ạ

:

họ c

Õ

ú

Óc

g

;A H À N Ộ I ;

I TRUi'iGTÀM THÔMG T i î i . T h J V Ỉ Ẻ M I

I

M /-Lo/jjf-

'

18

Khai phá luật kết hỢf) trong CSDL đã thu hút rất nhiều sự chú ý của cộng
đồng nghiên cứu KDD. Mục đích là tạo ra tất cả các luật có độ hỗ trợ và độ tin cậy
vượt quá độ hỗ trợ tối thiểu và độ tin cậy tối thiểu do người dùng xác định.
Bài toán này được tách thành hai bước [12, 13, 14, 7, 9]:
1. Sinh ra tất cả các tập mục mà có độ hỗ trợ lớn hơn ngưỡng s. Các tập
mục như vậy được gọi là các tập mục phổ biến.
2. Với mỗi tập mục phổ biến, sinh ra tất cả các luật mà có độtin cậy lớn
hơn ngưỡng c.
Bài toán thứ hai có thể được giải quyết như sau: đối với một tập mục lớn X
và với một tập con Y của X (Y e X), xét tập X’ = X \Y gồm các thành phần của X
mà không thuộc Y. Luật X’ => Y được sinh ra nếu độ hỗ trợ của X đã tách bởi độ
hỗ trợ của X’ là lớn hơn c. Độ hỗ trợ của tập mục X là số bản ghi trong tập dữ liệu
với tất cả các thuộc tính trong X có giá trị True.
Việc sinh ra các luật kết hợp bằng việc sử dụng tất cả các tậpmục phổ biến
là khá đơn giản. Tuy-nhiên, việc phát hiện tất cả các tập mục lớn cũng như giá trị
đối với các độ hỗ trợ của chúng là vấn đề chính nếu các yếu tố của tập các mục là
rất lớn.
Đặc trưng của siêu thị là có hàng nghìn mục. Số các mục khác biệt là 2m ,

trong đó m là số mục, vì thế việc tính độ hỗ trợ cho tất cả các tập mục có khả năng
mất rất nhiều thời gian tính toán.
Để giảm không gian tìm kiếm của các thuật toán tìm các luật kết hợp khai
thác các thuộc tính dưới đây của các tập mục phổ biến:
- Một tập con của tập mục phổ biến cũng phổ biến.
- Ngược lại, một mở rộng của tập mục không phổ biến là không phổ biến.
Các thuộc tính được dùng trong các thuật toán cơ bản đối với việc tìm tất cả
các tập mục phổ biến, lược đồ chính của nó có thể được tóm tắt như sau [15, 7]:

19

1. Kiểm tra độ hỗ trợ của tập mục có kích cỡ là 1, gọi là 1-itemset, bằng
việc quét CSDL. Loại bỏ các 1-itemset có độ hỗ trợ nhỏ hơn s.
2. Mở rộng các 1-itemset lớn thành các 2-itemset phổ biến bằng việc mỗi
lần bổ sung một mục của 1 -itemset phổ biến, để sinh ra tất cả các tập
mục ứng cử với hai thành phần. Kiểm tra độ hỗ trợ của các ứng cử viên
được sinh ra và loại bỏ tất cả các 2 -itemset có độ hỗ trợ nhỏ hơn s.
3. Lặp lại các bước trên; ở bước k, các (k-l)-itemset phổ biến đã tìm ở
bước trước được mở rộng thành k-itemset và đã kiểm tra độ hỗ trợ tối
thiểu.
Quá trình này được lặp lại cho đến khi không còn tìm được các tập mục phổ
biến. Một số thuật toán dựa trên lược đồ này đã từng được giới thiệu, nó khác nhau
chủ yếu trong cách sinh các tập mục ứng cử viên và cách tính các độ hỗ trợ cho các
tập mục ứng cử viên. Ngoài ra, nhiều loại luật kết hợp khác đã được giới thiệu: tổng
quát hoá các luật kết hợp, nồ thu nhận sự xuất hiện của các phân loại (là các cấp
bậc) trên các mục; các luật kết hợp phủ định là các luật có dạng “60% khách hàng
mua khoai tây rán, không mua trái cây”.

20

CH Ư Ơ N G 2. P H Á T HIỆN
L U Ậ• T K Ế T H Ợ• P T R O N G
•
C ơ SỞ D ữ LIỆU LỚ N
2.1.Phát biểu bài toán phát hiện luật kết hợp
Cho I = {i„ i2, . .

u

là tập m phần tử phân biệt gọi là các mục. Cho D là

tập các giao dịch, trong đó mỗi giao dịch T là một tập các mục mà T ç I, kết hợp
với mỗi giao dịch có một định danh duy nhất gọi là TID. Chúng ta nói rằng một
giao dịch T chứa X ( tập một số mục thuộc I ) nếu X C T . Một luật kết hợp có
dạng X => Y, trong đó X c I , Y c I, và X n Y = 0 , Luật X => Y nằm trong tập
giao dịch D với độ tin cậy c, nếu c% số các giao dịch thuộc D chứa X cũng chứa Y.
Luật X => Y có độ hỗ trợ s trong tập giao dịch D nếu s% số các giao dịch trong D
chứa X u Y .
Cho một tập các giao dịch D, bài toán phát hiện luật kết hợp là sinh ra tất cả
các luật kết hợp mà có độ hỗ trợ và độ tin cậy lớn hơn độ hỗ trợ tối thiểu và độ tin
cậy tối thiểu tương ứng do người dùng xác định.
Vấn đẽ khai phá luật kết hợp có thể được phân thành hai bài toán con [12,
13, 14,7,9]:
1. Tim tất cả các tập mục mà độ hỗ trợ của nó lớn hơn độ hỗ trợ tối thiểu mà
người dùng xác định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các
tập mục phổ biến.
2. Dùng các tập mục phổ biến để sinh ra các luật mong muốn. Ý tưởng chung là
nếu nói ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định nếu

luật AB => CD giữ lại bởi việc tính tỷ lệ conf = sup(ABCD)/sup(AB). Nếu conf
> minconf, thì luật được giữ lại. (Luật này sẽ thoả mãn độ hỗ trợ tối thiểu bởi vì
ABCD là phổ biến).
- Định nghĩa tập phổ biến: X là tập phổ biến nếu: support(X) > minsup(X).
- Cho X|, x 2 là các tập mục có các tính chất sau:

21
I
+ X| Ç x 2 thì minsup(X!) < minsup(X2).

+ Nếu x 2 phổ biến và X| Ç x 2 thì X, cũng phổ biến.
+ Nếu x 2 không phổ biến và x 2 ÇZXj thì Xị cũng không phổ biến.
Ví dụ: Cho giao dịch I = {Bánh mỳ, Bơ, Trứng, Sữa}, T = {1, 2, 3, 4 )
TID

Tập mục

1

Bánh mỳ, Bơ, Trứng

2

Bơ, Trứng, Sữa

3

Bơ

4

Bánh mỳ, Bơ

Từ bảng giao dịch trên ta rút ra:

Tập mục

Độ hỗ trợ tương ứng

Bánh ni ỳ

50%

Bơ

100%

Trứng

50%

Sữa

25%

Bánh mỳ, Bơ

50%

Bánh mỳ, Trứng

25%

Bánh mỳ, Sữa

0%

Bơ, Trứng

50%

Bơ, Sữa

25%

Trứng, Sữa

25%

Bánh mỳ, Bơ, Trứng

25%

Bánh mỳ, Bơ, Sữa

0%

Bánh mỳ, Trứng, Sữa

0%

Bơ, Trứng, Sữa

25%

Bánh mỳ, Bơ, Trứng, Sữa

0%

Với giá trị minsup = 50% thì những tập mục phổ biến là:

22

Các tập mục phổ biến

Độ hỗ trợ tương ứng

Bánh mỳ

50%

Bơ

100%

Trứng

50%

Bánh mỳ, Bơ

50%

Bơ, Trứng

50%

Nếu cho độ tin cậy tối thiểu là 60%, ta có
Luật

Độ tin cậy
tương ứng

Thoả mãn
minsup > 60% ?

Bánh mỳ => Bơ

100%

có

Bơ => Bánh mỳ

50%

không

Bơ => Trứng

50%

không

Trứng => Bơ

100%

có

2.2. Phát hiện luật kết hợp dựa trên hệ thông tin nhị phân
2.2.1.Các định nghĩa hình thức trên hệ thông tin nhị phân
Trong mục này, chúng tôi nêu một số định nghĩa hình thức như hệ thông tin
nhị phân, các ánh xạ thông tin nhị phân, các tập chỉ báo nhị phân, các luật kết hợp
phổ biến nhị phân, vectơ chỉ báo nhị phân [16, 2 0 , 1 1 , 1 , 2 , 2 1 ].
/. Hệ thông tin nhị phân
Cho o = {0 |, ... .,0 ,,} là một tập hữu hạn n đối tượng. D = { d |,. . .,d„,} là một
tập hữu hạn m chỉ báo, B = ỊO, 1}. Hệ thông tin nhị phân được định nghĩa là SB=
(O, D, B, x) trong đó X là ánh xạ X : o
chỉ báo d và x(o, d) = 0 nếu ngược lại.

X

D -» B, x(o, d) = 1 nếu đối tượng 0 có bộ

23

2. Các ánh xạ t h ô n g tin nhị phân

Cho hệ thông tin nhị phân SB = (O, D, B, x). Cho P(O) là tập các tập con
của o, P(D) là tập các tập con của D. Các ánh xạ thông tin nhị phân ánh xạ pBvà
được định nghĩa như sau:
P b:

P(D)

->

P(0) và XB: P(O)

->

P(D)

Cho s c D , pB(S) = Ịo e o I Vd eS,

x (o ,

d) = 1}

Cho X c o , XB(X) = {d 6 D I V o e, x(o, d) = 1}
3. Tập c h ỉ báo p h ổ biên nh ị phàn

Cho một hộ thông tin nhị phân SB= (O. D. B, x) và một ngưỡng u e[o, 1].
Cho s là một tập con của D, s là một tập chỉ báo phổ biến nhị phân với ngưỡng u
nếu:
Card(pB(S)) >= V * Card(O)

Cho L b là một tập gồm tất cả các tập chỉ báo phổ biến nhị phân đã phát hiện
từSB, chúng có thuộc tính sau: v s e LB, T c s = > T e L B
Chúng biểu thị LBh là tập con của LB, nếu X

G

LBh, card(X) = h (h là số

nguyên đương).
4. Các lu ậ t kết hợp p h ổ biến nh ị phân và hệ sô tin cậy

Cho hệ thông tin nhị phân SB= (O, D, B, x) và một ngưỡng o e[0, 1]. Cho L
là một phần tử của LB, X và Y là các tập con của L trong đó :

L = X u Y , x * {}, Y * { Ị vàXn Y * {}.
Chúng xác định các lụật kết hợp nhị phân giữa tập chỉ báo X và tập chỉ báo
Y là một ánh xạ thông tin: X —»Y. Hệ số tin cậy của luật này được biểu diễn là :
CFb(X -» Y) và được tính bằng: Card(pB(X) n

P b( Y ) )

/ Card(pB(X)) (3)

24

Chúng ta biểu diễn RBp là tập tất cả các luật kết hợp phổ biến nhị phân, nó
được phát hiện từ SB.
Trong đó: CFB(r) >= p, Vr e RBp .
5. Các vectơ ch ỉ báo nhị phân và các phép toán

Cho một hệ thông tin nhị phân SB= (O, D, B, x) trong đó o = {Oị, . .
một tập hữu hạn gồm n đối tượng và D = {dị, .

0 ,,} là

dmỊ là tập hữu hạn gồm m chỉ

báo.
a. Vecto c h ỉ báo n h ị phân

Vectơ chỉ báo nhị phân VB(X) = ( X | , x„) trong đó X c D là một vectơ với

n thành phần. Mỗi thành phần Xj chiếm một giá trị trong B. Cho VSBlà tập tất các
vectơ chỉ báo nhị phân của SB. Nếu card(X) = 1, X là bộ chỉ báo của SBvà Xj= x(o,
X).
b. Tích véctơ c h ỉ báo nhị phân

Cho x „ x 2c D, cho VB(X|) = (X,„ . .

Xln) và VB(X2) = (X21, . .

x 2n) là

các phần tử của VSB. Tích vectơ chỉ báo nhị phân vB(Xị) và VB(X2) được biểu hiện
là :

vb(^ 3 ) = vB(Xị) 0 BVB(X2)

(4)

trong đó:
VB(X3) = (X3, ..

x 3n), x 3j= minCX^, x 2j), j = 1,. ...n

X3 = X , u X2c D.
T ừ v e c t ơ VB( X 3) , c h ú n g t a b i ế t t ấ t c ả c á c đ ố i t ư ợ n g h i ệ n c ó t r o n g t ậ p c h ỉ b á o
Xi và

x 2. C h ú n g

t a d ù n g v B( X i ) đ ể t r ì n h d i ễ n P b C X O ; v b ( X 2) đ ể t r ì n h d i ễ n

VB( X 3) đ ể t r ì n h d i ễ n

Pb(X3).

c. Độ hỗ trợ các vectơ ch ỉ báo n h ị phân

Pb(X2) v à

Vấn đề phát hiện luật kết hợp trong cơ sở dữ liệu và khai phá dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về