Tải bản đầy đủ (.doc) (71 trang)

Một thuật toán đảm bảo tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (662.78 KB, 71 trang )

BỘ GIÁO DỤC VÀ ĐÀO
TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.
HCM

---------------------------

NGUYỄN TRUNG KIÊN

MỘT THUẬT TOÁN ĐẢM BẢO TÍNH RIÊNG TƯ
TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ
SỞ DỮ LIỆU PHÂN TÁN NGANG
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 04 năm 2017


BỘ GIÁO DỤC VÀ ĐÀO
TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.
HCM

---------------------------

NGUYỄN TRUNG KIÊN

MỘT THUẬT TOÁN ĐẢM BẢO TÍNH RIÊNG TƯ
TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ
SỞ DỮ LIỆU PHÂN TÁN NGANG


LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. CAO TÙNG ANH
TP. HỒ CHÍ MINH, tháng 04 năm 2017


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH
TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.
HCM

Cán bộ hướng dẫn khoa học
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

TS.Cao Tùng
Anh

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP.
HCM
ngày 23 tháng 04 năm 2017
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
TT
1

Họ và tên
PGS. TS. Quản Thành Thơ

Chức danh Hội đồng

Chủ tịch

2

TS. Vũ Thanh Hiền

Phản biện 1

3
4

TS. Nguyễn Thị Thúy Loan
PGS. TS. Võ Đình Bảy

Phản biện 2
Ủy viên

5

TS. Lê Văn Quốc Anh

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tị ch Hội đồng đánh gi á
LV

PGS. TS. Quản Thành
Thơ



TRƯỜNG ĐH CÔNG NGHỆ TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
NAM VIỆN ĐÀO TẠO S AU ĐẠI HỌC

Độc lập – Tự do – Hạnh phúc

TP.HCM, ngày 27 tháng 04 năm 2017

NGHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Trung Kiên

Giới tính: Nam

Ngày, tháng, năm sinh: 15/07/1979

Nơi sinh: Ninh Bình

Chuyên ngành: Công nghệ thông tin

MSHV:

1341860008

I.

Tên đề tài :
Một thuật toán đảm bảo tính riêng tư trong khai thác luật kết hợp trên cơ sở

dữ liệu phân tán ngang.


II.

Nhi ệm vụ và nội dung:
- Nghiên cứu các thuật toán, phương pháp khai thác tập phổ biến, luật kết hợp
trên

CSDL và CSDL phân tán ngang.
- Nghiên cứu ECC Elliptic Curve Cryptography.
- Nghiên cứu thuật toán MHS khai thác trên CSDL phân tán ngang bảo toàn
tính riêng tư.
- Nghiên cứu thuật toán EMHS khai thác trên CSDL phân tán ngang bảo toàn
tính riêng tư.
- Nghiên cứu thuật toán mà các tác giả trong [7] đã đề xuất, thực nghiệm, đánh
giá, so sánh khả năng bảo vệ tính riêng tư và thời gian tính toán so với thuật toán
EMHS.
- Viết chương trình thực nghiệm để so sánh về quyền riêng tư và thời gian tính
toán,
cho thuật toán EMHS và thuật toán đề xuất.


III. Ngày gi ao nhi ệm vụ: 26/09/2016
IV. Ngày hoàn thành nhi ệm vụ: 26/03/2017
V.

Cán bộ hướng dẫn: TS. Cao Tùng Anh

CÁN BỘ HƯỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH


(Họ tên và chữ ký)

(Họ tên và chữ ký)

TS. Cao Tùng Anh


i

LỜI CAM
ĐOAN
Tôi xin cam đoan luận văn được thực hiện trên cơ sở nghiên cứu, tổng hợp và
phát triển các phương pháp bảo mật tính riêng tư trên cơ sở dữ liệu phân tán trong
khái thác dữ liệu.
Các đề xuất trong luận văn do chính tôi thực hiện qua quá trình nghiên c ứu và
thực
hiện và không sao chép nguyên bản của bất kỳ tài liệu nào khác.
Tác giả

Nguyễn Trung Kiên


ii

LỜI CẢM ƠN

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc đến TS. Cao
Tùng Anh, người thầy đã hướng dẫn, chỉ bảo tận tình cho tôi trong suốt quá trình
nghiên cứu và thực hiện luận văn này.

Tôi xin chân thành cảm ơn tất cả các đồng nghiệp khoa Công Nghệ Thông
Tin, trường Cao Đẳng Công Nghệ Thông Tin Thành Phố Hồ Chí Minh và các thầy
cô đã cổ vũ, động viên, giúp đỡ trong thời gian tôi thực hiện luận văn.
Con xin cảm ơn Ba, Mẹ và những người thân đã kích lệ, động viên, giúp đỡ
trong suốt thời gian học tập, nghiên cứu để có được thành quả như ngày nay.
Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả anh chị, bạn bè đã giúp đỡ, chia
sẻ, động viên tôi trong suốt thời gian học tập và thực hiện luận văn.
Tác giả

Nguyễn Trung Kiên


3

TÓM
TẮT

Những thuận lợi của kỹ thuật khai thác dữ liệu đóng vai trò quan trọng trong
nhiều lĩnh vực ứng dụng khác nhau. Trong bối cảnh về tính riêng tư và vấn đề bảo
mật, các vấn đề được gây ra bởi kỹ thuật khai thác luật kết hợp gần đây được xem xét.
Việc lạm dụng kĩ thuật này có thể tiết lộ thông tin nhạy cảm của chủ sở hữu cơ sở
dữ liệu cho người khác. Do đó, sự riêng tư của cá nhân không được bảo toàn. Nhiều
nhà nghiên cứu gần đây đã cố gắng để bảo vệ tính riêng tư của kiến thức nhạy cảm
hoặc thông tin trong cơ sở dữ liệu thực. Trong luận văn này, tác giả sẽ trình bày thuật
toán sửa đổi từ thuật toán EMHS để cải thiện hiệu quả khai thác bằng cách sử
dụng Elliptic Curve Cryptography. Thử nghiệm trên các bộ dữ liệu khác nhau cho
thấy rằng thuật toán sửa đổi có hiệu quả hơn khi so sánh với EMHS về thời gian tính
toán.



4

ABSTRACT

The advantages

of data mining techniques play an important

role in

many different application areas. In the context of privacy and security issues, the
problems posed by recent combining data mining techniques have been examined.
Abuse of this technique may expose the sensitive information of the database owner
to others. Consequently, personal privacy is not preserved. Many researchers have
recently tried to protect the privacy of sensitive knowledge or information in the real
database. In this article, we have modified the EMHS algorithm to improve its
efficiency by using Elliptic Curve
Cryptography

technique

Cryptography.

We

use

for encoding uniformity. Analyzing

ECC's


Elgamal

trials on different

datasets suggests that algorithmic recommendations are effective when compared with
EMHS on computational time.


5

MỤC LỤC
CHƯƠNG 1. TỔNG QUÁT LUẬN VĂN ............................................................................
4
1.1. Giới t hiệu chung ............................................................................................................
4
1.2. Khai t hác tập phổ biến và l uật kết hợp .......................................................................
5
1.2.1. Các khái niệm ......................................................................................................... 5
1.2.2. Khai t hác tập phổ biến và l uật kết hợp ................................................................
7
1.2.3. Thuật toán Apriori .................................................................................................. 9
1.2.4. Phương pháp IT- Tree
...........................................................................................14
1.2.5. Thuật toán khai thác luật kết hợp. ......................................................................19
CHƯƠNG 2. GIỚI THIỆU VỀ DỮ LIỆU PHÂN TÁN ...................................................21
2.1. Khái niệm về cơ sở dữ liệu phân t án ........................................................................21
2.2. Cơ sở dữ liệu phân t án ngang ....................................................................................21
2.2.1. Tính đ ầy đủ............................................................................................................24
2.2.2. Tính t ái t hiết

lập....................................................................................................24
2.2.3. Tính t ách biệt. .......................................................................................................24
CHƯƠNG 3. THUẬT TOÁN EMHS VÀ CÁC THUẬT TOÁN LIÊN QUAN...........25
3.1. Bảo vệ đ a tính to án với Tr usted Third
Party............................................................25
3.2. Bảo mật đa tính toán với mô hì nh Se mi-Honest
.....................................................25
3.3. Thuật toán MHS trên dữ liệu phân t án ngang..........................................................26
3.4. Thuật toán EMHS trên dữ liệu phân tán ngang .......................................................26
3.4.1. Tập phổ biến tối đại ..............................................................................................26
3.4.2. Thuật toán RSA ....................................................................................................26
3.4.3. Hệ thố ng mật mã Homomor phic
Paillier...........................................................26
3.4.4. Thuật toán EMHS.................................................................................................27


6

CHƯƠNG 4. THUẬT TOÁN SỬA ĐỔI TỪ EMHS........................................................28
4.1. Các khái niệm cơ bản c ủa thuật toán mới
................................................................28


7

4.2. Elliptic Cur ve Cryptogr
aphy......................................................................................28
4.3. Giao t hức gi ao tiếp
......................................................................................................30
CHƯƠNG 5. KẾT QUẢ THỰC NGHIỆM. .......................................................................35

5.1. So sánh về sự riêng tư .................................................................................................35
5.2. So sánh về tính toán t hời gian....................................................................................35
5.3. Kết quả t hực nghiệm ...................................................................................................35
5.3.1. Chương trình thực nghiệm I-EMHS ..................................................................37
5.3.2. Biểu đồ so sánh thời gi an ....................................................................................38
KẾT LUẬN .............................................................................................................................42
TÀI LIỆU THAM KHẢO .....................................................................................................43


vi
i

DANH MỤC CÁC TỪ VIẾT TẮT
TT

Từ vi ết tắt

Di ễn gi ải ti ếng Anh

Di ễn gi ải ti ếng Vi ệt

1

ECC

Elliptic Curve Cryptography.

2

MHS


Mahmoud HusSein.

3

EMHS

EMHS.

4

PPDM

Privacy Preserving Data Mining.

5

FI

Frequent Itemset.

Tập phổ biến

6

MFI

Maximal Frequent Itemset.

Tập phổ biến tối đại


7

MST

Minimum Support Threshold.

Độ hỗ trợ tối tiểu

8

MCT

Minimum Confidence Threshold.

Ngưỡng độ tin cậy tối thiểu

9

SMC

Secure Multiparty Computation

Bảo mật đa tính toán

10

RSA

Revest-ShamirAdleman


Mã hóa RSA

11

IT-tree

Itemset-Tidset tree

Cây tập mục - tập giao dịch

12

SH

Semi Honest

Mô hình bán trung thực

Mã hóa đường cong
Elliptic.
Tác giả của thuật toán
PPDM trên dữ liệu phân tán
Một thuật toán cải tiến từ
MHS
Khai thác dữ liệu bảo toàn
tính riêng tư


8


DANH MỤC CÁC
BẢNG
Bảng 1. Cơ sở dữ liệu D .......................................................................................................... 6
Bảng 2. Một ví dụ t huật toán Apriori
...................................................................................13
Bảng 3. Quan hệ đề án ( DA)
.................................................................................................22
Bảng 4. Kết quả phân t án ngang nguyên thủy
....................................................................22
Bảng 5. Quan hệ phò ng ban(PB)
..........................................................................................23
Bảng 6. Kết quả phân mảnh ngang dẫn xuất
.......................................................................23
Bảng 7. So sánh chiề u dài khóa (key) c ủa các t huật toán ECC và RSA[8 ]
....................28
Bảng 8. Mô tả chi tiết của cơ sở dữ liệu t hực nghiệm
.......................................................35
Bảng 9. P hân mảnh cơ sở dữ liệu Mus hroom.
....................................................................38
Bảng 10. Kết quả thực nghiệm trên dữ liệu Mus hroom.
...................................................38
Bảng 11. Phân mảnh cơ sở dữ liệu Chess. ..........................................................................39
Bảng 12. Kết quả thực nghiệm trên dữ liệu Chess .............................................................40


9

DANH MỤC CÁC
HÌNH

Hình 1. C ác hì nh thức kh ác nhau của cơ sở dữ liệu .............................................................
5
Hình 2. Mức 1 c ủa phương pháp IT- Tree với minSup=3
..................................................16
Hình 3. Cây tìm kiếm t ập FI t hỏa mi nSup = 60%
..............................................................17
Hình 4. Cây tìm kiếm t ập FI t hỏa mi nSup = 60% có sắp xếp.
.........................................18
Hình 5. Mô hì nh hệ cơ sở dữ liệu phân t án.
.......................................................................21
Hình 6. Giao t hức gi ao tiếp thuật toán sửa đổi từ EMHS[7 ].
...........................................30
Hình 7. Initiator tìm FI phổ biến to àn cục.
..........................................................................34
Hình 8. Màn hì nh điều khiển trên Site Initiator.
.................................................................37
Hình 9. So sánh t hời gian c hạy EMHS và I- EMHS trên cơ sở dữ liệu Mus hroom.
......39
Hình 10. So sánh thời gi an chạy EMHS và I-EMHS trên cơ sở dữ liệu Chess.
.............40


1

MỞ ĐẦU
1. Đặt vấn đề
Cơ sở dữ liệu (CSDL) phân tán là một cấu trúc dữ liệu hiện nay đang phát triển
rất nhanh và chúng ta thường gặp chúng trong thực tế như: CSDL của một hệ thống
ngân hàng, của các công ty bảo hiểm, của các tổng công ty thương mại có một hệ
thống cửa hàng phát triển ở nhiều nơi như CSDL của các thành viên thuộc tổ chức

quốc tế.
Khai thác dữ liệu là quá trình tìm kiếm những thông tin tiềm ẩn mang tính dự
đoán trong các CSDL. Những công cụ khai thác dữ liệu có thể phát hiện những luật
và định hướng trong tương lai, các tri thức mà khai thác dữ liệu mang lại cho các đơn
vị có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực mà trước
đây tốn rất nhiều thời gian để xử lý. Với ưu điểm trên, khai thác dữ liệu đã chứng tỏ
được tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh ngày
nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y
học, giáo dục, viễn thông, quốc phòng ...
Trong thực tế, phần lớn CSDL phân tán dùng để khai thác thường liên quan
đến
nhiều cá nhân hoặc nhiều tổ chức. Bản thân dữ liệu là thông tin nhạy cảm hoặc quá
trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm. Một số đơn vị, tổ chức muốn
chia sẻ dữ liệu theo kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhưng
mỗi bên lại muốn đảm bảo tính riêng tư cho dữ liệu của chính mình. Khai thác dữ
liệu phân tán đảm bảo tính riêng tư là hướng nghiên cứu nhằm đề ra giải pháp bảo vệ
tính riêng tư của dữ liệu lẫn tri thức trước và sau khi thực hiện khai thác trên dữ liệu.
Nhiều nhà nghiên cứu gần đây đã công bố nhiều thuật toán, phương pháp để
bảo vệ tính riêng tư trong khai thác trên CSDL phân tán. Trong luận văn này, tác giả
sẽ trình bày thuật toán sửa đổi từ thuật toán EMHS[3] nhằm cải thiện hiệu quả của
thuật toán mã hóa bằng cách sử dụng phương pháp Elliptic Curve Cryptography. Các
tác giả trong[7.] đã sử dụng kỹ thuật Elgamal Cryptography của ECC cho mã hóa
đồng dạng. Phần phân


2

tích các thử nghiệm trên các bộ dữ liệu khác nhau của các tác giả đã cho thấy thuật
toán mới đề xuất có hiệu quả hơn khi so sánh với EMHS[3] về thời gian tính toán.
2. Mục ti êu của l uận văn

Nghiên cứu các thuật toán, phương pháp khai thác tập phổ biến, luật kết hợp
trên
CSDL và CSDL phân tán ngang.
Tác giả nghiên cứu và trình bày thuật toán EMHS mà các tác giả trong [3] đã
trình bày và thuật toán sửa đổi từ EMHS, khai thác trên CSDL phân tán ngang bảo
toàn tính riêng tư cho các bên tham gia.
Cài đặt chương trình thực nghiệm và so sánh sự riêng tư, thời gian tính toán
của
EMHS với thuật toán sửa đổi từ EMHS.
3. Bố cục l uận văn
Nội dung luận văn gồm phần mở đầu, năm chương và phần kết luận, như sau:
Mở đầu
Trình bày những vấn đề liên quan đến hướng nghiên cứu của luận văn, nêu rõ
mục tiêu chính, các phương pháp nghiên cứu và bố cục của luận văn cũng được nêu
rõ trong phần này.
Chương 1. Tổng quát l uận văn
Trong chương này, trình bày tổng quát về luận văn, dữ liệu phân tán và các kỹ
thuật khai thác dữ liệu hoặc khai phá tri thức như khai thác luật kết hợp.
Chương 2. Gi ới thi ệu về dữ l i ệu phân tán
Trong chương này, trình bày về các khái niệm về dữ liệu phân tán, các kiểu
phân tán dữ liệu, mô hình phân tán.
Chương 3. Thuật toán EMHS và các thuật toán l i ên quan
Trong chương này, trình bày các thuật toán và giải t huật cụ thể của thuật
toán EMHS và các thuật toán liên quan nhằm khai thác dữ liệu phân tán ngang và
bảo mật được tính riêng tư cho dữ liệu được khai thác.
Chương 4. Thuật toán sửa đổi từ EMHS


3


Trong chương này, trình bày thuật toán và giải thuật của thuật toán đề xuất dựa
trên thuật toán EMHS. Thuật toán sửa đổi từ EMHS trong giới hạn về khả năng bảo
đảm tính riêng tư và thời gian khai thác dữ liệu.
Chương 5. Kết quả thực nghi ệm
Trong chương này, trình bày về thực nghiệm và so sánh kết quả từ thuật EMHS
và thuật toán sửa đổi từ EMHS trong luận văn.
Kết l uận
Phần này trình bày tổng quát về các kết quả đạt được, những khó khăn và
hướng phát triển, nghiên cứu tiếp theo của luận văn.


4

CHƯƠNG 1. TỔNG QUÁT LUẬN VĂN
1.1. Gi ới thi ệu chung
Trong sự phát triển mạnh của Internet ngày nay, dẫn đến sự bùng nổ của thông
tin, tri thức và với khối lượng dữ liệu ngày càng lớn đã thúc đẩy một lĩnh vực
nghiên cứu đầy tiềm năng là khai thác tri thức và khai thác dữ liệu.
Khai phá dữ liệu hoặc phát hiện kiến thức kỹ thuật như khai phá luật kết hợp,
gom nhóm, phân loại, khai thác chuỗi, … đã được sử dụng rộng rãi nhất trong thông
tin thế giới ngày nay. Ứng dụng thành công các kỹ thuật đã được chứng minh trong
nhiều lĩnh vực như tiếp thị, phân tích y tế, kinh doanh, kiểm soát sản phẩm và một số
lĩnh vực khác mà tạo lợi nhuận thương mại, xã hội và các hoạt động nhân đạo. Những
kỹ thuật này đã được chứng minh trong môi trường tập trung cũng như mô i trường
phân tán.
Trong môi trường tập trung, tất cả các tập dữ liệu được thu thập tại các site
trung tâm (kho dữ liệu) và sau đó hoạt động khai thác tài nguyên được thực hiện, như
thể hiện trong hình 1a.
Trong môi trường phân tán, dữ liệu có thể được phân chia giữa các site khác
nhau mà không được phép gửi dữ liệu của nó để tìm kiếm kết quả toàn cục.

Có hai loại dữ liệu phân tán.
(1). Phân tán theo chiều ngang: các site khác nhau thu thập cùng các đặc trưng
về thông tin của các thực thể khác nhau, như thể hiện trong hình 1b.
(2). Phân tán theo chiều dọc: các site thu thập các đặc trưng khác nhau của
cùng tập thực thể, như thể hiện trong hình 1c.


5

Data Mining
Data Mining

Data Mining

DW

Data

Data

(1a) Dữ liệu tập trung

(1b) Dữ liệu phân tán ngang
(1c) Dữ liệu phân tán
dọc
Hình 1. Các hình thức khác nhau của cơ sở dữ liệu

Gần đây các kỹ thuật này trong việc điều tra, nghiên cứu về vấn đề riêng tư và
bảo mật và nó được kết luận rằng những kỹ thuật đó đe dọa đến sự riêng tư của thông
tin cá nhân. Điều đó có nghĩa một đối tượng(ví dụ: kẻ thù hoặc sử dụng độc hại) có thể

dễ dàng suy luận thông tin nhạy cảm của một ai đó (hoặc kiến thức) bằng kỹ thuật khai
thác tài nguyên. Vì vậy, thông tin nhạy cảm nên được mã hóa trong cơ sở dữ liệu
trước khi phát hành. Đối với khai thác dữ liệu cần được bảo vệ khỏi các bên thứ 3 (hoặc
các site) những người muốn tìm kiếm các kết quả khai thác toàn cục[6]. Từ đó, giữ
gìn sự riêng tư cho thông tin nhạy cảm, riêng tư, bảo vệ khai thác dữ liệu (PPDM) trở
thành một xu hướng cần thiết cho các kỹ thuật khai thác thông tin, dữ liệu.
1.2. Khai thác tập phổ bi ến và l uật kết hợp
1.2.1. Các khái ni ệm
Khai thác dữ liệu là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ
liệu.
Tri thức: Là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ
giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu. Tri thức có thể được xem
như là dữ liệu trừu tượng và tổng quát ở mức độ cao.


6

Khai thác dữ l i ệu:
Là một bước trong quá trình khám phá tri thức, gồm các thuật toán khai thác
dữ liệu chuyên dùng với một số quy định về hiệu quả tính toán chấp nhận được để
tìm ra các mẫu, các mô hình dữ liệu hoặc các thông tin có ích cho người dùng. Nói
cách khác , mục tiêu của khai thác dữ liệu là rút trích ra những thông tin có giá trị tồn
tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu.
Dữ l i ệu gi ao dị ch:
Cho I = {i1 , i2 , …, in } là tập tất cả các mục dữ liệu (mặt hàng). T = {t 1 , t2 , …, tm} là
tập tất cả các giao dịch trong CSDL giao dịch D. CSDL được cho là quan hệ hai
ngôi
  I  T. Nếu mục iI xảy ra trong giao dịch tT thì ta viết là (i,t), ký hiệu i
 t.
Ví dụ về bảng dữ liệu của một cơ sở dữ liệu giao dịch:

CSDL D
TID

ITEMSET

1

A,B,D

2

B,C,E

3

A,B,D,E

4

A,B,C,E

5

A,B,C,D
Bảng 1. Cơ sở dữ liệu D

Độ hỗ trợ:
Cho CSDL giao dịch D và tập dữ liệu X  I. Độ hỗ trợ của X trong D, ký hiệu
(X),
được định nghĩa là số giao dịch mà X xuất hiện trong D.

Tập phổ bi ến:
XI được gọi là phổ biến nếu (X) minSup (với minSup là giá trị do người
dùng chỉ định). Tập phổ biến ký hiệu là FI (Frequent itemset)


7

Tí nh chất của tập phổ bi ến:
Mọi tập con của tập phổ biến cũng là tập phổ biến: Nghĩa là, nếu X phổ biến
thì mọi YX cũng phổ biến.
Mọi tập cha của tập không phổ biến cũng không phổ biến: Nghĩa là, nếu X
không
phổ biến thì mọi Y (XY) cũng không phổ biến.
Một l uật kết hợp có dạng:
AB, với A  I, B  I và A  B = Ø. Luật AB ngầm chứa trong D
với độ đo Supp s, trong đó s là tỷ lệ các giao dịch trong D chứa A  B, được diễn tả bằng
xác suất P(A B). Luật AB có độ đo Conf c trong tập D, thì c là tỷ lệ giữa các giao
dịch trong D chứa A thì chứa luôn B, được diễn tả bằng xác suất P(B/A).

1.2.2. Khai thác tập phổ bi ến và l uật kết hợp
Cho tập I = {I1 , I2 ,….,Im} là một tập các mục dữ liệu. Cho D là bộ dữ liệu cần
khai thác, và là một tập trong CSDL giao dịch. Mỗi giao dịch T là một tập các mục dữ
liệu và
TI. Mỗi giao dịch có một định danh, được gọi là TID. Cho A là tập các mục dữ
liệu.
Một giao dịch T được gọi là chứa A khi và chỉ khi A  T.
Một luật kết hợp có dạng AB, với A  I, B  I và A  B = Ø. Luật
AB ngầm chứa trong D với độ đo Support s, trong đó s là tỷ lệ các giao dịch trong
D chứa A B, được diễn tả bằng xác suất P(A B). Luật AB có độ đo Conf c trong
tập D, thì c là tỷ lệ giữa các giao dịch trong D chứa A thì chứa luôn B, được diễn tả

bằng xác suất P(B/A).
Nghĩa là:
Supp (AB) = P( A  B).
Conf (AB) = P( B/A ).
Những luật thỏa mãn cả hai ngưỡng minSup và minConf được gọi là mạnh.
Một tập các mục dữ liệu đơn (items) được gọi là itemset. Một itemset chứa k
items được gọi là k-itemset. Chẳng hạn tập {gió, mây, mưa} là 3-itemset. Độ phổ biến
của một


8

itemset là số lượng các giao dịch có chứa itemset. Thường được biết với các tên
là support count, hay count của itemset.
Nếu độ đo support count của một itemset I thỏa ngưỡng minSup cho trước thì I
là một tập phổ biến. Một tập phổ biến gồm k-items được ký hiệu là FI.
Độ đo Conf của luật AB có thể thu được từ độ đo support của A và của A  B.
Do đó, một khi độ đo support của A, B và A  B được tìm thấy, ta có thể kiểm tra 2 luật
kết hợp AB và BA xem chúng có mạnh hay không. Như vậy, vấn đề khai thác
các luật kết hợp có thể chuyển về bài toán khai thác các tập phổ biến.
Phát bi
toán:

ểu

bài

Cho một tập các mục I, một cơ sở dữ liệu giao dịch D, ngưỡng hỗ trợ
minSup, ngưỡng tin cậy minConf. Tìm tất cả các luật kết hợp XY trên CSDL D sao
cho: sup(X

Y) ≥ minSup và Conf(XY) ≥ minConf. Bài toán khai thác luật kết hợp có thể
được
chia ra làm 2 bài toán con được phát biểu trong thuật toán
sau:
Nội dung thuật toán
Vào: I, D, minSup, minConf
Ra: Các luật kết hợp thỏa mãn minSup và minConf
Các bước thực hiện:
(1) Tìm tất cả các tập mục phổ biến từ CSDL D tức là tìm tất cả các tập mục có
độ hỗ trợ lớn hơn hoặc bằng minSup.
(2) Sinh ra các luật từ các tập mục phổ biến (large itemsets) sao cho độ tin cậy
của luật lớn hơn hoặc bằng minConf.
Tùy theo ngữ cảnh các thuộc tính dữ liệu, cũng như phương pháp sử dụng
trong các thuật toán; người ta có thể phân bài toán khai thác luật kết hợp ra nhiều
nhóm khác nhau. Chẳng hạn, nếu giá trị của các thuộc tính có kiểu boolean thì ta gọi
là khai thác luật kết hợp Boolean (Mining Boolean Association Rules)…
Apriori là thuật toán khai thác tập phổ biến và từ đó có thể khai thác luật kết
hợp
do RaKesh Agrawal, Tomasz Imielinski, Anin Sawami đưa ra vào năm 1993, là nền
tảng


9

cho việc phát triển những thuật toán sau này. Thuật toán sinh tập mục ứng cử từ
những tập mục phổ biến ở bước trước, sử dụng kỹ thuật “tỉa” để bỏ đi tập mục ứng
cử không thỏa mãn ngưỡng hỗ trợ cho trước.
1.2.3. Thuật
ori


toán Apri

Thuật toán Apriori, một trong những thuật toán phổ biến trong hướng tiếp cận
khai thác dữ liệu, là tìm các tập phổ biến trong cơ sở dữ liệu thỏa ngưỡng hỗ trợ
(minSup) cho trước và dẫn xuất ra luật kết hợp.
Apriori là thuật toán nền tảng để tìm các tập phổ biến sử dụng phương pháp
sinh
tập
ứng
minSup.

viên

thỏa

Cho một tập các itemset phổ biến có kích thước k là Fk và tập ứng viên của
chúng là Ck . Apriori quét cơ sở dữ liệu D lần thứ nhất để tìm kiếm các item đơn thỏa
minSup. Sau đó lặp lại 3 bước sau để tìm các tập phổ biến.
Bước 1. Sinh tập ứng viên Ck+1 từ các tập phổ biến có k phần tử.
Bước 2. Quét cơ sở dữ liệu để đếm độ phổ biến của các ứng
viên.
Bước 3.Thêm các tập này vào danh sách L các tập phổ biến có k+1 phần tử nếu

thỏa minSup.
Mô tả tuận toán cụ thể như sau:
Input: D, cơ sở dữ liệu của các giao tác; minSup, ngưỡng độ hỗ trợ tối
thiểu.
Output: L, các tập item phổ biến trong
D.
Thuật

toán:
(1) L1 = find_frequent_1-itemsets(D);
(2) for (k = 2; Lk-1  0; k++) {
(3)
1 );

Ck= apri ori _gen(Lk-


10

(4)
đếm
(5)
viên
(6)
cCt

for each giao tác t  D{ // quét D để
Ct= subset(Ck, t); // lấy các tập con của t mà là các ứng
for each ứng viên


×