Tải bản đầy đủ (.pdf) (79 trang)

Một số kỹ thuật khai phá luật kết hợp có bảo đảm tính riêng tư trong các tập giao dịch phân tán ngang ( Luận án tiên sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (703.21 KB, 79 trang )

1

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG
------------------ o0o------------------

Họ và tên tác giả: Nguyễn Thị Thùy

MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP CÓ
BẢO ĐẢM TÍNH RIÊNG TƢ TRONG CÁC TẬP GIAO DỊCH
PHÂN TÁN NGANG

LUẬN VĂN THẠC SỸ KHOA HỌC

Thái Nguyên – 2014

Số hóa bởi Trung tâm Học liệu

/>

2

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG

Họ và tên tác giả: Nguyễn Thị Thùy

MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP CÓ
BẢO ĐẢM TÍNH RIÊNG TƢ TRONG CÁC TẬP
GIAO DỊCH PHÂN TÁN NGANG
Chuyên ngành: Khoa học máy tính



Mã số: 60 48 01

LUẬN VĂN THẠC SỸ KHOA HỌC

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. TRẦN ĐỨC SỰ

Thái Nguyên - 2014

Số hóa bởi Trung tâm Học liệu

/>

3

LỜI CAM ĐOAN

Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật
Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.

TÁC GIẢ LUẬN VĂN

Nguyễn Thị Thùy

Số hóa bởi Trung tâm Học liệu

/>


4

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng cảm ơn chân thành tới thầy giáo,TS. Trần
Đức Sự, người tận tình hướng dẫn tôi trong suốt thời gian làm luận văn tốt
nghiệp.
Tôi xin cảm ơn các thầy, cô giáo ở khoa Công nghệ thông tin trường
Đại học CNTT và truyền thông - Đại học Thái Nguyên đã giảng dạy tôi trong
suốt thời gian học tập tại trường và tạo điều kiện giúp đỡ tôi hoàn thành luận
văn này.
Cảm ơn các bạn bè, đồng nghiệp đã cổ vũ động viên tôi trong suốt quá
trình học tập tại trường.
Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có
hạn nên chắc chắn luận văn này còn nhiều thiếu sót và hạn chế nhất định.
Kính mong nhận được sự góp ý của thầy cô và các bạn.

Số hóa bởi Trung tâm Học liệu

/>

5

MỤC LỤC
LỜI CAM ĐOAN ...............................................................................................
LỜI CẢM ƠN .....................................................................................................
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................
DANH MỤC CÁC BẢNG..................................................................................
DANH MỤC CÁC HÌNH VẼ ............................................................................
MỞ ĐẦU ........................................................................................................... 1

Chƣơng 1. TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP CÓ ĐẢM
BẢO TÍNH RIÊNG TƢ .................................................................................. 3
1.1. Một số khái niệm cơ bản ............................................................................ 3
1.1.1. Khai phá dữ liệu ...................................................................................... 3
1.1.2. Tính riêng tư ............................................................................................ 3
1.1.3. Khai phá dữ liệu đảm bảo tính riêng tư .................................................. 3
1.2. Khai phá luật kết hợp ................................................................................. 4
1.2.1. Luật kết hợp ............................................................................................. 4
1.2.2. Khai phá luật kết hợp .............................................................................. 6
1.3. Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư. ........... 6
1.3.1. Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung ... 7
1.3.2. Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu phân tán.... 8
1.3.2.1. Khai phá dữ liệu trong mô hình phân tán ............................................ 8
1.3.2.2. Phân tán ngang .................................................................................... 8
1.3.3. Ẩn các luật nhạy cảm trong khai phá luật kết hợp ............................... 11
1.4. Một số kỹ thuật khai phá luật kết hợp có đảm bảo tính riêng tư ............. 11
1.4.1. Phương pháp biến đổi dữ liệu ............................................................... 11
1.4.2. Sử dụng thành viên thứ ba đáng tin cậy................................................ 11
1.4.3. Tính toán đa thành viên bảo mật .......................................................... 13
Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TÌM LUẬT KẾT HỢP ............... 17
2.1. Bài toán tìm luật kết hợp. ......................................................................... 17
Số hóa bởi Trung tâm Học liệu

/>

6

2.1.1. Phát biểu bài toán. ................................................................................ 17
2.1.2. Ví dụ ...................................................................................................... 17
2.2. Thuật toán Apriori .................................................................................... 18

2.2.1. Nguyên lí Apriori................................................................................... 19
2.2.2. Thuật toán Apriori................................................................................. 19
2.3. Thuật toán khai phá luật kết hợp phân tán ............................................... 22
2.3.1. Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) ..................... 22
2.3.2. Thuật toán khai phá phân tán luật kết hợp (DMAR) ............................ 25
Chƣơng 3.MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP CÓ
ĐẢM BẢO TÍNH RIÊNG TƢ ..................................................................... 31
3.1. Phương pháp dựa trên tính tổng bảo mật chống lại sự thông đồng ......... 31
3.1.1. Các định nghĩa ...................................................................................... 31
3.1.2. Thuật toán khai phá dữ liệu đảm bảo tính riêng tư chống lại sự thông
đồng. ................................................................................................................ 32
3.1.2.1. Tính tổng bảo mật với Secure Sum .................................................... 33
3.1.2.2. Mô hình khai thác bằng CRDM ......................................................... 38
3.2. Một số giao thức tiếp cận theo hướng FI (Frequent itemset): ................. 43
3.2.1. Giao thức sử dụng mã hóa giao hoán KCS .......................................... 44
3.2.2. Giao thức sử dụng thành viên thứ ba bán tin cậy sử dụng mã hóa
Paillier ............................................................................................................. 47
3.2.3. Kỹ thuật tính tổng bảo mật cải tiến dựa trên mô hình hai thành viên bán
tin cậy .............................................................................................................. 48
3.3. So sánh hai phương pháp Secure Sum và Two Mixer Sum. ................... 54
3.4. Cài đặt thuật toán Secure Sum. ................................................................ 55
3.4.1. Yêu cầu về càiđặt thuật toán. ................................................................ 56
3.4.2. Quá trình cài đặt và thử nghiệm thuật toán Secure Sum.. .................... 56
3.4.3 Kết luận. ................................................................................................. 61
3.5. Cài đặt thuật toán Two Mixer Sum. ......................................................... 62
Số hóa bởi Trung tâm Học liệu

/>

7


KẾT LUẬN VÀ KIẾN NGHỊ......................................................................... 67
1. Kết luận ....................................................................................................... 67
2. Kiến nghị ..................................................................................................... 67
TÀI LIỆU THAM KHẢO ............................................................................... 68

Số hóa bởi Trung tâm Học liệu

/>

8

DANH MỤC CÁC TỪ VIẾT TẮT

A.sup:

Ðộ hỗ trợ toàn cục của itemset A (tính theo số lần xuất hiện)

A.supi:

Ðộ hỗ trợ cục bộ của itemset A tại site i (tính theo số lần xuất
hiện)

conf:

Ðộ tin cậy (toàn cục) tối thiểu

CSDL:

Cơ sở dữ liệu


DB:

Cơ sở dữ liệu tập trung hay toàn cục

DBi:

Cơ sở dữ liệu cục bộ tại site i

FI:

Tập itemset phổ biến

FIi:

Tập itemset phổ biến cục bộ tại site i

KTDL:

Khai thác dữ liệu

MFI:

Tập itemset tối đại

MFIi:

Tập itemset tối đại cục bộ tại site i

Public key:


Khoá công khai

Private key:

Khoá bí mật

SMC:

Các giao thức tính toán đa thành viên an toàn

sup:

Ðộ hỗ trợ (toàn cục) tối thiểu (tính theo tần số %)

SUP:

Ðộ hỗ trợ (toàn cục) tối thiểu (tính theo số lần xuất hiện)

Trusted-party: Thành viên thứ 3 đáng tin cậy

Số hóa bởi Trung tâm Học liệu

/>

9

DANH MỤC CÁC BẢNG

Bảng 1.1. Ví dụ về mô hình dữ liệu phân tán ngang ........................................ 8

Bảng 1.2. Ví dụ về mô hình dữ liệu phân tán dọc........................................... 10
Bảng 2.1. Các tập phổ biến ............................................................................. 26
Bảng 3.1. So sánh 2 phương pháp Secure Sum và Two Mixer Sum. ............. 55

Số hóa bởi Trung tâm Học liệu

/>

10

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Quá trình khai phá luật kết hợp trên CSDL tập trung ....................... 7
Hình 1.2. Giao thức sử dụng Trusted-party .................................................... 13
Hình 1.3. Mô hình tính toán SMC .................................................................. 14
Hình 2.1. CSDL giao dịch ............................................................................... 18
Hình 2.2. Quá trình tìm tập phổ biến .............................................................. 18
Hình 3.1. SecureSum(): Tính tổng bảo mật các Vi (0 ≤ i ≤ M-1) .................. 34
Hình 3.2a. Giai đoạn 1 của ví dụ sử dụng SecureSum ................................... 35
Hình 3.2b. Giai đoạn 2 của ví dụ về sử dụng SecureSum .............................. 36
Hình 3.3. Một ví dụ minh họa CRDM ............................................................ 39
Hình 3.4.Giai đoạn 1, tìm itemset ứng viên chung ......................................... 44
Hình 3.5. Giai đoạn 2, tính độ hỗ trợ toàn cục ................................................ 46
Hình 3.6. Giao thức sử dụng Semi-trusted-mixer ........................................... 47
Hình 3.7. Giai đoạn 1 ví dụ về thuật toán Two – MixerSum.......................... 52
Hình 3.8. Giai đoạn 2 ví dụ về thuật toán Two – MixerSum.......................... 53
Hình 3.9. Giao diện chính của chương trình ................................................... 57
Hình 3.10. Tiến trình thử nghiệm của chương trình ....................................... 58
Hình 3.11. Giao diện kết quả chương trình ..................................................... 58
Hình 3.12. Giao diện chương trình ................................................................. 62

Hình 3.13. Tiến trình thử nghiệm.................................................................... 63
Hình 3.14. Kết quả chương trình..................................................................... 63

Số hóa bởi Trung tâm Học liệu

/>

1

MỞ ĐẦU
Khai phá luật kết hợp là một trong các phương pháp quan trọng trong
khai phá dữ liệu. Việc khai phá luật kết hợp thường được thực hiện trên các
cơ sở dữ liệu giao dịch của người dùng được giữ trong các tổ chức, ví dụ các
giao dịch mua hàng tại siêu thị, các giao dịch tài chính tại ngân hàng ….
Các ngân hàng rất muốn tìm kiếm khả năng thanh toán nợ của khách
hàng, họ cần hợp tác với nhau để tìm ra khả năng này thông qua một số đặc
tính nào đó của khách hàng của họ tuy nhiên họ không thể giao dữ liệu khách
hàng của họ cho các ngân hàng khác được có thể vì lí do cạnh tranh khách
hàng, của luật bảo vệ thông tin người dùng. Do đó nhu cầu tìm kiếm các luật
kết hợp trên dữ liệu phân tán có đảm bảo tính riêng tư là một nhu cầu thiết
yếu và cấp bách.
Các giải pháp khai phá luật kết hợp có đảm bảo tính riêng tư ra đời là
hết sức cần thiết, để cho phép thực hiện việc khai phá luật kết hợp trong khi
vẫn bảo vệ được thông tin riêng tư. Do đó việc nghiên cứu, tìm hiểu các thuật
toán khai phá luật kết hợp có đảm bảo tính riêng tư để tích hợp cho các ứng
dụng là có tính thực tiễn cao.
Xuất phát từ thực tiễn trên, mục đích của đề tài là nghiên cứu đánh giá
“Một số kỹ thuật khai phá luật kết hợp có bảo đảm tính riêng tƣ trong
các tập giao dịch phân tán ngang”.
Nội dung bao gồm 3 chương và phần mở đầu, phần kết luận với nội

dung cụ thể như sau:
Chương 1: Tổng quan về khai phá luật kết hợp có đảm bảo tính riêng tư.
Trong chương 1 sẽ trình bày khái quát chung về vấn đề khai phá dữ liệu
có đảm bảo tính riêng tư, vấn đề khai phát luật kết hợp có đám bảo tính riêng
Số hóa bởi Trung tâm Học liệu

/>

2

tư với dữ liệu tập trung và trên các hệ thống phân tán, một số tiêu chí đánh
giá.
Chương 2: Một số phương pháp khai phá luật kết hợp.
Ở chương 2 chúng ta sẽ tìm hiểu về một số phương pháp tìm luật kết
hợp, khai phá luật kết hợp trong dữ liệu phân tán.
Chương 3: Một số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư
trong môi trường phân tán ngang.
Chương này sẽ tập chung nghiên cứu về một số thuật toán khai phá luật
kết hợp có đảm bảo tính riêng tư trong môi trường phân tán ngang. Trong đó
tập trung vào 2 thuật toán chính là: Phương pháp dựa trên tổng bảo mật chống
lại sự thông đồng và phương pháp tiếp cận theo hướng FI. Đồng thời trình bày
đề mô thuật toán Secure Sum và cải tiến thuật toán.

Số hóa bởi Trung tâm Học liệu

/>

3

Chƣơng 1

TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP
CÓ ĐẢM BẢO TÍNH RIÊNG TƢ
1.1. Một số khái niệm cơ bản
1.1.1. Khai phá dữ liệu
Khai phá dữ liệu (KPDL) là các kỹ thuật để rút trích tri thức từ lượng
dữ liệu lớn và được xem là giai đoạn chính trong quá trình khám phá tri thức.
KPDL được ứng dụng trong nhiều lĩnh vực như tiếp thị, kinh doanh, khám
phá khoa học, công nghệ sinh học, tìm kiếm trên Internet, giải trí đa phương
tiện, …
Với lượng dữ liệu gia tăng nhanh chóng thì KPDL là một công cụ hữu
ích để rút trích những thông tin có ích từ dữ liệu, tuy nhiên trong các lĩnh vực
đặc thù như y khoa, bảo hiểm, ngân hàng… có chứa dữ liệu và thông tin nhạy
cảm, không cho phép tiết lộ dữ liệu và thông tin nhạy cảm này do đó gây khó
khăn cho quá trình khai thác, từ đó đòi hỏi cần có các nghiên cứu để có thể
khai phá dữ liệu nhưng không ảnh hưởng đến tính riêng tư của dữ liệu.
1.1.2. Tính riêng tư
Tính riêng tư là tính chất của các dữ liệu nhạy cảm như: định danh, tên,
địa chỉ, điện thoại, thu nhập,… của các cá nhân, một số số liệu thống kê các tổ
chức, doanh nghiệp… Các thông tin này là bí mật kinh doanh, mà nếu để lộ ra
sẽ gây bất lợi cho cá nhân, tổ chức,... hay những thông tin do quy định của
pháp luật nên không thể tiết lộ ra như bảo hiểm y tế, số tài khoản ngân hàng,...
Những loại thông tin như trên gọi là những thông tin có tính riêng tư hay là tri
thức nhạy cảm.
1.1.3. Khai phá dữ liệu đảm bảo tính riêng tư

Số hóa bởi Trung tâm Học liệu

/>

4


Vậy khai phá dữ liệu có đảm bảo tính riêng tư là việc dùng các thuật
toán để trích rút ra những tri thức quan trọng cần thiết cho mục đích khai phá
dữ liệu mà không làm lộ ra các thông tin nhạy cảm của các cá nhân, tổ chức
có trong tập dữ liệu.
1.2. Khai phá luật kết hợp
1.2.1. Luật kết hợp
* Giao dịch: danh sách các mặt hàng (mục:item) trong một phiếu mua
hàng của khách hàng. Giao dịch T là một tập mục.
- Toàn bộ tập các mục I={i1,i2,..ik} “tất cả các mặt hàng”. Một giao dịch
là một tập con của I: T

I. Mỗi giao dịch T có một định danh TID.

- A là một tập mục A

I và T là một giao dịch: Gọi T chứa A nếu

A T.
* Luật kết hợp.
- Gọi A → B là một “luật kết hợp” nếu A T, B T và A B= .
- Luật kết hợp A→B có độ hỗ trợ (support) s trong CSDL giao dịch D
nếu trong D có s% các giao dịch T chứa AB:chính là xác suất P(AB). Tập
mục A có P(A) ≥s>0 (với s cho trước) được gọi là tập phổ biến (frequent set).
Luật kết hợp A→B có độ tin cậy (confidence) c trong CSDL D nếu như trong
D có c% các giao dịch T chứa A thì cũng chứa B: chính là xác suất P(B│A).
- Support (A→B) = P( B) :1≥s(A→B)≥0
- confidence (A→B) = P(B│A) :1≥c(A→B)≥0
- Luật A→B được gọi là bảo đảm độ hỗ trợ s trong D nếu s(A→B)≥s.
Luật A → B được gọi là bảo đảm độ tin cậy c trong D nếu c(A→B)≥c.

Độ hỗ trợ (Support)
Số hóa bởi Trung tâm Học liệu

/>

Luận án đầy đủ ở file: Luận án Full












×