khai thác luật kết hợp bảo đảm tính riêng tư trên dữ liệu phân tán ngang (2)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (156.75 KB, 14 trang )

14

Chương 2.

CÔNG TRÌNH LIÊN QUAN

Trong chương 1 ñã phân tích tính riêng tư trong khai thác luật kết hợp trên
dữ liệu phân tán ngang, xác ñịnh thông tin cần phải bảo ñảm tính riêng tư và ñưa ra
các phương pháp ñể giải quyết. Trong chương này sẽ trình bày về các các giao thức
ñã ñề xuất ñể bảo ñảm tính riêng tư khai thác luật kết hợp trên dữ liệu phân tán
ngang, các giao thức ñược trình bày chi tiết về các bước thực hiện ñồng thời ñưa ra
các nhận xét, ñánh giá.
2.1. Giới thiệu chung:
Đã có nhiều bài báo tập trung vào vấn ñề khai thác luật kết hợp bảo ñảm tính
riêng tư trên dữ liệu phân tán ngang, hình 2.1 là cây phân loại các giao thức cùng
với các bài báo liên quan (ở ñây là các bài báo ñiển hình). Đặc ñiểm chung của các
giao thức là tập trung nâng cao tính riêng tư, tiết kiệm chi phí tính toán và truyền
thông, thỏa mô hình semi-honest, áp dụng cho mục ñích ẩn dữ liệu, sử dụng kỹ
thuật mã hóa và số site tham gia ≥ 3.
Semi-honest

Luật kết hợp
số lượng
([10], 2006)

Malicious

FI
([1], 2002)
([5], 2007)
([6], 2007)

([8], 2008)

MFI
([2], 2003)
([4], 2006)

Luật
kết
hợp

Apriori
([3], 2004)

Phân mảnh ngang
Ẩn dữ liệu

FPTree
([7], 2008)

Ẩn luật

Ma trận
tương tự
([9], 2009)

Hình 2.1 – Cây phân loại các thuật toán
2.2. FI (Frequent itemset):
Hướng tiếp cận FI dựa trên bổ ñề: “Một luật có ñộ hỗ trợ toàn cục ≥ k% thì
phải có ñộ hỗ trợ cục bộ ≥ k% tại ít nhất một site” [7].

15

Như vậy “một itemset phổ biến toàn cục thì phải phổ biến cục bộ tại ít nhất
một site” [7].
Từ ñó chọn tập itemset ứng viên toàn cục là phần hợp của các itemset phổ
biến cục bộ tại các site, các site phát sinh các itemset phổ biến cục bộ theo thuật
toán FDM (Fast Distributed Mining of association rules), sau ñó các site kết hợp
tính ñộ hỗ trợ toàn cục của các ứng viên toàn cục ñể tìm ra itemset phổ biến toàn
cục. Như vậy ta cần có giao thức hợp an toàn và giao thức tính tổng an toàn.
Năm 2002, Murat Kantacioglu và Chris Clifton [7] ñề xuất giao thức KCS,
ñây là giao thức ñầu tiên về vấn ñề này, giao thức áp dụng với số site n ≥ 3 và thỏa
mô hình semi-honest không có thông ñồng. Về tổng quan giao thức có hai giai
ñoạn:
Giai ñoạn 1: Xác ñịnh các k-itemset ứng viên toàn cục (phổ biến tại một
hoặc nhiều site, k-itemset phổ biến toàn cục ⊆ k-itemset ứng viên toàn cục).
E2(E3(ABC))
E2(E3(ABD))

Site 1
ABC

E1(ABC)
1

4
E3(ABC) 5
E3(ABD)

6

ABC
ABD
2

3
E2(E3(E1(ABC)))

Site 2
ABD

Site 3
ABC

E3(E1(ABC))

Hình 2.2 - Giai ñoạn 1, tìm itemset ứng viên chung
Từ hình 2.2, mỗi thành viên (site) mã hóa k-itemset phổ biến cục bộ (phát
sinh dựa vào (k-1)-itemset phổ biến toàn cục) sử dụng mã hóa giao hoán (ABC ở
site 1) và gửi cho các thành viên khác, cho ñến khi tất cả các thành viên ñã mã hóa
tất cả các k-itemset. Các k-itemset ñược mã hoá này ñược gửi tới một thành viên
chung ñể ước lượng trùng lắp và giải mã. (Tập các 3-itemset ở bên trái của site 1,
sau ñó site 1 tiến hành giải mã). Tập này ñược gửi cho các mỗi thành viên, mỗi
thành viên giải mã các k-itemset này. Kết quả cuối cùng là tập các k-itemset ứng

16

viên chung (ABC và ABD). (Sử dụng itemset giả mạo (“fake itemset”) ñể các site
khác không biết ñược số itemset phổ biến cục bộ của một site.)

Giai ñoạn 2: Xác ñịnh k-itemset ứng viên ñược hỗ trợ toàn cục (tức là kitemset phổnh
tổng của KCS nên tính riêng tư thấp.
Năm 2006, Chin-Chen Chang [10] cải tiến giao thức tìm tập ứng viên toàn
cục của KCS bằng cách sử dụng MFI. Giao thức thực hiện qua 2 giai ñoạn:
Giai ñoạn 1: Các site tìm MFI cục bộ và thêm vào một số itemset giả mạo.
Sử dụng mã hoá giao hoán tương tự KCS ñể tìm hợp MFI. Giao thức này cải tiến
hơn giao thức của Adriano A. Veloso [8] chỉ truyền thông trong một vòng, không
dùng Trusted-party, giảm số ứng viên toàn cục ñược mã hóa và giảm tổng chi phí
truyền thông.
Giai ñoạn 2: tính ñộ hỗ trợ toàn cục của các ứng viên sử dụng 2 giao thức
(có và không có Trusted-party) có tính bảo mật hơn KCS.
Giao thức A: (sử dụng Trusted-party, TA)
Độ hỗ trợ vượt mức toàn cục của một itemset ứng viên chung X, GE:

23

GE = X.sup − sup* | DB |
n −1

= ∑ (X.supi − sup* | DBi |)
i=0

n −1

n −1

= ∑ X.sup i − sup * ∑ | DBi | + (Rsum − Rsum)
i=0

i=0

n −1

n −1

n −1

i=0

i=0

i=0

= ∑ X.sup i − sup * ∑ | DBi | + ∑ R i − Rsum
n −1

= ∑ (X.supi − sup * | DBi | + R i ) − Rsum
i=0

n −1

= ∑ ri − Rsum
i=0

Nếu GE ≥ 0: X phổ biến toàn cục, ngược lại X không phổ biến.
Ví dụ: xem hình 2.9, với X = {A, B} là itemset ứng viên toàn cục.
Bước 1: TA chọn ngẫu nhiên R0 = 9, R1 = 12, R2 = 7. Rsum = 28.
Bước 2: TA gửi (9, 28), (12, 28), (7, 28) cho S0, S1, S2 theo thứ tự. S0, S1, S2
tính toán ñộc lập r0 = 18 – 10% * 100 + 9 = 17, r1 = 7 – 10% * 100 + 12 = 9 và r2 =

12 – 10% * 200 + 7 = -1.
Bước 3: Các site S0, S1, S2 theo thứ tự truyền r0, r1, r2 cho các site khác.
Bước 4: Mỗi site tính GE = 17 + 9 – 1 – 28= -3 < 0. Do ñó, X không phổ
biến toàn cục.
Giao thức B: (không sử dụng Trusted-party)
GE = X.sup - sup*|DB|
n −1

n −1

n −1

n −1

i=0

i=0

i=0

i=0

= ∑ X.supi − sup * ∑ | DBi | + ∑ R i − ∑ R i
n −1

= ∑ (X.supi − sup* | DBi | + R i + R j ), ( j ≡ n + i -1(mod n) )
i=0

n −1

= r0 + ∑ (X.supi − sup* | DBi | + R i + R j )
i =1

n −1

= r1 +∑ (X.supi − sup* | DBi | + R i + R j )
i=2

= ...
n −1

= rn − 2 + ∑ (X.supi − sup* | DBi | + R i + R j )
i = n -1

= rn − 1

24

Nếu GE = rn – 1 ≥ 0, X phổ biến, ngược lại, X là không phổ biến.
Ví dụ, xem hình 2.10.
Bước 1: Các site S0, S1, S2 theo thứ tự chọn số ngẫu nhiên R0 = 9, R1 = 12, R2
= 7. S0 gửi 9 cho S1. S1 gửi 12 cho S2, S2 gửi 7 cho S0.
Bước 2: Với S0 là site khởi tạo, tính r0 = 18 – 10% * 100 + 9 – 7 = 10 và gửi
r0 S1.
Bước 3: Site S1 tính r1 = r0 + (7 – 10% * 100 + 12 - 9) = 10. Sau ñó S1gửi r1
cho S2. Cuối cùng, site S2 tính r2 = r1 + (12 – 10% * 200 + 7 - 12) = -3.
Do ñó X không phổ biến toàn cục.
Bước 4: Site S2 thông báo X không phổ biến toàn cục cho site S0 và S1.
Nhận xét: mặc dù sử dụng MFI thay cho FI nhưng do giao thức sử dụng mã

hóa giao hoán nên chi phí tính toán và truyền thông cao vẫn cao, bước tính ñộ hỗ
trợ toàn cục không sử dụng mã hóa nên có chi phí truyền thông thấp, tuy nhiên tác
giả chưa ñưa ra ñược ñánh giá về tính riêng tư cho giao thức tính tổng an toàn.
r0 = 18 – 10%*100 + 9
sup = 10%
|DB| = 400

Site S0
AB: 18
|DB1| = 100

TA
Site S2
ABC: 12
|DB2| = 200

Site S1
ABC: 7
|DB1| = 100

r2 = 12 – 10%*200 + 7 r1 = 7 – 10%*100 + 12
GE = r0 + r1+ r2 - Rsum = 17 + 9 – 1 – 28 = -3 < 0
AB: không phổ biến

Hình 2.9 - Tính ñô hỗ trợ toàn cục sử dụng Trusted-party

25

r0 = 18 – 10%*100 + 9 - 7

sup = 10%
|DB| = 400

Site S0
AB: 18
|DB1| = 100

Site S2
ABC: 12
|DB2| = 200

r2 = r1 + 12 – 10%*200 + 7 - 12

Site S1
ABC: 7
|DB1| = 100

r1 = r0 + 7 – 10%*100 + 12 - 9

GE = r2 -3 < 0
AB: không phổ biến
Hình 2.10 - Tính ñộ hỗ trợ toàn cục không sử dụng Trusted-party
2.4. Apriori:
Năm 2004, các tác giả Mafruz Zaman Ashrafi, David Taniar và Kate Smith
[9] ñề xuất một phương pháp tính tổng ñộ hỗ trợ các itemset, giao thức sử dụng
thuật toán Apriori ñể phát sinh itemset cục bộ và không cần bảo mật itemset. Các
site phát sinh tất cả các k-itemset con (ứng viên) từ (k-1)-itemset phổ biến toàn cục
và tính ñộ hỗ trợ, sau ñó các site kết hợp tính ñộ hỗ trợ của các ứng viên và tìm ra
k-itemset phổ biến toàn cục.
Tính ñộ hỗ trợ toàn cục theo hai bước: (Giả sử có 4 thành viên P1, P2, P3, P4)

Bước 1, Pi tính: kết quả trung gian + supi + ri ngẫu nhiên. Tức là, P1 gửi sup1
+ r1 cho P2, P2 gửi sup1 + sup2 + r1 + r2 cho P3. Sau ñó P1 nhận ñược

∑

4
i =1

(supi + ri )

từ P4.
Bước 2, Pi tính: giá trị trung gian - ri, gửi cho thành viên tiếp theo. Cuối
cùng, P1 nhận ñược tổng

∑

4

v , gửi giá trị này cho các thành viên khác.

i =1 i

Giao thức tiếp tục với (k+1)-itemset. Cuối cùng là phát sinh luật.

26

Nhận xét: mặc dù số itemset truyền thông là rất lớn (do phải phát sinh tất cả
ứng viên khi k = 1) nhưng do không sử dụng mã hóa nên chi phí tính toán và truyền
thông không ñáng kể so với phương pháp có sử dụng mã hóa, tuy nhiên giao thức

tính tổng không an toàn hơn KCS.
2.5. FPTree (Frequent Pattern Tree):
Năm 2008, Chunhua Su và Kouichi Sakurai [13] ñề xuất giao thức sử dụng
FPTree, kết hợp mã hoá ñồng hình Paillier, mã hoá dựa vào thuộc tính (Attributes
based Encryption - ABE). Các site tạo FP-Tree cục bộ (sử dụng ABE ñể mã hoá tập
thuộc tính). Các site gộp các FP-Tree cục bộ (Sử dụng mô hình matching riêng tư:
xem chi tiết trong bài báo) sau ñó xây dựng cây FP-Tree toàn cục và tính ñộ hỗ trợ
toàn cục. Cuối cùng là phát sinh luật và gửi cho các site.
Nhận xét: giao thức khá phức tạp, không có ñánh giá và so sánh ñầy ñủ, giao
thức có tính riêng tư cao (n – 1) thành viên thông ñồng với nhau mới làm tiết lộ kết
quả.
2.6. Ma trận tương tự:
Năm 2009, Gui Qiong và Cheng Xiao-hui [15] ñề xuất giao thức kết hợp mã
hoá ñồng hình và RSA, sử dụng 2 server CMS và DMS, CMS phát sinh cặp khóa
công khai và gửi public key cho các site, private key cho DMS, mỗi site phát sinh
ma trận tương tự của các giao tác, nén, thực hiện mã hoá với HES, gửi cho DMS.
DMS giải mã và gộp lại dựa vào thuật toán ARBSM, cuối cùng là phát sinh luật.
Nhận xét: cơ chế bảo mật không rõ ràng, do DMS có private key nên có thể
biết ñược ma trận tương tự cục bộ của các site (ñây là nhận xét cá nhân).
2.7. Luật kết hợp số lượng:
Năm 2006, Weiwei Jing [16] ñề xuất giao thức hợp (dùng RSA) an toàn hơn
giao thức KCS [7]. Sử dụng gom nhóm phân cấp dựa trên CF_Tree (Clustering
Feature Tree) ñể góm nhóm dữ liệu cục bộ. Chia các nút lá ra n phần, gửi cho các

27

thành viên khác sử dụng giao thức hợp an toàn. Site 0 kết hợp các phần lại, xây
dựng CF_Tree toàn cục. Từ ñó phát sinh luật dựa vào giao thức tính tổng an toàn.
Nhận xét: giao thức ñề xuất giao thức hợp an toàn có chi phí thấp hơn so với

giao thức hợp của KCS do mỗi site chỉ mã hóa một phần dữ liệu (với KCS mã hóa
toàn bộ n phần). Đề xuất giao thức tính tổng dựa trên CF_Tree.
Kết chương: Đa số các giao thức ñều tập trung tối ưu tìm tập ứng viên và
tính ñộ hỗ trợ toàn cục, nâng cao tính riêng tư, hạn chế thông ñồng, tiết kiệm chi phí
tính toán và truyền thông. Các giao thức chỉ áp dụng ñược cho mô hình tấn công
semi-honest.

khai thác luật kết hợp bảo đảm tính riêng tư trên dữ liệu phân tán ngang (2)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về