Tải bản đầy đủ (.pdf) (132 trang)

Bảo vệ tính riêng tư trong khai phá dữ liệu cho dữ liệu dựa trên vị trí (lbs)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 132 trang )

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: TS. Đặng Trần Khánh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1:
TS. Nguyễn Đức Cường
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 2:
TS. Nguyễn Thanh Bình
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN
THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 19 tháng 8 năm 2010


TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KH&KT MÁY TÍNH
----------------

CỘNG HỒ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
---oOo--Tp. HCM, ngày 21 tháng 01 năm 2010

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: TRƯƠNG TUẤN ANH

Phái: Nam



Ngày, tháng, năm sinh: 29-09-1985

Nơi sinh: Quảng Trị

Chuyên ngành: Khoa học Máy tính

MSHV: 00708185

1- TÊN ĐỀ TÀI:
BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI PHÁ DỮ LIỆU CHO
DỮ LIỆU DỰA TRÊN VỊ TRÍ (LBS)
2- NHIỆM VỤ LUẬN VĂN:
- Tìm hiểu lí thuyết về bảo vệ tính riêng tư, dịch vụ dựa trên vị trí và khai phá dữ liệu
- Phân tích điểm mạnh, điểm yếu của các giải pháp đã đề nghị và lựa chọn giải pháp
thích hợp.
- Đề xuất giải pháp để bảo vệ tính riêng tư cho dữ liệu dựa trên vị trí.

3- NGÀY GIAO NHIỆM VỤ:

21/01/2010

4- NGÀY HOÀN THÀNH NHIỆM VỤ:

02/07/2010

5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN:

TS. ĐẶNG TRẦN KHÁNH


Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua.
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN
KHOA QL CHUYÊN NGÀNH
(Họ tên và chữ ký)
QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)
(Họ tên và chữ ký)


LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
như đã ghi rõ trong luận văn, các cơng việc trình bày trong luận văn này là do
chính Tơi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để
lấy bằng cấp ở trường này hoặc trường khác.
Trương Tuấn Anh

Luận văn Thạc sĩ


LỜI CẢM ƠN
Quá trình hai năm học tập tại trường Đại học Bách khoa Thành phố Hồ Chí
Minh đã qua và luận văn tốt nghiệp là thành quả cuối cùng thể hiện sự tổng kết
những kiến thức, những nỗ lực của bản thân học viên. Để có được những thành
quả này, cho phép em bày tỏ lòng biết ơn sâu sắc đến tồn thể các thầy cơ giáo
trường Đại học Bách khoa Thành phố Hồ Chí Minh, đặc biệt là thầy cơ Khoa
Khoa học và Kỹ thuật Máy tính. Chính những kinh nghiệm, những kiến thức quý
báu mà thầy cô đã truyền đạt cho em đã giúp em giải quyết được rất nhiều vấn đề
để đi đến kết quả cuối cùng.
Cho em được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến Tiến sĩ Đặng

Trần Khánh, người đã hướng dẫn và giúp đỡ em trong suốt quá trình thực hiện
luận văn. Những ý kiến đóng góp, những gợi ý giải quyết vấn đề của thầy đã góp
phần quan trọng cho sự thành công của đề tài luận văn này.
Tôi cũng xin được gửi lời cảm ơn đến anh chị, bạn bè, đồng nghiệp đã giúp
đỡ và đóng góp những ý kiến q báu cho tơi trong suốt q trình hồn thành luận
văn.
Cho con gửi lời cảm ơn đến ba mẹ và những người thân trong gia đình đã
luôn chia sẻ, động viên và cổ vũ tinh thần, giúp con vượt qua khó khăn trong suốt
q trình học tập cũng như trong thời gian làm luận văn.
Xin cảm ơn tất cả mọi người.
Thành phố Hồ Chí Minh, tháng 8 năm 2010

Trương Tuấn Anh

Luận văn Thạc sĩ


i
TÓM TẮT
Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và mạng
không dây, các ứng dụng thông tin di động đã phát triển mạnh mẽ và đã tạo ra
nhiều tiền đề cho các hướng nghiên cứu mới. Trong đó, các nghiên cứu về dịch vụ
dựa trên vị trí (Location based service) đã trở thành hướng nghiên cứu chính trong
lĩnh vực này.
Với sự phát triển của các dịch vụ dựa trên vị trí, các thơng tin về vị trí có thể
sẽ được thu thập bởi các cá nhân hoặc tổ chức nào đó và thơng qua q trình khai
phá dữ liệu, các thơng tin có ích sẽ được rút trích ra. Vấn đề đặt ra là việc khai phá
dữ liệu đối với các dữ liệu về vị trí có thể phổ biến các thơng tin “nhạy cảm” của
người sử dụng nào đó. Do đó, rõ ràng là người sử dụng khơng muốn phổ biến
thơng tin vị trí của mình cho người khác xem, điều này cũng hợp lý vì những

thơng tin này có thể được dùng cho những mục đích xấu mà người sử dụng khơng
mong muốn. Tuy nhiên, các ứng dụng data mining lại mong muốn thơng tin phải
chính xác để có thể cho kết quả thật sự hiệu quả. Chính những yêu cầu này đã đặt
ra một thách thức lớn cho các nhà nghiên cứu tập trung sâu vào lĩnh vực này. Rõ
ràng, một giải thuật/framework hiệu quả để đảm bảo tính riêng tư của người sử
dụng đồng thời cung cấp cho ứng dụng data mining những thơng tin cần thiết để
có thể cho những kết quả hiệu quả.
Luận văn này sẽ tập trung vào việc bảo vệ tính riêng tư của người sử dụng
khi họ sử dụng dịch vụ. Luận văn sẽ đề nghị các framework/giải thuật để bảo vệ
tính riêng tư của người sử dụng đồng thời cân bằng giữa việc bảo vệ tính riêng tư
và hiệu quả của khai phá dữ liệu

Luận văn Thạc sĩ


ii
ABSTRACT
With the rapid development of information technology and wireless network,
the mobile services have been developed quickly and opened many research
directions. Among them, the research about the location based services is one of
the main research directions.
With the development of the location based services, the organizations or
individuals can collect the location information of the users. Through the
datamining process, they can infer the valuable information. However, this process
can expose the “sensitive” information of the user. Therefore, the user does not
want to publish their location information. Contrary, the data mining process
wants the input data which are more accurate so that it can output information
which is trust. This contrary requires a framework/algorithm to protect the user’s
privacy and provide the essential information to the datamining process at the
same time.

The thesis will focus on protecting the user’s privacy when they use the
location services. The thesis also proposes some framework/algorithm which
tradeoff between the privacy protection and the effect of the datamining process.

Luận văn Thạc sĩ


iii

MỤC LỤC
Chương I. Giới thiệu đề tài................................................................................................. 2
I.

Tổng quan.................................................................................................................. 2

II. Đối tượng nghiên cứu................................................................................................ 3
III. Tính cấp thiết của đề tài ............................................................................................ 3
IV. Vị trí của đề tài .......................................................................................................... 3
V. Các cơng việc liên quan............................................................................................. 4
VI. Tính khả thi của đề tài ............................................................................................... 4
VII. Ý nghĩa của đề tài...................................................................................................... 4
Chương II. Tổng quan về bảo vệ tính riêng tư trong khai phá dữ liệu ................................ 6
I.

Bảo vệ tính riêng tư cho các dữ liệu trước khi khai phá ........................................... 6
1.

Phương pháp Randomization................................................................................ 6

2.


Phương pháp K-Anonymity.................................................................................. 8

3.

Phương pháp L-Diversity ................................................................................... 15

4.

T-Closeness......................................................................................................... 17

5.

Query Auditing ................................................................................................... 19

II. Bảo vệ tính riêng tư trong khi khai phá dữ liệu....................................................... 20
III. Thay đổi kết quả khai phá dữ liệu để bảo vệ tính riêng tư ...................................... 21
1.

Che dấu luật kết hợp (Association Rule Hiding)................................................ 21

2.

Giảm tính hiệu quả của bộ phân loại .................................................................. 22

3.

Inference Control và Query Auditing ................................................................. 23

IV. So sánh đặc điểm của các hướng tiếp cận trong bảo vệ tính riêng tư ..................... 23

V. Bảo vệ tính riêng tư trong khai phá dữ liệu phân tán (distributed data) ................. 24

Luận văn Thạc sĩ


iv
Chương III. Bảo vệ tính riêng tư trong các dịch vụ dựa trên vị trí (Location-based
services)
..................................................................................................................... 27
I.

Tổng quan................................................................................................................ 27

II. Các phương pháp bảo vệ tính riêng tư trong LBS................................................... 29
1.

Kiến trúc không cộng tác (Non-Cooperative Architecture) ............................... 29

2. Kiến trúc có sự tham gia thành phần trung tâm tin cậy (Centralized Trusted
Party Architecture)...................................................................................................... 30
3.

Kiến trúc cộng tác ngang hàng (Peer to Peer Cooperative Architecture)........... 33

Chương IV. Bảo vệ tính riêng tư trong khai phá dữ liệu trên các dịch vụ dựa trên vị trí36
I. Những điểm yếu của việc áp dụng k-anonymity cho việc bảo vệ tính riêng tư trong
khai phá dữ liệu dựa trên vị trí ....................................................................................... 36
II. Spatio-Temporal Anonymization ............................................................................ 37
III. Grid-Based Anonymization..................................................................................... 41
1.


Khái niệm và đặc điểm ....................................................................................... 41

2.

Kiến trúc hệ thống .............................................................................................. 43

3.

Các giải thuật phục vụ cho khai phá dữ liệu....................................................... 44

4.

Đánh giá các điểm yếu của giải pháp dựa trên Grid........................................... 46

Chương V. Bảo vệ tính riêng tư trong khai phá dữ liệu trên các dịch vụ dựa trên vị trí theo
hướng tiếp cận dùng lưới tương thích ............................................................................... 50
I.

Vấn đề cần giải quyết .............................................................................................. 50

II. Giải pháp lưới tương thích ...................................................................................... 51
1.

Các định nghĩa .................................................................................................... 51

2.

Kiến trúc ............................................................................................................. 52


3.

Vấn đề phủ lấp với hướng tiếp cận lưới tương thích.......................................... 53

4.

Giải thuật............................................................................................................. 54

Luận văn Thạc sĩ


v
5.

Đánh giá chất lượng............................................................................................ 60

III. Đánh giá giải pháp lưới tương thích........................................................................ 61
1.

Phương pháp ....................................................................................................... 61

2.

Tập dữ liệu .......................................................................................................... 63

3.

Kết quả................................................................................................................ 63

Chương VI. BẢO ĐẢM K-ANONYMITY CHO BẢNG DỮ LIỆU VỊ TRÍ................. 67

I.

Giới thiệu................................................................................................................. 67

II. Các phương pháp bảo vệ ......................................................................................... 67
III. Hướng tiếp cận dùng lưới để đảm bảo k-anonymity cho dữ liệu vị trí ................... 69
1.

Các định nghĩa .................................................................................................... 69

2.

Giải thuật............................................................................................................. 71

IV. K-anonymity cho dữ liệu không-thời gian (spatio-temporal data).......................... 75
1.

Thảo luận ............................................................................................................ 75

2.

Giải thuật............................................................................................................. 79

3.

Đánh giá.............................................................................................................. 82

Chương VII. HƯỚNG TIẾP CẬN BẢO ĐẢM K-ANONYMITY CHO BẢNG DỮ
LIỆU VỊ TRÍ CĨ QUAN TÂM ĐẾN LUẬT KẾT HỢP.................................................. 84
I.


Giới thiệu................................................................................................................. 84

II. Các khái niệm .......................................................................................................... 84
III. Tính tốn các giá trị................................................................................................. 86
IV. Giải thuật ................................................................................................................. 88
V. Đánh giá phương pháp bảo đảm k-anonimity cho dữ liệu vị trí có quan tâm đến luật
kết hợp............................................................................................................................ 93
1.

Phương pháp ....................................................................................................... 93

2.

Dữ liệu ................................................................................................................ 93

Luận văn Thạc sĩ


vi
3.

Kết quả................................................................................................................ 93

Chương VIII. KẾT LUẬN ................................................................................................. 95
Chương IX. TÀI LIỆU THAM KHẢO........................................................................... 96

Luận văn Thạc sĩ



vii

MỤC LỤC HÌNH
Hình 2.1 Hai bảng thơng tin có chung thuộc tính ............................................................. 8
Hình 2.2 Một cây tổng qt hóa thuộc tính ..................................................................... 10
Hình 2.3 Bảng tổng qt hóa nhất ................................................................................... 10
Hình 2.4 Giải thuật Samarati ........................................................................................... 12
Hình 2.5 Đánh chỉ số ....................................................................................................... 13
Hình 2.6 Cây tập hợp liệt kê............................................................................................ 13
Hình 2.7 Biểu diễn khơng gian giá trị ............................................................................. 14
Hình 2.8 Thực hiện giải huật Mondrian .......................................................................... 14
Hình 3.1 Ứng dụng LBS.................................................................................................. 27
Hình 3.2 Kiến trúc khơng cộng tác.................................................................................. 29
Hình 3.3 Kiến trúc Centralized Trusted Party ................................................................. 31
Hình 3.4 Mix Zone .......................................................................................................... 32
Hình 3.5 Quadtree Spatial Cloaking................................................................................ 32
Hình 3.6 Nearest–Neighbor k-Anonymizing .................................................................. 33
Hình 3.7 Kiến trúc cộng tác ngang hàng ......................................................................... 34
Hình 3.8 Sự thành lập nhóm............................................................................................ 34
Hình 4.1 Spatial-Temporal anonymization ..................................................................... 38
Hình 4.2 Delay Time Factor............................................................................................ 39
Hình 4.3 Giao của các Anonymization Rectangle........................................................... 40
Hình 4.4 Grid-Based Anonymization.............................................................................. 41
Hình 4.5 Biểu diễn quỹ đạo trên lưới .............................................................................. 42
Hình 4.6 Kiến trúc hệ thống ............................................................................................ 43
Hình 4.7 Tìm vùng mật độ .............................................................................................. 47
Luận văn Thạc sĩ


viii

Hình 4.8 Giải pháp Multi-grid......................................................................................... 48
Hình 5.1 Vấn đề của hướng tiếp cận ngẫu nhiên............................................................. 50
Hình 5.2 Lưới (a) và Vùng nặc danh (b) ......................................................................... 51
Hình 5.3 Hai lưới với điểm bắt đầu ................................................................................. 52
Hình 5.4 Kiến trúc thành phần trung tâm tin cậy ............................................................ 52
Hình 5.5 Hai vùng nặc danh với các thông tin yêu cầu khác nhau ................................. 53
Hình 5.6 Vấn đề che phủ ................................................................................................. 54
Hình 5.7 Vùng phủ lấp khơng hồn tồn (a) và phủ lấp hồn tồn (b) ........................... 56
Hình 5.8 Vùng phủ lấp (a) và vùng phủ lấp cực đại (b).................................................. 56
Hình 5.9 Vùng phủ lấp quá nhỏ....................................................................................... 57
Hình 5.10 Điểm gốc di động ........................................................................................... 58
Hình 5.11 Giải thuật hàm overlap_area_getting() .......................................................... 60
Hình 6.1 Lưới (a) và Vùng nặc danh (b) ......................................................................... 69
Hình 6.2 Vùng 3-anonymization. .................................................................................... 70
Hình 6.3 Vùng nặc danh tốt hơn...................................................................................... 70
Hình 6.4 Định nghĩa cell (a) và định nghĩa vùng nặc danh (b). ...................................... 70
Hình 6.5 Vùng nặc danh cực đại với hai threshold tx và ty............................................. 71
Hình 6.6 Nặc danh hóa các tuple tới grid cell ................................................................. 73
Hình 6.7 Vịng lặp đầu tiên: Nặc danh hóa cho tuple No. 9 (a) và vùng nặc danh cực đại
(maximal anonymization) (b) ............................................................................................ 74
Hình 6.8 Vịng lặp thứ 2: Vùng maximal anonymization .............................................. 74
Hình 6.9 Vịng lặp thứ 3: Vùng maximal anonymization ............................................... 75
Hình 6.10 Vùng maximal anonymization cho dữ liệu khơng-thời gian.......................... 78

Luận văn Thạc sĩ


ix

MỤC LỤC BẢNG

Bảng 2.1 Bảng dữ liệu PT ................................................................................................. 9
Bảng 2.2 Bảng dữ liệu thỏa mãn 4-anonymity................................................................ 11
Bảng 2.3 Bảng dữ liệu ví dụ ............................................................................................ 15
Bảng 2.4 Bảng dữ liệu sau khi 3-diversity ...................................................................... 16
Bảng 2.5 Bảng dữ liệu ví dụ 2 ......................................................................................... 17
Bảng 2.6 Bảng dữ liệu sau khi diversity............................................................................ 18
Bảng 2.7 Bảng ví dụ phân tán dọc................................................................................... 25
Bảng 2.8 Phân tán dọc ..................................................................................................... 25
Bảng 6.1 Một bảng dữ liệu vị trí ..................................................................................... 73
Bảng 6.2 Một phiên bản 3-anonymous............................................................................ 75
Bảng 6.3 Bảng nguồn với dữu liệu thời gian................................................................... 76
Bảng 6.4 Phiên bản 2-anonymous ................................................................................... 77
Bảng 6.5 Một phiên bản 2-anonymous khác ................................................................... 77
Bảng 6.6 Bảng dữ liệu không-thời gian .......................................................................... 77
Bảng 6.7 Tổng qt hóa thuộc tính thời gian .................................................................. 78
Bảng 6.8 Kết quả đánh giá .............................................................................................. 83

Luận văn Thạc sĩ


1

GIỚI THIỆU ĐỀ TÀI

Luận văn Thạc sĩ


2

Chương I.

I.

Giới thiệu đề tài

Tổng quan
Khai phá dữ liệu (Data mining) được định nghĩa là “q trình trích xuất các
thơng tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các
CSDL, kho dữ liệu… “ [1] hay là “quá trình khám phá các tri thức mới và các tri
thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có” [2]. Sự phát triển của
công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực
của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ
liệu đã được thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu
này với suy nghĩ rằng trong các dữ liệu này chứa đựng các thơng tin tiềm ẩn nào
đó và có ích cho họ trong tương lai. Mặt khác, người ta mong muốn có nhiều
thơng tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều
câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu
khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác
cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát
triển một khuynh hướng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá
dữ liệu. Hiện nay, khai phá dữ liệu cũng đã trở thành một khuynh hướng nghiên
cứu chính của các nhà nghiên cứu. Trong đó, các lo ngại về tính riêng tư (privacy)
trong data mining cũng đã đặt ra một cơ sở, một hướng nghiên cứu mới cho các
nhà nghiên cứu.
Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và mạng không
dây, các ứng dụng thông tin di động đã phát triển mạnh mẽ và đã tạo ra nhiều tiền
đề cho các hướng nghiên cứu mới. Trong đó, các nghiên cứu về LBS (Location
based service) đã trở thành hướng nghiên cứu chính trong lĩnh vực này. Vấn đề đặt
ra là việc khai phá dữ liệu đối với các dữ liệu về vị trí, rõ ràng, người sử dụng
khơng muốn phổ biến thơng tin vị trí của mình cho người khác xem, điều này cũng
hợp lý vì những thơng tin này có thể được dùng cho những mục đích xấu. Tuy

nhiên, các ứng dụng data mining lại mong muốn thông tin phải chính xác để có thể
cho kết quả thật sự hiệu quả.
Chính những yêu cầu này đã đặt ra một thách thức lớn cho các nhà nghiên
cứu tập trung sâu vào lĩnh vực này. Rõ ràng, một giải thuật/framework hiệu quả để
đảm bảo tính riêng tư của người sử dụng đồng thời cung cấp cho ứng dụng data
mining những thơng tin cần thiết để có thể cho những kết quả hiệu quả.

Luận văn Thạc sĩ


3

II.

Đối tượng nghiên cứu
Đề tài tập trung nghiên cứu vào các phương pháp, giải thuật, framework để
bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu dựa trên vị trí. Từ đó, sẽ
đề ra giải pháp hoặc cải tiến các giải thuật/framework sẵn có để có thể thực hiện
tốt cơng việc bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu vị trí.
Đối tượng nghiên cứu chủ yếu của đề tài sẽ tập trung chính vào hai đối
tượng: bảo vệ tính riêng tư trong khai phá dữ liệu và dữ liệu dựa trên vị trí (LBS).
Tính riêng tư trong khai phá dữ liệu là một lĩnh vực rông lớn với nhiều hướng
nghiên cứu khác nhau. Đề tài sẽ tập trung đi vào một lĩnh vực của nó, đó là tính
riêng tư trong khai phá dữ liệu trên các đối tượng dữ liệu dựa trên vị trí.

III.

Tính cấp thiết của đề tài
Các dịch vụ dựa trên vị trí ngày càng phát triển cùng với sự phát triển của
mạng không dây và thiết bị di động, các dịch vụ này ngày càng chứng tỏ được sự

tiện lợi, tính hữu ích của nó và thu hút nhiều người sử dụng tham gia. Tuy nhiên,
sự phát triển của nó cũng đi kèm với những bất tiện cũng như bộc lộ các vấn đề
mà không thể lường trước được, ví dụ như việc rị rỉ các thơng tin cá nhân, các
thông tin nhạy cảm…
Những yêu cầu về tính riêng tư trong việc khai phá dữ liệu dựa trên vị trí đã
thu hút nhiều nhà nghiên cứu vào lĩnh vực này, đồng thời, một số giải
thuật/framework cũng đã được đề nghị để có thể giải quyết vấn đề này. Tuy nhiên,
lĩnh vực này mới được khám phá ở những năm gần đây nên số lượng các nhà
nghiên cứu cũng như các bài báo, giải thuật vẫn chưa nhiều. Điều này đã đặt ra
cho các nhà nghiên cứu tập trung tìm tịi để phát triển mới hoặc cải tiến các giải
thuật/framework có sẵn nhằm đáp ứng nhu cầu cấp thiết trong lĩnh vực này.
Đề tài nghiên cứu này sẽ phát triển hoặc cải tiến các giải thuật/framework có
sẵn để làm tăng tính hiệu quả của các giải thuật/framework nhằm góp phần vào
việc giải quyết vấn đề cấp bách ở trên.

IV.

Vị trí của đề tài
Đề tài sẽ tập trung đi sâu vào một nhánh của bảo vệ tính riêng tư trong data
mining, đó là phát triển hoặc cải tiến một thuật giải để bảo vệ tính riêng tư trong
data mining đối với dữ liệu dựa trên vị trí (LBS). Một số thuật giải đã được các
nhà nghiên cứu đề nghị và đề tài sẽ tìm ra những điểm yếu, điểm mạnh trong các
thuật giải đó, từ đó sẽ đề nghị cách để phát triển hoặc cải tiến giải thuật/framework
phù hợp hơn, giải quyết những điểm yếu kém của giải thuật/framework.

Luận văn Thạc sĩ


4
Hiện nay, các cơng trình nghiên cứu sâu về lĩnh vực này đang cịn rất ít, do

đó, các bài báo cũng như các giải thuật cũng cịn rất ít và còn nhiều điểm hạn chế.
Tập trung đi sâu vào lĩnh vực này được xem là một hướng chính và cần thiết trong
giai đoạn hiện nay.

V.

Các công việc liên quan
Đề tài sẽ được chia làm hai phần chính:
- Tìm hiểu về bảo vệ tính riêng tư trong data mining và các giải thuật của nó,
đồng thời, tìm ra những điểm yếu, điểm mạnh của nó.
- Tìm hiểu về LBS và sử dụng các kiến thức ở phần trước để chọn ra giải
thuật/framework thích hợp cho việc bảo vệ tính riêng tư trong khai phá dữ liệu
đối với dữ liệu dựa trên vị trí. Từ đó, sẽ cải tiến hoặc phát triển giải
thuật/framework nhằm giảm thiểu các điểm yếu của nó và tăng tính hiệu quả,
tính sử dụng của nó.

VI.

Tính khả thi của đề tài
Nhu cầu cấp thiết của lĩnh vực về LBS sẽ tạo ra những thu hút lớn đối với các
nhà nghiên cứu và sự quan tâm của các doanh nghiệp trong lĩnh vực ứng dụng
LBS. Các đề tài nghiên cứu về lĩnh vực này rõ ràng sẽ có tính khả thi trong việc
ứng dụng trên thực tế.
Mặt khác, các giải thuật/framework dù có tốt cũng tồn tại những điểm yếu
của nó mà tác giả hoặc là chưa biết, hoặc là chưa giải quyết. Do đó, đề tài sẽ có
tính khả thi trong việc cải tiến hoặc phát triển một giải thuật/framework để đảm
bảo tính riêng tư trong khai phá dữ liệu dựa trên vị trí.

VII.


Ý nghĩa của đề tài
Đề tài thành cơng sẽ góp phần vào việc ứng dụng các dịch vụ dựa trên vị trí
một cách hiệu quả, tăng độ tin cậy cũng như tính chính xác của ứng dụng. Đồng
thời sẽ góp phần vào việc tăng thêm những đóng góp cho lĩnh vực nghiên cứu về
bảo vệ tính riêng tư trong khai phá dữ liệu đối với dữ liệu dựa trên vị trí.
Đề tài sẽ góp phần giải quyết yêu cầu cấp thiết của nguời sử dụng trong việc
bảo vệ thơng tin riêng tư của mình, tránh việc sử dụng các thơng tin riêng tư của
mình vào các mục đích khơng tốt. Với sự phát triển mạnh mẽ của dịch vụ thông tin
di động, đề tài sẽ đề nghị một phương pháp cải tiến làm tăng tính bảo mật các
thơng tin cần thiết, từ đó, tạo niềm tin cho người sử dụng vào các dịch vụ thông tin
di động.

Luận văn Thạc sĩ


5

CƠ SỞ LÍ THUYẾT

Luận văn Thạc sĩ


6

Chương II.

Tổng quan về bảo vệ tính riêng tư trong
khai phá dữ liệu

Hiện nay, có rất nhiều cách phân loại các kỹ thuật bảo vệ tính riêng tư trong

data mining khác nhau, trong đề tài này sẽ đề cập đến một cách phân loại tổng
quát nhất, đó là việc phân loại dựa trên thời điểm tiến hành việc bảo vệ tính riêng
tư. Dựa vào cách xác định này, ta có thể định ra 3 nhóm chủ yếu: Các kỹ thuật bảo
vệ tính riêng tư áp dụng cho dữ liệu trước khi được khai phá; các kỹ thuật áp dụng
trong khi khai phá dữ liệu và các kỹ thuật áp dụng trên kết quả khai phá. Đề tài sẽ
giới thiệu một số kỹ thuật trong các nhóm này.

I.

Bảo vệ tính riêng tư cho các dữ liệu trước khi khai phá
Đối với hướng này, các kỹ thuật sẽ tiến hành việc biến đổi các dữ liệu nguồn
(hay còn gọi là các dữ liệu đầu vào cho ứng dụng data mining) trước khi các dữ
liệu đó được đưa vào ứng dụng khai phá dữ liệu. Một số kỹ thuật sẽ được giới
thiệu trong nhóm này bao gồm: randomization, k-Anonymity, l-diversity, query
auditing.

1. Phương pháp Randomization
Phương pháp ngẫu nhiên (Randomization Method) thực hiện việc biến đổi dữ
liệu nguồn để bảo vệ tính riêng tư trước khi đưa thơng tin này cho mọi ứng dụng
có thể xem. Đối với phương pháp này, ta thực hiện việc thêm các hỗn tạp (noise)
vào dữ liệu nguồn để che giấu các thông tin nhạy cảm của record dữ liệu, một cách
hiểu đơn giản đó là việc che giấu thơng tin bằng cách biến đổi giá trị thực của nó
sang một giá trị “ảo”. Tuy nhiên, việc thêm các dữ liệu hỗn tạp này không phải
theo cách tùy tiện mà theo một cách phân bố nào đó. Dữ liệu hỗn tạp được thêm
vào phải đủ “mạnh” để các thông tin nhạy cảm được che giấu và không thể bị lấy
lại (recover) được.
Tóm lại, ta có một định nghĩa về phương pháp randomization như sau:
Cho một tập các record dữ liệu X = {x1 . . .xN}. Cho mỗi record xi ∈ X, ta
thêm vào các hỗn tạp được lấy từ phân bố xác suất fY (y) được diễn tả bởi y1 . . . yN.
Luận văn Thạc sĩ



7
Cuối cùng ta có một tập các record đã được trộn lẫn (distorted record) x1 + y1 . . .
xN + yN hay được kí hiệu z1 . . . zN.
Một cách tổng qt, có hai cách chính để hiện thực phương pháp
randomization, đó là:
- Value-Class Membership: trong cách này, phương pháp randomizaton
được hiện thực bằng cách các giá trị của các thuộc tính được tách ra thành các
khoảng (interval). Ví dụ như một người khơng muốn tiết lộ thơng tin chính xác
mình kiếm được 4000$ trong một năm cho người khác biết, do đó, thơng tin này
sẽ được biến đổi thành 0$ - 20000$.
Các interval giữa các thuộc tính cũng như trong cùng thuộc tính của các
record khác nhau cũng có thể khác nhau. Cách này được dùng chủ yếu cho việc
che giấu các thông tin cá nhân mà thơi.
- Value Distortion: trong cách này, thay vì sử dụng giá trị thật sự (giá trị
nguồn) của các record, ta sẽ thực hiện việc biến đổi giá trị này bằng cách thêm vào
các giá trị ngẫu nhiên từ một hàm phân bố công khai. Các hàm phân bố thường
được sử dụng trong cách này là Uniform Distribution và Gaussian Distribution.
Tùy thuộc vào hàm phân bố được sử dụng mà ta có thể thêm vào các giá trị để
biến đổi dữ liệu nguồn.
Hai chiến lược chính được áp dụng cho phương pháp randomization, đó là
additive strategy và multiplicative strategy:
- Additive strategy: thực hiện việc biến đổi dữ liệu nguồn dựa trên việc cộng
thêm các giá trị ngẫu nhiên được lấy từ hàm phân bố xác suất công khai nhằm che
giấu các giá trị thực của dữ liệu
- Multiplicative strategy: thực hiện việc biến đổi dữ liệu tương tự như chiến
lược cộng nhưng sử dụng phép nhân để thêm dữ liệu ngẫu nhiên vào dữ liệu
nguồn


Luận văn Thạc sĩ


8
Một điểm mạnh của phương pháp này đó là việc không cần một server tin
cậy (trusted server), điều này là vì các record có thể được thêm nhiễu độc lập với
nhau, do đó khơng cần phải thu thập hết tất cả các dữ liệu rồi mới thực hiện việc
randomization. Tại thời điểm thu thập dữ liệu, dữ liệu có thể bị biến đổi ngay và
trả về cho bên yêu cầu, do đó phương pháp này có thể được thực hiện tại thời điểm
thu thập dữ liệu, không cần thông qua một server tin cậy.
Tuy phương pháp này khá đơn giản cho việc hiện thực và ứng dụng, nó cũng
bộc lộ hạn chế, đó là sự độc lập giữa các dữ liệu khi tiến hành việc randomization
lại tạo cơ hội cho việc kết hợp các thông tin của các record lại để có thể lấy ra
hoặc xây dựng lại các thơng tin riêng tư nào đó mà khơng thể ngăn chặn được. Do
đó, các thơng tin này có thể phổ biến khơng mong muốn.

2. Phương pháp K-Anonymity
Các thuộc tính dữ liệu có thể chứa các thơng tin “nhạy cảm”, điều đó rất phổ
biến hiện nay khi mà các thông tin cá nhân có thể được lưu giữ trực tuyến, các
thơng tin nhạy cảm đó có thể bao gồm: số CMND, mật khẩu, tình trạng lương…
Như vậy, việc truy xuất thơng tin có thể làm cho việc phổ biến các thơng tin này ra
bên ngoài.
Một cách “thơ ngây” (naive) để loại bỏ việc phổ biến các thơng tin này là xóa
bỏ các thông tin này trước khi trả về kết quả truy xuất, như vậy, các thơng tin nhạy
cảm khơng cịn để có thể bị xem xét bởi kẻ tấn cơng.
Một vấn đề đặt ra là các thông tin từ các thuộc tính khác nhau trong cùng
bảng hoặc ở các bảng khác nhau cũng có thể gây nên việc trích rút thơng tin riêng
tư trong đó, hãy xem ví dụ sau:

Hình 2.1 Hai bảng thơng tin có chung thuộc tính

Luận văn Thạc sĩ


9
Hai bảng cơ sở dữ liệu trên có 3 thuộc tính chung, mặc dù có thể bỏ các
thuộc tính nhạy cảm như tên, địa chỉ… thì các thuộc tính này cũng có thể được xác
định thơng qua các thuộc tính chung này cộng thêm một số các thông tin thêm.
Để giải quyết vấn đề trên, một giải pháp đã được đưa ra, đó là phương pháp
k-anonymity. Trong phương pháp này, nhóm dữ liệu sẽ được biến đổi để có thể
chống lại việc lấy lại (re-identification) các thông tin đã được bỏ để bảo vệ tính
riêng tư. Ý tưởng chính của phương pháp này là làm sao cho mọi tuple trong dữ
liệu được trả về cho bên yêu cầu phải không được phân biệt trong k tuple khác
nhau, điều đó có nghĩa là trong bảng dữ liệu trả về phải có ít nhất k tuple giống
nhau cho bất kỳ tuple nào.
Một khái niệm cần được đề cập đến, đó là Quasi-identifier: đây là tập các
thuộc tính mà k-anonymity thực hiện trên nó, cho ví dụ:
Xem xét bảng dữ liệu:

Bảng 2.1 Bảng dữ liệu PT
Ở đây, tập quasi-identifier là {Marital status, Sex, Hours} và bảng dữ liệu
trên thỏa mãn k-anonymity với k <= 2, điều này dễ nhận thấy vì có ít nhất 2 tuple
giống nhau.
Hai cơng nghệ chính được đề cập để thực hiện k-anonymity đó là
generalization và suppression:
Generalization: thay thế giá trị thuộc tính của record dữ liệu bởi phiên bản
tổng quát hơn của chúng
Hãy xem xét một cây tổng quát như sau:

Luận văn Thạc sĩ



10

Hình 2.2 Một cây tổng qt hóa thuộc tính
Dựa vào cây tổng quát này, ta có thể tiến hành việc tổng qt hóa để đảm bảo
k-anonymity như sau:

Hình 2.3 Bảng tổng quát hóa nhất
Đây là phiên bản tổng quát hóa nhất dựa vào cây tổng quát hóa ở trên, đối với
phiên bản này, việc tổng quát hóa được thực hiện cho cả 3 thuộc tính trong quasiidentifier, phiên bản này đảm bảo k-anonymity với k <= 66.
Một phiên bản khác của việc tổng quát hóa là:

Luận văn Thạc sĩ


11

Bảng 2.2 Bảng dữ liệu thỏa mãn 4-anonymity
Đối với phiên bản này, việc tổng quát hóa sẽ được thực hiện trên thuộc tính
Sex, dễ dàng thấy rằng phiên bản này đảm bảo k-anonymity với k <= 4.
Suppression: thực hiện việc che giấu các thơng tin riêng tư bằng cách xóa bỏ
hoặc “nén” chúng lại trước khi phổ biến thông tin đó.
Một ví dụ của trường hợp này đó là một giá trị chính xác của thuộc tính có
thể được thay thế bởi giá trị ít thơng tin hơn, ví dụ một người muốn che giấu thông
tin lương theo giờ của mình là 23.45$, anh ta sẽ thực hiện việc “nén” nó và đưa ra
giá trị 20$, một ví dụ nữa là về thông tin độ tuổi, các độ tuổi trên 70 có thể được
làm trịn xuống cịn 70…
Nếu ứng dụng data mining yêu cầu quyền truy xuất đầy đủ vào các thông tin
nhạy cảm để phục vụ cho một mục đích nào đó thì cơng nghệ này khơng nên được
sử dụng, bởi vì nó sẽ làm cho thơng tin chính xác bị biến đổi, khơng cịn có ý

nghĩa nữa đối với việc khai phá.
Để đảm bảo k-anonymity trong khai phá dữ liệu, một số giải thuật đã được
giới thiệu: giải thuật Samarati, giải thuật Bayardo-Agrawal, giải thuật Incognito,
giải thuật xấp xỉ…
Giải thuật của Samarati: mục tiêu của giải thuật này là tìm một k-minimal
tổng qt hóa nhưng lại nén ít tuple nhất. Định nghĩa một MaxSup là giới hạn của
số các tupe có thể nén lại, giải thuật sẽ tính tốn một tổng qt hóa nhưng lại thỏa
mãn giới hạn này.
Càng đi lên cao trong cây phân cấp, số các tuple bị xóa đi để đảm bảo tổng
quát hóa càng cao, do đó, giải thuật sẽ tiến hành tìm kiếm từ dưới lên trên trong
cây phân cấp này. Cho h là chiều cao của cây phân cấp, giải thuật sẽ tiến hành
đánh giá các giải pháp tại chiều cao ⎣h/2⎦ , nếu như có ít nhất một bảng đảm bảo kanonimyty thì giải thuật sẽ ước lượng tại chiều cao ⎣h/4⎦, nếu khơng có giải pháp
Luận văn Thạc sĩ


12
nào thỏa mãn thì giải thuật sẽ ước lượng tại ⎣3h/4⎦. Cuối cùng, sẽ tìm mức thấp
nhất của chiều cao thỏa mãn ràng buộc k-anonimity
Cho ví dụ: QI = {Marital_status, Sex}, k = 4, MaxSup = 1 và các miền của
các thuộc tính như ví dụ ở phía trên

Hình 2.4 Giải thuật Samarati
Giải thuật sẽ tiến hành ước lượng tại chiều cao ⎣3/2⎦, sẽ có (M0, S1) và (M1,
S0) thỏa mãn. Bởi vì cả hai đề thỏa mãn 4-anonymity nên sẽ tiếp tục ước lượng tại
⎣3/4⎦, sẽ có (M0, S0), vì giải pháp này muốn thỏa mãn 4-anonymity thì phải nén ít
nhất hai thuộc tính (divorced, F), do đó sẽ không thỏa mãn ràng buộc MaxSup = 1,
vậy (M0, S1) và (M1, S0) là 2 giải pháp cuối cùng
Giải thuật của Bayardo-Agrawal: Cho một bảng PT, QI={A1, A2, A3, …,
An} là một tập có thứ tự. Mỗi thuộc tính Ai có miền trị tương ứng là Di. Chia miền
trị D của mỗi thuộc tính Ai thành 1 tập các interval có thứ tự {I1, I2, …Im} khơng

giao nhau để mà I1 ∪ I2 ∪ …∪ Im = D và ∀vi ∈ Ii, ∀vj ∈ Ij, nếu i < j thì vi < vj.
Mỗi Ii sẽ được đánh chỉ số với một số nguyên.
Xét ví dụ sau với bảng dữ liệu đã cho như phần trên, cho quasi-identiier QI =
{marital_status, sex}. Thứ tự giữa các thuộc tính là marital_status, sex. Thứ tự
giữa các trị trong mỗi thuộc tính là: married, divorced, single cho thuộc tính
marital_status và F, M cho sex. Ta sẽ có hình sau:

Luận văn Thạc sĩ


×