Tải bản đầy đủ (.pdf) (89 trang)

BẢO TOÀN TÍNH RIÊNG TƯ CỦA NGƢỜI DÙNG TRONG MÔI TRƯỜNG CƠ SỞ DỮ LIỆU LỚN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.36 MB, 89 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

NGUYỄN THÀNH TÍN

BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG
TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 02 năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

NGUYỄN THÀNH TÍN

BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG
TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS. CAO TÙNG ANH


TP. HỒ CHÍ MINH, tháng 02 năm 2016


CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hƣớng dẫn khoa học : TS. Cao Tùng Anh

Luận văn Thạc sĩ đƣợc bảo vệ tại Trƣờng Đại học Công nghệ TP. HCM
ngày … tháng … năm 2016
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

TT
1
2
3
4
5

Họ và tên
GS.TSKH. Hoàng Văn Kiếm
PGS.TS. Võ Đình Bảy
TS. Nguyễn Thị Thúy Loan
TS. Lê Văn Quốc Anh
TS. Lê Tuấn Anh

Chức danh Hội đồng
Chủ tịch
Phản biện 1
Phản biện 2

Ủy viên
Ủy viên, Thƣ ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã đƣợc
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV


TRƢỜNG ĐH CÔNG NGHỆ TP. HCM
PHÒNG QLKH – ĐTSĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày..… tháng….. năm 20..…

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Thành Tín

Giới tính: Nam

Ngày, tháng, năm sinh: 02/02/1984

Nơi sinh: TP. Hồ Chí Minh

Chuyên ngành: Công nghệ thông tin

MSHV: 1441860029

I- Tên đề tài:
BẢO TOÀN TÍNH RIÊNG TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG

CƠ SỞ DỮ LIỆU LỚN

II- Nhiệm vụ và nội dung:
- Nghiên cứu khai thác với dữ liệu lớn.
- Nghiên cứu các phƣơng thức kỹ thuật bảo vệ tính riêng tƣ hiện có.
- Nghiên cứu phƣơng thức bảo đảm tính riêng tƣ của dữ liệu dựa trên hàm
Cosine.
- So sánh phƣơng thức đƣợc giới thiệu và các phƣơng thức liên quan.
- Xây dựng chƣơng trình demo.
- Tiến hành thu thập và đọc các tài liệu có liên quan đến đề tài.
- Nghiên cứu tổng quan về dữ liệu lớn và các khái niệm có liên quan.
- Tìm hiểu các kỹ thuật khai thác dữ liệu lớn bảo đảm tính riêng tƣ hiện có
để đánh giá các ƣu, nhƣợc điểm của từng thuật toán.
- Nghiên cứu, tìm hiểu phƣơng thức cải tiến bảo đảm tính riêng tƣ dựa trên
hàm cosine nhằm khắc phục các nhƣợc điểm của các kỹ thuật đã có.


- Xây dựng chƣơng trình demo và đánh giá kết quả đạt đƣợc.

III- Ngày giao nhiệm vụ: 15/07/2015
IV- Ngày hoàn thành nhiệm vụ: 15/02/2016
V- Cán bộ hƣớng dẫn: TS. Cao Tùng Anh

CÁN BỘ HƢỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH


i


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã
đƣợc cảm ơn và các thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc.

Học viên thực hiện luận văn

Nguyễn Thành Tín


ii

LỜI CÁM ƠN
Trƣớc tiên, em gửi lời cám ơn chân thành đến thầy cô trƣờng đại học Công
Nghệ TP.HCM đã truyền đạt kiến thức, kinh nghiệm trong suốt quá trình em học tại
trƣờng.
Em xin gửi lời cảm ơn sâu sắc đến TS. Cao Tùng Anh. Thầy đã tận tình
hƣớng hƣớng dẫn, chỉ bảo và giúp đỡ em trong suốt quá trình thực hiện luận văn.
Em cũng xin gửi lời cám ơn đến các bạn học viên trong lớp cao học khoá
2014-2015 đã tạo điều kiện, chia sẻ những kiến thức để em có thể hoàn thành khoá
học.
Cuối cùng, em xin gửi lời cám ơn đến gia đình, ngƣời thân, bạn bè đã luôn
động viên em trong quá trình học tập, cũng nhƣ thực hiện luận văn.
TP Hồ Chí Minh, ngày......tháng......năm 2016
Học viên

Nguyễn Thành Tín



iii

TÓM TẮT
Trong những năm gần đây, công nghệ phát triển nhanh kéo theo sự phát triển
nhanh của ngành công nghệ thông tin. Công nghệ bán dẫn phát triển đã tạo ra nhiều
đột phá, các phần cứng ngày càng rẻ hơn, các bộ xử lý và các thiết bị lƣu trữ ngày
càng lớn. Bên cạnh đó với sự phát triển lớn mạnh của các công ty, tập đoàn đa quốc
gia và sự phát triển mạnh của mạng xã hội dẫn đến dữ liệu lƣu trữ phát triển theo
cấp số nhân. Một kỷ nguyên mới trong lĩnh vực công nghệ thông tin đã ra đời: kỷ
nguyên khai thác dữ liệu lớn. Đặc trƣng dung lƣợng lớn, phát triển nhanh và đa
dạng của dữ liệu lớn đã tạo ra nhiều thách thức trong việc khai thác. Bên cạnh đó
thách thức lớn hơn là phải bảo đảm tính riêng tƣ trong kỷ nguyên khai thác dữ liệu
lớn.
Trên thế giới đã có nhiều nghiên cứu về khai thác dữ liệu, và cũng có nhiều
các nghiên cứu về khai thác dữ liệu lớn đƣợc tiến hành. Tuy nhiên việc khai thác
hiệu quả dữ liệu lớn nhƣng vẫn bảo đảm tính riêng tƣ vẫn chƣa đƣợc chú trọng.
Tại Việt Nam, các nghiên cứu phát triển, các phƣơng pháp khai thác dữ liệu
đƣợc chú trọng, khai thác trên dữ liệu lớn cũng nhận đƣợc nhiều quan tâm. Tuy
nhiên khai thác hiệu quả dữ liệu lớn và bảo đảm tính riêng tƣ vẫn còn hạn chế.
Trong khai thác dữ liệu lớn, việc tính toán độ tƣơng đồng Cosine đƣợc sử dụng
nhiều. Vì vậy việc giải quyết hiệu quả tính toán và bảo đảm tính riêng tƣ khi tính
toán độ tƣơng đồng Cosine sẽ cải thiện đƣợc hiệu quả trong khai thác dữ liệu lớn.
Với những lý do trên, học viên đã chọn đề tài ―BẢO TOÀN TÍNH RIÊNG
TƢ CỦA NGƢỜI DÙNG TRONG MÔI TRƢỜNG CƠ SỞ DỮ LIỆU LỚN‖ để
làm đề tài nghiên cứu của mình.


iv


ABSTRACT

In recent years, technology has developed rapidly, leading to the rapid
development of information technology major. Semiconductor technology
development has created many breakthroughs, the hardware becomes cheaper, the
processor and the storage devices were growing. Besides, the strong growth of
companies, multinational corporations and the social network makes the
exponentially developement of data storage. A new age of information technology
was born - the big data mining age. At the other sides, the more greater challenge is
the privacy assurance of the big data mining area.
There are many data mining researching projects in over the world, and also
most of them are conducted. However the privacy assurance of the effectively
exploiting large data work has been less attention. At the recently time in Vietnam,
the data mining methods researching and developing projects also the large dara
mining were being focused. However, the privacy assurance of the effectively
exploiting large data has been still less. In large data mining, the Cosine similarities
calculating is being used so much. So, the effectively calculating solutions and
privacy assurance in Cosine similarities calculating will improve efficiencies in
large data mining.
For these reasons, we choose the topic "THE USER'S PRIVACY
SECURITY IN BIG DATABASE ENVIRONMENT" to do their research.


v

MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................... i
LỜI CÁM ƠN ........................................................................................................................ ii
TÓM TẮT .............................................................................................................................iii
ABSTRACT.......................................................................................................................... iv

MỤC LỤC ............................................................................................................................. v
DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................................... vii
DANH MỤC CÁC BẢNG .................................................................................................viii
DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH ........................................... ix
CHƢƠNG 1 ĐẶT VẤN ĐỀ.............................................................................................. 1
1.1 Tình hình nghiên cứu trên thế giới ......................................................................... 2
1.2 Tình hình nghiên cứu trong nƣớc ........................................................................... 3
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT ................................................................................... 5
2.1 Tổng quan dữ liệu lớn ............................................................................................ 5
2.1.1 Dung lƣợng ...................................................................................................... 6
2.1.2 Tốc độ .............................................................................................................. 6
2.1.3 Tính đa dạng .................................................................................................... 6
2.1.4 Giá trị ............................................................................................................... 6
2.2 Khai thác dữ liệu lớn .............................................................................................. 6
2.2.1 Đặc tính của dữ liệu lớn HACE ....................................................................... 7
2.2.1.1 Dữ liệu lớn không đồng nhất và đa chiều ................................................. 7
2.2.1.2

Các nguồn dữ liệu độc lập và kiểm soát phân tán không tập trung .......... 7

2.2.1.3

Phức tạp và bao hàm các mối quan hệ...................................................... 8

2.2.2 Thách thức của khai thác dữ liệu với dữ liệu lớn .......................................... 10
2.2.2.1 Lớp 1: nền tảng khai thác dữ liệu lớn ..................................................... 11
2.2.2.2 Lớp 2: ngữ nghĩa dữ liệu lớn và vùng kiến thức chuyên biệt của ứng
dụng ................................................................................................................ 12
2.2.2.3


Lớp 3: thuật toán khai thác dữ liệu lớn ................................................... 14

2.3 Mã hoá dữ liệu ...................................................................................................... 19
2.3.1 Mã hoá đối xứng căn bản ............................................................................... 19
2.3.1.1 Mã hoá Ceasar ........................................................................................ 19
2.3.1.2

Mô hình mã hoá đối xứng....................................................................... 21

2.3.1.3

Mã hoán vị .............................................................................................. 23

2.3.2 Mã hoá đối xứng hiện đại .............................................................................. 25
2.3.2.1 Mã dòng .................................................................................................. 27
2.3.2.2

Trao đổi khoá bí mật bằng trung tâm phân phối khoá ............................ 35

2.3.3 Mã hoá bất đối xứng ...................................................................................... 38
2.3.3.1 RSA ........................................................................................................ 40
2.3.3.2

Độ an toàn của RSA ............................................................................... 43

2.3.3.3

Bảo mật, chứng thực và không từ chối với mã hoá công khai ............... 45

2.3.3.4


Trao đổi khoá .......................................................................................... 46


vi

2.3.3.5

Phƣơng pháp trao đổi khoá Diffie – Hellman ........................................ 49

CHƢƠNG 3 PHƢƠNG THỨC CẢI TIẾN TÍNH TOÁN BẢO TOÀN TÍNH RIÊNG
TƢ TRÊN DỮ LIỆU LỚN. ................................................................................................. 52
3.1 Kiến trúc của phân tích dữ liệu lớn ...................................................................... 52
3.2 Các kỹ thuật bảo vệ tính riêng tƣ phổ biến ........................................................... 53
3.3 Độ tƣơng đồng Cosine .......................................................................................... 55
3.4 Phƣơng thức đề xuất tính toán độ tƣơng đồng Cosine bảo đảm sự riêng tƣ ........ 56
3.5 Thực nghiệm ......................................................................................................... 62
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ........................................................................... 72
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................................. 74


vii

DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu, viết tắt
RSA

Ý nghĩa tiếng Anh

Ý nghĩa tiếng Việt


Ron Rivest, Adi Shamir và Tên viết tắt ba ký tự đầu
Len Adleman

của tên ba nhà khoa học.
Họ đã đƣa ra hệ mật mã
khoá công khai.

HACE

Heterogeneous, Autonomous, Đặc tính của dữ liệu lớn:
Complex and Evolving

(Heterogeneous) không đồng
nhất, (Autonomous) nguồn
độc

lập,

(Complex

and

Evolving) và có nhu cầu khai
thác mối quan hệ phức tạp và
phát triển .

3V, 4V

Volume, Velocity, variety, Các đặc trƣng của dữ liệu

and Value

lớn: Dung lƣợng, Tốc độ,
Đa dạng và Giá trị

CT

Computerized Tomography Đây là phƣơng pháp chẩn
đoán hình ảnh bằng việc sử
dụng tia x để tạo nên các
bức ảnh về mặt cắt các bộ
phận trên cơ thể

GPS

Global Positioning System

Hệ thống xác định vị trí

GSM

Global System for Mobile

Hệ thống thông tin di động
toàn cầu


viii

DANH MỤC CÁC BẢNG

Bảng 2-1 Thời gian vét cạn khoá theo kích thƣớc khoá [5].................................23
Bảng 2-2 Bảng liệt kê các mốc phá mã RSA [5] ...................................................44


ix

DANH MỤC CÁC BIỂU ĐỒ, ĐỒ THỊ, SƠ ĐỒ, HÌNH
ẢNH
Hình 2-1 Framework xử lý dữ liệu lớn[11] .............................................................9
Hình 2-2 Mô hình mã hoá đối xứng [5] .................................................................22
Hình 2-3 Mô hình mã dòng [5] ...............................................................................27
Hình 2-4 Mã hoá dòng A5/1 [5] ..............................................................................31
Hình 2-5 Trao đổi khoá bí mật dùng KDC [5] .....................................................37
Hình 2-6 Mô hình bảo mật với mã hoá khoá công khai [5] .................................45
Hình 2-7 Mô hình kết hợp bảo mật, chứng thực và không từ chối [5]...............46
Hình 2-8 Trao đổi khoá công khai tự phát [5] ......................................................46
Hình 2-9 Trao đổi khoá công khai dùng trung tâm chứng thực [5] ...................48
Hình 2-10 Thiết lập khoá phiên bí mật bằng mã hoá khoá công khai [5] .........49
Hình 2-11 Tấn công kẻ-đứng-giữa với phƣơng pháp Diffie—Hellman [5] .......50
Hình 2-12 Bảo vệ khoá bằng khoá Diffie-Hellman công khai [5] .......................51
Hình 3-1 Kiến trúc tổng quát của phân tích dữ liệu lớn [8] ................................52
Hình 3-2 Phƣơng pháp tính độ tƣơng đồng Cosine cải tiến ................................57
Hình 3-3 Giao diện shell của Python 3.5 ...............................................................64
Hình 3-4 Giao diện file code các thuật toán ..........................................................65
Hình 3-5 File shell lấy kết quả thực nghiệm .........................................................66
Hình 3-6 File dữ liệu CSV kết quả thực nghiệm ..................................................67
Hình 3-7 File chƣơng trình Excel tổng kết dữ liệu...............................................68
Hình 3-8 File tổng kết kết quả các lần thực nghiệm ............................................69
Hình 3-9 Biểu đồ so sánh thời gian tính toán độ tƣơng đồng Cosine .................70



1

CHƯƠNG 1 ĐẶT VẤN ĐỀ
Trong những năm gần đây, sự bùng nổ công nghệ trong các lĩnh vực nói
chung và trong lĩnh vực công nghệ thông tin nói riêng có những bƣớc phát triển
vƣợt bậc. Các thiết bị công nghệ thông tin phát triển nhanh đến chóng mặt, đặc biệt
là thiết bị xử lý và lƣu trữ. Sự phát triển theo cấp số nhân của dữ liệu đã dẫn đến
một kỷ nguyên mới của công nghệ thông tin: kỷ nguyên khai thác trên dữ liệu lớn.
Các lợi ích khai thác trên dữ liệu lớn đã rõ ràng, điển hình là việc khai thác dữ liệu
lớn để dự đoán và tìm khu vực bùng nổ dịch cúm H1N1 của các kỹ sƣ Google vào
năm 2009 [6]. Trƣớc đó hệ thống tìm kiếm Google đều lƣu lại các từ khoá tìm kiếm,
thông qua đó, các kỹ sƣ Google đã lấy dữ liệu bùng nổ dịch cúm mùa Đông theo
vùng ở Mỹ từ cục y tế từ năm 2003 đến 2008, sau đó dùng các thuật toán so sánh
với các câu truy vấn cùng thời gian đó của ngƣời dùng, họ đã tìm đƣợc mối liên hệ
giữa các từ khoá truy vấn và sự bùng phát của dịch cúm mùa Đông ở Mỹ. Từ đó các
kỹ sƣ Google có thể dự đoán đƣợc sự bùng nổ của dịch cúm H1N1 trong từng khu
vực qua việc truy vấn bằng các từ khoá.
Bên cạnh lợi ích của khai thác dữ liệu lớn, việc khai thác dữ liệu lớn cũng
phát sinh nhiều thách thức. Điển hình là thách thức 3V (volume, velocity và variety)
các dữ liệu lớn sẽ rất lớn về số lƣợng (volume), dữ liệu tạo ra với tốc độ rất nhanh
(velocity), và sự đa dạng các nguồn từ dữ liệu (variety). Nhiều nỗ lực nghiên cứu
hiện tại đang xoay quanh các thách thức này. Tuy nhiên, ngoài thách thức 3V, các
nghiên cứu cũng hƣớng đến bảo toàn tính riêng tƣ cho ngƣời dùng. Nếu nhƣ sự bảo
toàn tính riêng tƣ cho ngƣời dùng không đƣợc giải quyết tốt thì khai thác dữ liệu lớn
sẽ gặp khó khăn trong quá trình phát triển. Ví dụ trong lĩnh vực y khoa và chăm sóc
sức khoẻ, hồ sơ của bệnh nhân rất có ích trong việc phân tích nhƣng những hồ sơ
này rất nhạy cảm, nó tiết lộ tình hình sức khoẻ của bệnh nhân, điều gì sẽ xảy ra nếu
các nhà tuyển dụng có các thông tin về sức khoẻ của các ứng viên. Do vậy các
thông tin cần đƣợc bảo vệ tính riêng tƣ cho ngƣời dùng.



2

Bên cạnh các nghiên cứu về khai thác dữ liệu lớn, các biện pháp bảo đảm
tính riêng tƣ của dữ liệu vẫn chƣa đƣợc chú trọng. Theo thống kê của một báo cáo
[1] hầu hết các ngƣời sử dụng web quan tâm đến tính riêng tƣ, trong đó 17% tuyệt
đối không cung cấp thông tin riêng, 56% cung cấp thông tin riêng tƣ nếu có biện
pháp bảo vệ, 82% coi trọng chính sách bảo vệ tính riêng tƣ. Nhƣ vậy đã đến lúc tính
bảo mật riêng tƣ của ngƣời dùng cần đƣợc chú trọng. Hiện tại, dữ liệu ở các công
ty, các tập đoàn cũng đƣợc xem là tài sản của công ty. Trong thời đại của dữ liệu
lớn, các công ty sẽ tận dụng khai thác trên dữ liệu để tìm ra các qui luật, xu hƣớng
mới trong kinh doanh. Bên cạnh đó, các dữ liệu cũng liên quan đến tính riêng tƣ của
khách hàng, các công ty cũng phải ra sức bảo vệ tính riêng tƣ để không ảnh hƣởng
đến uy tín và sự phát triển. Do nhu cầu phát triển, các công ty sẽ mở nhiều chi
nhánh mỗi chi nhánh sẽ có nơi lƣu trữ dữ liệu. Các dữ liệu phát triển nhanh, việc
truyền gửi dữ liệu giữa các chi nhánh cần các biện pháp bảo vệ nhƣ mã hoá. Tuy
nhiên việc này sẽ tốn thời gian, không đáp ứng yêu cầu khai thác trong dữ liệu lớn.
Chính vì vậy khi trao đổi dữ liệu giữa các nơi khác nhau, việc nghiên cứu các
phƣơng thức bảo vệ tính riêng tƣ của dữ liệu nhƣng vẫn bảo đảm hiệu quả trong dữ
liệu lớn là vô cùng quan trọng.

1.1 Tình hình nghiên cứu trên thế giới
Khai thác dữ liệu bảo mật riêng tƣ (Privacy Preserving Data Mining): Trong
những năm gần đây, nhiều nghiên cứu về bảo mật riêng tƣ đƣợc tiến hành [8], tuy
nhiên các nghiên cứu chỉ đáp ứng đƣợc phân tích các cơ sở dữ liệu truyền thống mà
không đáp ứng đƣợc bảo mật dữ liệu riêng tƣ trong cơ sở dữ liệu lớn. Ta xét một vài
kỹ thuật hiện tại.
Kỹ thuật bảo mật riêng tƣ tổng hợp (Privacy-preserving aggregation): đƣợc
xây dựng trên một số dạng mã hoá đồng cấu (hormomorphic emcryption) [7]. Đây

là dạng kỹ thuật thu thập dữ liệu phổ biến, dựa trên cơ sở mã hoá bất đối xứng với
khoá công khai (public key) và khóa riêng (private key). Ví dụ khi muốn gửi dữ liệu,
nơi cần gửi dữ liệu phải lấy khoá công khai của nơi dữ liệu đƣợc gửi đến, mã hoá


3

dữ liệu đó bằng khoá công khai, sau đó gửi bảng đã mã hoá cho nơi cần gửi đến, nơi
gửi đến sẽ giải mã bằng khoá riêng. Nhƣ vậy sẽ bảo đảm đƣợc tính riêng tƣ. Tuy
nhiên trong môi trƣờng cơ sở dữ liệu lớn, việc mã hoá và giải mã sẽ mất nhiều thời
gian và tài nguyên để xử lý nên kỹ thuật bảo mật riêng tƣ tổng hợp không thích hợp
cho việc khai thác dữ liệu lớn.
Kỹ thuật bảo mật dựa trên mã hoá dữ liệu (Operations over encrypted data):
kỹ thuật đƣợc sử dụng nhiều trong điện toán đám mây [8], các dữ liệu nhạy cảm,
các từ khoá tìm kiếm từ ngƣời dùng đều đƣợc mã hoá và đƣợc lƣu trữ trên máy chủ
đám mây. Ngƣời dùng sẽ nhận đƣợc dữ liệu mong muốn và vẫn đƣợc bảo đảm tính
bảo mật riêng tƣ. Tuy nhiên việc mã hoá và giải mã cũng sẽ mất thời gian và tài
nguyên khi xử lý trên cơ sở dữ liệu lớn nên kỹ thuật này cũng còn nhiều hạn chế
trong việc khai thác dữ liệu lớn.
Kỹ thuật xoá định danh (De-indentification): là kỹ thuật truyền thống cho
việc khai thác dữ liệu lớn bảo đảm tính riêng tƣ [8]. Kỹ thuật này đƣợc dùng trong
trƣờng hợp các tổ chức muốn chia sẽ dữ liệu nhƣng tránh tiết lộ các thông tin có
liên quan đến tính riêng tƣ. Ví dụ trong lĩnh vực y khoa, các bệnh viện cần các
nguồn dữ liệu để khai thác các thông tin sẽ tập hợp các hồ sơ bệnh án. Do các hồ sơ
bệnh án rất nhạy cảm vì có các thông tin cá nhân, các dữ liệu hồ sơ bệnh án sẽ đƣợc
lƣợc bỏ các thông tin cá nhân nhƣng phải bảo đảm các dữ liệu đầy đủ các tính chất
để khai thác tốt. Quá trình đó gọi là kỹ thuật xoá định danh trong khai thác dữ liệu
lớn. So với hai kỹ thuật trên, kỹ thuật xoá định danh có thể phân tích dữ liệu và khai
thác hiệu quả linh hoạt hơn [8]. Tuy nhiên trong môi trƣờng dữ liệu lớn vẫn có một
kỹ thuật có thể định danh lại dữ liệu (Re-indentification). Vì thế kết quả là kỹ thuật

xoá định danh vẫn chƣa đáp ứng tốt cho việc bảo vệ riêng tƣ của dữ liệu lớn.

1.2 Tình hình nghiên cứu trong nƣớc
Luận văn Thạc sỹ của Nguyễn Thị Lập (2013) [3] đã nghiên cứu một số kỹ
thuật bảo vệ tính riêng tƣ trong hệ thống dịch vụ dựa trên vị trí. Luận văn cũng đã
nghiên cứu một số biện pháp bảo vệ tính riêng tƣ của ngƣời dùng. Nhƣng chỉ


4

nghiên cứu theo hệ thống dịch vụ dựa trên vị trí địa lý (Location Based Service) chứ
không phải nghiên cứu trên môi trƣờng cơ sở dữ liệu lớn.
Luận văn Thạc sỹ của Nguyễn Tuấn Khanh (2012) [4] nghiên cứu về bảo
mật trong điện toán đám mây. Luận văn cũng đã nhắc đến bảo mật riêng tƣ về dữ
liệu cho ngƣời dùng. Tuy nhiên luận văn chỉ nhắc khái quát mà không đi sâu vào
nghiên cứu bảo mật riêng tƣ.
Seminar ―An Toàn Thông Tin‖ 2012 của Hà Quang Thuỵ (Khoa Công Nghệ
Thông tin, Trƣờng đại học Công Nghiệp, Đại Học Quốc Gia Hà Nội) [1] giới thiệu
về khai thác dữ liệu, bảo đảm tính riêng tƣ trong khai thác dữ liệu nhƣng cũng
không nghiên cứu sâu về bảo mật tính riêng tƣ trong cơ sở dữ liệu lớn.
Luận văn đƣợc trình bày gồm 3 chƣơng:
Chƣơng 1: Đặt vấn đề, nêu khái quát về dữ liệu lớn, những lợi ích to lớn của
khai thác dữ liệu lớn. Bên cạnh đó cần thiết phải bảo vệ tính riêng tƣ của dữ liệu lớn.
Các công trình nghiên cứu bảo vệ tính riêng tƣ khi khai thác dữ liệu lớn trong và
ngoài nƣớc.
Chƣơng 2: Cơ sở lý thuyết, tìm hiểu về dữ liệu lớn, các kỹ thuật khai thác và
lý thuyết về mã hoá.
Chƣơng 3: Phƣơng pháp cải tiến tính toán bảo toàn tính riêng tƣ trong khai
thác dữ liệu lớn, giới thiệu các phƣơng pháp bảo toàn tính riêng tƣ trong khai thác
dữ liệu lớn hiện có. Giới thiệu một phƣơng pháp cải tiến.



5

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan dữ liệu lớn
Ngày nay, sự phát triển của Internet đã làm thay đổi mạnh mẽ cách thức hoạt
động của các tổ chức. Các ứng dụng Web 2.0, mạng xã hội, điện toán đám mây đã
một phần mang lại cho các tổ chức phƣơng thức kinh doanh mới [2]. Trong kỷ
nguyên của IoT(Internet of Things), các cảm biến đƣợc nhúng vào trong các thiết bị
di động nhƣ điện thoại di động, ô tô và máy móc công nghiệp góp phần vào việc tạo
và chuyển dữ liệu, dẫn đến sự bùng nổ của dữ liệu có thể thu thập đƣợc. Theo một
báo cáo của trung tâm dữ liệu internet (Internal Data Center) năm 2011, lƣợng dữ
liệu đƣợc tạo ra trên thế giới là 1.8ZB (1 zettabyte (ZB) = 240 gigabytes (GB) ~
1.000.000.000.000 GB), tăng gần 9 lần chỉ trong 5 năm. Dƣới sự bùng nổ này, thuật
ngữ dữ liệu lớn đƣợc sử dụng để chỉ những bộ dữ liệu khổng lồ, chủ yếu là những
bộ dữ liệu không có cấu trúc, đƣợc thu thập từ nhiều nguồn khác nhau.
Với những tác động trong việc khám phá giá trị tiềm ẩn to lớn, dữ liệu lớn
đang đƣợc xem là một yếu tố mới quan trọng mang lại lợi ích cho các tổ chức trong
nhiều lĩnh vực khác nhau. Trong một khảo sát của tổ chức Oracle Corp và
Accenture PLC, 57% chuyên gia tài chính đánh giá đầu tƣ vào dữ liệu lớn sẽ là yếu
tố then chốt để đạt đƣợc lợi thế cạnh tranh. Chính vì những lợi ích to lớn mà dữ liệu
lớn có thể mang lại, nhiều tổ chức đã đầu tƣ mạnh vào việc nghiên cứu và ứng dụng
vào dữ liệu lớn. Theo một báo cáo từ Gartner, năm 2014, 73% tổ chức đƣợc khảo
sát đã mua hoặc có ý định đầu tƣ vào các dự án dữ liệu lớn, con số này năm 2013 là
64%.
Dữ liệu lớn là thuật ngữ dùng để mô tả các bộ dữ liệu có kích thƣớc rất lớn,
khả năng phát triển nhanh, và rất khó thu thập, lƣu trữ, quản lý và phân tích với các
công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống. Một số đặc trƣng của dữ
liệu lớn bao gồm dung lƣợng (volume), tốc độ (velocity), tính đa dạng (variety), và

giá trị (value)


6

2.1.1 Dung lƣợng
Dung lƣợng của dữ liệu lớn đang tăng lên mạnh mẽ từng ngày. Theo tài liệu
của Intel vào tháng 9/2013, cứ mỗi 11 giây 1 PB dữ liệu đƣợc tạo ra trên toàn thế
giới, tƣơng đƣơng với một đoạn video HD (High Definition Video: phim ảnh với độ
phân giải cao) dài 13 năm. Facebook phải xử lý khoảng 500 TB dữ liệu mỗi ngày.
Lợi ích thu đƣợc từ việc xử lý một khối lƣợng lớn dữ liệu chính là điểm thu hút chủ
yếu của dữ liệu lớn, tuy nhiên cũng đặt ra nhiều khó khăn trong việc tìm ra những
phƣơng pháp, kỹ thuật để xử lý khối lƣợng dữ liệu này.

2.1.2 Tốc độ
Với sự ra đời của các kỹ thuật, công cụ, ứng dụng lƣu trữ, nguồn dữ liệu liên
tục đƣợc bổ sung với tốc độ nhanh chóng. Tổ chức McKinsey Global ƣớc tính
lƣợng dữ liệu đang tăng trƣởng với tốc độ 40%/năm và sẽ tăng 44 lần từ năm 2009
đến 2020.

2.1.3 Tính đa dạng
Dữ liệu đƣợc thu thập từ nhiều nguồn khác nhau, từ các thiết bị cảm biến,
thiết bị di động, qua mạng xã hội .v.v… Các kiểu dữ liệu có cấu trúc, bán cấu trúc
và không có cấu trúc tồn tại dƣới nhiều hình thức bao gồm hình ảnh, âm thanh,
video, văn bản, v.v…

2.1.4 Giá trị
Đây là đặc trƣng quan trọng nhất của dữ liệu lớn, đề cập đến quá trình trích
xuất các giá trị to lớn đang tiềm ẩn trong các bộ dữ liệu khổng lồ.


2.2 Khai thác dữ liệu lớn
Những lý thuyết dƣới đây đƣợc học viên trích dẫn từ tài liệu tham khảo [11]
bao gồm các mục:


7

2.2.1 Đặc tính của dữ liệu lớn HACE
Dữ liệu lớn thƣờng có đặc tính: dung lƣợng lớn, không đồng nhất
(Heterogeneous), nguồn độc lập (Autonomous) với kiểm soát phân tán và không tập
trung và có nhu cầu khai thác mối quan hệ phức tạp và phát triển (Complex and
Evolving) giữa các dữ liệu. Những đặc tính này khiến việc khai thác thông tin hữu
ích từ dữ liệu lớn gặp nhiều khó khăn.
2.2.1.1 Dữ liệu lớn không đồng nhất và đa chiều
Một trong những đặc tính cơ bản của dữ liệu lớn là dung lƣợng lớn đƣợc biểu
diễn bởi số chiều đa dạng và không đồng nhất. Điều này là do các bộ thu thập thông
tin khác nhau sử dụng phƣơng pháp riêng để ghi nhận dữ liệu và do bản chất khác
nhau của các ứng dụng cũng dẫn đến sự biểu diễn dữ liệu khác nhau. Ví dụ nhƣ
trong lĩnh vực y - sinh học, mỗi cá thể có thể đƣợc biểu diễn bởi các thông tin nhân
khẩu học nhƣ giới tính, tuổi, tiền sử bệnh tật gia đình… Trong điều trị X-ray và
chụp CT, ảnh và phim đƣợc sử dụng để biểu diễn kết quả. Trong các kiểm tra DNA
hay gene, vi ảnh và chuỗi đƣợc sử dụng để biểu diễn thông tin về gene. Các tình
huống khác, đặc tính không đồng nhất có thể hiểu là cách thức biểu diễn khác nhau
của cùng một dữ liệu. Tƣởng tƣợng rằng các tổ chức y tế khác nhau có các phƣơng
pháp khác nhau để thể hiện thông tin của bệnh nhân. Sự không đồng nhất và đa
dạng về số chiều đã trở thành một trong những khó khăn chủ yếu khi tích hợp dữ
liệu từ nhiều nguồn thông tin khác nhau.
2.2.1.2 Các nguồn dữ liệu độc lập và kiểm soát phân tán không tập trung
Dữ liệu độc lập và kiểm soát phân tán không tập trung là đặc tính chính của
các ứng dụng dữ liệu lớn. Khi mang đặc tính độc lập, mỗi nguồn dữ liệu có khả

năng tạo và thu thập thông tin mà không dựa vào bất kì cơ chế kiểm soát tập trung
nào. Mặt khác, lƣợng thông tin khổng lồ cũng làm cho ứng dụng dễ dàng bị tấn
công và các tính năng không còn đúng nếu toàn bộ hệ thống chỉ dựa trên một cơ chế
kiểm soát tập trung. Đối với những ứng dụng quan trọng liên quan đến dữ liệu lớn


8

nhƣ Google, Flickr, Facebook, Walmart… thì rất nhiều các server đƣợc triển khai
trên khắp thế giới để đảm bảo dịch vụ đƣợc liên tục và đáp ứng nhanh cho khu vực
nội bộ. Những nguồn thông tin dạng trên không chỉ là do giải pháp thiết kế kĩ thuật
quy định mà còn là do luật pháp và quy định của từng đất nƣớc, vùng miền. Ví dụ
nhƣ thị trƣờng Walmart của châu Á hoàn toàn khác với thị trƣờng Bắc Mĩ về
khuyến mãi theo mùa, những sản phẩm bán chạy nhất và hành vi khách hàng. Đặc
biệt hơn nữa, luật của chính phủ cũng ảnh hƣởng tới quy trình quản lý bán hàng
toàn bộ và thậm chí ảnh hƣởng tới biểu diễn dữ liệu và kho dữ liệu trong các thị
trƣờng.

2.2.1.3 Phức tạp và bao hàm các mối quan hệ
Khi dung lƣợng dữ liệu lớn ngày càng gia tăng, độ phức tạp và các mối quan
hệ tiềm tàng trong dữ liệu cũng gia tăng. Trong giai đoạn đầu, việc tìm ra đặc tính
tốt nhất để biểu diễn hay đặc trƣng cho các quan sát đƣợc là điểm mấu chốt. Điều
này tƣơng tự nhƣ việc sử dụng nhiều trƣờng dữ liệu nhƣ tuổi tác, giới tính, thu
nhập, nền tảng giáo dục… để đặc trƣng cho từng cá thể. Kiểu biểu diễn đặc trƣng
cho mẫu dữ liệu này coi mỗi cá thể là thực thể độc lập và không xét tới mối quan hệ
xã hội giữa các cá nhân. Các cá nhân hình thành mối quan hệ bạn bè thông qua sở
thích chung hoặc hình thành quan hệ thông qua kết nối sinh học. Những kết nối nhƣ
vậy tồn tại trong cả đời sống thực và thế giới ảo nhƣ mạng xã hội Twitter,
Facebook. Mối tƣơng quan giữa các cá thể này khiến việc biểu diễn dữ liệu và quá
trình lý giải trở nên phức tạp hơn. Trong cách biểu diễn đặc trƣng của mẫu, các cá

thể đƣợc cho là giống nhau nếu chúng có giá trị đặc tính tƣơng tự nhau. Còn trong
cách biểu diễn mối quan hệ đặc trƣng mẫu, hai cá thể đƣợc kết nối với nhau (thông
qua kết nối xã hội) ngay cả khi chúng không có chung bất kì đặc tính trong cùng
một vùng đặc tính nào đó. Trong thế giới thực, các đặc trƣng đƣợc dùng để biểu
diễn các cá thể và các ràng buộc xã hội dùng để biểu diễn kết nối có thể liên hệ với
nhau về mặt thời gian, không gian và các nhân tố khác. Sự phức tạp này dần hiện
hữu trong các ứng dụng dữ liệu lớn.


9

Khai thác trên dữ liệu
động và phức tạp

Chia sẻ thông tin và tính
riêng tư của dữ liệu

Nền tảng
khai thác dữ
liệu lớn

Học nội bộ và phân
rã mô hình

Lớp 1
Lớp 2

Lớp 3
ứng dụng và tri thức
của dữ liệu lớn


Khai thác từ dữ liệu đa
nguồn, không đầy đủ và
không chắc chắn

Hình 2-1 Framework xử lý dữ liệu lớn [11]

Lớp 1: nền tảng khai thác dữ liệu lớn (tập trung vào xử lí dữ liệu ở cấp độ
thấp và tính toán).
Lớp 2: riêng tƣ và chia sẻ thông tin (tập trung vào ngữ nghĩa ở cấp độ cao,
vùng kiến thức của ứng dụng và các vấn đề về sự riêng tƣ của ngƣời dùng).
Lớp 3 ngoài cùng tập trung chủ yếu vào các thuật toán khai thác dữ liệu thực
tế.


10

2.2.2 Thách thức của khai thác dữ liệu với dữ liệu lớn
Trong một hệ thống cơ sở dữ liệu học thông minh để giải quyết đƣợc vấn đề
dữ liệu lớn, điều cốt yếu là phân chia dung lƣợng dữ liệu lên mức lớn nhất và cung
cấp giải pháp cho các đặc tính đặc trƣng bởi quy luật HACE. Hình 2-1 thể hiện ở
góc độ lý thuyết của framework xử lí dữ liệu lớn, với ba riêng của lĩnh vực và ba
lớp.
Thách thức ở lớp 1: Dữ liệu lớn thƣờng đƣợc chứa ở nhiều nơi khác nhau
và dung lƣợng dữ liệu có thể tăng liên tục. Do vậy, cần phải có nền tảng tính toán
hiệu quả để lấy các nguồn dữ liệu phân tán mức độ cao để đƣa vào tính toán. Ví dụ:
các thuật toán khai thác dữ liệu tiêu biểu yêu cầu trƣớc tiên tất cả các dữ liệu phải
đƣợc tải lên bộ nhớ chính. Đây rõ ràng là rào cản đối với dữ liệu lớn vì chi phí sẽ rất
cao cho việc di chuyển dữ liệu từ nhiều vị trí khác nhau (do bởi chi phí giao tiếp
mạng tập trung và chi phí thiết bị), mặc dù có thể bộ nhớ chính đủ lớn để chứa tất cả

dữ liệu cho tính toán.
Thách thức ở lớp 2: thông tin ở lớp 2 có thể đem lại nhiều lợi ích cho quá
trình khai thác, cũng nhƣ tạo ra rào cản kĩ thuật đối với lớp 1 và 3. Ví dụ: tùy thuộc
vào ứng dụng trong từng lĩnh vực, cơ chế chia sẻ thông tin và bảo mật dữ liệu giữa
nguồn cung cấp và nơi sử dụng thông tin khá khác biệt nhau. Chia sẻ dữ liệu hệ
thống mạng lƣới cảm ứng cho các ứng dụng nhƣ giám sát lƣu lƣợng nƣớc thƣờng
không bị ngăn cản nhƣng chia sẻ thông tin về vị trí ngƣời sử dụng di động rõ ràng
không đƣợc chấp nhận. Ngoài những vấn đề về tính riêng tƣ bảo mật trên, các lĩnh
vực của ứng dụng còn có thể cung cấp thêm thông tin nhằm hỗ trợ và hƣớng dẫn
thiết kế cho các thuật toán khai thác dữ liệu. Việc hiểu ngữ nghĩa và kiến thức
chuyên ngành trong từng ứng dụng đều quan trọng trong cả việc truy cập dữ liệu ở
cấp độ thấp và thiết kế thuật toán khai thác ở cấp độ cao.
Thách thức ở lớp 3: lớp thứ 3 bao gồm ba giai đoạn. Đầu tiên, dữ liệu đa
nguồn, không đầy đủ, không chắc chắn, không đồng nhất và không tập trung đƣợc
tiền xử lí bởi các kĩ thuật liên hợp. Sau đó, dữ liệu động và phức tạp tiếp tục đƣợc
khai thác. Cuối cùng, kiến thức chung đạt đƣợc bởi quá trình học nội bộ và phân rã


11

mô hình đƣợc thí nghiệm và thông tin liên quan sẽ đƣợc phản hồi lại giai đoạn tiền
xử lý trƣớc đó. Mô hình và các tham số sẽ đƣợc điều chỉnh tùy thuộc vào phản hồi.
Trong toàn bộ quá trình, chia sẻ thông tin luôn đƣợc chú trọng.

2.2.2.1 Lớp 1: nền tảng khai thác dữ liệu lớn
Trong các hệ thống khai thác dữ liệu tiêu biểu, quy trình khai thác đòi hỏi các
đơn vị tính toán tập trung chuyên sâu để phân tích dữ liệu và so sánh. Một nền tảng
tính toán tốt cần phải có khả năng truy cập hữu hiệu tới ít nhất là hai nguồn tài
nguyên: dữ liệu và bộ xử lí tính toán. Đối với các tác vụ khai thác dữ liệu quy mô
nhỏ, một máy tính để bàn có thể đáp ứng đƣợc. Đối với các tác vụ khai thác dữ liệu

quy mô trung bình, dữ liệu khá lớn, khả năng là phân tán và có thể vƣợt quá giới
hạn của bộ nhớ. Giải pháp thƣờng dựa vào kĩ thuật tính toán song song hay khai
thác thu thập để lấy mẫu và tích hợp dữ liệu từ nhiều nguồn khác nhau, sau đó sử
dụng lập trình tính toán song song để tiến hành quá trình khai thác.
Đối với dữ liệu lớn, bởi vì quy mô dữ liệu vƣợt xa so với khả năng mà một
máy tính để bàn có thể, nên framework xử lí dữ liệu lớn tiêu biểu sẽ dựa trên các
cụm máy tính có nền tảng tính toán hiệu suất cao. Trong đó, tác vụ khai thác dữ liệu
đƣợc triển khai bởi công cụ lập trình song song nhƣ MapReduce trên số lƣợng lớn
các node tính toán. Vai trò của phần mềm là đảm bảo rằng trong tác vụ khai thác dữ
liệu đơn nhƣ tìm ra kết hợp tốt nhất của truy xuất từ cơ sở dữ liệu với hàng tỉ mẫu
dữ liệu. Ví dụ nhƣ siêu máy tính Titan – triển khai tại phòng thí nghiệm quốc gia
Oak Ridge ở Tennessee, Hoa Kì – chứa 18.688 node với mỗi node là bộ xử lý 16core.
Những hệ thống dữ liệu lớn mà kết hợp giữa phần cứng và phần mềm thƣờng
đƣợc hỗ trợ nhiều từ công nghiệp. Trong thực tế, hàng chục năm nay, các công ty
thƣờng ra quyết định dựa vào dữ liệu giao dịch đƣợc lƣu trữ trong cơ sở dữ liệu
quan hệ. Khai thác dữ liệu lớn mang lại cơ hội tận dụng quan hệ của cơ sở dữ liệu
và dữ liệu ít cấu trúc hơn: weblogs, truyền thông xã hội, thƣ điện tử, cảm ứng, hình
ảnh... có thể đƣợc khai thác để đem lại thông tin hữu ích. Các công ty làm về lĩnh


×