Privacy Preserving
Data Mining
GVHD: PGS. TS. Đặng Trần Khánh
SVTH: Mai Trần Thục Trinh
Lê Hà Minh
Nội dung
Khai thác dữ liệu là gì?
Các phương pháp khai thác dữ liệu
Một số lĩnh vực khai thác và công cụ
Tại sao phải đảm bảo tính riêng tư trong KTDL
Tiêu chí phân loại
Các phương pháp bảo toàn tính riêng tư trong KTDL
Kết luận
Khai thác dữ liệu là gì?
Khai thác dữ liệu (data mining) là việc trích ra các
tri thức chưa được nhận ra, tiềm ẩn trong tập dữ
liệu lớn một cách tự động
Quá trình khai thác
Khai thác dữ liệu là một bước của quá trình khai thác tri thức, bao gồm:
Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.
Chuẩn bị dữ liệu, bao gồm các quá trình làm sạch dữ liệu, tích hợp dữ liệu,
chọn dữ liệu, biến đổi dữ liệu.
Khai phá dữ liệu: xác định nhiệm vụ khai thác dữ liệu và lựa chọn kĩ thuật
khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
Đánh giá: dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức
thu được.
Triển khai.
Quá trình khai phá tri thức không chỉ là một quá trình tuần tự từ bước
đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại
các bước đã qua.
Quá trình khai thác
Các phương pháp khai thác dữ liệu
Phân loại (Classification)
Hồi qui (Regression)
Phân nhóm (Clustering)
Tổng hợp (Summarization)
Mô hình ràng buộc (Dependency modeling)
Dò tìm biến đổi và độ lệch (Change and Deviation
Dectection)
Các lĩnh vực ứng dụng
Thiên văn học
Tin sinh học
Bào chế thuốc
Thương mại điện tử
Phát hiện lừa đảo
Quảng cáo
Marketing
Quản lý quan hệ khách hàng
Chăm sóc sức khỏe
Viễn thông
Thể thao, giải trí
Đầu tư
Máy tìm kiếm (web)
Một số công cụ khai thác dữ liệu
Boxplots from Statsoft: Multiple Variable
Combinations
2/2/15Data Mining: Concepts and Techniques9
Visualization of Data Mining Results in
SAS Enterprise Miner: Scatter Plots
2/2/15Data Mining: Concepts and Techniques10
Visualization of Association Rules in
SGI/MineSet 3.0
2/2/15Data Mining: Concepts and Techniques11
Visualization of a Decision Tree in
SGI/MineSet 3.0
2/2/15Data Mining: Concepts and Techniques12
Visualization of Cluster Grouping in IBM Intelligent Miner
2/2/15Data Mining: Concepts and Techniques13
Data Mining Process Visualization
Các công cụ trên trình bày các loại tiến trình khác nhau
trong khai thác dữ liệu ở các dạng khác nhau mà con
người nhìn thấy được
Tiến trình rút trích dữ liệu.
Nơi mà dữ liệu được rút trích.
Dữ liệu được làm sạch, kết hợp, lặp lại tiến trình và khai
thác
Cách lựa chọn phương pháp khai thác dữ liệu
Nơi mà cơ sở dữ liệu được lưu trữ
Cách mà những dữ liệu đó được nhìn thấy.
2/2/1514
Visualization of Data Mining Processes by
Clementine
2/2/1515
Understand
variations with
visualized data
See your solution
discovery
process clearly
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu
Dữ liệu thô có tính nhạy cảm như định danh, tên
hoặc địa chỉ mà người dùng không muốn tiết lộ
nhưng vẫn bị kẻ xấu khai thác với mục đích xấu
Data owner Data recipients
Person-specific
data
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu
Người dùng không muốn bị lộ những thông tin cá
nhân “nhạy cảm”
Sự ảnh hưởng đối với xã hội
Khai thác dữ liệu có là mối nguy hiểm cho việc bảo mật
thông tin cá nhân?
Thông tin cá nhân được thu thập mọi lúc mọi nơi
Credit card, debit card, supermarket loyalty card, or frequent flyer
card
Lướt Web, thuê video, điền vào các thông tin cá nhân trên Web
Thông tin về tình hình sức khỏe, khám và điều trị, số lần đến gặp
bác sĩ.
Thu thập các thông tin cá nhân có thể làm lợi cho tổ chức
hoặc công ty nào đó, và đó cũng là tiềm tàng để sử dụng cho
mục đích xấu
Đảm bảo tính riêng tư và bảo mật dữ liệu
Các phương pháp thường dùng
Hướng dẫn quốc tế cho việc bảo vệ thông tin cá nhân
Giới hạn việc liên quan đến thu thập dữ liệu, mục đích, số lượng, cá nhân
tham gia, trách nhiệm của từng cá nhân
Mục đích phải xác định và sử dụng có giới hạn
Openess: cá nhân có quyền biết thông tin được thu thập bởi cá nhân đó,
ai đã truy cập vào dữ liệu, và dữ liệu đó được sử dụng như thế nào.
Phát triển các kỹ thuật đảm bảo tính bảo mật
Blind signatures
Biometric encryption
Anonymous databases
Tiêu chí phân loại
Mục đích: dựa vào tiêu chí biến đổi dữ liệu sang dạng
khác mà vẫn đảm bảo:
Khai thác được thông tin đúng,
Đảm bảo tính an toàn, không mất mát trong bảo mật
tính riêng tư.
Các phương pháp bảo toàn tính riêng tư
trong KTDL
Phương pháp phát sinh ngẫu nhiên (The
randomization method)
Phương pháp ẩn danh (The anonymization method)
Phương pháp mã hóa (The encryption method)
Phương pháp phát sinh ngẫu nhiên
Là phương pháp phổ biến trong lĩnh vực nghiên cứu
bảo mật khai thác dữ liệu.
Đánh dấu các dòng trong dữ liệu bằng cách thêm dữ
liệu nhiễu vào dữ liệu gốc.
Phương pháp phát sinh ngẫu nhiên
50 | 40 | 30 | 70 |
Randomizer Randomizer
Reconstruct
distribution
of Age
Reconstruct
distribution
of Salary
Data Mining
Algorithms
Model
65 | 20| 25 | 60 |
Phương pháp phát sinh ngẫu nhiên
Tập hợp các tiến trình thu thập dữ liệu bao gồm 2
bước.
Bước 1: Người cung cấp dữ liệu phát sinh ngẫu nhiên
và biến đổi dữ liệu ngẫu nhiên cho người nhận.
Bước 2: Người nhận dữ liệu dùng thuật toán thích
hợp để tái cấu trúc lại.
Phương pháp phát sinh ngẫu nhiên