Tải bản đầy đủ (.pptx) (66 trang)

báo cáo công nghệ thông tin đề tài privacy preserving data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.27 MB, 66 trang )

Privacy Preserving
Data Mining
GVHD: PGS. TS. Đặng Trần Khánh
SVTH: Mai Trần Thục Trinh
Lê Hà Minh
Nội dung

Khai thác dữ liệu là gì?

Các phương pháp khai thác dữ liệu

Một số lĩnh vực khai thác và công cụ

Tại sao phải đảm bảo tính riêng tư trong KTDL

Tiêu chí phân loại

Các phương pháp bảo toàn tính riêng tư trong KTDL

Kết luận
Khai thác dữ liệu là gì?

Khai thác dữ liệu (data mining) là việc trích ra các
tri thức chưa được nhận ra, tiềm ẩn trong tập dữ
liệu lớn một cách tự động
Quá trình khai thác

Khai thác dữ liệu là một bước của quá trình khai thác tri thức, bao gồm:

Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.


Chuẩn bị dữ liệu, bao gồm các quá trình làm sạch dữ liệu, tích hợp dữ liệu,
chọn dữ liệu, biến đổi dữ liệu.

Khai phá dữ liệu: xác định nhiệm vụ khai thác dữ liệu và lựa chọn kĩ thuật
khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.

Đánh giá: dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức
thu được.

Triển khai.

Quá trình khai phá tri thức không chỉ là một quá trình tuần tự từ bước
đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại
các bước đã qua.
Quá trình khai thác
Các phương pháp khai thác dữ liệu

Phân loại (Classification)

Hồi qui (Regression)

Phân nhóm (Clustering)

Tổng hợp (Summarization)

Mô hình ràng buộc (Dependency modeling)

Dò tìm biến đổi và độ lệch (Change and Deviation
Dectection)
Các lĩnh vực ứng dụng


Thiên văn học

Tin sinh học

Bào chế thuốc

Thương mại điện tử

Phát hiện lừa đảo

Quảng cáo

Marketing

Quản lý quan hệ khách hàng

Chăm sóc sức khỏe

Viễn thông

Thể thao, giải trí

Đầu tư

Máy tìm kiếm (web)
Một số công cụ khai thác dữ liệu
Boxplots from Statsoft: Multiple Variable
Combinations
2/2/15Data Mining: Concepts and Techniques9

Visualization of Data Mining Results in
SAS Enterprise Miner: Scatter Plots

2/2/15Data Mining: Concepts and Techniques10
Visualization of Association Rules in
SGI/MineSet 3.0
2/2/15Data Mining: Concepts and Techniques11
Visualization of a Decision Tree in
SGI/MineSet 3.0
2/2/15Data Mining: Concepts and Techniques12
Visualization of Cluster Grouping in IBM Intelligent Miner
2/2/15Data Mining: Concepts and Techniques13
Data Mining Process Visualization

Các công cụ trên trình bày các loại tiến trình khác nhau
trong khai thác dữ liệu ở các dạng khác nhau mà con
người nhìn thấy được

Tiến trình rút trích dữ liệu.

Nơi mà dữ liệu được rút trích.

Dữ liệu được làm sạch, kết hợp, lặp lại tiến trình và khai
thác

Cách lựa chọn phương pháp khai thác dữ liệu

Nơi mà cơ sở dữ liệu được lưu trữ

Cách mà những dữ liệu đó được nhìn thấy.

2/2/1514
Visualization of Data Mining Processes by
Clementine
2/2/1515

Understand
variations with
visualized data
See your solution
discovery
process clearly
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu

Dữ liệu thô có tính nhạy cảm như định danh, tên
hoặc địa chỉ mà người dùng không muốn tiết lộ
nhưng vẫn bị kẻ xấu khai thác với mục đích xấu
Data owner Data recipients
Person-specific
data
Tại sao phải đảm bảo tính riêng tư trong
khai thác dữ liệu

Người dùng không muốn bị lộ những thông tin cá
nhân “nhạy cảm”
Sự ảnh hưởng đối với xã hội

Khai thác dữ liệu có là mối nguy hiểm cho việc bảo mật
thông tin cá nhân?


Thông tin cá nhân được thu thập mọi lúc mọi nơi

Credit card, debit card, supermarket loyalty card, or frequent flyer
card

Lướt Web, thuê video, điền vào các thông tin cá nhân trên Web

Thông tin về tình hình sức khỏe, khám và điều trị, số lần đến gặp
bác sĩ.

Thu thập các thông tin cá nhân có thể làm lợi cho tổ chức
hoặc công ty nào đó, và đó cũng là tiềm tàng để sử dụng cho
mục đích xấu
Đảm bảo tính riêng tư và bảo mật dữ liệu

Các phương pháp thường dùng

Hướng dẫn quốc tế cho việc bảo vệ thông tin cá nhân

Giới hạn việc liên quan đến thu thập dữ liệu, mục đích, số lượng, cá nhân
tham gia, trách nhiệm của từng cá nhân

Mục đích phải xác định và sử dụng có giới hạn

Openess: cá nhân có quyền biết thông tin được thu thập bởi cá nhân đó,
ai đã truy cập vào dữ liệu, và dữ liệu đó được sử dụng như thế nào.

Phát triển các kỹ thuật đảm bảo tính bảo mật

Blind signatures


Biometric encryption

Anonymous databases
Tiêu chí phân loại

Mục đích: dựa vào tiêu chí biến đổi dữ liệu sang dạng
khác mà vẫn đảm bảo:

Khai thác được thông tin đúng,

Đảm bảo tính an toàn, không mất mát trong bảo mật
tính riêng tư.
Các phương pháp bảo toàn tính riêng tư
trong KTDL

Phương pháp phát sinh ngẫu nhiên (The
randomization method)

Phương pháp ẩn danh (The anonymization method)

Phương pháp mã hóa (The encryption method)
Phương pháp phát sinh ngẫu nhiên

Là phương pháp phổ biến trong lĩnh vực nghiên cứu
bảo mật khai thác dữ liệu.

Đánh dấu các dòng trong dữ liệu bằng cách thêm dữ
liệu nhiễu vào dữ liệu gốc.
Phương pháp phát sinh ngẫu nhiên

50 | 40 | 30 | 70 |


Randomizer Randomizer
Reconstruct
distribution
of Age
Reconstruct
distribution
of Salary
Data Mining
Algorithms
Model
65 | 20| 25 | 60 |

Phương pháp phát sinh ngẫu nhiên

Tập hợp các tiến trình thu thập dữ liệu bao gồm 2
bước.

Bước 1: Người cung cấp dữ liệu phát sinh ngẫu nhiên
và biến đổi dữ liệu ngẫu nhiên cho người nhận.

Bước 2: Người nhận dữ liệu dùng thuật toán thích
hợp để tái cấu trúc lại.
Phương pháp phát sinh ngẫu nhiên

×