CHƯƠNG 4
AN TOÀN CSDL THỐNG KÊ
Giảng viên:
Trần Thị Lượng
Mục tiêu
Chúng ta đi sâu vào các vấn đề suy diễn trên các CSDL thống kê.
Thảo luận một số kỹ thuật bảo vệ cơ bản:
Kỹ thuật dựa vào khái niệm
Kỹ thuật dựa vào hạn chế
Kỹ thuật dựa vào gây nhiễu
Đánh giá chung về đặc trưng của các kỹ thuật này.
Nội dung
4.1 Giới thiệu
4.2 Các khái niệm cơ bản và giả định
4.3 Một số kiểu tấn công suy diễn
4.4 Các kỹ thuật chống suy diễn
4.4.1 Các kỹ thuật khái niệm
4.4.2 Các kỹ thuật dựa vào hạn chế
4.4.3 Các kỹ thuật dựa vào gây nhiễu
4.5 Khung làm việc chung dành cho việc so sánh các kỹ thuật chống suy diễn
4.1 Giới thiệu
CSDL thống kê (SDB) là một CSDL chứa các bản ghi nhạy cảm mô tả
về các cá nhân nhưng chỉ các câu truy vấn thống kê (như: COUNT,
SUM, MEAN, MAX, MIN…) mới được trả lời, ngoài các câu truy vấn
này thì những truy vấn vào các mục dữ liệu riêng sẽ không được đáp lại
Ví dụ một số câu truy vấn thống kê
COUNT:
Select count(*) from Nhanvien
(Trả lại tổng số lượng các bg trong table)
Select count(Luong) AS count_Luong from Nhanvien
Select count(Distinct Luong) from Nhanvien
(Trả lại số lượng các loại lương phân biệt nhau)
select count(*) from nhanvien where Luong<=1000
Ví dụ một số câu truy vấn thống kê
SUM:
Select SUM(Luong) as sum_Luong from Nhanvien
Select SUM(Distinct Luong) as sum_Luong from Nhanvien
Select Chucvu, Sum(Luong) from Nhanvien GROUP BY chucvu
Select HoTen, chucvu, Luong from nhanvien
ORDER by chucvu
Compute SUM(Luong) by chucvu
(Thêm cột tổng lương với từng kiểu chức vụ)
Ví dụ một số câu truy vấn thống kê
AVG:
Select AVG(Luong) AS avg_Luong from Nhanvien
Select AVG(Luong) AS avg_Luong from Nhanvien where Luong>1000
Select AVG(distinct Luong) AS avg_Luong from Nhanvien
Select chucvu, AVG(Luong) as avg_Luong, SUM(Luong) as sum_luong from Nhanvien
Group by chucvu
Order by chucvu
Ví dụ một số câu truy vấn thống kê
MIN:
Select MIN(Luong) from Nhanvien
Select MIN(Distinct Luong) from Nhanvien
MAX
Select MAX(Distinct Luong) from Nhanvien
Select MAX(Luong) from Nhanvien
4.1 Giới thiệu
Ứng dụng của SDB (Statistical Database): CSDL điều tra dân số, CSDL về số
người tử vong, về kế hoạch kinh tế, CSDL thống kê về khám chữa bệnh, CSDL
về các vụ tai nạn ô tô, CSDL về cơng nhân, CSDL thống kê về tội phạm…
Ví dụ:
4.1 Giới thiệu
Vấn đề bảo vệ SDB: Vấn đề chính trong bảo vệ SDB là dàn xếp giữa các yêu cầu cá
nhân và quyền của các tổ chức để biết và xử lý thông tin => vấn đề suy diễn trong
SDB.
Suy diễn: trong một SDB có nghĩa là có thể thu được các thơng tin bí mật trong các
thực thể đơn lẻ, bằng cách lợi dụng các câu truy vấn thống kê.
4.1 Giới thiệu
Một SDB chắc chắn bị lộ: nếu người sử dụng phát hiện được một cá nhân có một
đặc điểm cụ thể nào đó, nghĩa là người dùng biết cá nhân này được biểu diễn trong
SDB có một số giá trị thuộc tính nào đó.
Một SDB hồn tồn khơng bị lộ: nếu người sử dụng biết được một cá nhân cụ thể
không nắm giữ một đặc điểm nào đó.
4.1 Giới thiệu
Các đặc tính của SDB cần được bảo vệ:
SDB tĩnh: SDB không thay đổi trong suốt thời gian tồn tại của chúng.
SDB động: thay đổi liên tục theo sự thay đổi của dữ liệu thực, cho phép sửa đổi, nghĩa là được
phép chèn hoặc xoá các thực thể để phản ánh các thay đổi động của thế giới thực (ví dụ các CSDL
nghiên cứu trực tuyến, lớp học trực tuyến khi bổ sung thành viên,…).
4.1 Giới thiệu
SDB trực tuyến (online): trong đó người sử dụng nhận được các phản hồi thời
gian thực cho các câu truy vấn thống kê của mình.
SDB ngoại tuyến (offline): trong đó người sử dụng khơng biết khi nào các
thống kê của họ được xử lý, việc SDB bị lộ sẽ khó khăn.
4.1 Giới thiệu
Kiến thức làm việc (working knowledge) là tập các mục thông tin liên quan đến các
giá trị thuộc tính trong SDB và các kiểu thống kê có sẵn trong SDB
Kiến thức bổ sung của người sử dụng (sumplementary knowledge): Người sử dụng
có thể có kiến thức bổ sung về các cá nhân được biểu diễn trong SDB. Họ hồn
tồn có thể lợi dụng kiến thức này cho các mục đích suy diễn.
Mơ hình làm lộ SDB
Ví dụ về làm lộ một SDB
Ví dụ 1 (lộ chính xác)
Ví dụ 2 (lộ
xấp xỉ)
Ví dụ 2
Nội dung
4.1 Giới thiệu
4.2 Các khái niệm cơ bản và giả định
4.3 Một số kiểu tấn công suy diễn
4.4 Các kỹ thuật chống suy diễn
4.4.1 Các kỹ thuật khái niệm
4.4.2 Các kỹ thuật dựa vào hạn chế
4.4.3 Các kỹ thuật dựa vào gây nhiễu
4.5 Khung làm việc chung dành cho việc so sánh các kỹ thuật chống suy diễn
4.2 Các khái niệm cơ bản và các giả định
CSDL thống kê (SDB): ta xem xét cấu trúc của một SDB là một dạng quan hệ, giả sử là
R.
N là số bản ghi: Xi là bản ghi thứ i
M là số thuộc tính: A1, A2, …, AM
Xij là giá trị của thuộc tính Aj trong bản ghi xi
Mỗi thuộc tính Aj (1≤ j ≤ M) có thể có |Aj | giá trị.
4.2 Các khái niệm cơ bản và các giả định
4.2 Các khái niệm cơ bản và các giả định
Ví dụ về một SDB:
SDB về cơng nhân (Lương):
ID
Tên
Chức vụ
Phịng
Tuổi
Giới tính
Lương
01
Nam
Nhân viên
Maketing
29
M
3500
02
Lan
Trưởng phong
Kế hoạch
33
F
6200
03
Huệ
Nhân viên
Kế hoạch
27
F
4000
04
Minh
Giám sát viên
Maketing
24
M
3600
05
Quỳnh
Nhân viên
Kế hoạch
24
F
2900
4.2 Các khái niệm cơ bản và các giả định
SDB về các vụ tai nạn ô tô
HoTen
Tuoi Đ/C
MauXe
LoaiXe
ThoiGian
Nguyễn Văn Tài
25
HN
Xanh
Honda
37
HD
Đỏ
Hồng Văn Minh
42
PT
Vũ Bình Minh
32
Trần Quang Hịa
22
Lê sỹ Hồng
CoLoi
SayRuou
13.30
1
1
Toyota
6.25
1
0
Trắng
Audi
17.45
0
0
PT
Vàng
Volkswago
n
3.30
0
1
HN
Xanh
Honda
6.30
1
0
4.2 Các khái niệm cơ bản và các giả định
SDB về các Sinh viên
Tên
Giới
tính
Địa chỉ
Phụ cấp
Nghiện ma
túy
Lớp
Minh
M
HN
500
1
Tốn1
Hải
M
HD
0
0
Tốn2
Tuyết
F
NĐ
300
0
Tin1
Nam
M
BG
100
3
Tin2
Phương
F
NA
200
1
Tốn2
Hạnh
F
HT
100
0
Tốn1
4.2 Các khái niệm cơ bản và các giả định
SDB vĩ mơ về các Sinh viên
Tốn1
Tốn2
Tin1
Tin2
M
500
0
0
100
F
100
200
300
0
Tổng
Tổng cộng phụ cấp theo giới tính và theo lớp
600
200
300
100