Tải bản đầy đủ (.pdf) (71 trang)

Bảo vệ cơ sở dữ liệu quan hệ bằng phương pháp mở rộng hiệu và dự báo trên các thuộc tính kiểu số thự

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.64 MB, 71 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÃ ĐĂNG HIỆP

BẢO VỆ CƠ SỞ DỮ LIỆU QUAN HỆ BẰNG PHƯƠNG PHÁP
MỞ RỘNG HIỆU VÀ DỰ BÁO TRÊN CÁC THUỘC TÍNH
KIỂU SỐ THỰC

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2016


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÃ ĐĂNG HIỆP

BẢO VỆ CƠ SỞ DỮ LIỆU QUAN HỆ BẰNG PHƯƠNG PHÁP
MỞ RỘNG HIỆU VÀ DỰ BÁO TRÊN CÁC THUỘC TÍNH
KIỂU SỐ THỰC
Chuyên ngành : Khoa học máy tính
Mã số
: 60 48 01

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. Phạm Văn Ất


Thái Nguyên - 2016


LỜI CAM ĐOAN

Tên tôi là: Lã Đăng Hiệp
Sinh ngày: 08/04/1985
Học viên lớp cao học CK13A - Trường Đại học Công nghệ thông tin và
Truyền thông - Đại học Thái Nguyên.
Hiện đang công tác tại: Trường Đại học Hoa Lư Ninh Bình
Xin cam đoan: Đề tài “Bảo vệ cơ sở dữ liệu quan hệ bằng phương pháp mở

rộng hiệu và dự báo trên các thuộc tính kiểu số thực” do PGS.TS Phạm Văn
Ất hướng dẫn là công trình nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều
có nguồn gốc, xuất xứ rõ ràng.
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội
dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi hoàn toàn
chịu trách nhiệm trước hội đồng khoa học và trước pháp luật.

Thái Nguyên, ngày 08 tháng 4 năm 2016
TÁC GIẢ LUẬN VĂN


MỤC LỤC
Trang
Trang phụ bìa ..................................................................................................
Lời cam đoan ..................................................................................................
Mục lục ...........................................................................................................
Danh mục chữ viết tắt, tiếng anh .....................................................................
Danh mục bảng ................................................................................................

Danh mục các hình vẽ ......................................................................................

MỞ ĐẦU ....................................................................................................... 1
CHƯƠNG I: TỔNG QUAN VỀ THỦY VÂN CSDL QUAN HỆ .............. 3
1.1. Một số khái niệm cơ bản ......................................................................... 3
1.1.1 Cơ sở dữ liệu quan hệ ........................................................................ 3
1.1.2 Thủy vân cơ sở dữ liệu quan hệ ......................................................... 8
1.1.3. Sự cần thiết của thủy vân cơ sở dữ liệu quan hệ.............................. 12
1.2. Các yêu cầu của thủy vân trên cơ sở dữ liệu quan hệ ............................. 13
1.2.1. Khả năng nhúng.............................................................................. 14
1.2.2. Tính che giấu .................................................................................. 15
1.2.3. Tính bảo mật................................................................................... 15
1.2.4. Tính dễ vỡ ...................................................................................... 15
1.2.5. Tính bền vững ................................................................................ 15
1.3. Những tấn công trên hệ thủy vân cơ sở dữ liệu quan hệ ......................... 15
1.3.1. Cập nhật thông thường ................................................................... 16
1.3.2. Tấn công có chủ đích ...................................................................... 17
1.4. Thủy văn thuận nghịch CSDL ............................................................... 17
1.5. Kết luận chương 1 ................................................................................. 17
CHƯƠNG II: THỦY VÂN THUẬN NGHỊCH TRÊN CSDL QUAN HỆ
SỬ DỤNG MỞ RỘNG HIỆU VÀ DỰ BÁO TRÊN CÁC THUỘC TÍNH
SỐ THỰC ................................................................................................... 18
2.1. Tổng quan về thủy vân thuận nghịch ..................................................... 18


2.2. Một số hướng tiếp cận trong thủy vân thuận nghịch .............................. 18
2.2.1. Lược đồ Tian .................................................................................. 19
2.2.2. Lược đồ Alattar ............................................................................. 21
2.2.3. Lược đồ Mohammad ...................................................................... 23
2.2.4. Lược đồ Lee ................................................................................... 24

2.2.5 Lược đồ Khodaei ............................................................................. 26
2.2.6. Phương pháp dịch chuyển Histogram ............................................. 27
2.3. Thủy vân thuận nghịch trên ảnh số sử dụng phương pháp mở rộng hiệu 28
2.3.1. Tổng quan phép biến đổi mở rộng hiệu........................................... 28
2.3.2. Lược đồ Tian .................................................................................. 28
2.4. Thủy vân cơ sở dữ liệu quan hệ bằng phương pháp mở rộng hiệu và dự
báo ............................................................................................................... 37
2.4.1. Ý tưởng chung. ............................................................................... 37
2.4.2. Nhúng thủy vân .............................................................................. 39
2.4.3. Trích thủy vân ................................................................................ 43
2.5 Áp dụng để xây dựng lược đồ thủy vân bền vững để bảo vệ bản quyền. . 47
2.6. Kết luận chương 2 ................................................................................. 49
CHƯƠNG III: CHƯƠNG TRÌNH THỬ NGHIỆM................................. 50
3.1. Mô tả bài toán Ứng dụng Nhúng giấu thủy vân vào CSDL .................... 50
3.2. Phương pháp giải quyết bài toán............................................................ 50
3.3. Giao diện chương trình .......................................................................... 51
3.4. Kết quả thực nghiệm ............................................................................. 54
KẾT LUẬN ................................................................................................. 60
TÀI LIỆU THAM KHẢO.......................................................................... 62


DANH MỤC CHỮ VIẾT TẮT, TIẾNG ANH
CSDL: Cơ sở dữ liệu
LSB: Least significant bit – Bit ít ý nghĩa nhất
MSB - Most Significant Bit – Bit ý nghĩa nhất
DE: Difference Expansion – Mở rộng hiệu
PEE: Prediction Error Expansion – Mở rộng sai số dự báo


DANH MỤC BẢNG

Bảng 1.1. Bảng biểu diễn quan hệ r ................................................................ 6
Bảng 2.1. Bảng CSDL trước khi nhúng thủy vân.......................................... 41
Bảng 2.2. Bảng CSDL sau khi nhúng thủy vân............................................. 43
Bảng 2.3. Bảng CSDL sau khi trích thủy vân ............................................... 47


DANH MỤC HÌNH VẼ
Hình 1.2. Sơ đồ mô tả lược đồ thủy vân cơ sở dữ liệu quan hệ cơ bản .......... 11
Hình 2.1. Biểu đồ histogram của ảnh màu Pepper ........................................ 27
Hình 2.2. Lược đồ thủy vân bền vững để bảo vệ bản quyền ......................... 48
Hình 3.1. Giao diện chính của chương trình ................................................. 50
Hình 3.2. Giao diện Nhúng thủy vân CSDL bằng phương pháp mở rộng sai số
dự báo ........................................................................................................ 51
Hình 3.3. Giao diện khôi phục thủy vân CSDL ........................................... 52


Mở đầu
Ngày nay cùng với sự phát triển của khoa học và công nghệ, việc truy
cập Internet một cách dễ dàng đã thúc đẩy sự tăng trưởng mạnh mẽ của nhiều
ngành nghề với nhiều lĩnh vực khác nhau. Việc chia sẻ thông tin trực tuyến là
một hoạt động quan trọng đối với kinh doanh và nghiên cứu, không những
vậy, nó còn liên quan đến việc mua bán của cơ sở dữ liệu. Ví dụ, việc chia sẻ
dữ liệu liên quan đến thời tiết, thị trường chứng khoán, tiêu thụ điện năng, ý
tế, khoa học…vv được thực hiện thường xuyên. Do đó, có một nhu cầu lớn
trong việc cung cấp bảo mật cơ sở dữ liệu để ngăn cản việc sao chép và phân
phối bất hợp pháp trong môi trường internet. Kỹ thuật thủy vân đang được
xem là một trong những giải pháp đạt được kết quả cao trong việc bảo vệ bản
quyền và xác thực tính toàn vẹn của dữ liệu số. Vì vậy trong những năm gần
đây, xu hướng nghiên cứu về thủy vân cơ sở dữ liệu quan hệ mới thực sự
được các nhà khoa học trong nước quan tâm nhiều hơn. Trong đó vấn đề bảo

vệ bản quyền và đảm bảo sự toàn vẹn của cơ sở dữ liệu là những vấn đề được
quan tâm nhiều hơn cả.
Gần đây đã có một số công trình nghiên cứu trong nước về thủy vân cơ
sở dữ liệu, nhưng không phải là thuận nghịch, nên không khôi phục được cơ
sở dữ liệu gốc. Để có thể khôi phục cơ sở dữ liệu gốc cần dùng thủy vân
thuận nghịch. Trong các phương pháp thủy vân thuận nghịch, thì phương
pháp dựa trên phép biến đổi mở rộng hiệu là tỏ ra hiệu quả nhất. Chính vì vậy
em chọn đề tài “Bảo vệ cơ sở dữ liệu quan hệ bằng phương pháp mở rộng
hiệu và dự báo trên các thuộc tính kiểu số thực” làm luận văn tốt nghiệp của
mình.
Cấu trúc của luận văn:

1


Ngoài phần mở đầu, phần kết luận, phần mục lục và tài liệu tham khảo.
Luận văn được bố cục gồm 3 chương cụ thể như sau:
Chương 1. Tổng quan về thủy vân CSDL quan hệ
Chương 2. Thủy vân thuận nghịch trên CSDL quan hệ sử dụng mở rộng
hiệu và dự báo trên các thuộc tính kiểu số thực.
Chương 3: Chương trình thử nghiệm.
Kết luận và những kiến nghị về hướng phát triển.
Mặc dù trong quá trình nghiên cứu và hoàn thành luận văn em đã rất nỗ
lực và cố gắng. Song do thời gian và trình độ còn hạn chế nên luận văn khó
tránh khỏi những thiếu sót, kính mong nhận được sự đóng góp ý kiến, chỉ bảo
của các thầy giáo, cô giáo và các bạn để luận văn được hoàn thiện hơn.
Em xin trân trọng cảm ơn!

2



CHƯƠNG I: TỔNG QUAN VỀ THỦY VÂN CSDL QUAN HỆ
1.1. Một số khái niệm cơ bản
1.1.1 Cơ sở dữ liệu quan hệ
a. Cơ sở dữ liệu
Cơ sở dữ liệu (database) là một hệ thống các thông tin có cấu trúc được
lưu trữ trên các thiết bị lưu trữ thứ cấp (băng từ, đĩa từ…) nhằm thoả mãn yêu
cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương
trình ứng dụng với nhiều mục đích khác nhau.
b. Khái niệm cơ sở dữ liệu quan hệ
Cơ sở dữ liệu được xây dựng dựa trên mô hình dữ liệu quan hệ gọi là
cơ sở dữ liệu quan hệ. Trong cơ sở dữ liệu quan hệ, bảng được gọi là quan hệ,
cột được gọi là thuộc tính, hàng được gọi là bộ (bản ghi), kiểu dữ liệu được
gọi là miền dữ liệu.
Hệ quản trị cơ sở dữ liệu dùng để tạo lập, cập nhật và khai thác cơ sở
dữ liệu quan hệ gọi là hệ quản trị cơ sở dữ liệu quan hệ.
Bảng (Table): Là một thành phần cơ bản trong cơ sở dữ liệu quan hệ.
Bảng được hình thành khi sắp xếp các thông tin có liên quan với nhau theo
hàng và cột. Các hàng tương ứng với các bản ghi (record) dữ liệu và các cột
tương ứng với trường dữ liệu.

3


Ví dụ: Bảng DanhsachHS. Các hàng là học sinh, mỗi hàng tương ứng
với một học sinh. Các cột là trường (hay lĩnh vực) của thông tin. Ta có các
cột: Số báo danh, Họ & tên, Giới tính, Năm sinh, Điểm...
Trường dữ liệu (Field): trong cơ sở dữ liệu, đây là không gian dành
cho một mẫu thông tin trong bản ghi dữ liệu. Trong chương trình quản trị
CSDL dạng bảng với dữ liệu được tổ chức theo hàng và cột, thì trường dữ liệu

tương ứng với các cột.
Bản ghi (Record): trong cơ sở dữ liệu, bản ghi là một đơn vị hoàn
chỉnh nhỏ nhất của dữ liệu, được lưu trữ trong những trường hợp dữ liệu đã
được đặt tên. Trong một cơ sở dữ liệu dạng bảng, bản ghi dữ liệu đồng nghĩa
với hàng (row). Bản ghi chứa tất cả các thông tin có liên quan với mẫu tin mà
cơ sở dữ liệu đang theo dõi.
Ví dụ, trong cơ sở dữ liệu về DanhsachHS, bản ghi sẽ liệt kê Số báo
danh, Họ & tên, Giới tính, Năm sinh, Tên tỉnh, Điểm.
Hầu hết các chương trình đều hiển thị các bản ghi dữ liệu theo hai cách:
theo các mẫu nhập dữ liệu và theo các bảng dữ liệu. Các bản ghi dữ liệu được
hiển thị dưới dạng các hàng ngang và mỗi trường dữ liệu là một cột.
Khóa chính (Primary key): là một giá trị dùng để phân biệt bản ghi
này với bản ghi khác. Giá trị của khóa chính trong mỗi bản ghi là duy nhất
trong cả bảng (table). Có thể xem số chứng minh nhân dân như một khóa
chính và không người nào giống người nào.
Ngoài khóa chính ra còn có khóa ngoài (foreign key). Khóa ngoài là
giá trị dùng để liên kết giữa các bảng và thiết lập mối quan hệ giữa các bản
ghi trong các bảng khác nhau
c. Mô hình dữ liệu quan hệ

4


Trong quá trình thiết kế và xây dựng các hệ quản trị cơ sở dữ liệu,
người ta tiến hành xây dựng các mô hình dữ liệu. Mô hình dữ liệu phải được
thể hiện được các mối quan hệ bản chất của các dữ liệu mà dữ liệu này phản
ánh các mối quan hệ và các thực thể trong thế giới thực. Mô hình dữ liệu phản
ánh khía cạnh cấu trúc logic mà không đi sâu vào khía cạnh vật lý của cơ sở
dữ liệu. Mô hình dữ liệu là một sự hình thức hóa toán học với một tập ký hiệu
để mô tả dữ liệu và một tập các phép toán được sử dụng để thao tác các dữ

liệu này. Khi xây dựng các mô hình dữ liệu cần phân biệt các thành phần cơ
bản sau:
- Thực thể: Là đối tượng có trong thực tế mà chúng ta cần mô tả các
đặc trưng của nó.
- Thuộc tính: Là các dữ liệu thể hiện các đặc trưng của thực thể.
- Ràng buộc: Là các mối quan hệ logic của các thực thể.
Ba thành phần trên được thể hiện ở hai mức:
- Mức loại dữ liệu: là sự khái quát hóa các ràng buộc, các thuộc tính,
các thực thể cụ thể.
- Mức thể hiện: Là một ràng buộc cụ thể, hoặc là các giá trị thuộc tính,
hoặc là một thực thể cụ thể.
Trên thực tế có một số mô hình dữ liệu đã được nghiên cứu:
- Mô hình dữ liệu mạng: Thể hiện trực tiếp các ràng buộc tùy ý giữa
các loại bản ghi. Là mô hình dữ liệu được biểu diễn bởi một đồ thị có hướng.
- Mô hình dữ liệu quan hệ: Các ràng buộc được thể hiện qua các quan
hệ tức là bảng giá trị. Mô hình dựa trên lý thuyết tập hợp và đại số quan hệ.
Vì tính chất chặt chẽ của toán học về lí thuyết tập hợp nên mô hình này đã mô
tả dữ liệu một cách rõ ràng, uyển chuyển và trở thành rất thông dụng.

5


- Mô hình dữ liệu hướng đối tượng: Cho phép biểu diễn dữ liệu tự
nhiên và sát với thực tế hơn cả. Tuy nhiên cho đến nay, chưa có một cơ sở
toán học tốt hình thức hóa ở mức cao, chặt chẽ đối với mô hình này.
Mô hình dữ liệu quan hệ do E.F. Codd đề xuất năm 1970 là cơ sở cho
hầu hết các hệ thống cơ sở dữ liệu hiện tại. Mô hình dữ liệu quan hệ được
quan tâm là vì nó được xây dựng trên cơ sở toán học chặt chẽ. Mô hình dữ
liệu quan hệ cung cấp các khái niệm chặt chẽ được hình thức hóa cao, cho
phép áp dụng các công cụ toán học, các thuật toán tối ưu trên mô hình dữ liệu

quan hệ. Mô hình dữ liệu quan hệ được trừu tượng hóa cao và chỉ dừng ở mức
logic.
Quan hệ
Cho U = {A1, A2, …, A} là một tập hữu hạn không rỗng các thuộc
tính. Mỗi thuộc tính Ai (i =1, 2, …, ) có miền giá trị là Dom(Ai). Khi đó r là
một tập các bộ {r1, r2, …, rm} được gọi là quan hệ trên U với rj (j = 1, 2, …,
m) là một hàm rj:

U

Có thể xem một quan hệ như một bảng, trong đó mỗi hàng (phần tử) là
một bộ và mỗi cột tương ứng với một thành phần gọi là thuộc tính. Biểu diễn
quan hệ r thành bảng như sau:
Bảng 1.1.Bảng biểu diễn quan hệ r
A1

A2



A

r1

r1.A1

r1.A2




r1.A

r2

r2.A1

r2.A2



r2.A











rm

rm.A1

rm.A2




rm.A

6


Ví dụ:
MaHS

Ho&Ten

NgSinh

Dchi

Hs01

Vũ Thu Hà

2/4/1986

Hà Nội

Hs02

Nguyễn Mai Anh

4/5/1990

Vĩnh Phúc


Hs03

Trương Thanh Bình 2/4/1988

Hải Phòng

Trong đó các thuộc tính là MaHS: Mã số học sinh; Ho&Ten: Họ
và tên; NgSinh: ngàysinh; Dchi: địa chỉ.
Bộ giá trị: (hs01, Vũ Thu Hà, 2/04/1986, Hà Nội) là một bản ghi (bộ).
Lược đồ quan hệ
Tập tất cả các thuộc tính trong một quan hệ cùng với mối liên hệ giữa
chúng được gọi là lược đồ quan hệ.
Lược đồ quan hệ R với tập thuộc tính U={A1, A2, .., A} được viết là
R(U) hoặc R(A1, A2, .., A).
Miền thuộc tính: Tập tất cả các giá trị có thể có của thuộc tính Ai gọi
là miền giá trị của thuộc tính đó, ký hiệu: Dom(Ai) hay viết tắt là: i A D
Ví dụ 1.1: Hocsinh(MaHS, Ho&Ten, NgSinh, Đchi)
Dom(MaHS(sbd)) = {char(5)}; Dom(Ho&Ten) = {char(20)};
Dom(NgSinh) = {date}; Dom(Dchi) = {‘Hà Nội’, ‘Hải Phòng’, ‘Vĩnh
Phúc’, …}.
Kiểu thuộc tính: Mỗi một thuộc tính đều phải thuộc một kiểu dữ liệu.
Kiểu dữ liệu có thể là vô hướng - là các kiểu dữ liệu cơ bản như chuỗi, số,
logic, ngày tháng,… hoặc các kiểu có cấu trúc được định nghĩa dựa trên các
kiểu dữ liệu đã có sẵn.
Khoá của quan hệ
7


Khoá của quan hệ r xác định trên tập thuộc tính U = {A1, A2, .., A}là
tập con K  U sao cho bất kỳ hai bộ khác nhau t1, t2  r luôn thoả t1. K ≠ t2.

K và bất kỳ tập con thực sự K1 K nào đó đều không có tính chất đó.
Trong ví dụ trên thì thuộc tính MaHS là khóa của quan hệ Hocsinh.
Khoá là một khái niệm rất quan trọng trong việc thiết kế một cơ sở dữ
liệu quan hệ. Khoá thường được áp dụng trong việc tìm kiếm hay cập
nhật dữ liệu trong các cơ sở dữ liệu quan hệ.
1.1.2 Thủy vân cơ sở dữ liệu quan hệ
a. Thủy vân
Từ “thuỷ vân” có xuất xứ từ kỹ thuật đánh dấu nước thời xưa. Đây là kỹ
thuật đánh dấu chìm một hình ảnh, một logo, hay một dữ liệu nào đó lên trên
giấy nhằm mục đích trang trí và phân biệt được xuất xứ của sản phẩm giấy.
Như vậy, thông tin cần giấu được gọi là thuỷ vân (watermark).
Thuỷ vân mô tả thông tin có thể được dùng để chứng minh quyền sở hữu
hoặc chống xuyên tạc.
Có hai loại thuỷ vân, đó là: thuỷ vân bền vững và thuỷ vân dễ vỡ.
- Thuỷ vân dễ vỡ (fragile watermark): Là thuỷ vân dễ bị biến đổi trước
những biến đổi hay tấn công lên dữ liệu. Các kỹ thuật này thường được dùng
trong các ứng dụng xác thực thông tin, đảm bảo sự toàn vẹn dữ liệu.
- Thuỷ vân bền vững (robust watermark): Là thuỷ vân tồn tại bền vững
cùng với dữ liệu, không dễ dàng bị phá huỷ trước những biến đổi, tấn công
lên dữ liệu. Các kỹ thuật này thường được dùng trong các ứng dụng bảo vệ
bản quyền, chứng minh quyền sở hữu Thuỷ vân bền vững lại được chia thành
hai loại là thuỷ vân ẩn và thuỷ vân hiện.
 Thủy vân hiện: là loại thuỷ vân được hiện ngay trên sản
phẩm và người dùng có thể nhìn thấy được giống như các biểu
tượng kênh chương trình vô tuyến VTV1, VCT2, TV5… Các thuỷ
8


vân hiện trên ảnh thường dưới dạng chìm, mờ hoặc trong suốt để
không gây ảnh hưởng đến chất lượng ảnh gốc. Thông tin bản quyền

hiển thị ngay trên sản phẩm.
 Thuỷ vân ẩn: là loại thủy vân yêu cầu tính ẩn cao, bằng mắt
thường không thể nhìn thấy thuỷ vân. Trong vấn đề bảo vệ bản
quyền, thủy vân ẩn mang tính bất ngờ hơn trong việc phát hiện sản
phẩm bị lấy cắp. Trong trường hợp này, người chủ sở hữu hợp pháp
sẽ chỉ ra bằng chứng là thuỷ vân đã được nhúng trong sản phẩm bị
đánh cắp.
b. Thủy vân cơ sở dữ liệu quan hệ
Ngày nay, việc sử dụng các cơ sở dữ liệu trong các ứng dụng càng ngày
càng tăng lên đang tạo ra một nhu cầu tương tự đối với thủy vân cơ sở dữ liệu.
Internet hiện đang đưa đến một sức ép rất nặng nề cho những người muốn bảo
vệ dữ liệu trong việc tạo ra các dịch vụ (thường được gọi là các dịch vụ web
hoặc các tiện ích điện tử) cho phép người sử dụng tìm kiếm và truy cập cơ sở
dữ liệu từ xa. Mặc dù xu hướng này là hữu ích cho người dùng cuối nhưng nó
cũng bộc lộ một mối nguy hiểm cho những nhà cung cấp dữ liệu trước những
kẻ trộm cắp dữ liệu. Do đó, những người cung cấp dữ liệu đòi hỏi phải có
công nghệ nhận dạng được những bản sao các cơ sở dữ liệu của họ bị đánh
cắp.
Định nghĩa 1.1: Thủy vân cơ sở dữ liệu quan hệ
Thủy vân cơ sở dữ liệu quan hệ là kỹ thuật nhúng một số thông tin nào
đó (được gọi là thông tin thủy vân W) vào cơ sở dữ liệu quan hệ nhằm mục
đích bảo vệ bản quyền hoặc đảm bảo sự toàn vẹn cho cơ sở dữ liệu này. Thủy
vân có thể ở dạng ẩn hoặc hiện và có thể là bền vững hoặc dễ vỡ.

9


Một thuỷ vân có thể được áp dụng cho một cơ sở dữ liệu quan hệ, chẳng
hạn như có các thuộc tính mang một đặc điểm là những thay đổi nhỏ tại một
số giá trị của chúng không làm ảnh hưởng đến các ứng dụng. Ví dụ, dữ liệu

khí tượng được sử dụng để xây dựng các mô hình dự báo thời tiết. Độ chính
xác của vectơ gió và nhiệt độ tương ứng trong dữ liệu này được đo chính xác
đến 1.8 m/s và 0.50C. Các sai số được đưa vào do thuỷ vân có thể dễ dàng
được hạn chế trong sự cho phép của các dữ liệu này. Hay một ví dụ khác các
nhà xuất bản sách khi in các bảng toán học (như các bảng logarit và lịch thiên
văn) thường cố ý đưa vào một số lỗi nhỏ để có thể dễ dàng nhận dạng các bản
sao bị ăn cắp.
c. Khóa thủy vân
Để chủ sở hữu của cơ sở dữ liệu có thể giữ bí mật cho thông tin thủy
vân W và là người duy nhất có thể tìm lại được thông tin này thì cần phải trộn
W với một dữ liệu được gọi là khóa do chính chủ cơ sở dữ liệu lựa chọn.
Thông tin thứ hai này được gọi là khóa thủy vân và được chúng tôi định
nghĩa như sau:
Định nghĩa 1.2: Khóa thủy vân
Khóa thủy vân là một lượng dữ liệu do chủ sở hữu cơ sở dữ liệu lựa
chọn và nhằm mục đích xác định thủy vân trong lược đồ thủy vân. Ký hiệu là
K.
Khóa K sẽ được kết hợp với thủy vân W để nhúng vào cơ sở dữ liệu.
Khóa thủy vân chính là mấu chốt của lược đồ thủy vân cơ sở dữ liệu có sử
dụng khóa thủy vân.
Khóa thủy vân sẽ được nhúng vào trong cơ sở dữ liệu quan hệ bằng
nhiều cách. Thông thường khóa thủy vân sẽ được nhúng với dữ liệu trong cơ
sở dữ liệu quan hệ rồi đưa vào trong thuật toán sử dụng. Điều quan trọng ở
đây chính là việc ta giấu khóa thủy vân vào trong thuật toán như thế nào để

10


không bị phát hiện đồng thời có thể chứng minh được đây chính là cơ sở dữ
liệu quan hệ của mình. Hay nói cách khác, việc đưa khóa vào trong cơ sở dữ

liệu quan hệ là một trong những điểm quan trọng của bài toán bảo vệ bản
quyền và đảm bảo sự toàn vẹn dữ liệu trong cơ sở dữ liệu quan hệ có sử dụng
khóa. Một trong những cách giấu khóa hữu hiệu nhất là sử dụng hàm băm vì
kỹ thuật này đảm bảo được yêu cầu bảo mật cũng như chi phí tính toán.
d. Lược đồ thủy vân
Lược đồ thủy vân cơ sở dữ liệu quan hệ bao gồm 2 phần: nhúng thủy
vân và phát hiện thủy vân. Khi nhúng thủy vân, một khóa thủy vân K do chủ
sở hữu cơ sở dữ liệu tự chọn sẽ được sử dụng để nhúng thủy vân W vào cơ sở
dữ liệu gốc. Sau khi nhúng thủy vân, các cơ sở dữ liệu sẽ được đưa vào trong
môi trường Internet. Để xác minh quyền sở hữu của một cơ sở dữ liệu đáng
ngờ, quá trình xác minh cơ sở dữ liệu bị nghi ngờ được thực hiện như là đầu
vào và bằng cách sử dụng khóa thủy vân K (được sử dụng trong giai đoạn
nhúng) thủy vân nhúng (nếu có) được lấy ra và so sánh với các thông tin thủy
vân ban đầu.

CSDL gốc

Khóa K

Nhúng thủy
vân

CSDL đã nhúng thủy
vân

Thông tin thủy
vân W

Khóa K


CSDL nghi ngờ

Phát hiện
thủy vân

Khẳng định đúng
hoặc sai

Thông tin thủy
vân W

Hình 1.1. Sơ đồ mô tả lược đồ thủy vân cơ sở dữ liệu quan hệ cơ bản
11


1.1.3. Sự cần thiết của thủy vân cơ sở dữ liệu quan hệ
Hiện nay, có khá nhiều tài liệu về thuỷ vân các dữ liệu đa phương tiện.
Hầu hết các kỹ thuật này ban đầu được phát triển cho các bức ảnh tĩnh và sau
đó được mở rộng cho video và audio. Có rất nhiều các kết quả của thuỷ vân
dữ liệu đa phương tiện có thể áp dụng cho thủy vân cơ sở dữ liệu quan hệ,
nhưng cho đến nay vẫn còn rất nhiều thách thức kỹ thuật mới đối với lĩnh vực
thuỷ vân cơ sở dữ liệu quan hệ bởi vì các dữ liệu quan hệ và các dữ liệu đa
phương tiện khác nhau ở khá nhiều khía cạnh quan trọng. Những khác biệt đó
bao gồm:
 Một đối tượng đa phương tiện thường chứa một lượng các bit dư thừa.
Vì vậy, các kỹ thuật thuỷ vân có một cái mặt nạ (vỏ) rất rộng để có thể
giấu tin vào trong. Trong khi đó, một quan hệ cơ sở dữ liệu chứa các
bộ, mỗi bộ này biểu diễn một đối tượng riêng biệt. Cho nên, các kỹ
thuật thuỷ vân cần phải được trải rộng trên tất cả các đối tượng riêng
biệt này.

 Vị trí tương đối về không gian/thời gian của các phần khác nhau của
một đối tượng đa phương tiện có đặc thù là không thể thay đổi. Nhưng
các bộ của một quan hệ lại cấu thành một tập hợp và do vậy không cần
phải áp đặt một thứ tự nào giữa các đối tượng này.
 Các phần khác nhau của một đối tượng đa phương tiện không thể bị cắt
bỏ hoặc thay thế một cách tuỳ ý mà không gây ra những thay đổi trong
đối tượng. Ngược lại, việc thêm, bớt, và cập nhật các bộ của một bảng
quan hệ lại là những phép toán chuẩn trong cơ sở dữ liệu. Do đó, sẽ rất
khó để phát hiện những xâm hại đơn giản như xóa bỏ một số bộ hoặc
thay thế chúng bằng các bộ của các quan hệ khác.

12


Do có những khác nhau như đã nêu trên đây mà các kỹ thuật được phát
triển cho các dữ liệu đa phương tiện không thể được sử dụng trực tiếp để thuỷ
vân các dữ liệu quan hệ.
Thật vậy, giả sử chúng ta ánh xạ một quan hệ thành một bức ảnh bằng
cách xem mỗi giá trị thuộc tính như một điểm ảnh. Nhưng “bức ảnh” được
định nghĩa như vậy sẽ thiếu rất nhiều tính chất của một bức ảnh thật. Ví dụ,
các điểm ảnh nằm cạnh nhau trong một bức ảnh thật thường có quan hệ rất
mật thiết với nhau và quan hệ này là cơ sở cho nhiều kỹ thuật thuỷ vân ảnh
tĩnh. Các kỹ thuật thuỷ vân trên miền biến đổi của ảnh thường thực hiện theo
quy trình: trước hết áp dụng một phép biến đổi (cosine rời rạc - DCT, sóng
nhỏ - DWT, . . .) miền giá trị của bức ảnh, sau đó nhúng thuỷ vân vào miền đã
biến đổi rồi biến đổi ngược trở lại. Cách làm này trải các tín hiệu thuỷ vân
như phủ một màn nhiễu trên toàn bộ bức ảnh. Áp dụng trực tiếp các kỹ thuật
này cho một quan hệ sẽ làm sai lệch giá trị của tất cả các thuộc tính. Điều đó
có thể sẽ không được chấp nhận. Hơn nữa, một thuỷ vân như vậy có thể
không tồn tại được ngay cả trước những cập nhật nhỏ đối với quan hệ.

Các kỹ thuật thủy vân văn bản thường lợi dụng các tính chất đặc biệt
của văn bản đã được định dạng. Thủy vân thường được nhúng vào văn bản
bằng cách thay đổi khoảng cách giữa các từ và các dòng văn bản. Một số kỹ
thuật dựa vào việc nhấn mạnh một vài câu trong văn bản. Nhìn chung, các kỹ
thuật này có thể sử dụng để thủy vân các quan hệ chỉ chứa các thuộc tính kiểu
văn bản, còn đối với các quan hệ chứa các thuộc tính kiểu đơn giản thì rất khó
áp dụng.
1.2. Các yêu cầu của thủy vân trên cơ sở dữ liệu quan hệ
Thủy vân các cơ sở dữ liệu quan hệ có những thách thức đối với các kỹ
thuật và các ứng dụng thực tế có ý nghĩa đáng được quan tâm từ phía cộng
đồng những người nghiên cứu cơ sở dữ liệu quan hệ. Cần phải xác định một

13


hệ thống thủy vân và kèm theo đó là phát triển các kỹ thuật nhất định. Những
kỹ thuật này sẽ dựa vào phần lớn các nguyên tắc thủy vân đang tồn tại. Tuy
nhiên, chúng cũng sẽ đòi hỏi phải có những mở rộng và các nghiên cứu sâu
hơn.
Để minh họa cho sự khả thi của một lược đồ thủy vân cơ sở dữ liệu
quan hệ, một kỹ thuật hữu hiệu thỏa mãn những tiêu chuẩn của một hệ thống
thủy vân. Kỹ thuật này chỉ đánh dấu các thuộc tính (trường) có kiểu dữ liệu số
thực và giả thiết là các trường được đánh dấu có thể chấp nhận những thay
đổi nhỏ ở một số giá trị.
Ý tưởng chính là đảm bảo tại một số vị trí bit của một số thuộc tính
trong một số bộ có chứa các giá trị nhất định. Các bản ghi (bộ), các thuộc tính
trong một bộ, các vị trí bit trong một thuộc tính và các giá trị bit nhất định này
đều phải được xác định một cách chính xác và logic dưới sự kiểm soát của
một khóa bí mật của chủ nhân CSDL quan hệ. Mẫu bit này sẽ hình thành ra
thủy vân. Chỉ duy nhất chủ nhân của khóa bí mật mới có thể tìm lại được thủy

vân với một xác suất cao. Các phân tích chi tiết chỉ ra rằng thủy vân này có
thể bền vững trước các tấn công gây hại khác nhau.
Giả dụ, có quan hệ r thuộc lược đồ quan hệ R có ω bộ, trong đó chủ dữ
liệu đã thủy vân ω bộ. Hệ thống thủy vân cần phải thỏa mãn những tính chất
sau đây:
1.2.1. Khả năng nhúng
Là quá trình chèn thông tin vào dữ liệu số đảm bảo không thể cảm nhận
được bằng các giác quan của con người nhưng lại dễ dàng phát hiện bởi các
thuật toán của máy tính.

14


1.2.2. Tính che giấu
Các điều chỉnh gây ra do nhúng dấu thủy vân phải thấp hơn ngưỡng
cảm thụ của con người, nghĩa là các mẫu dùng trong nhúng dấu thủy vân chỉ
được phép thay đổi rất nhỏ trong giới hạn cho phép.
1.2.3. Tính bảo mật
Sau khi đã nhúng thủy vân vào dữ liệu, thì yêu cầu là chỉ cho phép
những user có quyền mới chỉnh sửa và phát hiện được thủy vân điều này được
thực hiện nhờ vào K dùng làm khoá trong giải thuật nhúng thủy vân vào dữ
liệu và giải thuật phát hiện ra thủy vân trong dữ liệu.
1.2.4. Tính dễ vỡ
Trong các lược đồ thủy vân dễ vỡ, khi có bất kỳ tấn công nào lên dữ
liệu thì các thủy vân không còn nguyên vẹn. Vì vậy, kẻ tấn công dữ liệu mong
muốn thay đổi ξ bộ trong quan hệ r của chủ sở hữu mà vẫn không làm thay
đổi thủy vân. Khi đó, nếu những thay đổi của kẻ tấn công làm thay đổi các
thủy vân được giấu thì ta có thể kết luận rằng quan hệ đã bị tấn công.
1.2.5. Tính bền vững
Các thủy vân cần phải bền vững trước những tấn công nhằm xóa bỏ. Ví

như, kẻ tấn công thay đổi ξ bộ trong quan hệ r của chủ sở hữu. Khi đó, nói
rằng thủy vân là an toàn đối với tấn công này nếu kẻ tấn công không thể phá
hủy các dấu hiệu thủy vân ở ít nhất τ bộ, trong đó τ phụ thuộc vào ν và α như
đã nói ở trên.
1.3. Những tấn công trên hệ thủy vân cơ sở dữ liệu quan hệ
Do cơ sở dữ liệu quan hệ luôn luôn được cập nhật nên thuỷ vân được
giấu trong một cơ sở dữ liệu quan hệ có thể bị mất do những cập nhật thông
thường (sửa, bổ sung, xóa) cũng như các tấn công có mục đích.
Các tấn công chính bao gồm:
15


- Sửa đổi dữ liệu: Ví dụ trong dữ liệu Bangdiem( maHS, Hoten,
Gioitinh, lớp, DiemTB). Người ta có thể sửa đổi dữ liệu trên một số
trường và một số bản ghi quan trọng.
- Bổ sung một số bản ghi mới: Có thể bổ sung một số thí sinh vào
CSDL tuyển sinh để làm mất tính xác thực của CSDL.
- Xóa dữ liệu: Vì một số lý do nào đó, kẻ tấn công có thể xóa một
hoặc nhiều dữ liệu bản ghi, hay loại bỏ một trường quan trọng nào
đó trong CSDL.
Để biện luận được đơn giản, ta sử dụng ba nhân vật điển hình vẫn
thường được dùng trong các ví dụ về mật mã, giấu tin và thủy vân. Đó là một
cô gái tên là Alice và bạn trai của cô tên là Bob. Hai người này thường hay
gửi thư cho nhau và ở giữa là một anh chàng tên là Mallory thường xuyên làm
phiền họ.
1.3.1. Cập nhật thông thường
Giả thiết Mallory lấy trộm được dữ liệu của Alice mà không thể nhận ra
nó đã được thủy vân. Sau đó, Mallory tiến hành cập nhật dữ liệu đã ăn trộm
khi anh ta sử dụng nó.
Kỹ thuật đánh dấu cần đảm bảo rằng Alice không bị mất thủy vân của

cô ngay trong các dữ liệu bị ăn trộm, thậm chí đối với cả những cập nhật của
Mallory. Tức là các phép toán cập nhật thông thường như xóa, sửa, bổ sung
các bộ trong cơ sở dữ liệu quan hệ.
Các kỹ thuật thuỷ vân cần đảm bảo rằng người chủ cơ sở dữ liệu không
bị mất thuỷ vân ngay trong dữ liệu bị kẻ khác ăn trộm, thậm chí đối với
những cập nhật của tên trộm đó.

16


1.3.2. Tấn công có chủ đích
Mallory có thể biết dữ liệu anh ta ăn trộm có chứa thủy vân, nhưng anh
ta có thể cố xóa thủy vân này hoặc thử dùng các phương tiện khác để đòi
quyền sở hữu trái phép. Hệ thống đánh dấu cần phải bảo vệ Alice trước những
tấn công gây hại của Mallory. Nghĩa là các cơ sở dữ liệu có thể bị những kẻ
xấu ăn trộm, tấn công nhằm mục đích đòi quyền sở hữu trái phép hay phá huỷ
dữ liệu, phá huỷ thuỷ vân,... Do đó, hệ thống thuỷ vân cần phải bảo vệ người
chủ cơ sở dữ liệu trước những tấn công gây hại của kẻ trộm.
1.4. Thủy văn thuận nghịch CSDL
Hầu hết các phương pháp thủy vân CSDL truyền thống không có tính
thuận nghịch, nghĩa là chỉ có thể trích được dấu thủy vân mà không khôi phục
được CSDL đã thủy vân. Đây là một nhược điểm lớn của các phương pháp
thủy vân CSDL truyền thống, vì trong rất nhiều trường hợp cần phải sử dụng
CSDL gốc. Ví dụ: CSDL tuyển sinh, an ninh, quốc phòng…
Vì vậy trong những năm gần đây đã phát triển các phương pháp thủy
vân cho phép khôi phục được CSDL. Các phương pháp này gọi là thủy vân
thuận nghịch. Trong Chương 2 sẽ trình bày phương pháp thủy vân thuận
nghịch dựa trên phép biến đổi mở rộng hiệu và dự báo trên các thuộc tính kiểu
số thực.
1.5. Kết luận chương 1

Trong chương này luận văn trình bày được một số khái niệm về CSDL,
CSDL quan hệ, các mô hình CSDL quan hệ. Các khái niệm về thủy vân
CSDL quan hệ, khóa của thủy vân CSDL. Các ứng dụng cơ bản của thủy vân
CSDL quan hệ và các tấn công thường gặp trên CSDL.

17


×