Tải bản đầy đủ (.pdf) (58 trang)

Bảo vệ sự toàn vẹn của cơ sở dữ liệu quan hệ bằng kỹ thuật thủy vân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (995.45 KB, 58 trang )



























BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2






TRẦN THỊ KIM DUNG



BẢO VỆ SỰ TOÀN VẸN CỦA CƠ SỞ DỮ LIỆU
QUAN HỆ BẰNG KỸ THUẬT THỦY VÂN


LUẬN VĂN THẠC SĨ MÁY TÍNH







HÀ NỘI, 2014



























BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI 2






TRẦN THỊ KIM DUNG

BẢO VỆ SỰ TOÀN VẸN CỦA CƠ SỞ DỮ LIỆU
QUAN HỆ BẰNG KỸ THUẬT THỦY VÂN

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01


LUẬN VĂN THẠC SĨ MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS. TS BÙI THẾ HỒNG




HÀ NỘI, 2014





LỜI CẢM ƠN

Để hoàn thành luận văn này tôi đã nhận đƣợc sự giúp đỡ tận tình của
thầy hƣớng dẫn khoa học, của các thầy cô trƣờng Đại học Sƣ phạm Hà Nội 2.
Tôi xin chân thành cảm ơn các thầy cô trƣờng Đại học Sƣ phạm Hà Nội 2 đã
tạo điều kiện học tập, nghiên cứu và giúp đỡ tôi rất nhiều trong quá trình làm
luận văn. Đặc biệt tôi xin cảm ơn thầy PGS.TS Bùi Thế Hồng đã tận tình
hƣớng dẫn, chỉ bảo tôi trong suốt quá trình học tập, nghiên cứu đề tài và giúp
tôi hoàn thành bản luận văn này.

Vĩnh Phúc, ngày 12 tháng 12 năm 2014
Học viên


Trần Thị Kim Dung













LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Bảo vệ sự toàn vẹn của cơ sở dữ liệu
quan hệ bằng kỹ thuật thủy vân” là kết quả nghiên cứu của riêng tôi dƣới sự
hƣớng dẫn khoa học của PGS. TS Bùi Thế Hồng.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc
công bố trong bất kỳ công trình nào khác.

Học viên


Trần Thị Kim Dung















MỤC LỤC

MỞ ĐẦU 1
1. Lý do chọn đề tài 1
2. Mục đích nghiên cứu 1
3. Nhiệm vụ nghiên cứu 2
4. Đối tƣợng và phạm vi nghiên cứu 2
7. Cấu trúc luận văn 2
CHƢƠNG 1: TỔNG QUAN VỀ KỸ THUẬT THỦY VÂN 4
CHO CƠ SỞ DỮ LIỆU QUAN HỆ 4
1.1. Kiến thức cơ bản về giấu tin 4
1.1.1. Khái niệm giấu tin 4
1.1.2. Phân loại các kỹ thuật giấu tin 5
1.1.3. Môi trƣờng giấu tin 6
1.2. Kiến thức cơ bản về thủy vân 10
1.2.1. Khái niệm thuỷ vân 10
1.2.2. Một số vấn đề có liên quan đến thuỷ vân 11
1.2.3. Các ứng dụng của thủy vân 12
1.2.4. Quá trình thực hiện thủy vân nói chung 13
1.3. Kỹ thuật thủy vân cho các cơ sở dữ liệu quan hệ 13
1.3.1. Kỹ thuật thủy vân làm thay đổi dữ liệu trong CSDL quan hệ 14
1.3.2. Các kỹ thuật thủy vân không làm thay đổi dữ liệu trong CSDL 22
1.4. Kết luận 23

CHƢƠNG 2: KỸ THUẬT THỦY VÂN BẢO VỆ SỰ TOÀN VẸN 25
CỦA CƠ SỞ DỮ LIỆU VỚI CƠ CHẾ XÁC THỰC CÔNG KHAI 25
2.1. Giới thiệu 25
2.2. Kỹ thuật thủy vân với cơ chế xác thực công khai 26

2.2.1. Ý tƣởng của kỹ thuật thủy vân với cơ chế xác thực công khai 26
2.2.2. Tạo mã xác thực 28
2.2.3. Xác thực tính toàn vẹn của dữ liệu 30
2.2.4. So sánh giữa hai thủy vân 32
2.3. Ứng dụng kỹ thuật thủy vân với cơ chế xác thực công khai để bảo vệ sự
toàn vẹn của CSDL 33
CHƢƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 35
3.1. Đặt vấn đề 35
3.2. Dữ liệu thử nghiệm 35
3.3. Các mô hình thử nghiệm 39
TÀI LIỆU THAM KHẢO 45
















DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT

Ký hiệu
Diễn giải
Ý nghĩa
CSDL

Cơ sở dữ liệu
RBTV

Ràng buộc toàn vẹn
MKSD
Multi Key Single Data
Đa khóa, đơn dữ liệu
SKMD
Single Key Multi Data
Đơn khóa, đa dữ liệu
LSB
Least Significat Bit
Bít ít ý nghĩa
EMC
Encrypted Mark Code
Mã đánh dấu đƣợc mã hóa
BCH
Bose-Chaudhuri-Hocquenhem

SVR
Support Vector Regression
Hồi qui vector hỗ trợ

















DANH MỤC CÁC BẢNG

Số hiệu
bảng
Tên bảng
Trang
2.1
Danh mục các ký hiệu
27
3.1
Thông tin trong mỗi giao dịch
36






















DANH MỤC CÁC HÌNH
Số hiệu
hình
Tên hình
Trang
1.1
Sơ đồ biểu diễn quá trình giấu tin
4
1.2
Sơ đồ biểu diễn quá trình giải mã
5

1.3
Phân loại kỹ thuật giấu tin
6
1.4
Cách phân loại thủy vân tiêu biểu
11
1.5
Mô tả kỹ thuật thủy vấn cơ bản cho các cơ sở dữ liệu quan hệ
14
2.1
Kỹ thuật thủy vân với cơ chế xác thực công khai vào thực tế
33
3.1
Giao diện chính của chƣơng trình thực nghiệm
36
3.2
Minh họa các bƣớc tạo ra R mã hóa
37
3.3
Minh họa các bƣớc lấy thủy vân WM’’
38
3.4
Thủy vân số gốc đƣợc dùng trong thực nghiệm
39
3.5
Giao diện chƣơng trình mô hình thực nghiệm 1
39
3.6
a) Thủy vân gốc; b) Thủy vân thu đƣợc theo thực nghiệm 1
40

3.7
Giao diện chƣơng trình mô hình thực nghiệm 2
40
3.8
a) Thủy vân gốc; b) Thủy vân thu đƣợc theo thực nghiệm 2
41
3.9
Giao diện chƣơng trình mô hình thực nghiệm 3
41
3.10
a) Thủy vân gốc; b) Thủy vân thu đƣợc theo thực nghiệm 3
42
3.11
Giao diện chƣơng trình mô hình thực nghiệm 4
42
3.12
a) Thủy vân gốc; b) Thủy vân thu đƣợc theo thực nghiệm 4
43




1

MỞ ĐẦU

1. Lý do chọn đề tài
Ngày nay, việc sử dụng các cơ sở dữ liệu, đặc biệt là cơ sở dữ liệu quan
hệ trong các ứng dụng ngày càng tăng. Tốc độ phát triển Internet và các công
nghệ có liên quan đang đƣa đến một sức ép khá nặng nề cho những ngƣời bảo

vệ dữ liệu trong việc tạo ra các dịch vụ (thƣờng đƣợc gọi là các dịch vụ web
hoặc các tiện ích điện tử) cho phép ngƣời dùng có thể tìm kiếm và truy cập cơ
sở dữ liệu từ xa hoặc trong các dịch vụ thuê khoán bên ngoài. Mặc dù các xu
hƣớng này là hữu ích cho ngƣời dùng cuối nhƣng nó cũng bộc lộ mối nguy
hiểm cho những nhà cung cấp dữ liệu trƣớc những kẻ trộm cắp và giả mạo dữ
liệu. Do đó, những nhà cung cấp dữ liệu đòi hỏi phải có các công cụ hỗ trợ
cho việc bảo vệ bản quyền sản phẩm của họ, nhận dạng đƣợc những bản sao
các cơ sở dữ liệu bị đánh cắp hoặc bị xuyên tạc với ý đồ xấu.
Một trong những công cụ rất hữu ích dùng để bảo vệ bản quyền và
chống giả mạo đối với các cơ sở dữ liệu quan hệ đó là kỹ thuật thủy vân số.
Hiện tại, đã có khá nhiều lƣợc đồ thủy vân đƣợc đề xuất, trong đó có thể chia
thành hai lớp. Một lớp là các lƣợc đồ thủy vân dùng để bảo vệ bản quyền cho
các cơ sở dữ liệu quan hệ. Lớp thứ hai là các lƣợc đồ thủy vân dùng để bảo vệ
sự toàn vẹn cho các cơ sở dữ liệu quan hệ.
Từ thực tế trên, em chọn đề tài nghiên cứu thuộc lớp thứ hai: “Bảo vệ
sự toàn vẹn của cơ sở dữ liệu quan hệ bằng kỹ thuật thủy vân”.
2. Mục đích nghiên cứu
- Nghiên cứu kỹ thuật thủy vân để bảo vệ sự toàn vẹn cho các cơ sở dữ
liệu quan hệ với cơ chế xác thực công khai.
- Phát triển chƣơng trình thử nghiệm bảo vệ sự toàn vẹn cho các cơ sở
dữ liệu quan hệ với cơ chế xác thực công khai.

2

3. Nhiệm vụ nghiên cứu
- Nghiên cứu các cơ sở lý thuyết về cơ sở dữ liệu quan hệ và thủy vân số.
- Tìm hiểu về hệ mã hóa khóa đối xứng và khóa công khai.
- Sử dụng công cụ lập trình để phát triển chƣơng trình thử nghiệm thủy
vân cơ sở dữ liệu quan hệ.
4. Đối tƣợng và phạm vi nghiên cứu

- Phạm vi nghiên cứu của đề tài là lý thuyết về thủy vân nói chung và
về cơ sở dữ liệu.
- Nghiên cứu cơ chế mã hóa và giải mã thủy vân cơ sở dữ liệu quan hệ
với cơ chế xác thực công khai.
5. Những đóng góp mới của đề tài
- Tìm hiểu và nghiên cứu các kỹ thuật thủy vân để bảo vệ sự toàn vẹn
cho cơ sở dữ liệu quan hệ.
- Cải tiến và nâng cao độ chính xác khi bảo vệ tính toàn vẹn của cơ sở
dữ liệu lớn.
- Cài đặt chƣơng trình thử nghiệm để bảo vệ sự toàn vẹn của cơ sở dữ
liệu với cơ chế xác thực công khai.
6. Phƣơng pháp nghiên cứu
- Phƣơng pháp nghiên cứu chủ yếu ở đây là phƣơng pháp tiếp cận lý
thuyết, sau đó áp dụng lý thuyết để kiểm chứng. Dựa trên kết quả kiểm chứng
đó để đƣa ra kết luận và các đề xuất nhằm hoàn thành mục tiêu nghiên cứu.
- Nghiên cứu về lý thuyết thủy vân cơ sở dữ liệu. Nghiên cứu ứng dụng
và mô tả chi tiết về kỹ thuật thủy vân với cơ chế xác thực công khai.
7. Cấu trúc luận văn
Luận văn gồm: Lời mở đầu, ba chƣơng nội dung, phần kết luận và sau
cùng là tài liệu tham khảo.


3

Chƣơng 1: Tổng quan về kỹ thuật thủy vân cho cơ sở dữ liệu quan hệ.
Chƣơng 2: Kỹ thuật thủy vân bảo vệ sự toàn vẹn của cơ sở dữ liệu với
cơ chế xác thực công khai.
Chƣơng 3: Cài đặt và thử nghiệm.

























4

CHƢƠNG 1: TỔNG QUAN VỀ KỸ THUẬT THỦY VÂN
CHO CƠ SỞ DỮ LIỆU QUAN HỆ

1.1. Kiến thức cơ bản về giấu tin
1.1.1. Khái niệm giấu tin
Từ trƣớc đến nay, nhiều phƣơng pháp bảo vệ thông tin đã đƣợc đƣa ra,

trong đó giải pháp dùng mật mã đƣợc ứng dụng rộng rãi nhất. Thông tin ban đầu
đƣợc mã hoá, sau đó sẽ đƣợc giải mã nhờ khoá của hệ mã. Đã có nhiều hệ mã
phức tạp đƣợc sử dụng nhƣ DES, RSA, NAPSACK , rất hiệu quả và phổ biến.
Một phƣơng pháp mới khác đã và đang đƣợc nghiên cứu và ứng dụng
mạnh mẽ ở nhiều nƣớc trên thế giới, đó là phƣơng pháp giấu tin. Giấu thông
tin là kỹ thuật nhúng một lƣợng thông tin số nào đó vào trong một đối tƣợng
dữ liệu số khác. Một trong những yêu cầu cơ bản của giấu tin là đảm bảo tính
chất ẩn của thông tin đƣợc giấu đồng thời không làm ảnh hƣởng đến chất
lƣợng của dữ liệu gốc.
Sự khác biệt chú yếu giữa mã hoá thông tin và giấu thông tin là mã hoá
làm cho các thông tin thể hiện là có đƣợc mã hoá hay không, còn với giấu
thông tin thì ngƣời ta sẽ khó biết đƣợc là có thông tin giấu bên trong.
Hình 1.1: Sơ đồ biểu diễn quá trình giấu tin


5


Hình 1.2: Sơ đồ biểu diễn quá trình giải mã
1.1.2. Phân loại các kỹ thuật giấu tin
Do kỹ thuật giấu thông tin mới đƣợc hình thành trong thời gian gần đây
nên xu hƣớng phát triển chƣa ổn định. Nhiều phƣơng pháp mới, theo nhiều
khía cạnh khác nhau đang đƣợc đề xuất, vì vậy đã tồn tại nhiều cách phân loại
rất khác nhau.
Dựa trên việc thống kê các công trình đã công bố trên các tạp chí, cùng
với thông tin về tên và tóm tắt nội dung của các công trình đã công bố trên
Internet, ngƣời ta chia lĩnh vực giấu tin ra làm hai hƣớng lớn, đó là thủy vân
và giấu tin bí mật.
Steganography (giấu tin bí mật) quan tâm tới ứng dụng che giấu các bản
tin đòi hỏi độ bí mật cao và dung lƣợng lớn.

Watermark (thủy vân) quan tâm nhiều đến ứng dụng giấu các mẩu tin
ngắn nhƣng đòi hỏi độ bền vững lớn của thông tin cần giấu (trƣớc các biến
đổi thông thƣờng của tệp dữ liệu môi trƣờng).

6


Hình 1.3: Phân loại kỹ thuật giấu tin
Đối với từng hƣớng lớn trên, quá trình phân loại theo các tiêu chí khác
nhau dựa theo ảnh hƣởng các tác động từ bên ngoài, ngƣời ta có thể chia thủy
vân thành hai loại, một loại bền vững với các tác động sao chép trái phép, loại
thứ hai có tính chất hoàn toàn đối lập: dễ bị phá huỷ trƣớc các tác động nói
trên. Cũng có thể chia thủy vân theo đặc tính, một loại cần đƣợc che giấu để
chỉ có một số ngƣời tiếp xúc với nó có thể thấy đƣợc thông tin, loại thứ hai
đối lập, cần đƣợc mọi ngƣời nhìn thấy.
1.1.3. Môi trƣờng giấu tin
Kỹ thuật giấu tin đã đƣợc nghiên cứu và áp dụng trong nhiều môi
trƣờng dữ liệu khác nhau nhƣ trong dữ liệu đa phƣơng tiện (văn bản, hình
ảnh, âm thanh, phim… ), trong sản phẩm phần mềm và gần đây là những
nghiên cứu trên lĩnh vực cơ sở dữ liệu quan hệ. Trong các dữ liệu đó, dữ liệu
đa phƣơng tiện là môi trƣờng chiếm tỉ lệ chủ yếu trong các kỹ thuật giấu tin.


7

1.1.3.1. Giấu tin trong ảnh (image)
Giấu thông tin trong ảnh, hiện nay, là một bộ phận chiếm tỉ lệ lớn nhất
trong các chƣơng trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa
phƣơng tiện do lƣợng thông tin đƣợc trao đổi bằng ảnh là rất lớn và hơn nữa
giấu thông tin trong ảnh cũng đóng vai trò quan trọng trong hầu hết các ứng

dụng bảo vệ an toàn thông tin nhƣ: xác thực thông tin, xác định xuyên tạc
thông tin, bảo vệ bản quyền tác giả, điều khiển truy cập, giấu tin bí mật Do
đó vấn đề này đã nhận đƣợc sự quan tâm lớn của các cá nhân, tổ chức, trƣờng
đại học và viện nghiên cứu trên thế giới.
Thông tin sẽ đƣợc giấu cùng với dữ liệu ảnh nhƣng chất lƣợng ảnh ít
thay đổi và không ai biết đƣợc rằng sau ảnh đó mang những thông tin có ý
nghĩa. Ngày nay, khi ảnh số đã đƣợc sử dụng phổ biến, giấu thông tin trong
ảnh đã đem lại nhiều những ứng dụng quan trọng trong nhiều lĩnh vực trong
đời sống xã hội. Ví dụ đối với các nƣớc phát triển, chữ kí tay đã đƣợc số hoá
và lƣu trữ sử dụng nhƣ hồ sơ cá nhân của các dịch vụ ngân hàng và tài chính,
nó đƣợc dùng để xác thực trong các thẻ tín dụng của ngƣời tiêu dùng. Phần
mềm WinWord của Microsoft cũng cho phép ngƣời dùng lƣu trữ chữ kí trong
ảnh nhị phân rồi gắn vào vị trí nào đó trong file văn bản để đảm bảo tính an
toàn của thông tin. Tài liệu sau đó đƣợc truyền trực tiếp qua máy fax hoặc lƣu
truyền trên mạng. Theo đó, việc xác thực chữ kí, xác thực thông tin đã trở
thành một vấn đề quan trọng khi việc ăn cắp thông tin hay xuyên tạc thông tin
bởi các tin tặc đang trở thành một vấn nạn đối với bất kì quốc gia nào, tổ chức
nào. Hơn nữa có nhiều loại thông tin quan trọng cần đƣợc bảo mật nhƣ những
thông tin về an ninh, thông tin về bảo hiểm hay các thông tin về tài chính, các
thông tin này đƣợc số hoá và lƣu trữ trong hệ thống máy tính hay trên mạng.
Chúng dễ bị lấy cắp và bị thay đổi bởi các phần mềm chuyên dụng. Việc xác
thực cũng nhƣ phát hiện thông tin xuyên tạc đã trở nên vô cùng quan trọng,

8

cấp thiết. Một đặc điểm của giấu thông tin trong ảnh là thông tin đƣợc giấu
trong ảnh một cách vô hình, tƣơng tự cách truyền thông tin mật cho nhau mà
ngƣời khác không thể biết đƣợc bởi sau khi giấu thông tin chất lƣợng ảnh gần
nhƣ không thay đổi đặc biệt đối với ảnh mầu hay ảnh xám. Ví dụ về vụ việc
ngày 11-9 gây chấn động nƣớc Mĩ và toàn thế giới, chính tên trùm khủng bố

quốc tế Osma BinLaDen đã dùng cách thức giấu thông tin trong ảnh để liên
lạc với đồng bọn, và hắn đã qua mặt đƣợc cục tình báo trung ƣơng Mĩ CIA và
các cơ quan an ninh quốc tế. Chắc chắn sau vụ việc này, việc nghiên cứu các
vấn đề liên quan đến giấu thông tin trong ảnh sẽ rất đƣợc quan tâm.
1.1.3.2. Giấu tin trong âm thanh (audio)
Giấu thông tin trong âm thanh mang những đặc điểm riêng khác với
giấu thông tin trong các đối tƣợng đa phƣơng tiện khác. Một trong những
yêu cầu cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin đƣợc giấu
đồng thời không làm ảnh hƣởng đến chất lƣợng của dữ liệu gốc. Để đảm
bảo yêu cầu này, kỹ thuật giấu thông tin trong ảnh phụ thuộc vào hệ thống
thị giác của con ngƣời - HVS còn kỹ thuật giấu thông tin trong âm thanh lại
phụ thuộc vào hệ thống thính giác - HAS. Một vấn đề khó khăn là hệ thống
thính giác của con ngƣời nghe đƣợc các tín hiệu ở các dải tần rộng và công
suất lớn nên đã gây khó khăn đối với các phƣơng pháp giấu tin trong âm
thanh. Nhƣng hệ thống thính giác của con ngƣời lại kém trong việc phát
hiện sự khác biệt các dài tần và công suất, điều này có nghĩa là các âm
thanh to, cao tần có thể che giấu đƣợc các âm thanh nhỏ thấp một cách dễ
dàng. Các mô hình phân tích tâm lí đã chỉ ra điểm yếu trên và thông tin này
sẽ giúp ích cho việc chọn các âm thanh thích hợp cho việc giấu tin. Vấn đề
khó khăn thứ hai đối với giấu thông tin trong âm thanh là kênh truyền tin.
Kênh truyền hay băng thông chậm sẽ ảnh hƣởng đến chất lƣợng thông tin
sau khi giấu.

9

Ví dụ: Để nhúng một đoạn java applet vào một đoạn âm thanh (16 bit,
44.100 Hz) có chiều dài bình thƣờng thì các phƣơng pháp nói chung cũng cần
ít nhất là 20 bits. Giấu thông tin trong âm thanh đòi hỏi yêu cầu cao về tính
đồng bộ và tính an toàn của thông tin, Các phƣơng pháp giấu thông tin trong
âm thanh đều lợi dụng điểm yếu trong hệ thống thính giác của con ngƣời.

1.1.3.3. Giấu tin trong video
Cũng giống nhƣ giấu thông tin trong ảnh hay trong âm thanh, giấu tin
trong video cũng đƣợc quan tâm và đƣợc phát triển mạnh mẽ cho nhiều ứng
dụng nhƣ điều khiển truy cập thông tin, xác thực thông tin và bảo vệ bản
quyền tác giả. Các kỹ thuật giấu tin trong video cũng đƣợc phát triển mạnh
mẽ và theo hai khuynh hƣớng là thuỷ vân số và giấu thông tin. Một phƣơng
pháp giấu tin trong video đƣợc Cox đƣa ra là phƣơng pháp phân bố đều. Ý
tƣởng cơ bản của phƣơng pháp này là phân phối thông tin giấu dàn trải theo
tần số của dữ liệu gốc. Nhiều nhà nghiên cứu đã dùng những hàm cosin riêng
và các hệ số truyền sóng riêng để giấu tin. Trong các thuật toán đầu tiên
thƣờng các kỹ thuật cho phép giấu các ảnh vào trong video nhƣng thời gian
gần đây các kỹ thuật cho phép giấu cả âm thanh và hình ảnh vào video.
Giấu tin là một công nghệ mới phức tạp, đang đƣợc các nhà khoa học
tập trung nghiên cứu ở nhiều nƣớc trên thế giới nhƣ Đức, Mỹ, Ý, Canada,
Nhật Bản, Tuy nhiên, những kết quả thực nghiệm cho thấy để có thể ứng
dụng thực tế thì lĩnh vực này cần phải có thêm thời gian để nghiên cứu thẩm
định nhƣng các nhà khoa học cũng khẳng định rằng đây là một công nghệ mới
đầy hứa hẹn cho vấn đề an toàn và bảo mật thông tin. Công việc hiện nay của
các nhà khoa học là đang tập trung xây dựng một hệ thống lí thuyết chính xác
cho vấn đề giấu tin, đây là một mảnh đất mới cho các nhà khoa học khám phá.
Một trong những kỹ thuật quan trọng của giấu tin đang đƣợc rất nhiều các nhà
khoa học quan tâm và phát triến nhất, đó là kỹ thuật thuỷ vân (watermark).

10

1.2. Kiến thức cơ bản về thủy vân
1.2.1. Khái niệm thuỷ vân
Thuỷ vân số (digital watermarking) là quá trình chèn thông tin vào dữ
liệu số đảm bảo không thể cảm nhận đƣợc bằng các giác quan của con ngƣời
nhƣng lại dễ dàng phát hiện bởi các thuật toán của máy tính. Một dấu thuỷ

vân (watermark) mà một mẫu thông tin trong suốt và không thể nhìn thấy
đƣợc bằng các giác quan đƣợc chèn vào một vị trí thích hợp trong dữ liệu số
bằng cách sử dụng một thuật toán đặc biệt.
Tuỳ thuộc vào mục đích và ứng dụng mà các yêu cầu của hệ thống thủy
vân đƣợc đặt ra. Với các hệ thống thực tế, hệ thống thuỷ vân đòi hỏi các yêu
cầu sau:
+ Tính không nhận thấy đƣợc (Imperceptibility): Các điều chỉnh gây ra
do nhúng thủy vân phải thấp hơn ngƣỡng cảm thụ của con ngƣời, nghĩa là các
mẫu dùng trong nhúng thủy vân chỉ đƣợc phép thay đổi rất nhỏ trong giới hạn
cho phép.
+ Tính bền vững (Robustness): Tùy vào từng loại ứng dụng mà tính
bền vững này đƣợc nhìn nhận dƣới nhiều quan điểm khác nhau, nếu nhƣ đối
với các ứng dụng dùng để bảo vệ quyền sờ hữu thì thủy vân cần phải bền
vững qua một số các hành động cập nhật của dữ liệu. Nếu nhƣ đối với ứng
dụng để chống làm giả hoặc chống lại sự thay đổi trên dữ liệu thì đòi hỏi thủy
vân phải huỷ bỏ khi có các tác vụ này xảy ra.
+ Tính không chia tách đƣợc (Inseparability): Sau khi dữ liệu đƣợc
nhúng thủy vân thì yêu cầu là phải rất khó hoặc không thể tách thành 2 phần
riêng biệt nhƣ lúc đầu.
+ Bảo mật (Security): Sau khi đã nhúng thủy vân vào dữ liệu, thì yêu cầu
là chỉ cho phép những ngƣời sử dụng có quyền mới chỉnh sửa và phát hiện đƣợc
thủy vân điều này đƣợc thực hiện nhờ vào key dùng làm khoá trong giải thuật
nhúng thủy vân vào dữ liệu và giải thuật phát hiện ra thủy vân trong dữ liệu.

11

+ Tìm lại thủy vân: Có thể cần hoặc không cần đến dữ liệu gốc vẫn có
thể tìm lại đƣợc thuỷ vân đã nhúng.
+ Trích thủy vân hay kiểm chứng: Cho phép kiểm tra sự tồn tại của
thủy vân trong dữ liệu đã nhúng .

1.2.2. Một số vấn đề có liên quan đến thuỷ vân
Có nhiều phƣơng pháp để phân loại thủy vân, dƣới đây trình bày
phƣơng pháp phân loại phổ biến nhất:










Hình 1.4: Cách phân loại thủy vân tiêu biểu
Dựa vào miền tác động, chúng ta có thể phân loại thủy vân thành tác
động lên miền không gian ảnh (spatial domain) và tác động lên miền tần số
ảnh (frequency domain).
Dựa vào kiểu dữ liệu đƣợc nhúng thủy vân số, chúng ta có thủy vân
đƣợc nhúng vào ảnh, vào audio, video hay text.
Dựa vào tác động tới thị giác con ngƣời, chúng ta có thủy vân hiện
(visible watermark) hoặc thủy vân ẩn (invisible watermark). Thủy vân ẩn lại
đƣợc chia thành thủy vân bền vững (robust watermark) và thủy vân dễ vỡ
(fraglie watermark).
Hệ thống thủy vân
Tác động
miền tần số
Tác động vào
không gian ảnh
Dựa vào tác động thị
giác tới con ngƣời

Văn bản
Hình
ảnh
Video
Audio
Thủy vân
ẩn
Thủy vân
hiện

Thủy vân
bền vững
Thủy vân
dễ vỡ
Dựa vào dữ
liệu

Dựa vào miền
tác động


12

Thủy vân hiện có ƣu điểm là nhìn đƣợc bằng mắt thƣờng, khiến cho tất
cả ngƣời sử dụng đều biết đƣợc bản quyền của ảnh. Tuy nhiên, nó sẽ tác động
tới chất lƣợng ảnh và gây mất thẩm mỹ.
1.2.3. Các ứng dụng của thủy vân
Bảo vệ quyền sở hữu: Thủy vân có thể đƣợc dùng để bảo vệ quyền sở
hữu đối với các sản phẩm số. Nội dung của các sản phẩm số này sẽ chứa thêm
các thông tin về ngƣời sở hữu. Khi các sản phẩm số này đƣợc sử dụng bất hợp

pháp thì ta có thể dùng bộ dò thủy vân số để phát hiện.
Chống sao chép bất hợp pháp: Các sản phẩm có chứa thủy vân biểu
hiện cho việc sản phẩm này không đƣợc sao chép, vì nếu sao chép sẽ phạm
luật. Nhà sản xuất trang bị các phƣơng tiện dùng để sao chép (nhƣ CD
writer…) đều có khả năng phát hiện xem thủy vân có chứa trong sản phẩm số
hay không, nếu có thì sẽ từ chối không sao chép. Một số phần mềm cũng có
chức năng này, ví dụ nhƣ phần mềm xem phim của hãng DivX sẽ từ chối
chiếu các bộ phim nhúng thủy vân.
Theo dõi quá trình sử dụng: Thủy vân có thể đƣợc dùng để theo dõi quá
trình sử dụng của các sản phẩm số. Mỗi bản sao của sản phẩm số đƣợc chứa
bằng một thủy vân duy nhất dùng để xác định ngƣời sử dụng là ai. Nếu có sự
sao chép bất hợp pháp, ta có thể truy ra ngƣời vi phạm nhờ vào thủy vân
đƣợc chứa bên trong sản phẩm số đó.
Chống giả mạo: Thủy vân có thể đƣợc dùng để chống sự giả mạo. Nếu
có bất cứ sự thay đổi nào về nội dung của các sản phẩm số thì thủy vân này sẽ
bị hủy đi. Do đó rất khó làm giả sản phẩm số có chứa thủy vân.
Theo dõi truyền thông: Các công ty truyền thông và quảng cáo có thể
dùng kỹ thuật thủy vân để quản lý xem có bao nhiêu khách hàng đã dùng dịch
vụ cung cấp.
Truyền tin bí mật: Bởi vì thủy vân là một dạng đặc biệt của việc che
dấu dữ liệu nên ngƣời ta có thể dùng để truyền các thông tin bí mật.

13

1.2.4. Quá trình thực hiện thủy vân nói chung
Quy trình thực hiện thủy vân đƣợc trải qua bốn bƣớc nhƣ sau:
 Tạo thủy vân
 Nhúng thủy vân
 Tách thủy vân
 Kiểm tra thủy vân

1.3. Kỹ thuật thủy vân cho các cơ sở dữ liệu quan hệ
Thuỷ vân cơ sở dữ liệu là kỹ thuật cho phép ngƣời chủ dữ liệu có thể
nhúng một thuỷ vân ẩn vào dữ liệu. Một thuỷ vân thƣờng mô tả những thông
tin có thể đƣợc dùng để chứng minh quyền sở hữu dữ liệu, chẳng hạn nhƣ là
tên chủ sở hữu, nguồn gốc, hoặc ngƣời tiếp nhận nội dung này. Việc nhúng
thông tin an toàn đòi hỏi thủy vân đƣợc nhúng trong dữ liệu không thể bị làm
giả mạo hoặc bị tẩy xoá một cách dễ dàng. Đồng thời, khi nhúng thuỷ vân vào
dữ liệu cần phải đảm bảo các thay đổi trên dữ liệu là trong giới hạn cho phép
của từng ứng dụng cụ thể.
Các kỹ thuật đƣợc trình bày ở đây sẽ đƣợc phân loại dựa trên các yếu tố
sau:
(i) Các kỹ thuật làm thay đổi cơ sở dữ liệu.
(ii) Kiểu của dữ liệu mà thủy vân đƣợc nhúng.
(iii) Kiểu của dữ liệu thủy vân.
Dựa trên yếu tố làm thay đổi cơ sở dữ liệu, các kỹ thuật có thể đƣợc
phân loại thành hai nhóm kỹ thuật: Các kỹ thuật làm thay đổi cơ sở dữ liệu và
không làm thay đổi cơ sở dữ liệu.
Về cơ bản, các kỹ thuật thủy vân cho các cơ sở dữ liệu quan hệ bao
gồm hai giai đoạn: Giai đoạn nhúng thủy vân số vào cơ sở dữ liệu và giai
đoạn xác thực thủy vân số đƣợc nhúng trong cơ sở dữ liệu. Trong giai đoạn
nhúng thủy vân số vào cơ sở dữ liệu, khóa bí mật K đƣợc sử dụng để nhúng

14

thủy vân số W vào các cơ sở dữ liệu gốc. Khi đó, cơ sở dữ liệu đƣợc nhúng
thủy vân số sẽ đƣợc mang ra sử dụng ngoài cộng đồng (nhƣ chia sẻ trên
Internet,…). Để xác thực quyền sở hữu của các cơ sở dữ liệu thuộc về ai (thực
hiện đối với cơ sở dữ liệu nghi vấn), quá trình đƣợc thực hiện nhƣ sau:
Đƣa cơ sở dữ liệu nghi vấn làm đầu vào trong hệ thống xác thực và
dùng khóa bí mật K (khóa K này chính là khóa đƣợc dùng trong giai đoạn

nhúng thủy vân), lúc này thủy vân đƣợc nhúng vào cơ sở dữ liệu sẽ đƣợc trích
rút ra và đƣợc so sánh với thủy vân gốc.

Hình 1.5: Mô tả kỹ thuật thủy vân cơ bản cho các cơ sở dữ liệu quan hệ

1.3.1. Kỹ thuật thủy vân làm thay đổi dữ liệu trong CSDL quan hệ
Các kỹ thuật thủy vân số thuộc loại này, trong giai đoạn nhúng thủy
vân vào các cơ sở dữ liệu quan hệ thì sẽ làm thay đổi dữ liệu và mức độ thay
đổi đƣợc tạo ra trong cơ sở dữ liệu là chấp nhận đƣợc và không tạo ra dữ liệu
vô nghĩa. Các kỹ thuật thủy vân thuộc loại này có thể đƣợc thực hiện trên các
giá trị thuộc tính có những kiểu dữ liệu khác nhau nhƣ kiểu số (numeric), kiểu
xâu (string),… tại mức bít hoặc mức ký tự hoặc mức cao hơn (nhƣ là mức
thuộc tính hoặc mức bản ghi).

15

1.3.1.1. Kỹ thuật thủy vân dựa trên thuộc tính kiểu dữ liệu số
a, Ảnh như là thông tin thủy vân
Wang et al. [8] miêu tả một lƣợc đồ thủy vân số dựa trên ảnh ở đây
thay vì ảnh gốc nhúng thủy vân, một ảnh đƣợc chộn dựa trên biến đổi Arnold
với hệ số chộn d đƣợc dùng. Vì biến đổi Arnold của một ảnh có tính chu kỳ P,
kết quả đƣợc lấy trong giai đoạn trích rút có thể đƣợc khôi phục từ định dạng
chộn tới gốc sau đó lặp (P-d). Trong giai đoạn nhúng, ảnh gốc của kích thƣớc
NxN đầu tiên đƣợc chuyển vào ảnh chộn khi đó đƣợc biểu diễn bởi một xâu
nhị phân b
s
của độ dài L = NxN. Thứ hai, tất cả các bản ghi trong cơ sở dữ
liệu quan hệ đƣợc nhóm vào L nhóm. Giá trị băm đƣợc tính dùng khóa chính
của bản ghi, khóa bí mật và thứ tự của ảnh, xác định nhóm trong mỗi bản ghi
thuộc. Cuối cùng, bit thứ i của b

s
là đƣợc nhúng vào vị trí bít đƣợc chọn của
giá trị thuộc tính cho các bản ghi đó trong nhóm thứ i mà thỏa mãn tiêu chuẩn
riêng nào đó. Giai đoạn dò dùng kỹ thuật theo số đông. Tuy nhiên, bảo mật
của lƣợc đồ không chỉ phụ thuộc vào khóa bảo mật mà còn phụ thuộc hệ số
trộn d và thứ tự của ảnh N.
Trong nhúng ảnh đƣợc trộn, kỹ thuật thủy vân trong [10] nhúng ảnh
gốc bằng cách, đầu tiên chuyển đổi nó thành dãy bít (EMC, Encrypted Mark
Code), và sau đó bằng cách cho phép các bƣớc thuật toán giống nhƣ trong [8].
Chỉ có hai điểm khác đó là (i) kỹ thuật chèn thủy vân số trong [8] cho rằng
thuộc tính phải đƣợc cố định để đánh dấu cho tất cả các bản ghi trong khi đó
[10] không nhƣ thế, và (ii) trong khi lựa chọn các vị trí bít, thứ tự của ảnh là
không đƣợc xem xét trong [10]. Cuối cùng, sau khi nhúng, [10] kiểm tra khả
năng dùng của dữ liệu. Nếu chấp nhận thì thay đổi, ngƣợc lại quay lại.
Lƣợc đồ thủy vân số khác để nhúng ảnh định dạng BMP đã đƣợc trình
bày trong [11]. Trong giai đoạn nhúng thủy vân số, ảnh BMP đƣợc phân chia
thành hai phần: phần dữ liệu header và phần dữ liệu ảnh. Một phƣơng pháp

16

hiệu chỉnh lỗi của mã BCH (Bose-Chaudhuri-Hocquenhem) là đƣợc sử dụng
giải mã phần dữ liệu ảnh trong thủy vân số. Dựa trên giá trị ID của bản ghi
đƣợc tính từ hàm băm với tham số khóa chính của bản ghi và dữ liệu header
của ảnh BMP, tất cả các bản ghi đƣợc gắn tới các tập con phân biệt k, ở đây k
là độ dài của thủy vân. Cuối cùng, mỗi k bít của thủy vân đƣợc sử dụng để
đánh dấu mỗi k tập con của các bản ghi. Trong khi đánh dấu, các vị trí bít ít ý
nghĩa đƣợc chọn trong các thuộc tính đƣợc chọn của các bản ghi cụ thể thỏa
mãn một chuẩn riêng đƣợc thay đổi. Lựa chọn của các vị trí bít phụ thuộc vào
hàm HASH hoặc MAC với tham số dữ liệu header của ảnh BMP, khóa chính
của bản ghi và tham số khác nhƣ số lƣợng các bít ít ý nghĩa trong giá trị thuộc

tính. Qua quan sát thấy rằng các vị trí bít đƣợc lựa chọn không là một tập các
bít thủy vân trực tiếp, tập các bít mặt nạ đƣợc tính toán từ hai giá trị hàm băm
và bít thủy vân.
Lƣợc đồ thủy vân vỡ dựa trên ảnh trong [12] hƣớng tới duy trì tính toàn
vẹn của cơ sở dữ liệu và dùng hồi qui vector hỗ trợ (SVR) để huấn luyện các
thuộc tính tƣơng quan cao để tạo ra hàm dự đoán SVR cho thủy vân nhúng
vào các thuộc tính số. Lƣợc đồ này bao gồm ba giai đoạn: (i) Giai đoạn huấn
luyện: Lựa chọn các bản ghi huấn luyện và lấy hàm dự đoán SVR đƣợc huấn
luyện; (ii) Giai đoạn nhúng thủy vân: Tất cả các bản ghi trong cơ sở dữ liệu
quan hệ là đƣợc sử dụng để nhúng thủy vân ảnh ở đây số lƣợng các bít thủy
vân đƣợc thiết kế bằng số lƣợng các bản ghi. Mỗi giá trị thuộc tính số C
i
của
bản ghi t
i
thứ i dƣợc dự đoán dùng hàm dự đoán SVR kết quả là
)(
i
i
tfC 
.
Dựa trên bít thủy vân b
i
thứ i (đƣợc lấy sau khi chuyển đổi ảnh vào luồng bít),
giá trị của C
i
đƣợc thay đổi bằng cách
1
i
C

hoặc
1
i
C
; (iii) Dò giả mạo:
Hàm dự đoán SVR đƣợc huấn luyện đƣợc sử dụng để sinh giá trị đƣợc dự
đoán cho mỗi bản ghi và đƣợc so sánh với giá trị đƣợc lấy ra trong cơ sở dữ
liệu. Sự khác nhau giữa hai giá trị đó xác định thông tin thủy vân và có thể

×