Tải bản đầy đủ (.pdf) (35 trang)

Thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hoá áp dụng thuật toán tìm kiếm theo mẫu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (891.15 KB, 35 trang )

ĐẠI HỌC THÁI NGUYÊN

KHOA CÔNG NGHỆ THÔNG TIN
ĐẠI HỌC THÁI NGUYÊN
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN THỊ HẠNH

NGUYỄN THỊ HẠNH

THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
DỰA TRÊN KỸ THUẬT TỐI ƢU HOÁ
ÁP DỤNG THUẬT TOÁN TÌM KIẾM THEO MẪU

THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
DỰA TRÊN KỸ THUẬT TỐI ƢU HOÁ
ÁP DỤNG THUẬT TOÁN TÌM KIẾM THEO MẪU
Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Mã số: 604801

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS BÙI THẾ HỒNG

Thái Nguyên – 2009

Thái Nguyên - 2009
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ĐẠI HỌC THÁI NGUYÊN

KHOA CÔNG NGHỆ THÔNG TIN

Công
trình
được
hoàn
thành
tại:
.......................................................................
...................................................................................................
.......................

NGUYỄN THỊ HẠNH
Người hướng dẫn khoa học:
....................................................................................
(Ghi rõ họ tên, chức danh khoa học, học vị)

THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
DỰA TRÊN KỸ THUẬT TỐI ƢU HOÁ
ÁP DỤNG THUẬT TOÁN TÌM KIẾM THEO MẪU

Chuyên ngành: Khoa học máy tính

Phản
1:........................................................................................

biện

Phản
2:.........................................................................................

biện

Mã số: 604801

TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS BÙI THẾ HỒNG
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn họp tại:
Vào hồi...... giờ...... ngày....... tháng........ năm 20...

Có thể tìm hiểu luận văn tại trung tâm học liệu Đại học Thái
Nguyên
Và thư viện Trường/Khoa:…………………………….
(Ghi tên thư viện đơn vị)

Thái Nguyên – 2009

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




TÀI LIỆU THAM KHẢO
[1]. “Nghiên cứu và Phát triển Kỹ thuật Thuỷ vân Cơ sở Dữ liệu Quan hệ”, Báo cáo kết quả
nghiên cứu của đề tài cơ sở 2008, 12/2008, Phòng CSDL & LT.
[2]. Bùi Thế Hồng, Nguyễn Thị Thu Hằng, Lƣu Thị Bích Hƣơng, “Thủy vân cơ sở dữ liệu
quan hệ”, Tạp chí Khoa học & Công nghệ, ĐH Thái Nguyên, 2009.
[3]. Vũ Ba Đình, “Giấu thông tin trong cơ sở dữ liệu không gian”, Tạp chí nghiên cứu khoa học
kỹ thuật và công nghệ Quân sự, số 4, 30-37
[4]. R. Agrawal, J. Kiernan, “Watermarking Relational Databases” in Proceedings of the 28th
VLDB Conference, Hong Kong, China, 2002.
[5]. R. Agrawal, P. J. Haas, and J. Kiernan. “Watermarking relational data: framework,
algorithms and analysis*”. The VLDB Journal (2003).
[6]. R. Sion, M. Atallah, S. Prabhakar.“Watermarking Relational Databases” CERIAS TR
2002-28*. Center for Education and Research in Information Assurance, Computer
Sciences, Purdue University, 2002.
[7]. R. Sion, M. Atallah, and S. Prabhakar. “Rights Protection for Relational Data”. IEEE
Transactions on Knowledge and Data Engineering, 16(6), June 2004.
[8]. R. Sion, “Proving ownership over categorical data”. ICDE 2004.
[9]. M. Shehab, E. Bertino, A. Ghafoor. “Watermarking Relational Databases using
Optimization Based Techniques”. CERIAS Tech Report 2006-41.
[10]. www.watermarkingworld.org.
[11]. W. Bender, D. Gruhl, N. Morimoto, A. Lu, “Techniques for data Hiding” IBM
SYSTEMS JOURNAL, VOL 35, NOS 3&4, 1996.
[12]. Stefan Katzenbeisser and Fabien A.P.Petitcolas, “Information Hiding Techniques for

Steganography and Digital Watermarking”.Artech House Boston London.
[13]. Michael Arnold, Martin Schmucker and Stephen D. Wolthusen, “Techniques and
Applications of Digital Watermarking and Content Protection”. Artech House
Boston London.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




1

2

LỜI CAM ĐOAN

MỤC LỤC

Tôi xin cam đoan : Luận văn “Nghiên cứu và phát triển kỹ thuật thủy

BẢNG CÁC TỪ VIẾT TẮT ........................................................................ 4

vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hóa áp dụng thuật toán

DANH MỤC CÁC HÌNH VẼ ...................................................................... 5


tìm kiếm theo mẫu” là công trình nghiên cứu riêng của tôi.

LỜI MỞ ĐẦU

Các số liệu trong luận văn được sử dụng trung thực. Kết quả nghiên

Chƣơng 1-TỔNG QUAN VỀ KỸ THUẬT GIẤU TIN VÀ THUỶ VÂN 11

cứu được trình bày trong luận văn này chưa từng được công bố tại bất kỳ

1.1. Kỹ thuật giấu tin và những vấn đề cơ bản về kỹ thuật giấu tin ........ 12
1.1.1. Khái niệm giấu tin .......................................................................... 12

công trình nào khác.
Tôi xin chân thành cám ơn các Thầy trong Viện Công nghệ thông tin

1.1.2. Phân loại các kỹ thuật giấu tin ........................................................ 14

Việt Nam đã truyền đạt cho tôi kiến thức trong suốt những năm học ở trường.

1.1.3. Mục đích của giấu tin ..................................................................... 15

Tôi xin chân thành cảm ơn TS. Bùi Thế Hồng đã tận tình hướng dẫn tôi hoàn

1.1.4. Môi trường giấu tin ......................................................................... 17
1.2. Cơ sở lý thuyết về thuỷ vân ................................................................. 21

thành tốt luận văn này.
Thái Nguyên, ngày 10 tháng 11 năm


1.2.1. Khái niệm thuỷ vân và nhúng thuỷ vân ........................................... 21
1.2.2. Lịch sử phát triển của thuỷ vân ....................................................... 21

2009

1.2.3. Mô hình hệ thống tổng quát quá trình nhúng và thuỷ vân ............... 22
Tác giả luận văn

1.2.4. Một số ứng dụng của thuỷ vân ........................................................ 24
Chƣơng 2-THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ DỰA TRÊN KỸ
THUẬT TỐI ƢU ÁP DỤNG THUẬT TOÁN TÌM KIẾM THEO MẪU 25
2.1. Giới thiệu về thuỷ vân cơ sở dữ liệu .................................................. 25

Nguyễn Thị Hạnh

2.2. Mô hình chi tiết hệ thống thuỷ vân cơ sở dữ liệu ............................... 27
2.3. Phân hoạch dữ liệu .............................................................................. 29
2.4. Nhúng thuỷ vân ................................................................................... 32
2.4.1

Mã hoá bít đơn.............................................................................. 32

2.4.2. Thuật toán tìm kiếm theo mẫu ....................................................... 37
2.4.3. Thuật toán nhúng thuỷ vân ........................................................... 39
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





3

4

2.5. Đánh giá ngƣỡng giải mã .................................................................... 40

BẢNG CÁC TỪ VIẾT TẮT

2.6. Phát hiện thuỷ vân ............................................................................... 43
2.7. Kiểu tấn công ....................................................................................... 45
Chƣơng 3 – CÀI ĐẶT LƢỢC ĐỒ THUỶ VÂN CƠ SỞ DỮ LIỆU

Kí hiệu

QUAN HỆ BẰNG KỸ THUẬT TỐI ƢU THUẬT TOÁN TÌM KIẾM

HVS

Human Vision System

Hệ thống thị giác của con người

HAS

Human Auditory System

Hệ thống thính giác của con người


PS

Pattern Search

Tìm kiếm theo mẫu

3.2.1. Cơ sở của ứng dụng ........................................................................ 48

GA

Genetic Algorithm

Thuật toán di truyền

3.2.2. Giả thiết .......................................................................................... 48

MAC

Message Authetication Code

Mã xác thực thông tin

MD5

Message Digest algorithm 5

Hàm băm

THEO MẪU ............................................................................................... 47

3.1. Giới thiệu về kỹ thuật tìm kiếm theo mẫu .......................................... 47
3.2. Mô tả ứng dụng ................................................................................... 48

3.2.3. Một số kết quả thực nghiệm đạt được ............................................. 49

Từ Tiếng Anh

Giải thích

PHỤ LỤC.............................................................................................. …..58
KẾT LUẬN ............................................................................................... ..59
TÀI LIỆU THAM KHẢO ………………………………………………...60

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

6

LỜI MỞ ĐẦU

DANH MỤC CÁC HÌNH VẼ
Trang


Trong thực tế việc chứng minh quyền sở hữu đối với các cơ sở dữ liệu

Hình 1.1. Sơ đồ biểu diễn quá trình giấu tin ....................................... ……21

quan hệ sau khi đã phân phối hoặc chuyển giao đang là một vấn đề quan trọng

Hình 1.2. Sơ đồ biểu diễn quá trình giải mã tin .................................. ……21

trong các môi trường ứng dụng dựa trên Internet và trong nhiều ứng dụng

Hình 1.3. Sơ đồ phân loại kỹ thuật giấu tin ......................................... ……21

phân phối sản phẩm.

Hình 1.4. Sơ đồ nhúng thuỷ vân ......................................................... ……21

Trong những năm gần đây, công nghệ thông tin phát triển với tốc độ

Hình 1.5. Sơ đồ khôi phục thuỷ vân ........................................................... 21

chóng mặt về cả phần cứng và phần mềm, đặc biệt là tốc độ phát triển của

Hình 2.1. Các thời kỳ mã hoá và giải mã thuỷ vân ..................................... 26

Internet và các công nghệ có liên quan đã đưa đến một tiểm năng chưa từng

Hình 2.2. Bảng biểu diễn các ký hiệu sử dụng trong thuật toán …………31

có đối với việc truy nhập và phân phối lại các sản phẩm kỹ thuật số. Sự phát

triển của công nghệ đa phương tiện với khả năng sao chép mô phỏng đã mở ra

Hình 2.3: Phân phối của tập S i   i trên trục số………………………….36

nhiều hướng mới cho sự phát triển kỹ thuật thuỷ vân, đặt biệt là lĩnh vực bảo

Hình 2.4. Biểu diễn Sigmoid(α,τ ) tại τ = 0 và α = {1, 2, 8}……………..39

mật cơ sở dữ liệu. Thuỷ vân cơ sở dữ liệu cũng không nằm ngoài quy luật
phát triển đó.

Hình 2.5. Lược đồ ngưỡng giải mã………………………………………..42
Ban đầu, thuỷ vân được sử dụng để nhúng vào các sản phẩm đa phương
Hình 3.1. Bảng thống kê kết quả thực nghiệm ……………………………

tiện như âm thanh, hình ảnh …Nhưng hiện nay, thuỷ vân đã được ứng dụng
vào một lĩnh vực hết sức mới mẻ có liên quan đến quyền sở hữu trí tuệ. Đó là
lĩnh vực thuỷ vân cơ sở dữ liệu quan hệ, đây là một trong những lĩnh vực
quan trọng và có ứng dụng nhiều trong cuộc sống.
Thuỷ vân đã được sử dụng với mong muốn có thể cho phép chứng
minh được tác giả và nguồn gốc của cơ sở dữ liệu để từ đó chứng minh dữ
liệu là chuẩn xác.
Xuất phát từ thực tế đó, luận văn lựa chọn đề tài: “Nghiên cứu và phát
triển kỹ thuật thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hóa áp
dụng thuật toán tìm kiếm theo mẫu”.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




7

8

Tính cấp thiết của đề tài

Mục tiêu nghiên cứu

- Ngày nay, Internet đã và đang phát triển với tốc độ nhanh, cùng với sự

Mục tiêu chung

phát triển đó thì các công nghệ và các ứng dụng được phân tán trên Internet

Nghiên cứu kỹ thuật thuỷ vân cơ sở dữ liệu dựa trên kỹ thuật tối ưu hóa

rất nhiều. Chính vì vậy, việc chứng minh quyền sở hữu đối với các cơ sở dữ

để mã hoá và giải mã thuỷ vân. Trong đó tập trung nghiên cứu kỹ thuật phân

liệu quan hệ sau khi đã phân phối hoặc chuyển giao đang là một vấn đề rất

hoạch dữ liệu không phụ thuộc vào các bộ được đánh dấu để định vị các phân

quan trọng trong các môi trường ứng dụng dựa trên internet và trong nhiều


hoạch, và nghiên cứu kỹ thuật phát hiện thủy vân dựa vào một ngưỡng tối ưu.

ứng dụng phân phối sản phẩm.

Mục tiêu cụ thể

- Trong một bối cảnh như vậy, việc thực thi quyền sở hữu dữ liệu là một
yêu cầu quan trọng đòi hỏi các giải pháp đồng bộ, bao gồm các khía cạnh về
kỹ thuật, về tổ chức, và cả luật pháp. Mặc dù chúng ta vẫn chưa có được
những giải pháp toàn diện như vậy nhưng trong các năm gần đây, các kỹ thuật

Nghiên cứu kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ có áp dụng kỹ thuật
tối ưu hoá như một bài toán tối ưu hoá có ràng buộc. Đồng thời trình bày kỹ
thuật hữu hiệu để giải bài toán tối ưu này bằng thuật toán tìm kiếm theo mẫu
và xử lý các ràng buộc của chúng.

thuỷ vân đã đóng một vai trò quyết định nhằm giải quyết vấn đề về quyền sở

Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài

hữu này.

Ý nghĩa khoa học của đề tài

- Cho đến nay, mới chỉ có một vài cách tiếp cận đối với bài toán thuỷ vân
dữ liệu quan hệ. Tuy nhiên, những kỹ thuật này không bền vững đối với các

- Đưa ra cơ sở khoa học của việc lựa chọn kỹ thuật tối ưu để mã hoá và
giải mã thuỷ vân trong đó sử dụng kỹ thuật tìm kiếm theo mẫu để giải quyết

bài toán.

tấn công thuỷ vân.

Ý nghĩa thực tiễn
- Kết quả của đề tài có ý nghĩa rất lớn đối với Ngành công nghệ thông
tin trong việc chứng minh quyền sở hữu đối với các cơ sở dữ liệu quan hệ sau
khi đã phân phối hoặc chuyển giao đang là một vấn đề rất quan trọng trong
các môi trường ứng dụng dựa trên internet và trong nhiều ứng dụng phân phối
sản phẩm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




9

 10 

Nhiệm vụ nghiên cứu

Chương 2: Thuỷ vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu áp

- Nghiên cứu, hiểu rõ và trình bày về kỹ thuật tối ưu để mã hoá và giải
mã thuỷ vân.


dụng thuật toán tìm kiếm theo mẫu
Chương này trình bày quá trình mã hoá, giải mã thuỷ vân cơ sở dữ liệu

- Nghiên cứu và sử dụng công cụ để mô tả kỹ thuật tìm kiếm theo mẫu

quan hệ bằng kỹ thuật tối ưu áp dụng thuật toán tìm kiếm theo mẫu.
Chương 3: Phát triển ứng dụng thuỷ vân cơ sở dữ liệu quan hệ dựa trên

Phƣơng pháp nghiên cứu

kỹ thuật tối ưu áp dụng thuật toán tìm kiếm theo mẫu

- Nghiên cứu lý thuyết cơ sở về thuỷ vân cơ sở dữ liệu

Chương này trình bày ứng dụng của kỹ thuật tối ưu, kỹ thuật tìm kiếm
- Nghiên cứu ứng dụng và mô tả chi tiết về kỹ thuật tìm kiếm theo mẫu.

theo mẫu trong quá trình nhúng thuỷ vân. Cùng với một số kết quả cài đặt của
ứng dụng.

Phạm vi nghiên cứu
- Phạm vi nghiên cứu kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ và mô tả
kỹ thuật tối ưu trong đó áp dụng kỹ thuật tìm kiếm theo mẫu

Các kết quả nghiên cứu dự kiến cần đạt đƣợc


Kết quả về học thuật: Nghiên cứu kỹ thuật thuỷ vân cơ sở dữ liệu




Kết quả về phát triển ứng dụng: Áp dụng kỹ thuật tìm kiếm theo mẫu
để mô tả và phát triển ứng dụng trong thực tế

Kết cấu của luận văn
Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba
chương. Nội dung các chương được tổ chức như sau:
Chương 1: Tổng quan về kỹ thuật giấu tin và thuỷ vân
Chương này trình bày một số khái niệm về kỹ thuật giấu tin, các vấn đề
cơ bản của kỹ thuật giấu tin. Đồng thời cũng trình bày khái niệm cơ bản về
thuỷ vân, và đặc biệt đưa ra sơ đồ chi tiết về thuỷ vân.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 11 

 12 

Chƣơng 1-

1.1. Kỹ thuật giấu tin và những vấn đề cơ bản về kỹ thuật giấu tin


TỔNG QUAN VỀ KỸ THUẬT GIẤU TIN

1.1.1. Khái niệm về giấu tin

VÀ THUỶ VÂN

Từ trước đến nay, nhiều phương pháp bảo vệ thông tin đã được đưa ra,
trong đó giải pháp dùng mật mã được ứng dụng rộng rãi nhất. Thông tin ban

Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu

đầu được mã hoá, sau đó sẽ được giải mã nhờ khoá của hệ mã. Đã có nhiều hệ

sắc trong xã hội và trong cuộc sống. Những thuận lợi thông tin kỹ thuật số

mã phức tạp được sử dụng như DES, RSA, NAPSACK..., rất hiệu quả và phổ

mang lại cũng đề ra những thách thức và cơ hội mới cho quá trình đổi mới. Sự

biến.

ra đời những phần mềm có tính năng mạnh, các thiết bị mới như máy ảnh kỹ

Một phương pháp mới khác đã và đang được nghiên cứu và ứng dụng

thuật số, máy quét chất lượng cao, máy in, máy ghi âm kỹ thuật số, v.v…, đã

mạnh mẽ ở nhiều nước trên thế giới, đó là phương pháp giấu tin. Giấu thông

với tới thế giới tiêu dùng rộng lớn để sáng tạo, xử lý và thưởng thức các dữ


tin là kỹ thuật nhúng một lượng thông tin số nào đó vào trong một đối tượng

liệu đa phương tiện. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi

dữ liệu số khác. Một trong những yêu cầu cơ bản của giấu tin là đảm bảo tính

diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc

chất ẩn của thông tin được giấu đồng thời không làm ảnh hưởng đến chất

phòng, kinh tế, thương mại… Và chính trong môi trường mở và tiện nghi như

lượng của dữ liệu gốc.

thế xuất hiện những vấn nạn, tiêu cực đang rất cần đến các giải pháp hữu hiệu
cho vấn đề an toàn thông tin như nạn ăn cắp bản quyền, nạn xuyên tạc thông
tin, truy nhập thông tin trái phép v.v.. Đi tìm giải pháp cho những vấn đề này
không chỉ giúp ta hiểu thêm về công nghệ phức tạp đang phát triển rất nhanh

Sự khác biệt chủ yếu giữa mã hoá thông tin và giấu thông tin là mã hoá
làm cho các thông tin thể hiện là có được mã hoá hay không, còn với giấu
thông tin thì người ta sẽ khó biết được là có thông tin giấu bên trong.

này mà còn đưa ra những cơ hội kinh tế mới cần khám phá. Một trong các
giải pháp nhiều triển vọng là giấu tin, được nghiên cứu phát triển trong
khoảng 10 năm gần đây. Để hiểu rõ về nguồn gốc của thuỷ vân, trước tiên
chúng ta tìm hiểu phương pháp giấu thông tin, thuỷ vân là một thành phần của
phương pháp giấu tin.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 13 

 14 

Thông tin
giấu

1.1.2. Phân loại các kỹ thuật giấu tin
Do kỹ thuật giấu thông tin số mới được hình thành trong thời gian gần

Phương tiện
chứa (audio,
ảnh, video )

Bộ nhúng
thông tin

Phương tiện
chứa đã được
giấu tin


Phân phối

đây nên xu hướng phát triển chưa ổn định. Nhiều phương pháp
mới, theo nhiều khía cạnh khác nhau đang và chắc chắn sẽ được đề xuất, bởi
vậy một định nghĩa chính xác, một sự đánh giá phân loại rõ ràng chưa thể có
được. Sơ đồ phân loại sau đây được Fabien A. P. Petitcolas đề xuất năm 1999.

Khoá

Giấu thông tin
(Information hiding)

Hình 1.1. Sơ đồ biểu diễn quá trình giấu tin
Khoá

Phương tiện
chứa đã được
giấu tin

Phương tiện
chứa (audio,
ảnh, video )

Bộ giải
mã tin

Giấu tin bí mật
(steganography)

Nhúng thuỷ vân

(Watermarking)

Thuỷ vân bền vững
(Robust Copyright marking)

Thuỷ vân “dễ vỡ”
(Fragile Watermarking)

Kiểm
định

Thông tin giấu

Thuỷ vân ẩn
(Imperceptible watermarking)
Hình 1.2. Sơ đồ biểu diễn quá trình giải mã

Thuỷ vân hiện
(Visible watermarking)

Hai sơ đồ trên hình 1.1 và 1.2 biểu diễn quá trình giấu tin và quá trình giải tin.
Hình 1.3. Phân loại kỹ thuật giấu tin

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





 15 

 16 

Dựa trên việc thống kê sắp xếp khoảng 100 công trình đã công bố trên
một số tạp chí, cùng với thông tin về tên và tóm tắt nội dung của khoảng 200

bản quyền, phát hiện xuyên tạc thông tin ... Một số ứng dụng đang được triển
khai:

công trình đã công bố trên Internet, có thể chia lĩnh vực giấu tin ra làm hai

- Bảo vệ bản quyền tác giả (copyright protection): Đây là ứng dụng cơ

hướng lớn, đó là thuỷ vân và giấu tin bí mật. Nếu như thủy vân liên quan đến

bản nhất của kỹ thuật thuỷ vân. Một thông tin nào đó mang ý nghĩa quyền sở

ứng dụng giấu các mẩu tin ngắn nhưng đòi hỏi độ bền vững lớn của thông tin

hữu tác giả (người ta gọi nó là thuỷ vân - watermark) sẽ được nhúng vào

cần giấu (trước các biến đổi thông thường của tệp dữ liệu môi trường) thì giấu

trong các sản phẩm, thuỷ vân đó chỉ người chủ sở hữu hợp pháp các sản phẩm

tin bí mật lại liên quan tới ứng dụng che giấu các bản tin đòi hỏi độ bí mật và


đó có và được dùng làm minh chứng cho bản quyền sản phẩm. Giả sử có một

dung lượng càng lớn càng tốt. Đối với từng hướng lớn này, quá trình phân

thành phẩm dữ liệu dạng đa phương tiện như ảnh, âm thanh, video cần được

loại theo các tiêu chí khác có thể tiếp tục được thực hiện, ví dụ dựa theo ảnh

lưu thông trên mạng. Để bảo vệ các sản phẩm chống lại hành vi lấy cắp hoặc

hưởng các tác động từ bên ngoài có thể chia thuỷ vân thành hai loại, một loại

làm nhái cần phải có một kỹ thuật để “dán tem bản quyền” vào sản phẩm này.

bền vững với các tác động sao chép trái phép, loại thứ hai lại cần tính chất

Việc dán tem hay chính là việc nhúng thuỷ vân cần phải đảm bảo không để lại

hoàn toàn đối lập: dễ bị phá huỷ trước các tác động nói trên. Cũng có thể chia

một ảnh hưởng lớn nào đến việc cảm nhận sản phẩm. Yêu cầu kỹ thuật đối

thuỷ vân theo đặc tính, một loại cần được che giấu để chỉ có một số người tiếp

với ứng dụng này là thuỷ vân phải tồn tại bền vững cùng với sản phẩm, muốn

xúc với nó có thể thấy được thông tin, loại thứ hai đối lập, cần được mọi

bỏ thuỷ vân này mà không được phép của người chủ sở hữu thì chỉ còn cách


người nhìn thấy. Các thành tựu đạt được trong lĩnh vực nghiên cứu này đã bắt

là phá huỷ sản phẩm.

đầu được áp dụng hiệu quả cho mục đích bảo vệ bản quyền, chống sao chép,
phân tán trái phép các sản phẩm trong môi trường số hoá và nhiều mục đích
khác. Nhiều phương pháp giấu thông tin khác nhau đã được đề xuất, mỗi
phương pháp có những ưu điểm, nhược điểm riêng và thích hợp cho một
nhóm ứng dụng nào đó. [3],[11],[12]

- Xác thực thông tin và phát hiện xuyên tạc thông tin (authentication
and tamper detection): Một tập thông tin sẽ được giấu trong phương tiện
chứa, sau đó được sử dụng để nhận biết dữ liệu trên phương tiện gốc có bị
thay đổi hay không. Các thuỷ vân nên được ẩn để tránh sự tò mò của đối
phương, hơn nữa việc làm giả các thuỷ vân hợp lệ hay xuyên tạc thông tin
nguồn cũng cần xem xét.Trong các ứng dụng thực tế, người ta mong muốn

1.1.3. Mục đích của giấu tin
Bảo mật thông tin bằng giấu tin có hai khía cạnh. Một là bảo mật cho

tìm được vị trí bị xuyên tạc cũng như phân biệt được các thay đổi (ví dụ như

dữ liệu được giấu, ví dụ giấu tin mật: thông tin mật được giấu kỹ trong một

phân biệt một đối tượng đa phương tiện chứa thông tin giấu đã bị thay đổi,

đối tượng khác sao cho người khác không phát hiện được. Hai là bảo mật

xuyên tạc nội dung hay chỉ bị nén mất dữ liệu).Yêu cầu chung đối với ứng


chính đối tượng được dùng để giấu dữ liệu vào, chẳng hạn ứng dụng bảo vệ

dụng này là khả năng giấu thông tin cao và thuỷ vân không cần bền vững.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên






 17 

 18 

- Dấu vân tay hay dán nhãn (fingerprinting and labeling): Thuỷ vân

giấu thông tin trong ảnh cũng đóng vai trò quan trọng trong hầu hết các ứng

trong những ứng dụng này được sử dụng để nhận diện người gửi hay người

dụng bảo vệ an toàn thông tin như: xác thực thông tin, xác định xuyên tạc

nhận một thông tin nào đó. Ví dụ các vân khác nhau sẽ được nhúng vào các

thông tin, bảo vệ bản quyền tác giả, điều khiển truy cập, giấu tin bí mật... Do

bản copy khác nhau của thông tin gốc trước khi chuyển cho nhiều người. Với


đó vấn đề này đã nhận được sự quan tâm lớn của các cá nhân, tổ chức, trường

những ứng dụng này, yêu cầu là đảm bảo độ an toàn cao cho các thuỷ vân,

đại học, và viện nghiên cứu trên thế giới.

tránh khả năng xoá dấu vết trong khi phân phối.

Thông tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít

- Điều khiển truy cập (copy control): Các thiết bị phát hiện thuỷ vân (ở

thay đổi và không ai biết được đằng sau ảnh đó mang những thông tin có ý

đây sử dụng phương pháp phát hiện thuỷ vân đã giấu mà không cần thông tin

nghĩa. Ngày nay, khi ảnh số đã được sử dụng phổ biến, giấu thông tin trong

gốc) được gắn sẵn vào trong các hệ thống đọc ghi, tùy thuộc vào việc có thủy

ảnh đã đem lại nhiều những ứng dụng quan trọng trên nhiều lĩnh vực trong

vân hay không để điều khiển (cho phép/cấm) truy cập. Ví dụ hệ thống quản lí

đời sống xã hội. Ví dụ đối với các nước phát triển, chữ kí tay đã được số hoá

sao chép DVD đã được ứng dụng ở Nhật.

và lưu trữ sử dụng như hồ sơ cá nhân của các dịch vụ ngân hàng và tài chính,


- Giấu tin bí mật (steganography): Các thông tin giấu được trong những

nó được dùng để xác thực trong các thẻ tín dụng của người tiêu dùng. Phần

trường hợp này càng nhiều càng tốt. Việc giải mã để nhận được thông tin

mềm WinWord của MicroSoft cũng cho phép người dùng lưu trữ chữ kí trong

cũng không cần phương tiện chứa gốc.[3],[11],[12]

ảnh nhị phân rồi gắn vào vị trí nào đó trong file văn bản để đảm bảo tính an
toàn của thông tin. Tài liệu sau đó được truyền trực tiếp qua máy fax hoặc lưu

1.1.4. Môi trƣờng giấu tin

truyền trên mạng. Theo đó, việc xác thực chữ kí, xác thực thông tin đã trở

Kỹ thuật giấu tin đã được nghiên cứu và áp dụng trong nhiều môi

thành một vấn đề quan trọng khi việc ăn cắp thông tin hay xuyên tạc thông

trường dữ liệu khác nhau như trong dữ liệu đa phương tiện (văn bản, hình

tin bởi các tin tặc đang trở thành một vấn nạn đối với bất kì quốc gia nào, tổ

ảnh, âm thanh, phim ), trong sản phẩm phần mềm và gần đây là những nghiên

chức nào. Hơn nữa có nhiều loại thông tin quan trọng cần được bảo mật như


cứu trên lĩnh vực cơ sở dữ liệu quan hệ. Trong các dữ liệu đó, dữ liệu đa

những thông tin về an ninh, thông tin về bảo hiểm hay các thông tin về tài

phương tiện là môi trường chiếm tỉ lệ chủ yếu trong các kỹ thuật giấu tin.

chính, các thông tin này được số hoá và lưu trữ trong hệ thống máy tính hay
trên mạng. Chúng dễ bị lấy cắp và bị thay đổi bởi các phần mềm chuyên

a. Giấu tin trong ảnh (image)
Giấu thông tin trong ảnh, hiện nay, là một bộ phận chiếm tỉ lệ lớn nhất
trong các chương trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa
phương tiện do lượng thông tin được trao đổi bằng ảnh là rất lớn và hơn nữa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



dụng. Việc xác thực cũng như phát hiện thông tin xuyên tạc đã trở nên vô
cùng quan trọng, cấp thiết. Một đặc điểm của giấu thông tin trong ảnh là
thông tin được giấu trong ảnh một cách vô hình, tương tự cách truyền thông
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 19 

 20 

tin mật cho nhau mà người khác không thể biết được bởi sau khi giấu thông


một đoạn java applet vào một đoạn âm thanh (16 bit, 44.100 Hz) có chiều dài

tin chất lượng ảnh gần như không thay đổi đặc biệt đối với ảnh mầu hay ảnh

bình thường thì các phương pháp nói chung cũng cần ít nhất là 20 bit/s. Giấu

xám. Ví dụ về vụ việc ngày 11-9 gây chấn động nước Mĩ và toàn thế giới,

thông tin trong âm thanh đòi hỏi yêu cầu cao về tính đồng bộ và tính an toàn

chính tên trùm khủng bố quốc tế Osma BinLaDen đã dùng cách thức giấu

của thông tin. Các phương pháp giấu thông tin trong âm thanh đều lợi dụng

thông tin trong ảnh để liên lạc với đồng bọn, và hắn đã qua mặt được cục tình

điểm yếu trong hệ thống thính giác của con người.

báo trung ương Mĩ CIA và các cơ quan an ninh quốc tế. Chắc chắn sau vụ
việc này, việc nghiên cứu các vấn đề liên quan đến giấu thông tin trong ảnh sẽ
rất được quan tâm.

c. Giấu tin trong phim (video)
Cũng giống như giấu thông tin trong ảnh hay trong âm thanh, giấu tin
trong phim cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng

b. Giấu tin trong âm thanh(audio)

dụng như điều khiển truy cập thông tin, xác thực thông tin và bảo vệ bản


Giấu thông tin trong âm thanh mang những đặc điểm riêng khác với

quyền tác giả. Ví dụ các hệ thống chương trình trả tiền xem theo đoạn với các

giấu thông tin trong các đối tượng đa phương tiện khác. Một trong những yêu

đoạn phim (pay per view application). Các kỹ thuật giấu tin trong phim cũng

cầu cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng

được phát triển mạnh mẽ và cũng theo hai khuynh hướng là thuỷ vân số và

thời không làm ảnh hưởng đến chất lượng của dữ liệu gốc. Để đảm bảo yêu

giấu thông tin. Nhưng phần này chỉ quan tâm tới các kỹ thuật giấu tin trong

cầu này, kỹ thuật giấu thông tin trong ảnh phụ thuộc vào hệ thống thị giác của

phim. Một phương pháp giấu tin trong phim được Cox đưa ra là phương pháp

con người - HVS còn kỹ thuật giấu thông tin trong âm thanh lại phụ thuộc vào

phân bố đều. Ý tưởng cơ bản của phương pháp là phân phối thông tin giấu

hệ thống thính giác - HAS. Một vấn đề khó khăn là hệ thống thính giác của

dàn trải theo tần số của dữ liệu gốc. Nhiều nhà nghiên cứu đã dùng những

con người nghe được các tín hiệu ở các dải tần rộng và công suất lớn nên đã


hàm cosin riêng và các hệ số truyền sóng riêng để giấu tin. Trong các thuật

gây khó khăn đối với các phương pháp giấu tin trong âm thanh. Nhưng hệ

toán đầu tiên thường các kỹ thuật cho phép giấu các ảnh vào trong phim

thống thính giác của con người lại kém trong việc phát hiện sự khác biệt các

nhưng thời gian gần đây các kỹ thuật cho phép giấu cả âm thanh và hình ảnh

dải tần và công suất, điều này có nghĩa là các âm thanh to, cao tần có thể che

vào phim. Ví dụ Swanson đã sử dụng phương pháp giấu theo khối, phương

giấu được các âm thanh nhỏ thấp một cách dễ dàng. Các mô hình phân tích

pháp này đã giấu được hai bít vào khối 8*8. Hay gần đây nhất là phương pháp

tâm lí đã chỉ ra điểm yếu trên và thông tin này sẽ giúp ích cho việc chọn các

của Mukherjee là kỹ thuật giấu âm thanh vào phim sử dụng cấu trúc lưới đa

âm thanh thích hợp cho việc giấu tin. Vấn đề khó khăn thứ hai đối với giấu

chiều...

thông tin trong âm thanh là kênh truyền tin. Kênh truyền hay băng thông

Giấu tin là một công nghệ mới phức tạp, đang được các nhà khoa học


chậm sẽ ảnh hưởng đến chất lượng thông tin sau khi giấu. Ví dụ để nhúng

tập trung nghiên cứu ở nhiều nước trên thế giới như Đức, Mỹ, ý, Canada,

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 21 

 22 

Nhật Bản…Tuy nhiên, những kết quả thực nghiệm cho thấy để có thể ứng

Đến năm 1995, chủ đề này mới bắt đầu được quan tâm và từ đó, nhúng thủy

dụng thực tế thì lĩnh vực này cần phải có thêm thời gian để nghiên cứu thẩm

vân số đã phát triển tốc độ nhanh với nhiều hướng nghiên cứu và phương

định nhưng các nhà khoa học cũng khẳng định rằng đây là một công nghệ mới

pháp thực hiện khác nhau. Nhúng thủy vân được ứng dụng trong nhiều lĩnh


đầy hứa hẹn cho vấn đề an toàn và bảo mật thông tin. Công việc hiện nay của

vực như bảo vệ quyền sở hữu, điều khiển việc sao chép, xác nhận giấy tờ, hay

các nhà khoa học là đang tập trung xây dựng một hệ thống lí thuyết chính xác

truyền đạt thông tin khác, …trong đó ứng dụng phổ biến là cung cấp bằng

cho vấn đề giấu tin, đây là một mảnh đất mới cho các nhà khoa học khám phá.

chứng về bản quyền tác giả của các dữ liệu số bằng cách nhúng các thông tin

Một trong những kỹ thuật quan trọng của giấu tin đang được rất nhiều các nhà

bản quyền.

khoa học quan tâm và phát triển nhất, đó là kỹ thuật thuỷ vân (watermark).
[3], [11], [12]

1.2. Cơ sở lý thuyết về thuỷ vân

1.2.3. Mô hình hệ thống tổng quát quá trình nhúng và khôi phục thuỷ
vân
Thuỷ vân

1.2.1. Khái niệm thuỷ vân và nhúng thuỷ vân
- Thuỷ vân là một tín hiệu bảo mật và không nhận biết, được nhúng vào dữ
liệu gốc để truyền dữ liệu đã nhúng đi.[9]
- Nhúng thủy vân (watermarking) là một trong những kỹ thuật giấu dữ liệu
hiện đại, là quá trình chèn thông tin vào dữ liệu đa phương tiện nhưng bảo


Dữ liệu
bao phủ

Dữ liệu
nhúng

Mã cá nhân /
công cộng

đảm không nhận biết được, nghĩa là chỉ làm thay đổi nhỏ dữ liệu gốc. Thông
thường người ta chỉ đề cập đến nhúng thủy vân số. Một tập các dữ liệu số thứ

Hình 1.4. Sơ đồ nhúng thuỷ vân

cấp - gọi là mã đánh dấu bản quyền hay thủy vân (watermark), được nhúng
vào dữ liệu số sơ cấp - gọi là dữ liệu bao phủ (ví dụ như văn bản, hình ảnh,

Thuỷ vân

âm thanh và phim số, ...). Dữ liệu sau quá trình nhúng được gọi là dữ liệu
Dữ liệu
nhúng

nhúng.[10], [12], [13]
1.2.2. Lịch sử phát triển của thuỷ vân
Tanaka (1990), Caronni và Tirkel (1993) lần lượt đưa ra những ấn bản

Quyết định
thuỷ vân


Mã cá nhân
/ công cộng

đầu tiên về nhúng thủy vân nhưng chưa nhận được sự quan tâm đúng mức.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 23 

 24 

− Các khoá và bảo mật thủy vân.

Hình 1.5. Sơ đồ khôi phục thuỷ vân
Tất cả các phương pháp nhúng thủy vân đều có chung các khối sau:

1.2.4. Một số ứng dụng của thuỷ vân
Một ứng dụng phổ biến của kỹ thuật thuỷ vân là đưa ra một bằng chứng

một hệ thống nhúng thủy vân và một hệ thống khôi phục thủy vân. [9], [10],

về quyền sở hữu đối với dữ liệu số bằng cách nhúng dấu hiệu mang tính bản


[12], [13]

quyền vào phim hoặc các sản phẩm ảnh số.

Hình 1.4. trình bày quá trình nhúng thủy vân tổng quát. Đầu vào là thủy
vân, dữ liệu cần nhúng và mã cá nhân hay công cộng. Thủy vân có thể ở bất
kì dạng nào như chữ số, văn bản hay hình ảnh. Khoá có thể được dùng để

Ngoài ra, còn có những ứng dụng khác :
-

Tự động điều khiển và tự hiệu chỉnh sao chép tài liệu trên Web. Ví

tăng cường tính bảo mật, nghĩa là ngăn chặn những người không có bản

dụ một robot tìm web để đánh dấu vào tài liệu và từ đó nhận dạng

quyền khôi phục hay phá hủy thủy vân. Các hệ thống thực tế dùng ít nhất là

sản phẩm bất hợp pháp.

một khoá, thậm chí kết hợp nhiều khoá. Đầu ra là dữ liệu đã được nhúng thủy

-

Tự động kiểm tra việc truyền nhận sóng vô tuyến. Ví dụ một robot
có thể “nghe” một trạm thu phát sóng radio và tìm kiếm những dấu

vân.


hiệu để biểu thị một phần cụ thể của bản nhạc hoặc lời quảng cáo

Quá trình khôi phục thủy vân tổng quát được cho ở hình 1.5. Đầu vào

vừa được phát ra.

là dữ liệu đã nhúng thủy vân, khoá và dữ liệu gốc (có thể có hoặc không tuỳ
thuộc vào phương pháp). Đầu ra hoặc là thủy vân khôi phục được hoặc đại

-

lượng nào đó chỉ ra mối tương quan giữa nó và thủy vân cho trước ở đầu vào.
Phụ thuộc vào mục đích và ứng dụng mà các yêu cầu của hệ thống
nhúng thủy vân được đặt ra. Với các hệ thống thực tế, chúng đòi hỏi các yêu

Việc mở rộng dữ liệu- để thêm thông tin mang lại lợi ích một cách
công khai.

-

Ứng dụng trong lấy dấu vân tay (cho phép nhận dạng dữ liệu đã
phân tán).

cầu sau:
− Tính không nhận biết: các điều chỉnh gây ra do nhúng thủy vân phải
thấp hơn ngưỡng cảm thụ, nghĩa là các mẫu dùng trong nhúng thủy vân chỉ
được phép thay đổi nhỏ.
− Tính bền vững: đây là một yêu cầu nòng cốt của nhúng thủy vân.
− Khôi phục thủy vân cần hoặc không cần dữ liệu gốc.
− Trích thủy vân hay kiểm chứng sự tồn tại của thủy vân.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 25 

 26 

Trái lại, vấn đề thuỷ vân dữ liệu quan hệ đã không nhận được sự chú ý

Chƣơng 2-

THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
DỰA TRÊN KỸ THUẬT TỐI ƢU HOÁ
ÁP DỤNG THUẬT TOÁN TÌM KIẾM THEO MẪU

thích đáng. Tuy nhiên, có nhiều ngữ cảnh ứng dụng trong đó dữ liệu trở nên
một tài sản quan trọng, vì vậy vấn đề về quyền sở hữu phải được thực thi một
cách cẩn thận. Ví dụ dữ liệu về thời tiết, dữ liệu về thị trường chứng khoán,
dữ liệu về hành vi của khách hàng, dữ liệu y học và khoa học. Việc nhúng
thuỷ vân vào dữ liệu quan hệ có thể thực hiện được bởi trong thực tế, các dữ

2.1. Giới thiệu về thuỷ vân cơ sở dữ liệu (database watermarking)
Tốc độ phát triển nhanh của Internet và các công nghệ có liên quan đã
đưa đến một tiềm năng chưa từng có đối với việc truy cập và phân phối lại

các sản phẩm kỹ thuật số. Trong bối cảnh như vậy, việc thực thi quyền sở hữu
dữ liệu là một yêu cầu quan trọng đòi hỏi các giải pháp đồng bộ, bao gồm các
khía cạnh về kỹ thuật, về tổ chức, và cả luật pháp. Mặc dù vẫn chưa có được
những giải pháp toàn diện như vậy nhưng trong các năm gần đây, các kỹ thuật

liệu thật có thể chấp nhận một dung sai nhỏ mà vẫn không ảnh hưởng đáng
kể đến giá trị sử dụng của chúng.
Cho đến nay, mới có một vài cách tiếp cận đối với bài toán thuỷ vân dữ
liệu quan hệ được đề xuất. Tuy nhiên, những kỹ thuật này không bền vững
đối với các tấn công thủy vân. Đề tài này trình bày một kỹ thuật thuỷ vân cơ
sở dữ liệu quan hệ có độ bền vững cao so với các kỹ thuật khác. Kỹ thuật này
bền vững đối với các tấn công xoá, sửa và chèn các bản ghi. [1], [2], [8],[9]

thuỷ vân đã đóng vai trò quyết định nhằm giải quyết vấn đề về quyền sở hữu
này. Những kỹ thuật như vậy cho phép người chủ dữ liệu có thể nhúng một
thuỷ vân ẩn vào dữ liệu. Một thuỷ vân thường mô tả những thông tin có thể
được dùng để chứng minh quyền sở hữu dữ liệu, chẳng hạn như tên chủ sở
hữu, nguồn gốc, hoặc người tiếp nhận nội dung này. Việc nhúng thông tin an
toàn đòi hỏi thuỷ vân được nhúng trong dữ liệu không thể bị làm giả mạo
hoặc bị tẩy xoá một cách dễ dàng. Nhúng ẩn có nghĩa là thuỷ vân không thể
nhìn thấy được trong dữ liệu. Hơn nữa, việc phát hiện thuỷ vân được thực
hiện theo phương pháp mù, tức là không đòi hỏi dữ liệu gốc cũng như thuỷ
vân gốc. Đã có một số kỹ thuật thuỷ vân được phát triển để nhúng thủy vân
phim, âm thanh, ảnh và dữ liệu văn bản.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





 27 

 28 

Bước 1: Phân hoạch dữ liệu: dùng khoá bí mật KS , bộ dữ liệu D

2.2. Mô hình chi tiết hệ thống thuỷ vân cơ sở dữ liệu

được chia thành m phần {So , . . . , Sm-1 } không giao nhau.

Kỹ thuật tối ưu gồm hai quá trình, quá trình mã hoá và giải mã thuỷ vân.

Bước 2: Nhúng thuỷ vân: Một bít thuỷ vân được nhúng vào mỗi

Sơ đồ khối tóm tắt các thành phần chính của mô hình hệ thống thuỷ vân

phần bằng cách thay đổi các thống kê phân hoạch trong khi vẫn thỏa mãn các

như sau:

ràng buộc sử dụng trong bộ G. Sự thay đổi này được thực hiện bằng cách giải

KS

bài toán tối ưu hoá có ràng buộc.


W

D

Bước 3: Đánh giá ngưỡng tối ưu: các thống kê bit nhúng được sử

Phân
hoạch dữ
liệu

S o ,....., S m1 

Nhúng
thuỷ
vân

Dw

Kênh
truyền

D’w

Phân
hoạch dữ
liệu

S 'o ,....., S ' m1 

dụng để tính toán ngưỡng tối ưu T* - ngưỡng làm cực tiểu hoá khả năng (

Giải

ngƣỡng

xác suất ) xảy ra lỗi giải mã.
Bộ dữ liệu đã nhúng thuỷ vân DW được chuyển đi qua các kênh truyền
và do đó có thể chịu những tấn công có chủ đích hoặc không có chủ đích

G
Đánh giá
ngƣỡng tối
ƣu

Bầu chọn
theo đa
số

T*

W’

nhằm phá huỷ thông tin thuỷ vân. Chú ý rằng những tấn công có chủ đích có
thể được thực hiện mà không cần bất cứ sự hiểu biết gì về khoá bí mật KS
hoặc bộ dữ liệu D.
Giải mã thuỷ vân là quá trình lấy ra thuỷ vân đã nhúng từ bộ dữ liệu đã

Hình 2.1: Các thời kỳ mã hoá và giải mã thuỷ vân.
Một bộ dữ liệu D được biến đổi thành bộ dữ liệu đã thuỷ vân DW bằng
cách dùng hàm mã hoá thuỷ vân, đầu vào khoá bí mật KS chỉ được người chủ
sở hữu biết, và một thuỷ vân W. Thuỷ vân làm thay đổi dữ liệu. Tuy nhiên,


nhúng thuỷ vân DW, sử dụng khoá bí mật KS và ngưỡng tối ưu T*. Thuật toán
giải mã này không rõ ràng bởi bộ dữ liệu gốc D không yêu cầu giải mã thành
công thuỷ vân đã nhúng.
Quá trình giải mã thuỷ vân được chia thành ba bước chính sau:

những thay đổi này được kiểm soát bằng cách sử dụng tập các ràng buộc thích
hợp tham chiếu đến tập G. Các ràng buộc này giới hạn lượng thay đổi để có
thể thực hiện trên dữ liệu.

Bước 1: Phân hoạch bộ dữ liệu: sử dụng thuật toán phân hoạch dữ
liệu đã dùng trong phần mã hoá trên, sinh ra các phân vùng dữ liệu.
Bước 2: Giải mã ngưỡng: Các thống kê của mỗi phân vùng được

Quá trình mã hoá thuỷ vân gồm ba bước chính sau:

đánh giá và bit đã nhúng được giải mã bằng cách dùng lược đồ giải mã
ngưỡng dựa trên ngưỡng tối ưu T*.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 29 


 30 

Bước 3: Bầu chọn theo đa số: Các bit thuỷ vân được giải mã sử
dụng kỹ thuật bầu chọn theo đa số.

vùng. Hơn nữa, kẻ tấn công không thể đoán được các bản ghi đã được đưa
vào phân vùng nào nếu không biết rõ về khoá bí mật K S và số phân vùng dữ

Tiếp theo sẽ trình bày chi tiết các kỹ thuật, các thuật toán cho quá trình

liệu đã phân hoạch m được giữ bí mật. Không nhất thiết phải giữ bí mật m .
Tuy nhiên, việc giữ bí mật có thể gây khó khăn hơn cho kẻ tấn công muốn tái

mã hoá và giải mã thuỷ vân.[9]

lập các phần đó.

2.3. Phân hoạch dữ liệu
Thuật toán phân hoạch dữ liệu phân chia bộ dữ liệu thành các phần, các
tập hợp con dựa vào khoá bí mật KS .

Thuật toán phân hoạch dữ liệu được mô tả như sau:
Thuật toán: get_partitions

Bộ dữ liệu D là một cơ sở dữ liệu quan hệ với lược đồ D( P, A0 ,..., A 1 )
trong đó P là thuộc tính khoá chính, A0 ,..., A 1 là  thuộc tính dùng để nhúng

Đầu vào: bộ dữ liệu D , khoá bí mật K S , số phân vùng m
Đầu ra: Các phân vùng dữ liệu S 0 ,..., S m1


thuỷ vân và D là số bản ghi trong D .

1.

S 0 ,..., S m 1  {}

bản ghi từ bộ dữ liệu D . Các phần

2.

for each bản ghi r  D

không giao nhau, tức là, với hai phần bất kỳ S i và S j mà i  j thì S i  S j   .

3.

partition(r )  H ( K S || H (r.P || K S )) mod m

Với mỗi bản ghi r  D , thuật toán phân hoạch dữ liệu tính toán mã xác

4.

chèn r vào S partition(r )

Bộ dữ liệu D được chia thành m phần không giao nhau S 0 ,..., S m 1 , sao
cho mỗi phần S i chứa trung bình

D
m


thực thông tin ( MAC ) để đảm bảo an toàn và mã này được cho bởi hàm
H ( K S || H (r.P || K S )) , trong đó r.P là khoá chính của bản ghi r , H 

 là hàm

băm an toàn và || là toán tử nối. Sử dụng MAC đã tính, các bản ghi được đưa
vào các phân vùng. Với bản ghi r , phân vùng tương ứng được tính như sau:

return S 0 ,..., S m1

Mặc dù hầu hết các dữ liệu quan hệ đều có khóa chính, kỹ thuật này có
thể được mở rộng để xử lý trường hợp khi dữ liệu quan hệ không có khoá
chính. Giả sử quan hệ thuộc tính đơn,

partition(r )  H ( K S || H (r.P || K S )) mod m



bit ý nghĩa nhất ( MSB ) của dữ liệu

có thể được dùng để thay thế cho khoá chính. Việc sử dụng MSB cho việc

Sử dụng đặc tính này của hàm băm để phân phối các bản ghi đồng đều
vào các phân vùng, kỹ thuật phân hoạch này chia trung bình
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5.

D
m


vào mỗi phân



nhúng thủy vân sẽ không làm thay đổi
quá nhiều bản ghi chia sẻ cùng



bit ý nghĩa nhất này. Tuy nhiên, nếu

 bít MSB có thể cho phép kẻ tấn công suy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 31 

 32 

luận được thông tin về sự phân phối trong các phần dữ liệu. Trường hợp quan

2.4. Nhúng thuỷ vân

hệ đa thuộc tính, sử dụng các thuộc tính nhận biết thay vì sử dụng khoá chính;

Thuật toán nhúng thuỷ vân bằng cách mã hoá bit có thể coi như một bài


ví dụ dữ liệu y học, ta có thể sử dụng tên đầy đủ của bệnh nhân, địa chỉ bệnh

toán tối ưu có ràng buộc. Ở đây, thuật toán tìm kiếm theo mẫu được sử dụng

nhân, ngày tháng năm sinh của bệnh nhân.

để giải bài toán tối ưu. Việc sử dụng thuật toán tối ưu được quyết định tuỳ
thuộc thời điểm ứng dụng và các yêu cầu tính toán.

Ký hiệu

Ý nghĩa

m

Số phân vùng

đơn. Trong trường hợp này, mỗi phần S i có thể được biểu diễn bằng một



Kích thước nhỏ nhất của một phân vùng

véctơ dữ liệu số S i  [si1 ,..., sin ]   n .

W

Chuỗi bit thuỷ vân {bl-1,…,b0}


2.4.1 Mã hoá bít đơn

l

Chiều dài của chuỗi bit thuỷ vân

Cho bít thuỷ vân bi , và véctơ dữ liệu số S i  [si1 ,..., sin ]   n .

Xmax

Các thống kê nhúng thuỷ vân cực đại

Thuật toán mã hoá bít ánh xạ vectơ dữ liệu S i thành vectơ dữ liệu mới

Xmin

Các thống kê nhúng thuỷ vân cực tiểu

SiW  S i   i , trong đó  i  [ i1 ,...,  in ]  n là vectơ thao tác. Các thao tác bị

Si

Phân vùng dữ liệu thứ i

|Si|, n

Độ dài của vector Si

Ks


Khoá bí mật

T*

Ngưỡng giải mã tối ưu

Gi

Ràng buộc thứ i

rằng khi hàm giấu được áp dụng cho S i   i thì chỉ vectơ thao tác  i là biến,

i

Vector thao tác trong Rn

trong khi S i và  là các hằng số.

Để đơn giản, giả sử các bản ghi trong phân vùng S i chứa thuộc tính số

hạn chế bởi các ràng buộc trong bộ Gi  g i1 ,..., g ip . Việc mã hoá này dựa trên
hàm mã hoá tối ưu gọi là hàm giấu được định nghĩa như sau:
Hàm giấu   : n   , với  là tập hợp các tham số bí mật do người
chủ sở hữu dữ liệu đưa ra.
Tập hợp  có thể được xem như là một phần của khoá bí mật. Chú ý

Để mã hoá bit bi vào trong tập S i , thuật toán mã hoá bít sẽ làm tối ưu
hóa hàm hàm giấu  (Si   i ) . Bài toán tối ưu hóa sẽ là bài toán cực đại hoặc
Hình 2.2. Bảng biểu diễn các ký hiệu sử dụng trong thuật toán
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




cực tiểu hàm giấu tùy thuộc vào bit bi :
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 33 

 34 

Nếu bít bi =1 thì thuật toán mã hoá bit thực hiện giải bài toán cực đại
hoá:

5. else
6. Minimize (  (Si   i ) ) thỏa mãn ràng buộc Gi

max
i

 ( S i   i )

thoả mãn ràng buộc Gi

7. Chèn  (S i   i *) vào Xmin

Nếu bít bi =0 thì bài toán đơn giản được chuyển thành bài toán cực tiểu
8. return Si   i


hóa.
Giải pháp cho bài toán tối ưu hoá sinh ra vectơ thao tác  i để

*

*

 ( S i   i *) tối ưu. Khi đó, bộ dữ liệu mới S

W
i

 Si   i * .

Thuật toán mã hóa bít nhúng bít bi vào phần S i nếu S i   .

Việc cực đại hoá

cho bi =1 và cực tiểu hoá cho bi =0, đảm bảo rằng các giá trị của hàm

Giá trị của  là kích thước cực tiểu của phân vùng.

 ( S i   i *) sinh ra trong cả hai trường hợp được đặt ở vị trí có khoảng cách

Việc cực đại hoá và cực tiểu hoá trong thuật toán mã hoá bít làm tối ưu

lớn nhất và do đó làm cho bít được chèn bền vững hơn đối với các tấn công,

hoá hàm giấu  (S i   i *) thoả mãn các ràng buộc trong Gi . Các thống kê cực


đặc biệt là các tấn công thay đổi dữ liệu.

đại hoá và cực tiểu hoá được ghi lại cho mỗi bước mã hoá trong X max , X min

Thuật toán mã hoá bít đơn được mô tả như sau:

tương ứng như đã được chỉ ra trong các dòng 4 và 7 của thuật toán mã hoá.
Các thống kê này được dùng để tính toán các tham số giải mã tối ưu.

Thuật toán: encode_single_ bit
Đầu vào: Tập dữ liệu Si, Bit bi, Tập ràng buộc Gi, Tập tham số bí mật  ,

được thực hiện trên các phần tử của S i . Các ràng buộc mô tả không gian khả

Các tập thống kê Xmax, Xmin
Đầu ra: Tập dữ liệu Si   i

Tập hợp các ràng buộc Gi biểu diễn giới hạn thay đổi cho phép có thể

thi cho vectơ thao tác  i với mỗi bước mã hoá bit tùy thuộc vào từng ứng

*

dụng và dữ liệu. Các ràng buộc này tương tự với các ràng buộc được thực

1. If ( ( Si   ) then return Si

hiện trên các thuật toán nhúng thuỷ vân cho âm thanh, hình ảnh, và phim với
yêu cầu chủ yếu là thuỷ vân không thể phát hiện được bằng hệ thống nghe


2. If (b==1) then

nhìn của con người.

3. Maximize (  (Si   i ) ) thỏa mãn ràng buộc Gi

Ví dụ: Các ràng buộc phạm vi có thể được dùng để kiểm soát sự thay
đổi của  ij , tức là:

4. Chèn  (S i   i *) vào Xmax
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 35 

 36 

Hàm giấu  c được định nghĩa là số đầu vào tail đã chuẩn hoá bằng độ

min
  ij  max
ij
ij


Kiểu ràng buộc khác có thể yêu cầu bộ dữ liệu đã thuỷ vân duy trì các

dài của S i , cũng như tail count được chuẩn hoá. Hàm này được tính như sau:

thống kê nào đó. Ví dụ, trung bình bộ dữ liệu sinh ra bằng trung bình bộ dữ

 c (S i   i ) 

liệu gốc, khi đó ràng buộc có dạng:
n


j 1

trong đó :

0

ij

Một vài ràng buộc khác có thể được tạo ra phụ thuộc vào các yêu cầu

1 n
1{s  ref }
n j 1 ij ij

n là độ dài của S i
1{} là hàm chỉ được định nghĩa như sau:


ứng dụng. Các ràng buộc này được xử lý bằng thuật toán mã hoá bít dùng các
kỹ thuật tối ưu hoá có ràng buộc.
Hàm giấu được sử dụng ở đây phụ thuộc vào các thống kê dữ liệu. Các
W
giá trị trung bình và phương sai của bộ dữ liệu mới S i  S i   i tương ứng là

 ( S   ) và  (2S   ) ; gọi tắt là
i

i

i

i

Chú ý rằng tham chiếu ref phụ thuộc vào cả  và  , có nghĩa là nó

 và  2 .

không cố định và thay đổi theo các thống kê S i   i . Tail count  c ( S i   i )
được chuẩn hoá phụ thuộc vào phân phối của S i   i và tham chiếu động.

Hình 2.3: Phân phối của tập S i   i trên trục số và các đầu vào tail
được khoanh tròn.
Điểm tham chiếu :

Hàm mục tiêu  c ( S i   i ) là hàm phi tuyến và không khả vi, do đó bài
toán tối ưu hoá trở nên gần với bài toán tối ưu hoá có ràng buộc phi tuyến.
Các phương pháp tiếp cận truyền thống dựa vào độ dốc (gradient) không thể


ref    c   ,

trong đó c  (0,1) là một số thực bí

áp dụng được cho những bài toán như thế này. Có hai kỹ thuật để giải bài toán
tối ưu hóa này là thuật toán di truyền và kỹ thuật tìm kiếm theo mẫu. Luận

mật, một phần của tập  .

văn này sử dụng kỹ thuật tìm kiếm theo mẫu. Việc giải bài toán tối ưu hoá
Các điểm dữ liệu trong S i   i ở trên ref như là các đầu vào “tail” được
mô tả trong hình 2.3.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

này không nhất thiết phải tìm ra lời giải toàn cục bởi vì việc tìm ra lời giải
như thế này có thể đòi hỏi một lượng tính toán rất lớn. Mục đích chính ở đây



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 37 

 38 

là tìm ra lời giải gần tối ưu đảm bảo các giá trị cực tiểu hoá hàm  c ( S i   i )


1 n
ˆ c ( S i   i )   Sigmoid( f ,ref ) ( sij   ij )
n j 1

và cực đại hoá hàm  c ( S i   i ) cách xa nhau.
Thuật toán di truyền được dùng định rõ tổng thể các lời giải tối ưu bằng

trong đó

Sigmoid( , ) ( x) là hàm sigmoid (xích ma) với các tham số

( , ) .

thời điểm xử lý, trong khi tìm kiếm theo mẫu được dùng để cung cấp một lời

Sigmoid( , ) ( x) = 1 

giải tối ưu cục bộ không theo thời gian xử lý

2.4.2. Thuật toán tìm kiếm theo mẫu
Thuật toán di truyền không tìm ra được tối ưu cục bộ, tuy nhiên thuật

Với   0 ,   {1,2,8} , hàm

1
1  e ( x  )

Sigmoid( , ) ( x) có dạng như sau:

toán di truyền yêu cầu một số lượng lớn hàm đánh giá tập trung thành tối ưu

toàn cục. Do vậy, giải thuật di truyền được sử dụng chỉ khi thời gian xử lý
không yêu cầu chính xác và thuỷ vân được thực hiện độc lập. Kỹ thuật tìm
kiếm theo mẫu cho phép thực hiện nhanh hơn.
Các phương pháp tìm kiếm theo mẫu là một lớp các phương pháp tìm
kiếm trực tiếp cho quá trình tối ưu hoá phi tuyến. Các phương pháp tìm kiếm
theo mẫu này đã được sử dụng rộng rãi bởi tính đơn giản và tính thực tế của
chúng.
Tìm kiếm theo mẫu bắt đầu tại điểm ban đầu và thử hàm mục tiêu tại
mẫu các điểm đã định trước xoay quanh điểm với mục tiêu tạo ra thế mới tốt
hơn. Sự di chuyển này tương tự việc di chuyển thăm dò. Nếu thử thành công
(tức là tạo ra một thế mới tốt hơn), do vậy quá trình này được lặp lại với mẫu
xoay quanh điểm mới tốt nhất. Trái lại, kích cỡ của mẫu thử sẽ giảm và hàm
mục tiêu được thử lại với điểm hiện tại này.

Hình 2.4. Biểu diễn Sigmoid(α,τ ) tại τ = 0 và α = {1, 2, 8}.
Các ràng buộc có thể được xử lý nhờ các kỹ thuật trước đó. Tuy nhiên,

Để cải thiện việc thực hiện việc tìm kiếm theo mẫu, hàm mục tiêu
 c ( S i   i ) được xấp xỉ bằng các hàm sigmoid trơn như sau:

việc tìm kiếm theo mẫu có thể xử lý các ràng buộc bằng cách hạn chế việc di
chuyển thăm dò chỉ theo các hướng không gian khả thi; do đó đảm bảo giải
pháp được sinh ra là khả thi. Hoạt động có hệ thống của việc tìm kiếm theo

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





 39 

 40 

mẫu và kích cỡ mẫu dễ thích nghi dẫn đến sự hội tụ đến các giải pháp tối ưu
khả thi nhanh hơn. Tuy nhiên, việc tìm kiếm theo mẫu không đảm bảo tìm ra
tối ưu toàn bộ. Vấn đề này có thể được khắc phục bằng cách bắt đầu thuật

4. i  k mod l
5. Skw  encode_single_bit (bi, Sk, c, Xmax, Xmin)

toán từ các điểm khả thi đầu tiên khác nhau.

6. Chèn Skw vào Dw

2.4.3. Thuật toán nhúng thuỷ vân

7. T*  get_optimal_thershold(Xmax, Xmin)

Thuỷ vân là một bộ l bít W=bl-1, . . . , b0 được nhúng vào các phần dữ
liệu S 0 ,..., S m 1 .
Để việc nhúng thuỷ vân được nhiều lần trong bộ dữ liệu, độ dài thuỷ
vân l được chọn sao cho: l  m .

8. return Dw, T*
Thuật toán nhúng thuỷ vân sẽ sinh ra các phần S 0 ,..., S m 1  bằng cách
gọi hàm get _ partitions, sau đó với mỗi phần S k bít thuỷ vân bi được mã hoá

bằng cách sử dụng thuật toán mã hoá bít đơn (encode_single_bit). Phần thay

Thuật toán nhúng thuỷ vân sẽ nhúng bít bi vào phần S k sao cho
m
k mod l  i . Kỹ thuật này đảm bảo mỗi bít thuỷ vân được nhúng   lần trong
l 

đổi sinh ra S kW được chèn vào bộ dữ liệu đã nhúng thuỷ vân.
Các thống kê ( X max , X min ) thu được sau mỗi bít nhúng và được sử dụng
bằng thuật toán get_optimal_threshold để tính toán ngưỡng giải mã tối ưu.

bộ dữ liệu D .
Thuật toán nhúng thuỷ vân được mô tả như sau:

2.5. Đánh giá ngƣỡng giải mã
Trong phần trước, ta đã tìm hiểu kỹ thuật mã hoá bít. Nhúng bit thuỷ

Thuật toán: embed_watermark
Đầu vào: Tập dữ liệu D, Khóa bí mật K, Số phân vùng m, Thủy vân
W={b0, …bi-1}

vân bi ở Si sinh ra S iW . Trong phần này, ta sẽ tìm hiểu kỹ thuật giải mã bít –
kỹ thuật được dùng để lấy ra bít thuỷ vân đã nhúng bi từ phần S iW

.

Kỹ thuật giải mã bít dựa trên ngưỡng tối ưu T* để làm cực tiểu hoá xác
Đầu ra: Tập dữ liệu đã nhúng thủy vân DW, Ngưỡng giải mã tối ưu T*
1. Dw, Xmax, Xmin  {}


Với phần dữ liệu S iW , kỹ thuật giải mã bít sẽ tính toán hàm giấu   ( S iW )

2. S0, …,Sm-1  get_partitions(D, Ks, m)

và so sánh với ngưỡng giải mã tối ưu T* để giải mã bít đã nhúng bi .

3. for each Phân vùng Sk
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

suất lỗi giải mã.

Nếu   ( S iW ) >T* bít giải mã là 1, ngược lại bít giải mã là 0.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 41 

 42 

Ví dụ: sử dụng hàm giấu đã được mô tả ở phần trước, kỹ thuật giải mã
tính toán tail count đã chuẩn hoá của S
ref và đếm số đầu vào trong S

W
i


W
i

= P(bd  0 | be  1) P1  P(bd  1 | be  0) P0

bằng cách tính giá trị tham chiếu

= P( x  T | be  1) P1  P( x  T | be  0) P0

lớn hơn ref . Sau đó, tail count đã chuẩn hoá

được so sánh với T* được thể hiện trong hình 2.5. Giá trị của ngưỡng T* nên

T





T

= P1  f ( x | be  1)dx  P0  f ( x | be  0)dx

được tính toán cẩn thận để làm cực tiểu hoá xác suất lỗi giải mã bít.

Để cực tiểu hoá xác suất lỗi giải mã ( Perr ) đối với ngưỡng T, ta lấy đạo
hàm cấp một của Perr đối với T để xác định ngưỡng tối ưu T*, như sau:
Hình 2.5. Lược đồ ngưỡng giải mã
Xác suất lỗi giải mã bít được định nghĩa là xác suất bit nhúng được giải


Perr

 P1
T
T

giấu tail count; các giá trị hàm giấu đã tối ưu hoá này sẽ được tính trong giai
đoạn mã hoá để tính ngưỡng tối ưu T*. Các giá trị hàm giấu cực đại hoá
tương ứng với bi =1 được lưu trong tập X max . Tương tự, các giá trị hàm giấu

T



f ( x | be  1)dx  P0


T





T

f ( x | be  0)dx

 P1 f (T | be  1)  P0 f (T | be  0)

mã sai. Ngưỡng giải mã tối ưu T* được chọn để làm cực tiểu hoá xác suất lỗi

giải mã. Giai đoạn nhúng bít dựa trên việc cực tiểu hoá hoặc cực đại hoá hàm



Các hàm f ( x | be  0) và f ( x | be  1) được đánh giá từ các thống kê X min
và X max tương ứng. Qua các thực nghiệm về X min và X max , ta thấy các phân
phối f ( x | be  0) và f ( x | be  1) có thể được đánh giá như các phân phối
Gaussian N (  0 ,  0 ) và N (1 ,  1 ) . Tuy nhiên, phân tích sau đây có thể tiếp tục

cực tiểu hoá được lưu trữ trong X min .

được sử dụng với các kiểu phân phối khác.
Gọi Perr , P0 và P1 tương ứng là xác suất lỗi giải mã, xác suất bit mã hóa
P0 có thể được đánh giá bằng

là 0 và xác suất bit mã hóa là 1.
Cho be , bd , và f (x) tương ứng là bit mã hoá, bit giải mã, và hàm mật độ

| X min |
,
| X max |  | X min |

P1  1  P0 .

xác suất.
Thay thế các biểu thức Gaussian cho f ( x | be  0) và f ( x | be  1) , thì đạo

Khi đó, Perr được tính như sau:

hàm cấp một của Perr có dạng:


Perr = P(bd  0, be  1)  P(bd  1, be  0)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Perr
P0
(T   0 ) 2
P1
(T  1 ) 2

exp( 
)
exp( 
)
2
T
2 1
2 02
 1 2
 0 2


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




 43 


 44 

Cho đạo hàm cấp một của Perr bằng 0, ta sẽ được phương trình bậc 2, có

lỗi giải mã như đã trình bày trong mục 2.5. Nếu kích thước phân vùng dữ liệu

thể tính giá trị ngưỡng tối ưu T* làm cực tiểu hoá Perr . Đạo hàm cấp 2 của Perr

nhỏ hơn  thì bít giải mã không được thực hiện, ngược lại nó được giải mã

được đánh giá tại T* để đảm bảo điều kiện (

 Perr (T *)
 0 ) được thoả mãn.
T 2
2

 P    2 2   2 2
 02   12
 2 2
T *2  0 1 2 2 1 0 T *  ln 0 1   1 0 2 20 1  0
2 2
2 0  1
 01
2 0  1
 P1 0 

Từ phân tích trên, việc chọn ngưỡng tối ưu T* dựa trên các thống kê
thu được của thuật toán nhúng thuỷ vân. Ngưỡng tối ưu T* làm cực tiểu hoá
xác suất lỗi giải mã và như thế nâng cao độ bền của thuỷ vân được nhúng do


nhờ lược đồ giải mã ngưỡng.
Vì thuỷ vân W  bl 1 ,..., b0 được nhúng nhiều lần trong bộ dữ liệu, mỗi
bít thuỷ vân được lấy ra nhiều lần ở nơi bít bi được lấy ra từ phần S k với
k mod l  i . Các bít lấy ra được giải mã nhờ kỹ thuật chọn theo đa số. Mỗi bít
bi được lấy ra

m
lần .
l

Thuật toán phát hiện thuỷ vân như sau:

khả năng giải mã thành công tăng.
Thuật toán: detect_watermark
Xác suất lỗi giải mã cũng phụ thuộc vào các ràng buộc. Nếu các ràng
buộc chặt thì lượng thay đổi cho bộ dữ liệu D có thể không đủ đối với việc
nhúng thuỷ vân. Tất cả xác suất lỗi giải mã thuỷ vân được làm giảm đi bằng
cách nhúng thuỷ vân nhiều lần trong bộ dữ liệu đó, về cơ bản nó là sự lặp lại

Đầu vào: Tập dữ liệu đã nhúng thủy vân DW , m, c, , KS ,T ,
*

Độ dài thủy vân l
Đầu ra: Thủy vân thu được WD

mã sửa sai.

1. Đặt ones[0, …, l-1]  0


2.6. Phát hiện thuỷ vân
Thuật toán phát hiện thuỷ vân sẽ lấy ra thuỷ vân đã nhúng nhờ các
tham số bí mật gồm có: KS, m,  , c, T.

2. Đặt zeros[0, …, l-1]  0
3. S0, …, Sm-1  get_partitions(Dw, Ks, m)

Thuật toán này bắt đầu bằng việc sinh các phần dữ liệu S 0 ,..., S m 1  dựa
vào bộ dữ liệu đã thuỷ vân DW , khoá bí mật K S , và số phần dữ liệu đã phân
hoạch m là đầu vào của thuật toán phân hoạch dữ liệu (get_partitions). Mỗi
phần sẽ mã hoá một bít thuỷ vân đơn. Để lấy ra bít đã nhúng, ta sử dụng lược

4. for j=0, …, m-1
5. if S j  
6. i  j mod l

đồ giải mã ngưỡng dựa vào ngưỡng tối ưu T làm cực tiểu hoá xác suất xảy ra
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




×