Thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hoá áp dụng giải thuật di truyền

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (600.28 KB, 32 trang )

ĐẠI HỌC THÁI NGUYÊN

ĐẠI HỌC THÁI NGUYÊN

KHOA CÔNG NGHỆ THÔNG TIN

KHOA CÔNG NGHỆ THÔNG TIN

Họ và tên tác giả

VŨ VĂN HUY
Họ và tên tác giả

VŨ VĂN HUY
Tên đề tài
Tên đề tài

THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ DỰA
TRÊN KỸ THUẬT TỐI ƢU HOÁ ÁP DỤNG
GIẢI THUẬT DI TRUYỀN

THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ DỰA
TRÊN KỸ THUẬT TỐI ƢU HOÁ ÁP DỤNG
GIẢI THUẬT DI TRUYỀN
Chuyên ngành: Khoa học máy tính
Mã số: 604801

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS BÙI THẾ HỒNG

Thái Nguyên - 2009
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Thái Nguyên - 2009

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

LỜI CAM ĐOAN

LỜI NÓI ĐẦU

Tôi xin cam đoan luận văn “Thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ
thuật tối ƣu hoá áp dụng giải thuật di truyền” này là công trình nghiên cứu
của riêng tôi. Các số liệu sử dụng trong luận văn là trung thực. Các kết quả
nghiên cứu được trình bày trong luận văn chưa từng được công bố tại bất kỳ
công trình nào khác.
Vũ Văn Huy

Để hoàn thành luận văn này, trước tiên tôi xin chân thành cảm ơn sự
chỉ bảo tận tình của TS Bùi Thế Hồng, người đã nhiệt tình chỉ bảo góp ý giúp
tôi hoàn thành luận văn này.
Tôi xin chân thành cảm ơn Khoa Công nghệ thông tin – Đại học Thái
Nguyên, Viện Công nghệ thông tin đã tạo điều kiện giúp tôi hoàn thành luận
văn này.
Tôi xin chân thành cảm ơn bạn Võ Phúc Nguyên – Gv Khoa Điện Tử

- ĐH Kỹ thuật công nghiệp Thái Nguyên đã trợ giúp tôi rất nhiều trong quá
trình hoàn thành luận văn này.
Lời sau cùng tôi xin chân thành cảm ơn những người thân trong gia
đình cùng các bạn đồng nghiệp đã động viên tôi hoàn thành luận văn này.
Vũ Văn Huy

-1-

-22.2.2. Theo kiểu biến dạng (Distortion) .................................................................. 23
2.2.3. Theo độ nhạy (Sensitivity) ............................................................................. 24

MỤC LỤC
MỤC LỤC ......................................................................................................................... 1
DANH MỤC CÁC THUẬT NGỮ ....................................................................................... 3
DANH MỤC CÁC HÌNH VẼ ............................................................................................. 4
DANH MỤC CÁC BẢNG BIỂU......................................................................................... 5
MỞ ĐẦU ........................................................................................................................... 6
1. Lý do lựa chọn đề tài................................................................................................. 6
2. Mục tiêu nghiên cứu .................................................................................................. 7
3. Phạm vi nghiên cứu................................................................................................... 7
4. Phƣơng pháp nghiên cứu .......................................................................................... 7
5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài ....................................................... 8
6. Cấu trúc của luận văn ............................................................................................... 8
CHƢƠNG 1 – TỔNG QUAN VỀ THUỶ VÂN VÀ GIẢI THUẬT DI TRUYỀN .................... 9
1.1. Cơ bản về kỹ thuật giấu tin ................................................................................... 10
1.1.1. Khái niệm về giấu tin .................................................................................... 10
1.1.2. Phân loại các kỹ thuật giấu tin ...................................................................... 10
1.1.3. Mục đích của giấu tin ................................................................................... 12
1.1.4. Môi trƣờng giấu tin....................................................................................... 12

1.2. Cơ bản về thuỷ vân ............................................................................................... 14
1.2.1. Khái niệm thuỷ vân ....................................................................................... 14

2.2.4. Theo thông tin thuỷ vân (watermark information) ......................................... 25
2.2.5. Tính kiểm tra đƣợc........................................................................................ 26
2.2.6. Theo cấu trúc dữ liệu (Data structure) .......................................................... 27
CHƢƠNG 3 – NỘI DUNG VÀ CÁC KẾT QUẢ NGHIÊN CỨU ....................................... 29
3.1. Phân hoạch dữ liệu .............................................................................................. 29
3.2. Nhúng thuỷ vân .................................................................................................... 33
3.2.1. Mã hoá bit đơn ............................................................................................. 34
3.2.2. Áp dụng giải thuật di truyền giải bài toán tối ƣu ........................................... 38
3.2.3. Thuật toán nhúng thuỷ vân............................................................................ 41
3.2.4. Đánh giá ngƣỡng giải mã ............................................................................. 42
3.3. Giải mã thuỷ vân .................................................................................................. 46
3.4. Kết quả thực nghiệm ............................................................................................ 48
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................ 52
PHỤ LỤC ....................................................................................................................... 54
TÀI LIỆU THAM KHẢO.................................................................................................. 57

1.2.2. Một số vấn đề có liên quan đến thuỷ vân ....................................................... 16
1.2.3. Khái niệm thuỷ vân cơ sở dữ liệu .................................................................. 17
1.3. Một số ứng dụng của thuỷ vân .............................................................................. 18
1.3.1. Bảo vệ bản quyền tác giả (copyright protection) ........................................... 18
1.3.2. Phát hiện xuyên tạc thông tin (authentication and tamper detection)............. 18
1.3.3. Lấy dấu vân tay hay dán nhãn (fingerprinting and labeling) ......................... 19
1.3.4. Điều khiển thiết bị (Device control) .............................................................. 19
1.3.5. Theo dõi quá trình sử dụng (Tracking) .......................................................... 19
1.3.6. Theo dõi truyền thông (Broadcast Monitoring) ............................................. 19
1.3.7. Truyền tin bí mật (Concealed Communication) ............................................. 20
1.4. Giải thuật di truyền .............................................................................................. 20

CHƢƠNG 2 – THỰC TRẠNG NGHIÊN CỨU THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ 22
2.1. Tình hình nghiên cứu trong nƣớc ......................................................................... 22
2.2. Tình hình nghiên cứu trên thế giới........................................................................ 22
2.2.1. Theo kiểu dữ liệu (Data type) ........................................................................ 23
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-3-

-4-

DANH MỤC CÁC THUẬT NGỮ
MSB (Most significant bit): Bit ý nghĩa nhất

DANH MỤC CÁC HÌNH VẼ
Hình 1.1. 1. Một cách phân loại kỹ thuật giấu tin ............................................................. 11

LSB (Least significant bit): Bit ít ý nghĩa nhất

Hình 3. 1. Cách phân hoạch bộ dữ liệu ........................................................................... 32

MAC (Message Authentication Code) : Mã xác thực thông điệp

Hình 3. 2. Thống kê phân bố tập Xmax, Xmin và cách lấy ngưỡng T*............................ 45

GA (Genetic Algorithms): Giải thuật di truyền

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-5-

-6-

DANH MỤC CÁC BẢNG BIỂU

MỞ ĐẦU
1. Lý do lựa chọn đề tài

Bảng 1. Danh mục các ký hiệu ........................................................................................ 30

2. Mục tiêu nghiên cứu

Bảng 2. Thống kê các tấn công với số lần tấn công là 20 ................................................. 51

3. Phạm vi nghiên cứu
4. Phƣơng pháp nghiên cứu
5. Ý nghĩa khoa học và ý nghĩa thực tiễn

6. Cấu trúc của luận văn
1. Lý do lựa chọn đề tài
Ngày nay, các ứng dụng và các sản phẩm số trong đó bao gồm cả các
cơ sở dữ liệu quan hệ được phát triển và phân phối rộng khắp trong môi
trường Internet, vì vậy việc chứng minh quyền sở hữu đối với các sản phẩm
này sau khi chuyển giao là một vấn đề rất cần thiết. Việc thực thi quyền sở
hữu dữ liệu là một yêu cầu quan trọng đòi hỏi các giải pháp đồng bộ, bao gồm
các khía cạnh về kỹ thuật, về tổ chức, và cả luật pháp. Mặc dù vẫn chưa có
được những giải pháp toàn diện như vậy nhưng trong các năm gần đây, các kỹ
thuật thuỷ vân đã đóng một vai trò quyết định nhằm giải quyết vấn đề về
quyền sở hữu này.
Hiện nay, mới chỉ có một vài cách tiếp cận đối với bài toán thuỷ vân dữ
liệu quan hệ được đề xuất. Tuy nhiên, những kỹ thuật này không bền vững
trước các tấn công thông thường và các tấn công gây hại, vì vậy cần có một
kỹ thuật thủy vân cơ sở dữ liệu quan hệ có độ bền vững cao hơn nhất là đối
với các tấn công xoá, sửa, và chèn các bản ghi.
Luận văn “thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu
hoá áp dụng giải thuật di truyền” trình bày kỹ thuật thuỷ vân cơ sở dữ liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-7-

-8-

dựa vào kỹ thuật tối ưu hoá. Kỹ thuật này phải đảm bảo bền vững trước các
tấn công thêm, bớt và thay đổi giá trị của các bộ trong quan hệ.

5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
Đưa ra cơ sở khoa học của việc áp dụng kỹ thuật tối ưu hoá để mã hoá
và giải mã thuỷ vân trong đó sử dụng giải thuật di truyền để giải quyết bài

2. Mục tiêu nghiên cứu
Mục tiêu chính của luận văn là đi sâu nghiên cứu kỹ thuật tối ưu hoá để

toán tối ưu hoá.

mã hoá và giải mã thuỷ vân. Trong đó tập trung nghiên cứu kỹ thuật phân

Kết quả nghiên cứu của đề tài rất có ý nghĩa trong việc chứng minh

hoạch dữ liệu không phụ thuộc vào các bộ được đánh dấu để định vị các phân

quyền sở hữu đối với các sản phẩm số hoá, đặc biệt là trong cơ sở dữ liệu

hoạch; nghiên cứu cách giải bài toán tối ưu bằng giải thuật di truyền với các

quan hệ sau khi đã phân phối hoặc chuyển giao. Đồng thời việc chứng minh

ràng buộc trên thuộc tính được chọn để tiến hành thủy vân, và nghiên cứu kỹ

quyền sở hữu này cũng là một vấn đề rất quan trọng trong môi trường ứng

thuật phát hiện thủy vân dựa vào một ngưỡng tối ưu.

dụng dựa trên Internet nhằm phát tán và truyền tải thông tin.

3. Phạm vi nghiên cứu

6. Cấu trúc của luận văn

Phạm vi nghiên cứu của đề tài là đi sâu nghiên cứu về mặt lý thuyết của

Ngoài phần mở đầu và phần kết luận, luận văn được trình bày thành ba
chương như sau:

thuỷ vân và áp dụng cho cơ sở dữ liệu quan hệ.
Nghiên cứu về cơ chế mã hoá và giải mã thuỷ vân cơ sở dữ liệu quan
hệ dựa trên kỹ thuật tối ưu hoá áp dụng thuật toán di truyền.

- Chƣơng 1. Tổng quan về thuỷ vân và giải thuật di truyền.
Chương này chủ yếu trình bày về các thông tin cơ bản của kỹ thuật
giấu tin, các khái niệm cơ bản về thuỷ vân và ứng dụng thực tiễn của

4. Phƣơng pháp nghiên cứu

thuỷ vân, sơ lược về giải thuật di truyền.

Luận văn này là luận văn thuộc ngành kỹ thuật chuyên ngành khoa học
máy tính nên phương pháp nghiên cứu chủ yếu ở đây là phương pháp tiếp cận
lý thuyết, sau đó áp dụng lý thuyết vào một ngôn ngữ lập trình cụ thể để kiểm
chứng. Dựa trên những kết quả kiểm chứng đó để đưa ra các kết luận và các
đề xuất nhằm hoàn thành mục tiêu nghiên cứu của luận văn.
Cụ thể trong luận văn này, tác giả lấy thông tin tiêu thụ điện làm cơ sở

- Chƣơng 2. Thực trạng nghiên cứu về thuỷ vân cơ sở dữ liệu
quan hệ.
Chương này chủ yếu trình bày về thực trạng nghiên cứu về thuỷ vân
cơ sở dữ liệu quan hệ ở trong nước và trên thế giới.
- Chƣơng 3. Nội dung và các kết quả nghiên cứu.

dữ liệu phục vụ cho nghiên cứu; nghiên cứu về lý thuyết thuỷ vân; nghiên cứu

Chương này đi sâu mô tả chi tiết lý thuyết các bước tiến hành thí

về cách giải bài toán tối ưu hoá bằng giải thuật di truyền; sử dụng phần mềm

nghiệm áp dụng kỹ thuật tối ưu hoá cho mã hoá và giải mã thuỷ vân số.

Matlab để lập trình kiểm chứng lý thuyết.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-9-

- 10 -

CHƢƠNG 1 – TỔNG QUAN VỀ THUỶ VÂN VÀ

GIẢI THUẬT DI TRUYỀN

Nhiều phương pháp giấu thông tin khác nhau đã được đề xuất, mỗi phương
pháp có những ưu điểm, nhược điểm riêng và thích hợp cho một nhóm các
ứng dụng.

1. Cơ bản về giấu tin
2. Cơ bản về thuỷ vân
3. Một số ứng dụng của thuỷ vân
4. Giải thuật di truyền

1.1. Cơ bản về kỹ thuật giấu tin
1.1.1. Khái niệm về giấu tin
Giấu thông tin (Datahiding) là kỹ thuật nhúng (embedding) một lƣợng
thông tin số nào đó vào trong một đối tƣợng dữ liệu số khác. Một trong những
yêu cầu cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu

Thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và

đồng thời không làm ảnh hưởng đến chất lượng của dữ liệu gốc. Đây là

trong cuộc sống của chúng ta ngày nay. Những thuận lợi mà thông tin kỹ

phương pháp đã và đang được rất nhiều nước trên thế giới nghiên cứu và ứng

thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho xã hội hiện

dụng rất mạnh mẽ.

đại. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình

Sự khác biệt chủ yếu giữa mã hoá thông tin và giấu thông tin là mã hoá

trao đổi thông tin trong mọi lĩnh vực của đời sống. Và chính trong môi trường

làm cho các thông tin hiện rõ là nó có được mã hoá hay không, còn với giấu

mở và tiện nghi như thế xuất hiện những vấn nạn, tiêu cực đang rất cần đến

thông tin thì người ta sẽ khó biết được là có thông tin giấu bên trong.

các giải pháp hữu hiệu cho các vấn đề an toàn thông tin như nạn ăn cắp bản
quyền, nạn xuyên tạc thông tin, truy nhập thông tin trái phép, sao chép bất

1.1.2. Phân loại các kỹ thuật giấu tin
Do kỹ thuật giấu thông tin số mới được hình thành trong thời gian gần

hợp pháp các sản phẩm trí tuệ số v.v..
Giải pháp cho những vấn đề trên đã được biết đến và áp dụng đó là giải

đây nên xu hướng phát triển chưa ổn định. Nhiều phương pháp mới, theo

pháp giấu tin (DataHiding), được nghiên cứu phát triển trong khoảng hơn

nhiều khía cạnh khác nhau đang được đề xuất, vì vậy đã tồn tại nhiều cách

chục năm gần đây. Trong đó thuỷ vân (watermark) là một thành phần của

phân loại rất khác nhau.
Dựa trên việc thống kê các công trình đã công bố trên các tạp chí, cùng

phương pháp giấu tin.
Giấu thông tin bao gồm hai kỹ thuật chính là thuỷ ấn (watermarking)

với thông tin về tên và tóm tắt nội dung của các công trình đã công bố trên

và giấu tin bí mật (steganograph) đang được quan tâm nghiên cứu và phát

Internet, người ta chia lĩnh vực giấu tin ra làm hai hướng lớn, đó là

triển. Các thành tựu đạt được trong lĩnh vực nghiên cứu này đã bắt đầu được

watermarking và steganography

áp dụng hiệu quả cho mục đích bảo vệ bản quyền, chống sao chép, phân tán

Steganography quan tâm tới ứng dụng che giấu các bản tin đòi hỏi độ

trái phép các sản phẩm trong môi trường số hoá và nhiều mục đích khác.

bí mật cao và dung lượng lớn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 11 -

- 12 -

Watermark (thủy vân) quan tâm nhiều đến ứng dụng giấu các mẩu tin
ngắn nhưng đòi hỏi độ bền vững lớn của thông tin cần giấu (trước các biến
đổi thông thường của tệp dữ liệu môi trường).

1.1.3. Mục đích của giấu tin
Bảo mật thông tin bằng giấu tin có hai khía cạnh. Một là bảo mật cho
dữ liệu đem giấu (embedded data), chẳng hạn như giấu tin mật: thông tin

Information

mật được giấu kỹ trong một đối tượng khác sao cho người khác không phát

hiding

hiện được (steganography). Hai là bảo mật chính đối tượng được dùng để

Giấu thông tin

giấu dữ liệu vào (host data), chẳng hạn như ứng dụng bảo vệ bản quyền, phát
hiện xuyên tạc thông tin (watermarking)...

Steganograp
hy
Giấu tin mật

Watermarkin
g
Thuỷ vân số

1.1.4. Môi trƣờng giấu tin
Kỹ thuật giấu tin đã được nghiên cứu và áp dụng trong nhiều môi

Robust
Copyright
marking
Thuỷ vân bền
vừng

Fragile
marking
Thuỷ vân “dễ vỡ”

trường dữ liệu khác nhau như trong dữ liệu đa phương tiện (text, image,
audio, video), trong sản phẩm phần mềm và gần đây là những nghiên cứu trên
môi trường cơ sở dữ liệu quan hệ. Trong các môi trường dữ liệu đó thì dữ liệu

Imperceptible
Watermarking
Thuỷ vân ẩn

Visible
Watermarking
Thuỷ vân hiển
thị
Hình 1.1. 1. Một cách phân loại kỹ thuật giấu tin

đa phương tiện là môi trường chiếm tỉ lệ chủ yếu trong các kỹ thuật giấu tin.
a. Giấu tin trong ảnh
Giấu thông tin trong ảnh, hiện nay, là một bộ phận chiếm tỉ lệ lớn nhất
trong các chương trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa

Đối với từng hướng lớn trên, quá trình phân loại theo các tiêu chí khác

phương tiện bởi lượng thông tin được trao đổi bằng ảnh là rất lớn và hơn nữa

nhau dựa theo ảnh hưởng các tác động từ bên ngoài, người ta có thể chia

giấu thông tin trong ảnh cũng đóng vai trò hết sức quan trọng trong các hầu

watermark thành hai loại, một loại bền vững với các tác động sao chép trái

hết các ứng dụng bảo vệ an toàn thông tin như: nhận thực thông tin, xác định

phép, loại thứ hai lại cần tính chất hoàn toàn đối lập: dễ bị phá huỷ trước các

xuyên tạc thông tin, bảo vệ bản quyền tác giả, điều khiển truy cập, giấu thông

tác động nói trên. Cũng có thể chia watermark theo đặc tính, một loại cần

tin mật. Vì vậy vấn đề giấu tin trong ảnh này đang được quan tâm rất lớn của

được che giấu để chỉ có một số người tiếp xúc với nó có thể thấy được thông

các nhà nghiên cứu.
Thông tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít bị

tin, loại thứ hai đối lập, cần được mọi người nhìn thấy.

thay đổi và không thể nhận biết được bằng thị giác của con người, nó chỉ có
thể bị phát hiện bởi “thị giác máy”. Ngày nay, khi ảnh số đã được sử dụng rất
phổ biến, thì giấu thông tin trong ảnh đã đem lại rất nhiều những ứng dụng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 13 -

- 14 -

quan trọng trên nhiều lĩnh vực trong đời sống xã hội thì việc nhận thực chữ kí

tính đồng bộ và tính an toàn của thông tin. Các phương pháp giấu thông tin

số, xác thực thông tin đã trở thành một vấn đề cực kì quan trọng khi mà việc

trong audio đều lợi dụng điểm yếu trong hệ thống thính giác của con người.

ăn cắp thông tin hay xuyên tạc thông tin bởi các tin tặc đang trở thành một

c. Giấu thông tin trong video

vấn nạn đối với bất kì quốc gia nào, tổ chức nào. Một đặc điểm của giấu

Cũng giống như giấu thông tin trong ảnh hay trong audio, giấu tin trong

thông tin trong ảnh đó là thông tin được giấu trong ảnh một cách vô hình, nó

video cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng

như là một cách mà truyền thông tin mật cho nhau mà người khác không thể

như điều khiển truy cập thông tin, nhận thực thông tin và bảo vệ bản quyền

biết được bởi sau khi giấu thông tin thì chất lượng ảnh gần như không thay

tác giả. Các kỹ thuật giấu tin trong video cũng được phát triển mạnh mẽ và

đổi đặc biệt đối với ảnh mầu hay ảnh xám.

cũng theo hai khuynh hướng là thuỷ vân số và datahiding. Một phương pháp

b. Giấu tin trong audio

giấu tin trong video được đưa ra bởi Cox là phương pháp phân bố đều. Ý

Giấu thông tin trong audio mang những đặc điểm riêng khác với giấu

tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải theo tần số

thông tin trong các đối tượng đa phương tiện khác. Một trong những yêu cầu

của dữ liệu chứa gốc. Một số nhà nghiên cứu khác đã dùng những hàm Cosin

cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời

riêng và các hệ số truyền sóng riêng để giấu tin. Trong các thuật toán khởi

không làm ảnh hưởng đến chất lượng của dữ liệu gốc. Để đảm bảo yêu cầu

nguồn thì thường các kỹ thuật cho phép giấu các ảnh vào trong video nhưng

này, kỹ thuật giấu thông tin trong ảnh phụ thuộc vào hệ thống thị giác của con

thời gian gần đây các kỹ thuật cho phép giấu cả âm thanh và hình ảnh vào

người - HVS (Human Vision System) còn kỹ thuật giấu thông tin trong audio

video.

lại phụ thuộc vào hệ thống thính giác HAS (Human Auditory System). Và

Giấu tin là một công nghệ mới rất phức tạp, nó đang được các nhà khoa

một vấn đề khó khăn ở đây là hệ thống thính giác của con người nghe được

học tập trung nghiên cứu ở nhiều nước trên thế giới. Tuy nhiên, những kết

các tín hiệu ở các giải tần rộng và công suất lớn nên đã gây khó dễ đối với các

quả thực nghiệm cho thấy để thực sự ứng dụng thực tế thì lĩnh vực này cần

phương pháp giấu tin trong audio. Nhưng thật may là HAS lại kém trong việc

phải có thêm thời gian để nghiên cứu và thẩm định.

phát hiện sự khác biệt các dải tần và công suất điều này có nghĩa là các âm
thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ
dàng. Các mô hình phân tích tâm lí đã chỉ ra điểm yếu trên và thông tin này sẽ
giúp ích cho việc chọn các audio thích hợp cho việc giấu tin.

1.2. Cơ bản về thuỷ vân
1.2.1. Khái niệm thuỷ vân
Thuỷ vân số (digital watermarking) là quá trình chèn thông tin vào dữ

Vấn đề khó khăn thứ hai đối với giấu thông tin trong audio là kênh

liệu số đảm bảo không thể cảm nhận được bằng các giác quan của con người

truyền tin. Kênh truyền hay băng thông chậm sẽ ảnh hưởng đến chất lượng

nhưng lại dễ dàng phát hiện bởi các thuật toán của máy tính. Một dấu thuỷ

thông tin sau khi giấu. Giấu thông tin trong audio đòi hỏi yêu cầu rất cao về

vân (watermark) mà một mẫu thông tin trong suốt và không thể nhìn thấy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 15 -

- 16 -

được bằng các giác quan được chèn vào một vị trí thích hợp trong dữ liệu số
bằng cách sử dụng một thuật toán đặc biệt.

+ Trích watermark hay kiểm chứng: Cho phép kiểm tra sự tồn tại
của watermark trong dữ liệu đã nhúng.

Tuỳ thuộc vào mục đích và ứng dụng mà các yêu cầu của hệ thống
watermarking được đặt ra. Với các hệ thống thực tế, hệ thống thuỷ vân đòi hỏi

1.2.2. Một số vấn đề có liên quan đến thuỷ vân
Visible watermarks – thủy vân hiện, giống như tên gọi, nó là những

các yêu cầu sau:
+ Tính không nhận thấy đƣợc (Imperceptibility): Các điều chỉnh

mẫu thông tin, tương tự như những logo được chèn vào ảnh hoặc video. Kỹ

gây ra do nhúng watermark phải thấp hơn ngưỡng cảm thụ của con người,

thuật này chủ yếu áp dụng cho ảnh để đánh dấu các ảnh trong cơ sở dữ liệu

nghĩa là các mẫu dùng trong nhúng watermark chỉ được phép thay đổi rất nhỏ

ảnh hoặc ngăn chặn sự mua bán trên web có sử dụng những ảnh này. Kỹ thuật

trong giới hạn cho phép.

kết hợp thuỷ vân với ảnh gốc dùng cách thay đổi độ sáng của ảnh gốc bằng

+ Tính bền vững (Robustness): Đây là một yêu cầu nòng cốt của

cách dùng một hàm thuỷ vân với một khoá bí mật. Khoá bí mật này xác định

watermarking. Tùy vào từng loại ứng dụng mà tính bền vững này bằng được

giá trị giả ngẫu nhiên dùng cho việc điều chỉnh độ sáng, mục đích là để gây

nhìn nhận dưới nhiều quan điểm khác nhau, nếu như đối với các ứng dụng

khó khăn hơn cho các tấn công xoá bỏ dấu nổi này.

dùng để bảo vệ quyền sở hữu thì watermark cần phải bền vững qua một số các

Watermarking – Thuỷ vân, ngược lại với steganography, nó có thêm

hành động cập nhật nội dung của dữ liệu. Nếu như đối với ứng dụng để chống

khái niệm là bền vững với các tấn công. Ngay cả nếu sự tồn tại của thông tin

làm giả hoặc chống lại sự thay đổi trên dữ liệu thì đòi hỏi watermark phải huỷ

ẩn là bị lộ thì kỹ thuật này cũng sẽ gây ra sự khó khăn cho kẻ tấn công nếu

bỏ khi có các tác vụ này xảy ra.

không biết được khoá bí mật. Lý do của sự bền vững này đó là phương thức

+ Tính không chia tách đƣợc (Inseparability): Sau khi dữ liệu được

thuỷ vân có thể nhúng nhiều lần các thông tin nhỏ và dữ liệu cần bảo vệ hơn

nhúng watermark thì yêu cầu là phải rất khó hoặc không thể tách thành 2 phần

là phương thức steganographic. Trên thực tế thì steganographic và

riêng biệt như lúc đầu.

watermarking không phải là hai phương thức có phần bổ sung cho nhau nhiều

+ Bảo mật (Security): Sau khi đã nhúng watermark vào dữ liệu, thì

hơn là đối lập nhau.

yêu cầu là chỉ cho phép những user có quyền mới chỉnh sửa và phát hiện được

Fingerprinting và labeling (lấy dấu vân tay và gán nhãn) là các thuật

watermark điều này được thực hiện nhờ vào key dùng làm khoá trong giải

ngữ biểu thị các ứng dụng đặc biệt của thuỷ vân, chúng giống như những

thuật nhúng watermark vào dữ liệu và giải thuật phát hiện ra watermark trong

thông tin của tạo hoá hoặc những đặc trưng được nhúng vào các đối tượng.

dữ liệu.

Fingerprinting có nghĩa là quá trình thuỷ vân với các thông tin được nhúng

+ Tìm lại watermark: Có thể cần hoặc không cần đến dữ liệu gốc vẫn

nhất bên cạnh các chuỗi mã có chứa các đặc trưng dữ liệu.

có thể tìm lại được thuỷ vân đã nhúng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

hoặc là mã duy nhất xác định tác giả hoặc xác định dữ liệu gốc hoặc mã duy

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 17 -

- 18 -

Bitstream watermarking (thủy vân dòng bit) đôi khi được sử dụng

cho nén dữ liệu thuỷ vân ví dụ như video. Thuật ngữ nhúng các kỹ hiệu thay
thế cho watermarking được các ấn phẩm trước đây sử dụng, nhưng nó không

1.3. Một số ứng dụng của thuỷ vân
1.3.1. Bảo vệ bản quyền tác giả (copyright protection)

được tiếp tục sử dụng nữa, và từ đó dẫn đến sự hiểu nhầm giữa mã hoá và

Đây là ứng dụng cơ bản nhất của kỹ thuật thuỷ vân số. Một thông tin

thuỷ vân. Mã hoá (cryptographic) phục vụ cho mục đích xác định quyền tác

nào đó mang ý nghĩa quyền sở hữu tác giả (người ta gọi nó là thuỷ vân -

giả. Chúng được sử dụng để nhận dạng bất kỳ thay đổi nào trong dữ liệu đã

watermark) sẽ được nhúng vào trong các sản phẩm, thuỷ vân đó chỉ một mình

được đánh dấu và xác thực người gửi. Tuy nhiên thuỷ vân chỉ được sử dụng

người chủ sở hữu hợp pháp các sản phẩm đó có và được dùng làm minh

để xác thực trong các ứng dụng đặc biệt và thường được thiết kế cho việc

chứng cho bản quyền sản phẩm. Giả sử có một thành phẩm dữ liệu dạng đa

chống lại các thay đổi và chỉnh sửa.

phương tiện như ảnh, âm thanh, video cần được lưu thông trên mạng. Để bảo

Fragile watermarks (Thuỷ vân dễ vỡ) là các thuỷ vân có sự rất hạn

vệ các sản phẩm chống lại hành vi lấy cắp hoặc làm nhái cần phải có một kỹ

chế về mặt bền vững đối với dữ liệu. Chúng được áp dụng để nhận dạng các

thuật để “dán tem bản quyền” vào sản phẩm này. Việc dán tem hay chính là

thay đổi của dữ liệu đã thuỷ vân hơn là gìn giữ thông tin, nếu có các tấn công

việc nhúng thuỷ vân cần phải đảm bảo không để lại một ảnh hưởng lớn nào

nhằm xoá bỏ thuỷ vân thì việc này cũng sẽ phá huỷ luôn cả dữ liệu gốc.

đến việc cảm nhận sản phẩm. Yêu cầu kỹ thuật đối với ứng dụng này là thuỷ
vân phải tồn tại bền vững cùng với sản phẩm, muốn bỏ thuỷ vân này mà

1.2.3. Khái niệm thuỷ vân cơ sở dữ liệu

không được phép của người chủ sở hữu thì chỉ còn cách là phá huỷ sản phẩm.

Thuỷ vân cơ sở dữ liệu là kỹ thuật cho phép người chủ dữ liệu có thể
nhúng một thuỷ vân ẩn vào dữ liệu. Một thuỷ vân thường mô tả những thông

1.3.2. Phát hiện xuyên tạc thông tin (authentication and tamper detection)

tin có thể được dùng để chứng minh quyền sở hữu dữ liệu, chẳng hạn như là

Một tập thông tin sẽ được giấu trong phương tiện chứa, sau đó được sử

tên chủ sở hữu, nguồn gốc, hoặc người tiếp nhận nội dung này. Việc nhúng

dụng để nhận biết xem dữ liệu trên phương tiện gốc có bị thay đổi hay không.

thông tin an toàn đòi hỏi thuỷ vân được nhúng trong dữ liệu không thể bị làm

Các thuỷ vân nên được ẩn để tránh sự tò mò của đối phương, hơn nữa việc

giả mạo hoặc bị tẩy xoá một cách dễ dàng. Nhúng ẩn có nghĩa là thuỷ vân

làm giả các thuỷ vân hợp lệ hay xuyên tạc thông tin nguồn cũng cần xem xét.

không thể nhìn thấy được trong dữ liệu. Hơn thế nữa, việc phát hiện thuỷ vân

Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí bị xuyên tạc

được thực hiện theo phương pháp “mù”, tức là không đòi hỏi dữ liệu gốc cũng

cũng như phân biệt được các thay đổi (ví dụ như phân biệt xem một đối tượng

như thuỷ vân gốc. Đồng thời, khi nhúng thuỷ vân vào dữ liệu cần phải đảm bảo

đa phương tiện chứa thông tin giấu đã bị thay đổi, xuyên tạc nội dung hay là

các thay đổi trên dữ liệu là trong giới hạn cho phép của từng ứng dụng cụ thể.

chỉ bị nén mất dữ liệu). Yêu cầu chung đối với ứng dụng này là khả năng giấu
thông tin cao và thuỷ vân không cần bền vững.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 19 -

- 20 -

1.3.3. Lấy dấu vân tay hay dán nhãn (fingerprinting and labeling)
Thuỷ vân trong những ứng dụng này được sử dụng để nhận diện người
gửi hay người nhận một thông tin nào đó. Ví dụ như các vân khác nhau sẽ
được nhúng vào các bản copy khác nhau của thông tin gốc trước khi chuyển
cho nhiều người. Với những ứng dụng này thì yêu cầu là đảm bảo độ an toàn
cao cho các thuỷ vân, tránh khả năng xoá dấu vết trong khi phân phối.

1.3.7. Truyền tin bí mật (Concealed Communication)
Bởi vì digital watermarking là một dạng đặc biệt của việc che dấu dữ
liệu (steganography) nên người ta có thể dùng để truyền các thông tin bí mật.
1.4. Giải thuật di truyền
Giải thuật di truyền (GA - Genetic Algorithms) là kỹ thuật giúp giải
quyết bài toán bằng cách mô phỏng theo sự tiến hoá của con người hay của

1.3.4. Điều khiển thiết bị (Device control)

sinh vật nói chung (dựa trên thuyết tiến hoá muôn loài của Darwin) trong điều

Các thiết bị phát hiện thuỷ vân (ở đây sử dụng phương pháp phát hiện

kiện luôn thay đổi của môi trường sống. Thuật toán di truyền là một hướng

thuỷ vân đã giấu mà không cần thông tin gốc) được gắn sẵn vào trong các hệ

tiếp cận tính toán gần đúng, nghĩa là mục tiêu của thuật toán di truyền không

thống đọc ghi, tùy thuộc vào việc có thủy vân hay không để điều khiển (cho

nhằm đưa ra lời giải chính xác tối ưu mà là đưa ra lời giải tương đối tối ưu.

phép/cấm) truy cập. Ví dụ như hệ thống quản lí sao chép DVD đã được ứng

Giải thuật di truyền là một kỹ thuật của khoa học máy tính nhằm tìm kiếm

dụng ở Nhật. Nhà sản xuất sẽ trang bị cho các phương tiện dùng để nhân bản

giải pháp thích hợp cho các bài toán tối ưu tổ hợp (combinatorial

(như CD writer…) khả năng phát hiện xem digital media có chứa watermarks

optimization). Giải thuật di truyền là một phân ngành của giải thuật tiến hoá

hay không, nếu có thì sẽ từ chối không nhân bản.

vận dụng các nguyên lý của tiến hoá như di truyền, đột biến, chọn lọc tự
nhiên, và lai ghép.

1.3.5. Theo dõi quá trình sử dụng (Tracking)

Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn ngữ

Digital watermarking có thể được dùng để theo dõi quá trình sử dựng

máy tính để mô phỏng quá trình tiến hoá của một tập hợp những đại diện trừu

của các digital media. Mỗi bản sao của sản phẩm được chứa bằng một

tượng (gọi là những nhiễm sắc thể) của các giải pháp có thể chấp nhận được

watermark duy nhất dùng để xác định user là ai. Nếu có sự nhân bản bất hợp

(gọi là những cá thể) cho bài toán tối ưu hoá. Tập hợp này sẽ tiến triển theo

pháp, ta có thể truy ra người vi phạm nhờ vào watermark được chứa bên trong

hướng chọn lọc những giải pháp tốt hơn. Tìm kiếm giả thuyết thích hợp bắt

các phương tiện này.

đầu với một quần thể, hay một tập hợp có chọn lọc ban đầu của các giả

1.3.6. Theo dõi truyền thông (Broadcast Monitoring)

thuyết. Các cá thể của quần thể hiện tại khởi nguồn cho quần thể thế hệ kế

Các công ty truyền thông và quảng cáo có thể dùng kỹ thuật digital
watermarking để quản lý xem có bao nhiêu khách hàng đã dùng dịch vụ mà
họ cung cấp.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

tiếp bằng các hoạt động lai ghép và đột biến ngẫu nhiên – được lấy mẫu sau
các quá trình tiến hoá giống như tiến hoá sinh học. Ở mỗi bước, các giả thuyết
trong quần thể hiện tại được ước lượng liên hệ với đại lượng thích nghi đã
cho, với các giả thuyết phù hợp nhất được chọn theo xác suất là các hạt giống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 21 -

- 22 -

cho việc sản sinh thế hệ kế tiếp. Thuật giải di truyền đã được ứng dụng một
cách thành công và được phát triển rộng rãi trong nhiều lĩnh vực.
Giải thuật di truyền (GA) cung cấp một phương pháp học được thúc đẩy

CHƢƠNG 2 – THỰC TRẠNG NGHIÊN CỨU
THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ

bởi sự tương tự với sự tiến hoá sinh học. Thay vì tìm kiếm các giả thuyết từ
tổng quát đến cụ thể hoặc từ đơn giản đến phức tạp, GA tạo ra các giả thuyết

1. Tình hình nghiên cứu trong nƣớc

kế tiếp bằng cách lặp việc đột biến và việc tái hợp các phần của giả thuyết

2. Tình hình nghiên cứu trên thế giới

được biết hiện tại là tốt nhất ở mỗi bước, một tập các giả thuyết được gọi là
quần thể hiện tại được cập nhật bằng cách thay thế vài phần nhỏ quần thể bởi
cá thể con của các giả thuyết tốt nhất ở thời điểm hiện tại. Sự phổ biến của
GA được thúc đẩy bởi các yếu tố sau:
 Tiến hoá là một phương pháp mạnh, thành công cho sự thích nghi bên
trong các hệ thống sinh học.
 GA có thể tìm kiếm trên các không gian giả thuyết có các phần tương
tác phức tạp, ở đó ảnh hưởng của mỗi phần lên toàn thể độ thích nghi
giả thuyết khó có thể mô hình hoá.
 GA có thể được thực hiện song song và có thể tận dụng thành tựu của
phần cứng máy tính mạnh.

2.1. Tình hình nghiên cứu trong nƣớc
Cho đến nay, các nhà khoa học ở Việt Nam đã có một số công trình đã
được công bố trong đó có áp dụng kỹ thuật thuỷ vân, trong đó chủ yếu tập
trung vào các lĩnh vực như thuỷ vân audio, thuỷ vân video, thuỷ vân ảnh. Các
công trình nghiên cứu về thuỷ vân cơ sở dữ liệu vẫn còn hạn chế và đang
được tiếp tục nghiên cứu tuy nhiên vẫn chưa nhiều về số lượng các công trình.
Các công trình về thuỷ vân sơ sở dữ liệu thông thường nghiên cứu theo một
số hướng như sau:
Phương pháp sử dụng các bít trọng số nhỏ [1,2] LSB khá đơn giản cho
việc cài đặt, tuy nhiên thông tin giấu không bền vững trước nhiều hình thức
tấn công. Phương pháp này thích hợp cho mục đích giấu thông tin mật.
Phương pháp gán và sử dụng thuộc tính chẵn lẻ [3,4] có một số ưu
điểm như đơn giản trong cài đặt, dễ kiểm soát chất lượng môi trường giấu tin,
có độ bền vững cao trước nhiều hình thức tấn công. Phương pháp này có hiệu

quả cao khi áp dụng cho môi trường giấu tin không chịu nén tổn hao, có cho
phép sai số.
2.2. Tình hình nghiên cứu trên thế giới
Căn cứ vào các công trình nghiên cứu, các bài báo đã công bố, có thể
phân chia thuỷ vân cơ sở dữ liệu theo các dạng như sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 23 -

- 24 -

2.2.1. Theo kiểu dữ liệu (Data type)

vân (watermark) khác được nhúng vào mỗi nhóm, vì vậy bất kỳ một thay đổi

a) Thuỷ vân dữ liệu kiểu số (watermarking numerical data) có các nghiên cứu

nào trên dữ liệu đều có thể được nhận dạng và định vị với độ chính xác cao

của R. Agrawaland J. Kiernan: Watermarking Relational Databases. VLDB,

tới cấp nhóm.

2002.

2.2.3. Theo độ nhạy (Sensitivity)
Giả thiết cơ bản của nghiên cứu này là chấp nhận một lượng thay đổi

với các số nhỏ ở  bit ít ý nghĩa nhất của các giá trị dữ liệu kiểu số.
Ý tưởng cơ bản là phải đảm bảo rằng các vị trí bit nhúng đó có chứa
các giá trị đặc trưng để có thể xác định được bởi khoá bí mật K.
Để nhận dạng lại thuỷ vân đã nhúng, người ta đã tiến hành so sánh các
giá trị đánh dấu được tính toán với các giá trị bit đã lưu trong cơ sở dữ liệu.
Thuỷ vân được nhận dạng nếu tỷ lệ phần trăm trùng lặp lớn hơn một ngưỡng
T nào đó cho trước.

Hệ thống thuỷ vân có thể được phân thành hai dạng là bền vững và dễ
bị phá huỷ thông qua độ nhạy của chúng đối với các tấn công cơ sở dữ liệu
+ Thuỷ vân bền vững (Robust watermarks) được sử dụng cho bảo vệ
bản quyền, chứng mình quyền sở hữu, hoặc chống lại sự sao chép lậu.
+ Thuỷ vân dễ bị phá huỷ (Fragile watermarks) được sử dụng để định
vị và phát hiện sự giả mạo dữ liệu.
a) Thủy vân bền vững
Có nghiên cứu của tác giả R. Agrawaland J. Kiernan: “Watermarking

b) Watermarking categorical data có các nghiên cứu của

Relational Databases”. VLDB 2002.

+ R. Sion: Proving ownership over categorical data. ICDE 2004
+ E. Bertino, B.C Ooi, Y.Yang, and R. Deng: Privacy and ownership
preserving of outsourced medical data. ICDE 2005.

Ý tưởng cơ bản của các nghiên cứu này là: đối với mỗi nhóm thuộc tính
X nào đó, thay đổi một số giá trị của thuộc tính này thành các giá trị khác sao
cho các thay đổi này là chấp nhận được. Các thay đổi này sẽ tuỳ thuộc vào
từng ứng dụng cụ thể.

Cho B(k;m,p) là xác suất có nhiều hơn k thành công trong m phép thử
Bernoulli.
Một dấu thuỷ vân được nhận dạng nếu có nhiều hơn một tỉ lệ phần trăm
T các bit đã nhúng được nhận dạng chính xác.
b) Thủy vân dễ vỡ
*) Các tác giả Y. Li, H. Guo, và S. Jajodia công bố công trình “Tamper
Detection and Localization for Categorical Data Using Fragile Watermarks”.
DRM 2004. Đóng góp của công trình này là:

2.2.2. Theo kiểu biến dạng (Distortion)
Ba nhà khoa học Y. Li, H. Guo, và S. Jajodia công bố công trình
“Tamper Detection and Localization for Categorical Data Using Fragile

Thuỷ vân được tính toán bằng cách băm tất cả các bộ thành các nhóm
Bất kỳ thay đổi nào tới dữ liệu đều có thể được nhận dạng chi tiết đến
ln g !
mức nhóm dữ liệu với tỉ lệ thành công/lỗi là 1 2

Watermarks”, DRM 2004.
Ý tưởng cơ bản của nghiên cứu này là: Tất cả các bộ được phân hoạch
một cách bí mật thành g nhóm thông qua hàm băm H(K,r.P). Một dấu thuỷ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 25 -

- 26 -

*) Các tác giả H. Guo, Y. Li, A. Liu, và S. Jajodia với công trình “A
Fragile Watermarking Scheme for Detecting Malicious Modifications of
Database Relations”. IS 2006

c) Nhúng một thuỷ vân đến nhiều thuỷ vân (from one watermark to multiple
watermark)
Y. Li, H. Guo, và S. Wang công bố công trình nghiên cứu “A Multi-Bit

Đóng góp của công trình này là cải thiện độ chính xác khi xác định vị
trí làm giả trong dữ liệu

Watermark for Relational Data”. JDM 2007
Công trình này giải quyết được các giả thiết đặt ra như sau:

2.2.4. Theo thông tin thuỷ vân (watermark information)
a) Nhúng một bit đến nhiều bit

+ Kẻ giả mạo cố tình chèn thêm thuỷ vân khác nữa vào dữ liệu đã được
thuỷ vân
+ Một nhóm người dùng muốn nhúng thuỷ vân riêng của mỗi người

R. Sion, M. Atallah, và S. Prabhakar với công trình “Rights Protection
for Relational Data”. SIGMOD 2003.

vào dữ liệu và xác minh lại quyền sở hữu của họ một cách độc lập.
Giải pháp của nghiên cứu này đưa ra là: Mở rộng nghiên cứu của

Thuỷ vân một tập các số thực bằng cách thay đổi các phân phối của nó.
Phương pháp này được thực hiện bằng cách:

Agrawal và Kiernan là nhúng nhiều thuỷ vân khác nhau W1, W2, W3,… vào
dữ liệu với các khoá K1, K2, K3,…khác nhau.

+ Sắp xếp các giá trị thông qua khoá được băm của tập các bit ý nghĩa
2.2.5. Tính kiểm tra đƣợc

nhất của các giá trị đã được chuẩn hoá.
+ Phân hoạch chúng thành các tập con không giao nhau
+ Nhúng một bit thuỷ vân vào một tập con bằng cách thực hiện các
thay đổi rất nhỏ, như vậy các đầu ra trong phân phối là nhỏ hơn (hoặc lớn
hơn) một ngưỡng nhỏ (hoặc lớn) nào đó.

Y. Li và R. Deng với công trình “Publicly Verifiable Ownership
Protection for Relational Databases”. ASIACCS 2006
Yêu cầu:
+ Các cách tiếp cận dựa vào khoá mật là không phù hợp với việc cung
cấp bản quyền tác phẩm ra công chúng.

b) Nhúng từ nhiều bit đến cả một dấu vân tay

+ Người chủ sở hưu dữ liệu sử dụng một khoá công khai để thực hiện

Y. Li, V. Swarup, và S. Jajodia với công trình “Fingerprinting
Relational Databases: Schemes and Specialties”. TDSC 2005. Đặc điểm của
phương pháp là:

một thuỷ vân công khai. Vì vậy bất kỳ ai cũng có thể sử dụng các khoá công
khai này để nhận dạng thuỷ vân đã nhúng.
Giải pháp của tác giả đưa ra là:

+ Định danh đối tượng sử dụng dữ liệu

+ Công khai khoá

+ Nhiều bit fingerprint được sử dụng để xác định đối tượng người dùng

+ Thuỷ vân (công khai): Khoá chính, bit ý nghĩa nhất được chọn (most

nào là kẻ gian lận.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

significant bit)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 27 -

- 28 -

+ Dấu xác thực: Số hiệu chủ sở hữu (owner ID), khoá thuỷ vân (key),
hàm băm, thời điểm tạo dữ liệu, tính pháp lý, thuộc lĩnh vực nào.

J. Guo, Y. Li, R. Deng, và K. Chen công bố công trình “Rights
Protection for Data Cubes”. ISC 2006
Dữ liệu dạng khối là một dạng dữ liệu phổ biến mà hỗ trợ tốt cho việc

2.2.6. Theo cấu trúc dữ liệu (Data structure)

khai thác một lượng lớn dữ liệu đa chiều. Thao tác phố biến nhất đối với dữ

a) Sử dụng khoá chính ảo (Virtual primary key)

liệu dạng này là truy vấn tổ hợp.

Y. Li, V. Swarupand S. Jajodia với công trình “Constructing a Virtual
Primary Key for Fingerprinting Relational Data”. DRM 2003
Giải quyết vấn đề đặt ra là: Nhiều lược đồ thuỷ vân đều dựa vào sự tồn
tại của khoá chính, điều này tồn tại một số nhược điểm như sau:
+ Không thể áp dụng thuỷ vân trực tiếp với những quan hệ mà không
tồn tại khoá chính.

c) Xử lý theo dòng dữ liệu (Streaming data)
*) R. Sion, M. Atallah, và S. Prabhakar công bố công trình công trình
nghiên cứu “Resilient Rights Protection for Sensor Streams”. VLDB 2004
Ý tưởng của công trình này là sử dụng một số các giá trị cực trị và các

giá trị lân cận của nó như là những đối tượng mang các bit thuỷ vân. Lựa
chọn các giá trị cực trị và thuỷ vân mọi giá trị lân cận (LSB) dựa trên một

+ Rất dễ bị tấn công bởi kẻ tấn công đơn giản là thực hiện thay đổi
hoặc xoá khoá chính

khoá bí mật và các bit ý nghĩa nhất của chúng (MSB). Mọi mẫu đều bao gồm
đầy đủ các giá trị cực trị và các giá trị lân cận của nó.

Ý tưởng cơ bản để giải quyết các vấn đề trên được nêu ra trong công
trình này là:

*) H. Guo, Y. Li, và S. Jajodia với công trình “Chaining Watermarks
for Detecting Malicious Modifications to Streaming Data”. IS 2007

+ Xây dựng khoá chính ảo bằng cách kết hợp các bit ý nghĩa nhất của
một số thuộc tính để tạo khoá chỉnh ảo.

Ý tưởng của nghiên cứu này là phân hoạch một luồng dữ liệu dạng số
thành các nhóm và nhúng một thuỷ vân vào mỗi nhóm. Việc phân nhóm là

+ Các thuộc tính khác nhau được chọn cho mỗi bộ là dựa vào một khoá
bí mật.

dựa vào các điểm động bộ. Một thuỷ vân dùng để nhúng được tính toán bằng
cách băm nhóm đã được băm trước đó hiện tại và nhóm đã băm trước đó tiếp

+ Nhược điểm của phương pháp này là làm tăng gấp đôi nguy cơ thất

theo, từ đó thuỷ vân được móc nối với nhau. Việc nhận dạng thuỷ vân có thể

bại khi nhận dạng lại thuỷ vân đã nhúng bởi vì, khi tao ra thêm một khoá

được thực hiện và định vị các thay đổi ngay cả khi một số nhóm đã bị xoá

chính ảo, một số bit thuỷ vân sẽ được nhúng ít lần hơn các bit khác vào dữ

toàn bộ cả nhóm.

liệu. Điều này làm gia tăng khả năng thất bại trong nhận dạng thuỷ vân nếu bị
tấn công.
b) Xử lý dữ liệu theo khối (Data cube)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 29 -

- 30 -

CHƢƠNG 3 – NỘI DUNG VÀ CÁC KẾT QUẢ

Ký hiệu
m

Số phân vùng

NGHIÊN CỨU
1. Phân hoạch dữ liệu
2. Nhúng thuỷ vân
3. Giải mã thuỷ vân
Các mục trong chương này của luận văn sẽ tập trung trình bày các kỹ
thuật áp dụng để nhúng thuỷ vân và giải mã thuỷ vân cơ sở dữ liệu quan hệ.

Ý nghĩa



Kích thước nhỏ nhất của một phân vùng

W

Chuối bit thuỷ vân {bl-1,…,b0}

l

Chiều dài của chuỗi bit thuỷ vân

Xmax

Các thống kê nhúng thuỷ vân cực đại

Xmin

Các thống kê nhúng thuỷ vân cực tiểu

Si

Phân vùng dữ liệu thứ i

|Si|, n

Độ dài của vector Si

Ks

Khoá bí mật

T*

Ngưỡng giải mã tối ưu

Đó là kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ sử dụng kỹ thuật tối ưu hoá như

Gi

Ràng buộc thứ i

một bài toán tối ưu hoá có ràng buộc, và sử dụng giải thuật di truyền để giải

i

Vector thao tác trong Rn

quyết bài toán tối ưu này. Kỹ thuật này bao gồm hai quá trình là mã hoá và

Bảng 1. Danh mục các ký hiệu

giải mã thuỷ vân.
Quá trình mã hoá được thực hiện qua các bước [22]:

Mục tiêu chính của phần này là trình bày về kỹ thuật phân hoạch, kỹ

+ Phân hoạch dữ liệu

thuật này sẽ làm tăng tính ngẫu nhiên khi chọn các bộ và phân vào các phân

+ Nhúng thuỷ vân

hoạch riêng rẽ. Tính ngẫu nhiên này có độ bảo mật cao được đảm bảo bằng

+ Đánh giá ngưỡng giải mã

hàm băm mật mã gọi mà mã xác thực thông điệp. Với việc áp dụng kỹ thuật

Quá trình giải mã thuỷ vân được thực hiện qua các bước
+ Phân hoạch dữ liệu

công.

+ Giải mã ngưỡng

Thuật toán phân hoạch dữ liệu phân chia bộ dữ liệu thành các phần, các

+ Bầu chọn theo đa số

tập hợp con dựa vào khoá bí mật KS . Khoá bí mật KS thường được chọn sao

Các mục dưới đây sẽ nêu chi tiết cách thức tiến hành.

cho kẻ tấn công khó có thể đoán ra được, đồng thời đảm bảo sự duy nhất và
ổn định trong quá trình tính toán phân hoạch. Vì vậy, giá trị thích hợp nhất

3.1. Phân hoạch dữ liệu

dành cho KS là các số nguyên tố càng dài càng tốt, điều này nhằm làm khó

Một số ký hiệu được sử dụng trong luận văn

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

phân hoạch này sẽ làm tăng khả năng bền vững của thuỷ vân trước các tấn

cho kẻ tấn công trong việc dò ra khoá bí mật.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 31 -

- 32 -

Bộ dữ liệu D là một quan hệ cơ sở dữ liệu với lược đồ D(P, A0,…, Av-1)

r.P

trong đó
+ P là thuộc tính khoá chính.

S1

+ A0,…, Av-1 là v thuộc tính cho việc thuỷ vân và |D| là số bản ghi trong D
Bộ dữ liệu D này được chia thành m phần không giao nhau (hay không
chồng lên nhau) {S0,…., Sm-1}, sao cho mỗi phần Si chứa trung bình

| D|
bản
m

S2

S3

Field1

Field 2

…

1
2

3
4
5
6
7
8
9
10
11
12
13
14
15

ghi từ bộ dữ liệu D. Các phần không giao nhau, tức là, với 2 phần bất kỳ Si và

.
.
n-1
n

Sj mà i  j thì Si  S j   .
Với mỗi bản ghi r  D , thuật toán phân hoạch dữ liệu tính toán mã xác

Hình 3. 1. Cách phân hoạch bộ dữ liệu

thực thông tin (MAC) để đảm bảo an toàn trong quá trình phân hoạch và mã
Sử dụng đặc tính này để các hàm băm an toàn sinh ra các bản tin được

này được cho bởi hàm băm H(Ks || H(r.P || Ks)) , trong đó

| D|
m

+ r.P là khoá chính của bản ghi r

phân phối một cách giống nhau, kỹ thuật phân hoạch này trung bình chứa

+ H() là hàm băm an toàn

bản ghi trong mỗi phần của phân hoạch. Hơn thế nữa, một kẻ tấn công không

+ || là toán tử nối.

thể đoán trước được các bản ghi đã chia thành các phần mà không biết rõ về

Sử dụng MAC đã tính toán, các bản ghi được chia cho các phần. Với bản

khoá bí mật Ks và số phần dữ liệu đã phân hoạch m được giữ bí mật. Giữ m bí

ghi r , phần được chia của nó được tính như sau:

mật không phải là đòi hỏi. Tuy nhiên, giữ nó bí mật để gây khó khăn hơn cho

partition(r) = H(Ks || H(r.P || Ks)) mod m

kẻ tấn công muốn tái sinh các phần đó.
Thuật toán phân hoạch dữ liệu được mô tả như sau:
Algorithm: get_partitions
Input: bộ dữ liệu D, khoá bí mật Ks, số phần phân hoạch m

Output: Các phần dữ liệu S0,…., Sm-1
1. S0,…., Sm-1  {}
2. for each Tuple r  D
3. partition(r)  H(Ks || H(r.P || Ks)) mod m
4. insert r into Spartition(n)
5. return S0,…., Sm-1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 33 -

- 34 Để đơn giản, ta giả sử các bản ghi trong phần phân hoạch S i chứa thuộc

Mặc dù sự có mặt của khoá chính trong quan hệ được thuỷ vân là phổ
biến trong dữ liệu quan hệ, kỹ thuật này có thể dễ dàng được mở rộng để xử
lý các trường hợp khi quan hệ không có khoá chính. Giả sử quan hệ thuộc tính
đơn,



bít ý nghĩa nhất (MSB) của dữ liệu có thể được dùng để thay thế cho

tính số đơn. Trong trường hợp này, mỗi phần S i có thể được biểu diễn như là

một véc tơ dữ liệu số Si  Si ,..., Sin  n .
3.2.1. Mã hoá bit đơn
Cho bít thuỷ vân bi, và véc tơ dữ liệu số Si  Si ,..., Sin  n . [22]

khoá chính. Việc sử dụng MSB cho rằng dữ liệu nhúng thuỷ vân thay đổi sẽ
không giống như

 bít MSB thay đổi. Tuy nhiên, nếu quá nhiều bản ghi chia

Thuật toán mã hoá bít ánh xạ vectơ dữ liệu S i thành vectơ dữ liệu mới

 bít MSB thì có thể cho phép kẻ tấn công suy luận được thông tin
 để làm cực tiểu
về sự phân phối phần dữ liệu. Giải pháp này có thể chọn

hạn chế bởi các ràng buộc trong bộ Gi  g i1 ,..., g ip . Việc mã hoá này dựa trên

hoá các bản sao.

hàm mã hoá tối ưu như là hàm giấu được định nghĩa như sau:

sẻ cùng

*) Các giá trị thực nghiệm của luận văn được tác giả áp dụng như sau:

SiW  S i   i , trong đó  i  [ i1 ,...,  in ]  n là vectơ thao tác. Các thao tác bị

Định nghĩa 1: Hàm giấu   : n   , với  là tập hợp các tham số bí mật
được quyết định bởi người chủ sở hữu dữ liệu.

Ký hiệu

Ý nghĩa

m = 20

Số phân vùng

Ks = 97

Khoá bí mật

H = MD5

Hàm băm

Tập hợp  có thể được xem như là một phần của khoá bí mật. Chú ý
rằng khi hàm giấu được áp dụng cho S i   i thì chỉ vectơ thao tác  i là biến,
trong khi S i và  là các hằng số.
Để mã hoá bit bi vào trong tập

Si

, thuật toán mã hoá bít sẽ làm tối ưu hoá

hàm hàm giấu  (Si   i ) . Mục đích của bài toán tối ưu hoá cực đại hoặc cực

3.2. Nhúng thuỷ vân
Để nhúng thuỷ vân vào cơ sở dữ liệu đã được phân hoạch, quá trình

tiểu hàm giấu dựa vào bít bi :
Nếu bít bi=1 thì thuật toán mã hoá bít đi giải bài toán cực đại hoá:

nhúng được tiến hành thông qua bước mã hoá bit đơn để xác định xem bit nào

max

trong chuỗi bit thuỷ vân sẽ được nhúng vào phân vùng cụ thể nào. Việc mã

i

hoá này chính là việc thực hiện giải bài toán tối ưu hoá có ràng buộc áp dụng
giải thuật di truyền. Sau quá trình nhúng, kết quả thu được là hai tập thống kê

 ( S i   i )

thoả mãn ràng buộc Gi

Nếu bít bi = 0 thì bài toán đơn giản được chuyển thành bài toán cực tiểu
hoá.

được dùng để tính ngưỡng cho quá trình giải mã thuỷ vân sau này.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 35 -

- 36 -

Giải pháp cho bài toán tối ưu hoá sinh ra vectơ thao tác  i để
*

 ( S i   i *) tối ưu. Khi đó, bộ dữ liệu mới S iW  S i   i * .Việc cực đại hoá cho
bi =1

và cực tiểu hoá cho bi =0, đảm bảo rằng các giá trị của hàm  (S i   i *)

sinh ra trong cả hai trường hợp được đặt ở vị trí có khoảng cách lớn nhất và
do đó làm cho bít được chèn bền vững hơn đối với các tấn công, đặc biệt là
các tấn công thay đổi dữ liệu.

tương ứng như đã được chỉ ra trong các dòng 4 và 7 của thuật toán mã hoá.
Các thống kê này được dùng để tính toán các tham số giải mã tối ưu.
Tập hợp các ràng buộc sử dụng Gi biểu diễn các biên với những thay đổi
cho phép có thể được thực hiện trên các phần tử của Si. Các ràng buộc này mô
tả không gian khả thi cho vectơ thao tác  i với mỗi bước mã hoá bít. Các
ràng buộc này phụ thuộc vào ứng dụng và dữ liệu. Ví dụ đối với dữ liệu là
mức tiêu thụ điện sinh hoạt thì có thể có các ràng buộc là các điểm cận để

Thuật toán mã hoá bít đơn được mô tả như sau:

chuyển đổi mức giá tính phí tiêu thụ. Với Việt Nam thời điểm hiện tại (năm

Algorithm: Encode_single_bit
Input: Tập dữ liệu Si, bit bi, tập ràng buộc Gi, tham số bí mật , tập thống

2009) thì các mốc để tính phí tiêu thụ điện là: 50 KW, 100 KW, 150 KW, 200
KW.

kê Xmax, Xmin

Các ràng buộc khoảng có thể được dùng để điều khiển độ lớn sự thay đổi

Output: Tập dữ liệu Si + *i

cho  ij , tức là:

1. If (|Si| <  ) then return Si

min
  ij  max
ij
ij

2. If (bi = = 1) then
3. maximize (  (Si   i ) ) phụ thuộc vào các ràng buộc Gi
4. insert  (S i   i *) into Xmax

Kiểu ràng buộc thú vị khác có thể yêu cầu bộ dữ liệu đã thuỷ vân duy trì
các thống kê nào đó. Ví dụ, trung bình bộ dữ liệu sinh ra bằng trung bình bộ
dữ liệu gốc thì ràng buộc trong trường hợp này có dạng:

5. else

n



6. minimize (  (Si   i ) ) phụ thuộc vào các ràng buộc Gi

j 1

ij

0

Một vài ràng buộc sử dụng khác có thể được tạo ra phụ thuộc vào các

7. insert  (S i   i *) into Xmin
8. return Si + *i

yêu cầu ứng dụng. Các ràng buộc này được xử lý bằng thuật toán mã hoá bít

Thuật toán mã hoá bít nhúng bít bi vào phần Si nếu |Si| >  .

dùng các kỹ thuật tối ưu hoá có ràng buộc.

Giá trị của  biểu diễn kích cỡ phần cực tiểu.
Việc cực đại hoá và cực tiểu hoá trong thuật toán mã hoá bít làm tối ưu
hoá hàm giấu  (S i   i *) thoả mãn các ràng buộc trong Gi . Các thống kê cực

Hàm giấu được sử dụng ở đây phụ thuộc vào các thống kê dữ liệu. Các
W

giá trị trung bình và phương sai của bộ dữ liệu mới S i  S i   i tương ứng là

 ( S   ) và  (2S   ) ; gọi tắt là
i

i

i

i

 và  2 .

đại hoá và cực tiểu hoá được ghi lại cho mỗi bước mã hoá trong X max , X min
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 37 -

- 38 như thế này có thể đòi hỏi một lượng tính toán rất lớn. Mục đích chính của
phương pháp là tìm ra lời giải (phương án) gần tối ưu mà đảm bảo các giá trị
cực tiểu hoá hàm  c ( S i   i ) và cực đại hoá hàm  c ( S i   i ) cách xa nhau.

Điểm tham chiếu : ref    c   , trong đó c  (0,1) là một số thực bí mật,

3.2.2. Áp dụng giải thuật di truyền giải bài toán tối ƣu

là một phần của tập  .
Các điểm dữ liệu trong S i   i ở trên ref như là các đầu vào “tail”.
 c được định nghĩa là số đầu vào tail đã chuẩn hoá bằng độ dài của S i ,

cũng như tail count được chuẩn hoá. Hàm này được tính như sau:

 c (S i   i ) 

tắc chọn ngẫu nhiên hoặc quá trình chọn lọc tự nhiên. Thay vì sử dụng thông
tin gradient, GA sử dụng trực tiếp hàm mục tiêu trong việc tìm kiếm. Thuật
toán di truyền này sẽ tìm kiếm không gian giải pháp bằng cách duy trì các giải

1 n
1{s  ref }
n j 1 ij ij

pháp thế. Sau đó, bằng cách sử dụng các hoạt động liên quan như là sự giao
nhau, sự biến đổi, và sự lựa chọn, thuật toán di truyền (GA) tạo ra các thế hệ

trong đó : n là độ dài của S i
1{}

Thuật toán di truyền (GA) là một kỹ thuật tìm kiếm dựa trên các nguyên

giải pháp thành công – các thế hệ có kế thừa và phát triển các đặc tính tốt của

là hàm được định nghĩa như sau:

cha mẹ chúng và như thế chúng dần dần tới gần các giải pháp tối ưu hoặc gần
tối ưu. Bằng việc sử dụng trực tiếp hàm mục tiêu trong tìm kiếm, thuật toán di

1 Nếu thoả mãn điều kiện trong {}

truyền có thể được áp dụng một cách có hiệu quả trong các bài toán không lồi,

1{} =
0 Các trường hợp còn lại

không tuyến tính cao, và phức tạp. Thuật toán di truyền trong tìm kiếm đã
thường xuyên được sử dụng để giải các bài toán tối ưu hoá và các bài toán

Chú ý rằng tham chiếu ref phụ thuộc vào cả  và  , có nghĩa là nó
không cố định và thay đổi tự động với các thống kê S i   i . Tail count
 c (S i   i )

được chuẩn hoá phụ thuộc vào phân phối của S i   i và tham

chiếu động.
Hàm mục tiêu  c ( S i   i ) không tuyến tính và không thể lấy vi phân, vì
vậy nó làm cho bài toán tối ưu hoá gần với bài toán tối ưu hoá có ràng buộc
không tuyến tính. Các cách tiếp cận truyền thống dựa vào gradient không thể
áp dụng được cho những bài toán như thế này. Thuật toán di truyền sẽ được
áp dụng để giải bài toán tối ưu hoá này. Việc giải bài toán tối ưu hoá này

không tuyến tính kết hợp với các ràng buộc hoặc các hàm mục tiêu phức tạp.
Thuật toán di truyền không bảo đảm tìm ra tối ưu toàn cục; tuy nhiên nó
có vẻ ít đặt bẫy tại vị trí tối ưu hơn các phương pháp tìm kiếm truyền thống
dựa vào gradient khi hàm mục tiêu không trơn và nói chung là tốt. GA thường

phân tích phần không gian giải pháp rộng hơn các phương pháp thông thường
và do đó nó có thể tìm ra các giải pháp khả thi hơn trong các bài toán có ràng
buộc nặng.
Bài toán dành cho GA là tìm kiếm trên không gian các giả thuyết ứng cử
để xác định giả thuyết tốt nhất. Trong GA “giả thuyết tốt nhất” được định

không nhất thiết phải tìm ra lời giải tối ưu toàn cục bởi vì việc tìm ra lời giải
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 39 -

- 40 -

nghĩa như là một giả thuyết tối ưu hoá một đại lượng số được định nghĩa

thành xâu các ký hiệu được gọi là nhiễm sắc thể. Một lược đồ biểu diễn nhị

trước cho bài toán sắp tới, được gọi là độ thích nghi của giả thuyết.

phân đơn giản sử dụng các ký hiệu {0, 1}; mỗi nhiễm sắc thể dài L ký hiệu.

Mặc dù các thuật giải di truyền được thực hiện thay đổi theo bài toán cụ
thể, nhưng chúng chia sẻ chung cấu trúc tiêu biểu sau: Thuật giải hoạt động

Ví dụ một nhiễm sắc thể nhị phân biểu diễn véctơ  i   i1 ,....,  in  có
dạng:

bằng cách cập nhật liên tục tập giả thuyết – được gọi là quần thể. Ở mỗi lần
lặp, tất cả các cá thể trong quần thể được ước lượng tương ứng với hàm thích
nghi. Rồi quần thể mới được tạo ra bằng cách lựa chọn có xác suất các cá thể
thích nghi tốt nhất từ quần thể hiện tại. Một số trong những cá thể được chọn
được đưa nguyên vẹn vào quần thể kế tiếp. Những cá thể khác được dùng làm

Mỗi thành phần của  i sử dụng L n bít, với n = |Si|. Biểu diễn nhiễm sắc
thể này tự động xử lý các ràng buộc khoảng trên  i . Ví dụ nếu  ij chỉ có thể

cơ sở để tạo ra các cá thể con bằng cách áp dụng các tác động di truyền: lai

lấy các giá trị trong khoảng [lij, hij], thì bằng việc ánh xạ các số nguyên trong

ghép và đột biến. Các giả thuyết mới được tạo ra bằng cách áp dụng toán tử

khoảng [0, 2L/n - 1] thành các giá trị trong khoảng [lij, hij] qua sự tịnh tiến và

lai ghép cho cặp giả thuyết thích nghi nhất và bằng cách tạo ra các đột biến
điểm đơn trong thế hệ giả thuyết kết quả. Quá trình này được lặp cho đến khi

sự đếm gộp đơn giản, điều này đảm bảo rằng bất cứ hoạt động nào được thực
hiện trên nhiễm sắc thể đó, các đầu vào được đảm bảo ở trong khoảng khả thi.
Mỗi nhiễm sắc thể có một giá trị tương ứng với hàm mục tiêu, như là sự

các giả thuyết thích hợp được phát hiện.
Các giả thuyết trong GA thường được thể hiện dưới dạng chuỗi các bit,

để chúng có thể dễ dàng được thực hiện bởi các toán tử di truyền: đột biến và
lai ghép. Các giả thuyết được thể hiện bởi chuỗi bit này có thể khá phức tạp.

phù hợp của nhiễm sắc thể. Để xử lý các loại ràng buộc khác, người ta phạt
các nhiễm sắc thể không khả thi bằng cách làm giảm giá trị phù hợp của
chúng theo hàm phạt  (  i ) - hàm biểu diễn mức độ không khả thi. Không mất

Hàm thích nghi (hàm phạt) định nghĩa tiêu chuẩn để xếp hạng các giả

tính tổng quát, nếu bài toán tối ưu hoá được giải với các ràng buộc

thuyết tiềm ẩn và để chọn lọc chúng theo xác suất để đưa vào quần thể thế hệ

Gi={gi1,…., gip}, thì hàm thích hợp được sử dụng là c ( Si   i )  ( i ) , trong

kế tiếp. Thường các tiêu chuẩn khác có thể được bao hàm, chẳng hạn như độ

đó    là hệ số phạt và nó được chọn đủ lớn để phạt hàm mục tiêu trong

phức tạp và mức độ tổng quát của luật. Một cách tổng quát hơn, khi giả thuyết

trường hợp  i không khả thi.

chuỗi bit được hiểu như là một thủ tục phức tạp, hàm thích nghi có thể đo
hiệu suất tổng của thủ tục kết quả hơn là hiệu suất của các luật riêng biệt.
Với bài toàn này, bộ khả thi  i là tập hợp các giá trị của  i làm thoả mãn
tất cả các ràng buộc trong Gi. Thuật toán di truyền trong tìm kiếm không làm

Hàm phạt  (  i ) được tính như sau:
p

( i )   g ij ( i )
j 1

trong đó:

việc trực tiếp với các điểm trong bộ  i , nhưng có ánh xạ các điểm trong  i
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 41 -

- 42 4. i  k mod l

0 Nếu  i thoả mãn ràng buộc gij

ij

g ( i ) =

5. S kw  encode_single_bit(bi, Sk, c, Xmax, Xmin)

(gij,  i ) Trƣờng hợp còn lại

6. insert S kw  Dw

 ( g ij ,  i )   biểu diễn lượng không khả thi đối với ràng buộc gij.


Ví dụ nếu ràng buộc gij là



n
j 1

7. T*  get_optimal_thershold(Xmax, Xmin)

 ij  0 thì  ( gij , i ) ||  j 1 ij || .
n

8. return Dw, T*

Thuật toán di truyền ít dùng cho tối ưu cục bộ. Tuy nhiên, thuật toán di truyền
yêu cầu một lượng lớn các đánh giá hàm cho hội tụ tới tối ưu toàn cục. Như

Thuật toán nhúng thuỷ vân sẽ sinh ra các phần S 0 ,..., S m 1  bằng cách gọi

vậy, thuật toán di truyền được sử dụng trong tìm kiếm chỉ khi thời gian xử lý

hàm get_partitions, sau đó với mỗi phần S k bít thuỷ vân bi được mã hoá bằng

không đòi hỏi chính xác (khắt khe) và thuỷ vân được thực hiện độc lập.

cách sử dụng thuật toán mã hoá bít đơn (encode_single_bit). Phần thay đổi
sinh ra S kW được chèn vào bộ dữ liệu đã nhúng thuỷ vân.

3.2.3. Thuật toán nhúng thuỷ vân
Thuỷ vân là một bộ l bít W=bl-1, . . . , b0 được nhúng vào các phần dữ
liệu S 0 ,..., S m 1 .

dụng bằng thuật toán get_optimal_threshold để tính toán ngưỡng giải mã tối
ưu.

Để việc nhúng thuỷ vân được nhiều lần trong bộ dữ liệu, độ dài thuỷ
vân l được chọn sao cho: l  m .

*) Các giá trị thực nghiệm mà tác giả áp dụng trong luận văn này là :
Watermark = 10101 ; //Chuỗi bit thuỷ vân dùng để nhúng

Thuật toán nhúng thuỷ vân sẽ nhúng bít bi vào phần S k sao cho
m
k mod l  i . Kỹ thuật này đảm bảo mỗi bít thuỷ vân được nhúng   lần trong
l 

bộ dữ liệu D .
Thuật toán nhúng thuỷ vân được mô tả như sau:

c = 0.75;

// Tham số bí mật c

 = 10;

// Kích thƣớc nhỏ nhất của một phân vùng

l=5

// Độ dài thuỷ vân

3.2.4. Đánh giá ngƣỡng giải mã

Algorithm: embed_watermark

Trong phần này, ta sẽ thảo luận kỹ thuật giải mã bít – kỹ thuật được dùng

Input: Tập dữ liệu D, khoá bí mật Ks, số phân vùng m, thuỷ vân W = {b0,
…, bl-1}
Output: Tập dữ liệu đã nhúng thuỷ vân Dw, ngưỡng tối ưu giải mã T*
1. Dw, Xmax, Xmin  {}

để lấy ra bít thuỷ vân đã nhúng bi từ phần S iW .
Kỹ thuật giải mã bít dựa trên ngưỡng tối ưu T* để làm cực tiểu hoá xác
suất xảy ra lỗi giải mã.
Với phần dữ liệu S iW , kỹ thuật giải mã bít sẽ tính toán hàm giấu   ( S iW )

2. S0, …., Sm-1  get_partition(D, Ks, m)

và so sánh với ngưỡng giải mã tối ưu T* để giải mã bít đã nhúng bi .

3. for each Partition Sk
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Các thống kê (Xmax, Xmin) được thu thập sau mỗi bít nhúng và được sử

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 43 -

- 44 -

W
Nếu   ( S i ) >T* thì bít được giải mã là 1, ngược lại bít giải mã là 0.

Ví dụ: sử dụng hàm giấu đã được mô tả ở các phần trước, kỹ thuật giải
mã tính toán tail count đã chuẩn hoá của S

W
i

bằng cách tính toán tham chiếu

ref và đếm số đầu vào trong S iW lớn hơn ref. Sau đó, tail count đã chuẩn hoá
được so sánh với T*. Giá trị của ngưỡng T* nên được tính toán cẩn thận để
làm cực tiểu hoá xác suất xảy ra lỗi giải mã bít.

Để cực tiểu hoá xác suất lỗi giải mã ( Perr ) đối với ngưỡng T, ta lấy đạo
hàm cấp một của Perr đối với T để xác định ngưỡng tối ưu T*, như sau:
Perr

Xác suất xảy ra lỗi giải mã bít được định nghĩa như là xác suất (khả

vậy chúng có thể được đánh giá như các phân phối Gaussian N (  0 ,  0 ) và

năng) bít nhúng được giải mã sai. Ngưỡng giải mã tối ưu T* được chọn để

N (1 ,  1 ) một cách tương ứng. Tuy nhiên, sự phân tích sau đây có thể vẫn

làm cực tiểu hoá xác suất xảy ra lỗi giải mã. Thời kỳ nhúng bít dựa trên việc

được thực hiện với các kiểu phân phối khác.

cực tiểu hoá hoặc cực đại hoá tail count; các giá trị hàm giấu đã tối ưu hoá
này sẽ được tính toán trong suốt thời kỳ mã hoá để tính toán ngưỡng tối ưu

P0 có thể được đánh giá bằng

| X min |
,
| X max |  | X min |

T*. Các giá trị hàm giấu cực đại hoá tương ứng với bi = 1 được lưu trong tập

P1  1  P0 .

Xmax. Tương tự, các giá trị hàm giấu cực tiểu hoá được lưu trữ trong Xmin.

Thay thế các biểu thức Gaussian cho f ( x | be  0) và f ( x | be  1) , thì đạo
hàm cấp một của Perr có dạng:

Cho Perr , P0 và P1 tương ứng là xác suất xảy ra lỗi giải mã, xác suất mã
hoá bít =0, và xác suất mã hoá bít =1.

Perr
P0
(T   0 ) 2
P1
(T  1 ) 2

exp( 
)
exp( 
)
2
T
2 1
2 02
 1 2
 0 2

Cho be , bd , và f (x) tương ứng là bít được mã hoá, bít được giải mã, và
Cho đạo hàm cấp một của Perr bằng 0, ta sẽ được phương trình bậc 2, có

hàm mật độ xác suất.

thể tính giá trị ngưỡng tối ưu T* làm cực tiểu hoá Perr . Đạo hàm cấp 2 của Perr

Khi đó, Perr được tính như sau:
Perr = P(bd  0, be  1)  P(bd  1, be  0)

được đánh giá tại T* để đảm bảo điều kiện (

= P(bd  0 | be  1) P1  P(bd  1 | be  0) P0

 P    2 2   2 2
 02   12
 2 2
T *2  0 1 2 2 1 0 T *  ln 0 1   1 0 2 20 1  0
2 2
2 0  1
 01
2 0  1
 P1 0 

= P( x  T | be  1) P1  P( x  T | be  0) P0
T





T

Từ sự phân tích trên, việc chọn ngưỡng tối ưu T* dựa trên các thống kê

= P1  f ( x | be  1)dx  P0  f ( x | be  0)dx
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

 2 Perr (T *)
 0 ) được thoả mãn.

T 2

kết quả thu được của thuật toán nhúng thuỷ vân. Ngưỡng tối ưu T* làm cực

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- 45 -

- 46 -

tiểu hoá xác suất xảy ra lỗi giải mã và như thế nó sẽ nâng cao độ bền của thuỷ

đơn giản và tăng tốc độ xử lý tính toán khi lập trình, tác giả đã tính toán giá trị

vân được nhúng do khả năng giải mã thành công tăng.

ngưỡng giải mã T* bằng cách lấy giá trị trung bình của các tập thống kê Xmax
và Xmin này:
+ Lấy giá trị cực đại của tập Xmin
+ Lấy giá trị cực tiểu của tập Xmax

T* =

Min( X max )  Max( X min )
2

Theo các kết quả thực nghiệm tác giả nhận thấy rằng, ngưỡng giải mã T*
phụ thuộc vào phân phối của tập Xmax và Xmin, nếu phân phối của hai tập này
càng cách xa nhau thì sẽ càng làm cực tiểu hoá lỗi giải mã. Điều này phụ
thuộc nhiều vào kỹ thuật áp dụng dùng để giải bài toán tối ưu hoá, ở đây là kỹ
thuật GA.
3.3. Giải mã thuỷ vân
Hình 3. 2. Thống kê phân bố tập Xmax, Xmin và cách lấy ngưỡng T*
Ở hình trên, đường chấm gạch nằm giữa hai phân phối sẽ làm cực tiểu

Thuật toán phát hiện thuỷ vân sẽ lấy ra thuỷ vân đã nhúng nhờ các tham
số bí mật gồm có: KS, m,  , c, T.
Quá trình giải mã thuỷ vân sẽ được thực hiện thông qua ba bước chính:

hoá xác suất xảy ra lỗi giải mã.
Xác suất xảy ra lỗi giải mã cũng phụ thuộc vào các ràng buộc sử dụng.
Nếu các ràng buộc sử dụng chặt thì lượng thay đổi cho bộ dữ liệu D có thể
không đủ cho sự chèn thuỷ vân. Tất cả xác suất xảy ra lỗi giải mã thuỷ vân

Phân hoạch, giải mã và bầu chọn theo đa số
+ Phân hoạch tập dữ liệu chứa thuỷ vân: Kỹ thuật phân hoạch này đã
được trình bày kỹ trong phần [3.1]. Đầu vào bao gồm:

được làm giảm đi bằng cách nhúng thuỷ vân nhiều lần trong bộ dữ liệu đó, về

i) Bộ dữ liệu đã thuỷ vân DW

cơ bản nó là sự lặp lại mã sửa sai.

ii) Khoá bí mật KS

Sau nhiều lần chạy thử nghiệm kết quả giải mã, tác giả của luận văn nhận
thấy rằng, ngưỡng giải mã T* sẽ nằm trong miền thuộc phần giao nhau của
hai phân phối giải mã ra bit 0 và giải mã ra bit 1. Miền giao nhau này thường

iii) Số phần phân hoạch m
Bộ dữ liệu đạt được DW là các phần phân hoạch S 0 ,..., S m 1 . Mỗi phần sẽ
chứa một bit thuỷ vân đơn đã được mã hoá trong đó.

nằm ngoài khoảng tin cậy khi tính thống kê của tập Xmax và Xmin. Vì vậy, để
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hoá áp dụng giải thuật di truyền

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về