Tải bản đầy đủ (.pdf) (71 trang)

Tìm hiểu kỹ thuật nhúng thông tin để bảo vệ bản quyền cơ sở dữ liệu quan hệ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (927.38 KB, 71 trang )


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG




NGUYỄN MINH KHÔI

Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01

TÌM HIỂU KỸ THUẬT NHÚNG
THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ
DỮ LIỆU QUAN HỆ


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH



NGƢỜI HƢỚNG DẪN KHOA HỌC:




PGS.TS BÙI THẾ HỒNG



Thái Nguyên, năm 2013

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii
LỜI CẢM ƠN
Luận văn đƣợc thực hiện tại trƣờng Đại học Công nghệ Thông tin và
Truyền Thông – Đại học Thái Nguyên dƣới sự hƣớng dẫn của PGS. TS Bùi
Thế Hồng.
Trƣớc hết, tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Bùi Thế Hồng,
ngƣời đã có những định hƣớng, những kiến thức quý báu, những lời động
viên và chỉ bảo giúp tôi vƣợt qua những khó khăn để tôi hoàn thành tốt luận
văn của mình.
Tôi xin đƣợc bày tỏ lòng cảm ơn và sự kính trọng của mình đến các
thầy cô giáo Trƣờng Đại học Công nghệ Thông tin và Truyền Thông, Đại học
Thái Nguyên, đặc biệt là các thầy cô giáo đã giảng dạy và giúp đỡ tôi trong
suốt quá trình học tập tại trƣờng.
Tôi cũng đặc biệt cảm ơn tới bạn bè lớp Cao học K9D, các đồng
nghiệp tại Trƣờng Đại Lƣơng Thế Vinh tỉnh Nam Định, đã luôn động viên,
giúp đỡ tôi trong quá trình học tập và công tác, để tôi hoàn thành nhiệm vụ
đƣợc giao.
Nhân dịp này, tôi cũng xin gửi lời cảm ơn đến gia đình, ngƣời thân, đã
tạo điều kiện giúp đỡ, động viên, trợ giúp tôi về tinh thần trong suốt quá trình
học tập.

Thái Nguyên, ngày 10 tháng 03 năm 2013
Tác giả



Nguyễn Minh Khôi

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Tìm hiểu kỹ thuật nhúng thông tin để bảo
vệ bản quyền cơ sở dữ liệu quan hệ” này là công trình nghiên cứu của riêng
tôi. Các số liệu sử dụng trong luận văn là trung thực. Các kết quả nghiên cứu
đƣợc trình bày trong luận văn chƣa từng đƣợc công bố tại bất kỳ công trình
nghiên cứu nào khác.






Nguyễn Minh Khôi



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iv
MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN iii
DANH MỤC CÁC HÌNH VẼ ….vi
1. Đặt vấn đề. 1
2. Đối tƣợng và phạm vi nghiên cứu. 2

3. Hƣớng nghiên cứu của đề tài. 2
4. Những nội dung nghiên cứu chính. 3
5. Phƣơng pháp nghiên cứu. 3
6. Ý nghĩa khoa học của đề tài. 3
CHƢƠNG I: TÌM HIỂU VỀ BẢN QUYỀN SẢN PHẨM SỐ VÀ KỸ
THUẬT NHÚNG TIN 5
1.1 Bản quyền sản phẩm số 5
1.2. Kỹ thuật nhúng thông tin và ứng dụng 7
1.2.1 Kỹ thuật nhúng thông tin 7
1.2.2 Phân loại các kỹ thuật nhúng tin 8
1.3 Ứng dụng của kỹ thuật nhúng tin 10
1.4 Môi trƣờng nhúng tin 12
1.4.1 Trong văn bản 12
1.4.3 Trong audio 13
1.4.4 Trong video 14
1.4.5 Nhúng thông tin vào cơ sở dữ liệu quan hệ. 15
1.5 Tình hình nghiên cứu kỹ thuật nhúng tin vào cơ sở dữ liệu 16
1.5.1 Theo kiểu dữ liệu (Data type) 17
1.5.2 Theo kiểu biến dạng (Distortion) 18
1.5.3 Theo độ nhạy (Sensitivity) 18
1.5.6 Theo thông tin thuỷ vân (watermark information) 18
1.5.7 Tính kiểm tra đƣợc 19
1.5.8 Theo cấu trúc dữ liệu (Data structure) 20
1.5.9 Xử lý dữ liệu theo khối (Data cube) 21
1.5.10 Xử lý theo dòng dữ liệu (Streaming data) 21
CHƢƠNG II: NHÚNG THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ
DỮ LIỆU 22
2.1. Cơ sở của giải pháp 22
2.1.1 Nhúng tin vào ảnh số 22


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

v
2.1.1.1 Nhúng tin bằng kỹ thuật thay thế bit có trọng số thấp nhất. 22
2.1.1.2 Các phép biến đổi miền không gian ảnh sang miền tần số. 26
2.1.1.3 Kỹ thuật sinh chuỗi giả ngẫu nhiên 30
2.1.1.4 Các kỹ thuật trải phổ trong truyền thông 31
2.2. Giải thuật nhúng đề xuất 33
2.3. Giải thuật giải nhúng 41
2.4 Bảng hợp trƣớc các loại tấn công 43
2.4.1 Xóa ngẫu nhiên bản ghi 44
2.4.2 Sửa đổi bảng ghi 45
2.4.3 Chèn bản ghi 47
CHƢƠNG III: THỬ NGHIỆM GIẢI THUẬT ĐỀ XUẤT 48
3.1 Dữ liệu cho thử nghiệm 48
3.2 Xây dựng chƣơng trình thử nghiệm 50
3.2.1Tổ chức, cài đặt giải thuật 51
3.2.2 Hoạt động của chƣơng trình 52
KẾT LUẬN 55
PHỤ LỤC 57
1. Mã
xác
thực thông tin (
M
A
C) 57
2. Hàm băm 58
TÀI LIỆU THAM KHẢO: 63

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


vi
DANH MỤC CÁC KÝ HIỆU VÀ MỤC VIẾT TẮT

LSB
Least Significant Bit
DFT
Discrete Fourier Transform
DCT
Discrete Cosine Transform
DWT
Descrete Wavelet Transform
IDWT
Inverse Discrete Cosine Transform
HVS
Human Visual System
CSDL
Cơ sở dữ liệu quan hệ


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Sơ đồ biểu diễn quá trình nhúng tin 8
Hình 1.2. Sơ đồ biểu diễn quá trình giải mã 8
Hình 1.3. Phân loại kỹ thuật nhúng tin 9
Hình 2.1: Minh họa thủy vân ảnh số 22
Hình 2.1.1: Minh họa cách nhúng tin bằng kỹ thuật LSB 25
Hình 2.2.1 Minh họa dữ liệu thông tin sinh viên 34

Hình 2.2.2 Minh họa dữ liệu kết quả học tập của sinh viên 35
Hình 2.2.3 Bảng hợp lƣu dữ liệu để nhúng tin 35
Hình 2.2.4: Hình mô phỏng bảng hợp chứa thông tin tìm kiếm, xác định dữ
liệu. 36
Hình: 2.2.5: Minh họa bảng hợp vào các bít sẽ nhúng………… ……………… 39
Hình 2.2.6: Bảng sinh viên sau khi nhúng tin…………………………… 40
Hình 2.2.7 Bảng Kết quả học tập sau khi nhúng tin…………………… 40
Hình 2.3.1: Bảng bit sau giải nhúng ……………………………………… 43
Hình 2.4.1.1: Bảng kết quả học tập sau khi bị xóa một số bản ghi ……… 45
Hình 2.4.1.2: Bảng bit thu đƣợc từ giải nhúng sau khi CSDL bị xóa bản
ghi………… 45
Hình 2.4.2.1: Bảng kết quả học tập sau khi bị sửa một số bản ghi ………… 46
Hình 2.4.2.2: Bảng bit thu đƣợc từ giải nhúng sau khi CSDL bị sửa bản ghi
……………………………………………………………………………….46
Hình 3.1.1: Biểu diễn tổ chức, lƣu trữ thông tin trong CSDL thử nghiệm 48
Hình 3.1.2: Mối liên giữa bảng dữ liệu sinh viên và bảng điểm kết quả học tập
50
Hình 3.2.1: Giao diện kết nối tới CSDL 52
Hình 3.2.2: Giao diện chọn bảng 53
Hình 3.2.3: Giao diện xác định các trƣờng lấy thông tin 54
Hình 3.2.4 : Thao tác nhúng và tách nhúng. 54
Hình 4.1. Sơ đồ hoạt động của MAC 57
Hình 4.2. Mô tả quá trình xác thực thông tin bằng MAC 58
Hình 4.3. Biểu diễn hàm băm 61


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1
LỜI MỞ ĐẦU

1. Đặt vấn đề.


Với sự phát triển nhanh chóng của Internet, việc sao chép và phân phối
sản phẩm số bất hợp pháp đang trở thành vấn đề nhứng nhối với nhiều cơ
quan, tổ chức, cá nhân. Trong khi dữ liệu số lại là đối tƣợng dễ dàng bị nhân
rộng, thay đổi và sao chép. Do đó, nếu việc vi phạm bản quyền trở nên phổ
biến, thì nó sẽ làm suy yếu giá trị của thƣơng mại của các sản phẩm số này.
Điều này đã tạo ra cuộc cách mạng trong lĩnh vực bảo vệ quan điểm của
quyền sở hữu trí tuệ. Ngày nay, không chỉ ngành công nghiệp hình ảnh và âm
nhạc (audio), cả các bộ phim (video) đang gặp phải vấn đề vi phạm bản
quyền lớn, do các trang web cộng đồng chia sẻ tập tin và sự gia tăng của băng
thông Internet. Vì vậy, quản lý quyền kỹ thuật số đang ngày càng là một vấn
đề đáng quan tâm.
Nhúng thông tin là một trong những kỹ thuật giấu
dữ
liệu hiện đại.
Nó đƣợc định nghĩa nhƣ là quá
trình
chèn thông tin vào dữ liệu nhƣng
bảo
đảm không cảm thụ đƣợc, nghĩa là chỉ làm thay
đổi
nhỏ dữ liệu gốc.
Nhúng thông tin đã đƣợc ứng dụng trong nhiều lĩnh
vực
nhƣ bảo vệ quyền
sở hữu, điều khiển việc sao
chép,
xác nhận giấy tờ, hay truyền đạt thông

tin khác,

trong đó ứng dụng phổ biến của nó là cung cấp
bằng
chứng về
bản quyền tác giả của các dữ liệu số
bằng
cách nhúng các thông tin bản
quyền. Rõ
ràng
trong ứng dụng này, thông tin nhúng cần phải
bền
vững
trƣớc các thao tác nhằm loại bỏ
chúng.
Trong thời đại bùng nổ thông tin hiện nay, cơ sở dữ liệu quan hệ gặp
các nguy cơ tấn công là không thể tránh khỏi.
Do lo ngại ngày càng tăng về
việc vi phạm bản quyền cơ sở dữ liệu quan hệ, nên việc quản lý quyền kỹ
thuật số của cơ sở dữ liệu đang trở thành một lĩnh vực nghiên cứu cực kỳ
quan trọng. Gần đây đã đƣợc một số công trình tiên phong trong lĩnh vực này

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2
giúp xác lập quyền sở hữu cơ sở dữ liệu quan hệ. Giải pháp đƣợc đƣa ra chính
là sử dụng kỹ thuật nhúng thông tin vào cơ sở dữ liệu để cá nhân, tổ chức xác
nhận quyền làm chủ sở hữu cơ sở dữ liệu mình. Trƣớc hết hãy xem xét kịch
bản ngƣời mua-ngƣời bán chung một chủ sở hữu của cơ sở dữ liệu đƣợc bán
cho nhiều khách hàng khác nhau. Đối với trƣờng hợp này, rõ ràng vấn đề

chính là xác định quyền sở hữu mỗi bản sao của các dữ liệu đƣợc bán nhƣ
vậy là xác định nguồn gốc chính xác và đáng tin cậy của cơ sở dữ liệu quan
hệ trong trƣờng hợp vi phạm bản quyền. Cũng với cách thức này áp dụng cho
tình huống công bố cơ sở dữ liệu và vấn đề xác minh thông tin trong cơ sở dữ
liệu có bị xuyên tạc hay không. Vì vậy luận văn này sẽ tìm hiểu các kiểu tấn
công nhằm vào cơ sở dữ liệu quan hệ, từng tình huống và tìm hiểu các cách
giải quyết từng vấn đề. Tiếp đến luận văn sẽ tìm hiểu thuật toán nhúng thông
tin vào cơ sở dữ liệu quan hệ và đƣa ra minh họa.

2. Đối tƣợng và phạm vi nghiên cứu.
 Một số cách thức vi phạm bản quyền cơ sở dữ liệu quan hệ
thƣờng gặp.
 Nhúng thông tin vào cơ sở dữ liệu quan hệ là một lĩnh vực rộng
lớn và mới mẻ luận văn này chỉ tìm hiểu các giải thuật cơ sở cho việc nhúng
và giải nhúng.

3. Hƣớng nghiên cứu của đề tài.
 Tìm hiểu về cơ sở dữ liệu quan hệ.
 Tìm hiểu mô hình nhúng thông tin cơ sở dữ liệu quan hệ.
 Tìm hiểu các giải thuật liên quan.



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3
4. Những nội dung nghiên cứu chính.
CHƢƠNG I: TÌM HIỂU VỀ BẢN QUYỀN SẢN PHẨM SỐ VÀ KỸ
THUẬT NHÚNG TIN
CHƢƠNG II: NHÚNG THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ

DỮ LIỆU
CHƢƠNG III: THỬ NGHIỆM GIẢI THUẬT ĐỀ XUẤT
KẾT LUẬN
5. Phƣơng pháp nghiên cứu.
 Về lý thuyết:
+ Đọc tài liệu để tìm hiểu về cơ sở dữ liệu quan hệ, kỹ thuật nhúng
thông tin bảo vệ bản quyền sản phẩm số nói chung và cơ sở dữ liệu quan hệ
nói riêng.
+ Tìm hiểu cơ sở toán học và phƣơng pháp xây dựng mô hình cho bài
toán nhúng thông tin để bảo vệ bản quyền cơ sở dữ liệu quan hệ.
 Về thực nghiệm:
+ Áp dụng các thuật toán trên cho mô hình cơ sở dữ liệu để minh họa.
6. Ý nghĩa khoa học của đề tài.
 Trong thời đại ngày nay việc an toàn quyền sở hữu thông tin là
một nhu cầu cập bách không thể xa rời. An toàn sở hữu thông tin ở đây chính
là bảo vệ thông tin không bị sao chép trái phép, không bị thay đổi ở mọi hình
thức xuyên tạc hay bóp méo sự thật. Mà quan trong hơn cả là khẳng định
quyền làm chủ thông tin, mà đặc biệt hơn nữa trong quyền sở hữu thông tin
chính là quyền sở hữu cơ sở dữ liệu quan hệ. Bởi vì mọi cá nhân,cơ quan, tổ
chức, tồn tại trong xã hội thông tin thì thông tin của mình đều đƣợc lƣu trữ
trong cơ sở dữ liệu quan hệ. Một khi cơ sở dữ liệu đó bị xâu phạm, bị biến đổi
mà ta không thể nào chứng thực lại thông tin gốc trong cơ sở dữ liệu thì điều

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4
gì sẽ xẩy ra Chính vì thề mà các kỹ thuật để chứng thực quyền sở hữu cơ
sở dữ liệu quan hệ đang đƣợc nhiều tổ chức đầu tƣ nghiên cứu, trong dó kỹ
thuật nhúng thông tin để bảo vệ cơ sở dữ liệu quan hệ đang đƣợc nhiều tổ
chức ứng dụng.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5
CHƢƠNG I: TÌM HIỂU VỀ BẢN QUYỀN SẢN PHẨM SỐ VÀ KỸ
THUẬT NHÚNG TIN.
Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu
sắc trong xã hội và trong cuộc sống. Những thuận lợi thông tin kỹ thuật số
mang lại cũng đề ra những thách thức và cơ hội mới cho quá trình đổi mới.
Sự ra đời những phần mềm có tính năng mạnh, các thiết bị mới nhƣ máy
ảnh kỹ thuật số, máy quét chất lƣợng cao, máy in, máy ghi âm kỹ thuật số,
v.v…, đã với tới thế giới tiêu dùng rộng lớn để sáng tạo, xử lý và thƣởng
thức các dữ liệu đa phƣơng tiện. Mạng Internet toàn cầu đã biến thành một
xã hội ảo nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị,
quân sự, quốc phòng, kinh tế, thƣơng mại… Và chính trong môi trƣờng mở
và tiện nghi nhƣ thế xuất hiện những vấn nạn, tiêu cực đang rất cần đến các
giải pháp hữu hiệu cho vấn đề an toàn thông tin nhƣ nạn ăn cắp bản quyền,
nạn xuyên tạc thông tin, truy nhập thông tin trái phép v.v Đi tìm giải pháp
cho những vấn đề này không chỉ giúp ta hiểu thêm về công nghệ phức tạp
đang phát triển rất nhanh này mà còn đƣa ra những cơ hội kinh tế mới cần
khám phá. Một trong các giải pháp đƣợc quan tâm nhiều trong giai đoạn
hiện nay là nhúng tin.
1.1 Bản quyền sản phẩm số
Để nói về bản quyền sản phẩm số, trƣớc hết ta tìm hiểu về bản quyền sản
phẩm. Bởi vì sản phẩn số là các sản phẩn đƣợc số hóa, tổ chức và lƣu trữ trên
máy tính.
Copyright (bản quyền) là thuật ngữ đƣợc các quốc gia theo hệ thống pháp
luật Anh-Mỹ (Án lệ) dùng chỉ cho quyền phi vật thể đối với các tác phẩm trí
tuệ. Quyền này tƣơng tự nhƣ quyền tác giả (Author's Right). Copyright lại
bảo vệ quyền lợi kinh tế của ngƣời sở hữu quyền tác giả (owner of the

Copyright) hơn là chính tác giả. Copyright trƣớc nhất là dùng để bảo vệ các
đầu tƣ về kinh tế.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6
Tại Việt Nam, Quyền tác giả tại Việt Nam đã đƣợc quy định chi tiết trong
Bộ Luật Dân sự 2005, Luật Sở hữu trí tuệ và Nghị Định 100/NĐ-CP/2006
của Chính phủ quy định chi tiết và hƣớng dẫn thi hành một số điều của Bộ
luật Dân sự Luật Sở hữu trí tuệ về quyền tác giả và quyền liên quan. Theo đó,
Quyền tác giả là quyền của tổ chức, cá nhân đối với tác phẩm do mình sáng
tạo hoặc sở hữu, bao gồm các quyền sau đây:

1. Quyền Nhân thân
- Đặt tên cho tác phẩm
- Đứng tên thật hoặc bút danh trên tác phẩm; đƣợc nêu tên thật hoặc
bút danh khi tác phẩm đƣợc công bố, sử dụng;
- Công bố tác phẩm hoặc cho phép ngƣời khác công bố tác phẩm;
- Bảo vệ sự toàn vẹn của tác phẩm, không cho ngƣời khác sửa chữa, cắt
xén hoặc xuyên tạc tác phẩm dƣới bất kỳ hình thức nào gây phƣơng hại đến
danh dự và uy tín của tác giả.

2. Quyền tài sản
- Làm tác phẩm phái sinh;
- Biểu diễn tác phẩm trƣớc công chúng;
- Sao chép tác phẩm;
- Phân phối, nhập khẩu bản gốc hoặc bản sao tác phẩm;
- Truyền đạt tác phẩm đến công chúng bằng phƣơng tiện hữu tuyến, vô
tuyến, mạng thông tin điện tử hoặc bất kỳ phƣơng tiện kỹ thuật nào khác;
- Cho thuê bản gốc hoặc bản sao tác phẩm điện ảnh, chƣơng trình máy

tính. Tác phẩm đƣợc bảo hộ theo cơ chế quyền tác giả là các tác phẩm trong
lĩnh vực văn học, khoa học và nghệ thuật.
Về phía ngƣời tiêu dùng thì, thì có những ngƣời tiêu dùng vì đã quen
thuộc với các vi phạm về quyền tác giả trong các nơi trao đổi thông tin trên

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7
Internet nên đang tự nhận thấy bị hạn chế các quyền tự do bởi luật pháp ngày
càng nghiêm ngặt hơn. Bên cạnh đó cũng có những tác giả mong muốn đƣa
các tác phẩm của họ cho cộng đồng sử dụng tự do.
Chính vì thế mà với các sản phẩm số là cơ sở dữ liệu quan hệ thì cũng
không tránh khỏi các tác động của các tác nhân lên sản phẩm số nêu trên. Áp
dụng sự tiến bộ của khoa học và công nghệ, các nhà nghiên cứu đã đề ra kỹ
thuật nhúng thông tin khẳng định bản quyền vào trong sản phẩm trƣớc khi
công bố sản phẩm. Để biết các thông tin ẩn bên trong này có tác dụng thế
nào, kỹ thuật này hoạt động ra sao, thì tôi xin trình bày ở các phần dƣới đây.

1.2. Kỹ thuật nhúng thông tin và ứng dụng
1.2.1 Kỹ thuật nhúng thông tin
Từ trƣớc đến nay, nhiều phƣơng pháp bảo vệ thông tin đã đƣợc đƣa ra,
trong đó giải pháp dùng mật mã đƣợc ứng dụng rộng rãi nhất. Thông tin ban
đầu đƣợc mã hoá, sau đó sẽ đƣợc giải mã nhờ khoá của hệ mã. Đã có nhiều hệ
mã phức tạp đƣợc sử dụng nhƣ DES, RSA, NAPSACK , rất hiệu quả và phổ
biến.
Nhúng thông tin vào sản phẩm hay nhúng thông tin vào sản phẩm cách
đƣa một lƣợng thông tin vào trong sản phẩm mà vẫn bảo đảm tính chất ẩn của
dữ liệu đƣợc giấu và chất lƣợng sản phẩm.
Sự khác biệt chủ yếu giữa mã hoá thông tin và nhúng thông tin là mã
hoá làm cho các thông tin thể hiện là có đƣợc mã hoá hay không, còn với

nhúng thông tin thì ngƣời ta sẽ khó biết đƣợc là có thông tin giấu bên trong.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8

Hình 1.1. Sơ đồ biểu diễn quá trình nhúng tin

Hình 1.2. Sơ đồ biểu diễn quá trình giải mã
Hai sơ đồ trên hình 1.1 và 1.2 biểu diễn quá trình nhúng tin và quá trình giải
tin.

1.2.2 Phân loại các kỹ thuật nhúng tin
Kỹ thuật nhúng thông tin số mới đƣợc hình thành trong thời gian gần đây
nên xu hƣớng phát triển chƣa ổn định. Nhiều phƣơng pháp mới, theo nhiều
khía cạnh khác nhau. Hình minh họa dƣới đây là sơ đồ phân loại sau đây
đƣợc Fabien A. P. Petitcolas đề xuất năm 1999.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9

Hình 1.3. Phân loại kỹ thuật nhúng tin

Dựa trên việc thống kê các công trình đã công bố trên các tạp chí,
cùng với thông tin về tên và tóm tắt nội dung của các công trình đã công bố
trên Internet, ngƣời ta chia lĩnh vực nhúng tin ra làm hai hƣớng lớn, đó là
watermarking và steganography.
Steganography quan tâm tới ứng dụng che giấu các bản tin đòi hỏi độ
bí mật cao và dung lƣợng lớn.

Watermark (thủy vân) quan tâm nhiều đến ứng dụng nhúng các mẩu
tin ngắn nhƣng đòi hỏi độ bền vững lớn của thông tin cần giấu (trƣớc các
biến đổi thông thƣờng của tệp dữ liệu môi trƣờng).
Đối với từng hƣớng lớn trên, quá trình phân loại theo các tiêu chí khác
nhau dựa theo ảnh hƣởng các tác động từ bên ngoài, ngƣời ta có thể chia
watermark thành hai loại, một loại bền vững với các tác động sao chép trái
phép, loại thứ hai lại cần tính chất hoàn toàn đối lập: dễ bị phá huỷ trƣớc các

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10
tác động nói trên. Cũng có thể chia watermark theo đặc tính, một loại cần
đƣợc che giấu để chỉ có một số ngƣời tiếp xúc với nó có thể thấy đƣợc thông
tin, loại thứ hai đối lập, cần đƣợc mọi ngƣời nhìn thấy.
Nhƣ đã trình bày ở trên, các kỹ thuật nhúng tin ta đang tìm hiểu mục
đích để bảo vệ bản quyền và từ đây ta có thể song hành sử dụng hai từ khóa
nhúng tin bảo vệ bản quyền và thủy vân mang tính chất tƣơng đƣơng nhau.

1.3 Ứng dụng của kỹ thuật nhúng tin
Bảo mật thông tin bằng nhúng tin có hai khía cạnh. Một là bảo mật
cho dữ liệu đƣợc nhúng, ví dụ nhúng tin mật: thông tin mật đƣợc giấu kỹ
trong một đối tƣợng khác sao cho ngƣời khác không phát hiện đƣợc. Hai
là bảo mật chính đối tƣợng đƣợc dùng để giấu dữ liệu vào, chẳng hạn ứng
dụng bảo vệ bản quyền, phát hiện xuyên tạc thông tin Một số ứng dụng
đang đƣợc triển khai:
- Bảo vệ bản quyền tác giả (copyright protection): Đây là ứng dụng cơ
bản nhất của kỹ thuật thuỷ vân. Một thông tin nào đó mang ý nghĩa quyền sở
hữu tác giả (ngƣời ta gọi nó là thuỷ vân - watermark) sẽ đƣợc nhúng
vào trong các sản phẩm, thuỷ vân đó chỉ ngƣời chủ sở hữu hợp pháp các sản
phẩm đó có và đƣợc dùng làm minh chứng cho bản quyền

sản

phẩm.
Giả sử
có một thành phẩm dữ liệu dạng đa phƣơng tiện nhƣ ảnh, âm thanh, video
cần đƣợc lƣu thông trên mạng. Để bảo vệ các sản phẩm chống lại hành vi
lấy cắp hoặc làm nhái cần phải có một kỹ thuật để “dán tem bản quyền” vào
sản phẩm này. Việc dán tem hay chính là việc nhúng thuỷ vân cần phải đảm
bảo không để lại một ảnh hƣởng lớn nào đến việc cảm nhận sản phẩm. Yêu
cầu kỹ thuật đối với ứng dụng này là thuỷ vân phải tồn tại bền vững cùng
với sản phẩm, muốn bỏ thuỷ vân này mà không đƣợc phép của ngƣời chủ sở
hữu thì chỉ còn cách là phá huỷ sản phẩm.
- Xác thực thông tin và phát hiện xuyên tạc thông tin (authentication

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11
and tamper detection): Một tập thông tin sẽ đƣợc nhúng trong phƣơng
tiện chứa, sau đó đƣợc sử dụng để nhận biết dữ liệu trên phƣơng tiện gốc
có bị thay đổi hay không. Các thuỷ vân nên đƣợc ẩn để tránh sự tò mò
của đối phƣơng, hơn nữa việc làm giả các thuỷ vân
hợp

lệ
hay xuyên tạc
thông tin nguồn cũng cần xem xét.Trong các ứng dụng thực tế, ngƣời ta
mong muốn tìm đƣợc vị trí bị xuyên tạc cũng nhƣ phân biệt đƣợc các thay
đổi (ví dụ nhƣ phân biệt một đối tƣợng đa phƣơng tiện chứa thông tin
nhúng đã bị thay đổi, xuyên tạc nội dung hay chỉ bị nén mất dữ liệu).Yêu
cầu chung đối với ứng dụng này là khả năng nhúng thông tin cao và thuỷ vân

không cần bền vững.
- Dấu vân tay hay dán nhãn (fingerprinting and labeling): Thuỷ vân
trong những ứng dụng này đƣợc sử dụng để nhận diện ngƣời gửi hay
ngƣời nhận một thông tin nào đó. Ví dụ các vân khác nhau sẽ đƣợc nhúng
vào các bản copy khác nhau của thông tin gốc trƣớc khi chuyển cho nhiều
ngƣời. Với những ứng dụng này, yêu cầu là đảm bảo độ an toàn cao cho
các thuỷ vân, tránh khả năng xoá dấu vết trong khi phân phối.
- Điều khiển truy cập (copy control): Các thiết bị phát hiện thuỷ vân
(ở đây sử dụng phƣơng pháp phát hiện thuỷ vân đã nhúng mà không cần
thông tin gốc) đƣợc gắn sẵn vào trong các hệ thống đọc ghi, tùy thuộc vào
việc có thủy vân hay không để điều khiển (cho phép/cấm) truy cập. Ví dụ hệ
thống quản lí sao chép DVD đã đƣợc ứng dụng ở Nhật.
- Nhúng tin bí mật (steganography): Các thông tin nhúng đƣợc trong
những trƣờng hợp này càng nhiều càng tốt. Việc giải mã để nhận đƣợc
thông tin cũng không cần phƣơng tiện chứa gốc [4],[5].
Một ứng dụng phổ biến của kỹ thuật thuỷ vân là đƣa ra một bằng
chứng về quyền sở hữu đối với dữ liệu số bằng cách nhúng dấu hiệu mang
tính bản quyền vào phim hoặc các sản phẩm ảnh số.
Ngoài ra, còn có những ứng dụng khác :

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

12
-

Tự động điều khiển và tự hiệu chỉnh sao chép tài liệu trên Web. Ví dụ
một robot tìm web để đánh dấu vào tài liệu và từ đó nhận dạng sản phẩm bất
hợp pháp.
-


Tự động kiểm tra việc truyền nhận sóng vô tuyến. Ví dụ một robot có
thể “nghe” một trạm thu phát sóng radio và tìm kiếm những dấu hiệu để biểu
thị một phần cụ thể của bản nhạc hoặc lời quảng cáo vừa đƣợc phát ra.
-

Việc mở rộng dữ liệu- để thêm thông tin mang lại lợi ích một cách
công khai.
-

Ứng dụng trong lấy dấu vân tay (cho phép nhận dạng dữ liệu đã
phân tán).

1.4 Môi trƣờng nhúng tin
Kỹ thuật nhúng tin đã đƣợc nghiên cứu và áp dụng trong nhiều môi
trƣờng dữ liệu khác nhau nhƣ trong dữ liệu đa phƣơng tiện (text, image,
audio, video), trong sản phẩm phần mềm và gần đây là những nghiên cứu trên
môi trƣờng cơ sở dữ liệu quan hệ. Trong các môi trƣờng dữ liệu đó thì dữ liệu
đa phƣơng tiện là môi trƣờng chiếm tỉ lệ chủ yếu trong các kỹ thuật nhúng tin.

1.4.1 Trong văn bản
Nhúng thông tin bí mật vào trong văn bản là một kỹ thuật nhúng tin đơn
giản và đƣợc phát triển sớm nhất. Kỹ thuật này có ngƣời còn hiểu đó nhƣ
phần mật mã thông tin. Kỹ thuật này tận dụng những thuộc tính của văn bản,
thay đổi một số thuộc tính văn bản theo quy ƣớc để che giấu thông tin bên
trong. Tuy nhiên đi kèm với sự đơn giản là dễ bị tấn công, gỡ bỏ hoặc làm sai
lệch thông tin đƣợc giấu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13

1.4.2 Trong ảnh số
Nhúng thông tin trong ảnh, hiện nay, là một bộ phận chiếm tỉ lệ lớn
nhất trong các chƣơng trình ứng dụng, các phần mềm, hệ thống nhúng tin
trong đa phƣơng tiện bởi lƣợng thông tin đƣợc trao đổi bằng ảnh là rất lớn và
hơn nữa nhúng thông tin trong ảnh cũng đóng vai trò hết sức quan trọng
trong các hầu hết các ứng dụng bảo vệ an toàn thông tin nhƣ: nhận thực
thông tin, xác định xuyên tạc thông tin, bảo vệ bản quyền tác giả, điều khiển
truy cập, nhúng thông tin mật. Vì vậy vấn đề nhúng tin trong ảnh này đang
đƣợc quan tâm rất lớn của các nhà nghiên cứu.
Thông tin sẽ đƣợc nhúng vào cùng với dữ liệu ảnh nhƣng chất lƣợng
ảnh ít bị thay đổi và không thể nhận biết đƣợc bằng thị giác của con ngƣời,
nó chỉ có thể bị phát hiện bởi “thị giác máy”. Ngày nay, khi ảnh số đã đƣợc
sử dụng rất phổ biến, thì nhúng thông tin trong ảnh đã đem lại rất nhiều
những ứng dụng quan trọng trên nhiều lĩnh vực trong đời sống xã hội thì
việc nhận thực chữ kí số, xác thực thông tin đã trở thành một vấn đề cực kì
quan trọng khi mà việc ăn cắp thông tin hay xuyên tạc thông tin bởi các tin
tặc đang trở thành một vấn nạn đối với bất kì quốc gia nào, tổ chức nào.
Một đặc điểm của nhúng thông tin trong ảnh đó là thông tin đƣợc nhúng
trong ảnh một cách vô hình, nó nhƣ là một cách mà truyền thông tin mật cho
nhau mà ngƣời khác không thể biết đƣợc bởi sau khi nhúng thông tin thì
chất lƣợng ảnh gần nhƣ không thay đổi đặc biệt đối với ảnh mầu hay ảnh
xám.

1.4.3 Trong audio
Nhúng thông tin trong audio mang những đặc điểm riêng khác với
nhúng thông tin trong các đối tƣợng đa phƣơng tiện khác. Một trong những
yêu cầu cơ bản của nhúng tin là đảm bảo tính chất ẩn của thông tin đƣợc
nhúng đồng thời không làm ảnh hƣởng đến chất lƣợng của dữ liệu gốc. Để

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


14
đảm bảo yêu cầu này, kỹ thuật nhúng thông tin trong ảnh phụ thuộc vào hệ
thống thị giác của con ngƣời - HVS (Human Vision System) còn kỹ thuật
nhúng thông tin trong audio lại phụ thuộc vào hệ thống thính giác HAS
(Human Auditory System). Và một vấn đề khó khăn ở đây là hệ thống
thính giác của con ngƣời nghe đƣợc các tín hiệu ở các giải tần rộng và công
suất lớn nên đã gây khó dễ đối với các phƣơng pháp nhúng tin trong audio.
Nhƣng thật may là HAS lại kém trong việc phát hiện sự khác biệt các dải tần
và công suất điều này có nghĩa là các âm thanh to, cao tần có thể che giấu
đƣợc các âm thanh nhỏ thấp một cách dễ dàng. Các mô hình phân tích tâm
lí đã chỉ ra điểm yếu trên và thông tin này sẽ giúp ích cho việc chọn các audio
thích hợp cho việc nhúng tin.
Vấn đề khó khăn thứ hai đối với nhúng thông tin trong audio là
kênh truyền tin. Kênh truyền hay băng thông chậm sẽ ảnh hƣởng đến chất
lƣợng thông tin sau khi nhúng. Nhúng thông tin trong audio đòi hỏi yêu cầu
rất cao về tính đồng bộ và tính an toàn của thông tin. Các phƣơng pháp
nhúng thông tin trong audio đều lợi dụng điểm yếu trong hệ thống thính giác
của con ngƣời.

1.4.4 Trong video
Cũng giống nhƣ nhúng thông tin trong ảnh hay trong audio, nhúng tin
trong video cũng đƣợc quan tâm và đƣợc phát triển mạnh mẽ cho nhiều ứng
dụng nhƣ điều khiển truy cập thông tin, nhận thực thông tin và bảo vệ bản
quyền tác giả. Các kỹ thuật nhúng tin trong video cũng đƣợc phát triển mạnh
mẽ và cũng theo hai khuynh hƣớng là thuỷ vân số và datahiding. Một
phƣơng pháp nhúng tin trong video đƣợc đƣa ra bởi Cox là phƣơng pháp
phân bố đều. Ý tƣởng cơ bản của phƣơng pháp là phân phối thông tin nhúng
dàn trải theo tần số của dữ liệu chứa gốc. Một số nhà nghiên cứu khác đã
dùng những hàm Cosin riêng và các hệ số truyền sóng riêng để nhúng tin.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15
Trong các thuật toán khởi nguồn thì thƣờng các kỹ thuật cho phép nhúng các
ảnh vào trong video nhƣng thời gian gần đây các kỹ thuật cho phép nhúng
cả âm thanh và hình ảnh vào video.

1.4.5 Nhúng thông tin vào cơ sở dữ liệu quan hệ.
Với tốc độ phát triển nhanh của Internet và các công nghệ có liên
quan đã đƣa đến một tiềm năng chƣa từng có đối với việc truy cập và
phân phối lại các sản phẩm kỹ thuật số. Trong bối cảnh nhƣ vậy, việc thực
thi quyền sở hữu dữ liệu là một yêu cầu quan trọng đòi hỏi các giải pháp
đồng bộ, bao gồm các khía cạnh về kỹ thuật, về tổ chức, và cả luật pháp.
Mặc dù vẫn chƣa có đƣợc những giải pháp toàn diện nhƣ vậy nhƣng trong
các năm gần đây, các kỹ thuật thuỷ vân đã đóng vai trò quyết định nhằm giải
quyết vấn đề về quyền sở hữu này. Những kỹ thuật nhƣ vậy cho phép ngƣời
chủ dữ liệu có thể nhúng một thuỷ vân ẩn vào dữ liệu. Một thuỷ vân thƣờng
mô tả những thông tin có thể đƣợc dùng để chứng minh quyền sở hữu dữ
liệu, chẳng hạn nhƣ tên chủ sở hữu, nguồn gốc, hoặc ngƣời tiếp nhận nội
dung này. Việc nhúng thông tin an toàn đòi hỏi thuỷ vân đƣợc nhúng trong
dữ liệu không thể bị làm giả mạo hoặc bị tẩy xoá một cách dễ dàng. Nhúng
ẩn có nghĩa là thuỷ vân không thể nhìn thấy đƣợc trong dữ liệu. Hơn nữa,
việc phát hiện thuỷ vân đƣợc thực hiện theo phƣơng pháp mù, tức là không
đòi hỏi dữ liệu gốc cũng nhƣ thuỷ vân gốc. Đã có một số kỹ thuật thuỷ vân
đƣợc phát triển để nhúng thủy vân phim, âm thanh, ảnh và dữ liệu văn bản.
Trái lại, vấn đề thuỷ vân dữ liệu quan hệ đã không nhận đƣợc sự chú
ý thích đáng. Tuy nhiên, có nhiều ngữ cảnh ứng dụng trong đó dữ liệu trở
nên một tài sản quan trọng, vì vậy vấn đề về quyền sở hữu phải đƣợc thực thi
một cách cẩn thận. Ví dụ dữ liệu về thời tiết, dữ liệu về thị trƣờng chứng

khoán, dữ liệu về hành vi của khách hàng, dữ liệu y học và khoa học.
Việc nhúng thuỷ vân vào dữ liệu quan hệ có thể thực hiện đƣợc bởi trong

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16
thực tế, các dữ liệu thật có thể chấp nhận một dung sai nhỏ mà vẫn không
ảnh hƣởng đáng kể đến giá trị sử dụng của chúng.
Cho đến nay, mới có một vài cách tiếp cận đối với bài toán thuỷ vân
dữ liệu quan hệ đƣợc đề xuất. Tuy nhiên, những kỹ thuật này không bền
vững đối với các tấn công thủy vân. Phần tiếp theo của đề tài này xin đề
xuất một kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ mới [1], [2], [6],[7].
Nhúng tin là một công nghệ mới rất phức tạp, nó đang đƣợc các nhà
khoa học tập trung nghiên cứu ở nhiều nƣớc trên thế giới. Tuy nhiên,
những kết quả thực nghiệm cho thấy để thực sự ứng dụng thực tế thì lĩnh
vực này cần phải có thêm thời gian để nghiên cứu và thẩm định.
Trong luận văn này ta đề cập tới vấn đề chính là nhúng tin vào cơ sở dữ
liệu nên trong phần tiếp theo, chúng ta sẽ chi tiết hơn về tình hình nghiên cứu
kỹ thuật này.

1.5 Tình hình nghiên cứu kỹ thuật nhúng tin vào cơ sở dữ liệu
Cho đến nay, các nhà khoa học ở Việt Nam đã có một số công trình đã
đƣợc công bố trong đó có áp dụng kỹ thuật nhúng tin (thuỷ vân), trong đó
chủ yếu tập trung vào các lĩnh vực nhƣ thuỷ vân audio, thuỷ vân video, thuỷ
vân ảnh. Các công trình nghiên cứu về thuỷ vân cơ sở dữ liệu vẫn còn
hạn chế và đang đƣợc tiếp tục nghiên cứu tuy nhiên vẫn chƣa nhiều về số
lƣợng các công trình. Các công trình về nhúng tin vào (thuỷ vân) sơ sở dữ
liệu thông thƣờng nghiên cứu theo một số hƣớng nhƣ sau:
Phƣơng pháp sử dụng các bít trọng số nhỏ LSB khá đơn giản cho việc
cài đặt, tuy nhiên thông tin đƣợc nhúng không bền vững trƣớc nhiều hình

thức tấn công. Phƣơng pháp này thích hợp cho mục đích nhúng thông tin mật
[1],[2].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

17
Phƣơng pháp gán và sử dụng thuộc tính chẵn lẻ có một số ƣu điểm
nhƣ đơn giản trong cài đặt, dễ kiểm soát chất lƣợng môi trƣờng nhúng tin, có
độ bền vững cao trƣớc nhiều hình thức tấn công. Phƣơng pháp này có hiệu
quả cao khi áp dụng cho môi trƣờng nhúng tin không chịu nén tổn hao, có
cho phép sai số [3],[4].
Trên thế giới đã có nhiều công trình nghiên cứu về lĩnh vực này; Căn
cứ vào các công trình nghiên cứu, các bài báo đã công bố , ta có thể thấy
các kỹ thuật nhúng tin vào cơ sở dữ liệu đƣợc nghiên cứu và phát triển
theo các dạng nhƣ sau:

1.5.1 Theo kiểu dữ liệu (Data type)
Thuỷ vân dữ liệu kiểu số (watermarking numerical data) [9]
Giả thiết cơ bản của nghiên cứu này là chấp nhận một lƣợng thay đổi
với các số nhỏ ở các bit ít ý nghĩa nhất của các giá trị dữ liệu kiểu số.
Ý tƣởng cơ bản là phải đảm bảo rằng các vị trí bit nhúng đó có
chứa các giá trị đặc trƣng để có thể xác định đƣợc bởi khoá bí mật K.
Để nhận dạng lại thuỷ vân đã nhúng, ngƣời ta đã tiến hành so sánh các
giá trị đánh dấu đƣợc tính toán với các giá trị bit đã lƣu trong cơ sở dữ liệu.
Thuỷ vân đƣợc nhận dạng nếu tỷ lệ phần trăm trùng lặp lớn hơn một
ngƣỡng T nào đó cho trƣớc.
Watermarking categorical data [15].
Ý tƣởng cơ bản của các nghiên cứu này là: đối với mỗi nhóm thuộc tính
X nào đó, thay đổi một số giá trị của thuộc tính này thành các giá trị khác sao
cho các thay đổi này là chấp nhận đƣợc. Các thay đổi này sẽ tuỳ thuộc vào

từng ứng dụng cụ thể.




Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

18
1.5.2 Theo kiểu biến dạng (Distortion)
Ý tƣởng cơ bản của nghiên cứu này là: Tất cả các bộ đƣợc phân
hoạch một cách bí mật thành g nhóm thông qua hàm băm H(K,r.P). Một
dấu thuỷ vân (watermark) khác đƣợc nhúng vào mỗi nhóm, vì vậy bất kỳ
một thay đổi nào trên dữ liệu đều có thể đƣợc nhận dạng và định vị với độ
chính xác cao tới cấp nhóm [16].

1.5.3 Theo độ nhạy (Sensitivity)
Hệ thống thuỷ vân có thể đƣợc phân thành hai dạng là bền vững và dễ
bị phá huỷ thông qua độ nhạy của chúng đối với các tấn công cơ sở dữ liệu
+ Bền vững (Robust watermarks) đƣợc sử dụng cho bảo vệ bản quyền,
chứng mình quyền sở hữu, hoặc chống lại sự sao chép lậu.
+ Dễ bị phá huỷ (Fragile watermarks) đƣợc sử dụng để định vị và
phát hiện sự giả mạo dữ liệu.
a. Thủy vân bền vững
Cho B(k;m,p) là xác suất có nhiều hơn k thành công trong m phép thử
Bernoulli.
Một dấu thuỷ vân đƣợc nhận dạng nếu có nhiều hơn một tỉ lệ phần
trăm T các bit đã nhúng đƣợc nhận dạng chính xác [9].
b. Thủy vân dễ vỡ
Thuỷ vân đƣợc tính toán bằng cách băm tất cả các bộ thành các nhóm
Bất kỳ thay đổi nào tới dữ liệu đều có thể đƣợc nhận dạng chi tiết.

Đóng góp của công trình này là cải thiện độ chính xác khi xác định vị
trí làm giả trong dữ liệu [16],[17].

1.5.6 Theo thông tin thuỷ vân (watermark information)
a. Nhúng một bit đến nhiều bit
Thuỷ vân một tập các số thực bằng cách thay đổi các phân phối của

×