Tải bản đầy đủ (.pdf) (124 trang)

Lịch sử và các phần mềm ứng dụng của Steganography

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 124 trang )

K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-i-
MỤC LỤC
LỜI MỞ ĐẦU..................................................................................................... 1
CHƯƠNG 1 : MỞ ĐẦU..................................................................................... 3
1.1 Lý do chọn đề tài:................................................................................. 4
1.2 Mục đích nghiên cứu:........................................................................... 5
1.3 Đối tượng nghiên cứu:.......................................................................... 5
1.4 Phạm vi nghiên cứu:............................................................................. 6
CHƯƠNG 2 : TỔNG QUAN............................................................................. 7
2.1 Giới thiệu:............................................................................................. 8
2.2 Mô tả hệ thống ẩn dữ liệu:.................................................................. 11
2.3 Phân loại các kỹ thuật ẩn dữ liệu:....................................................... 13
2.4 Các ứng dụng của ẩn dữ liệu: ............................................................. 15
2.5 Các hướng nghiên cứu về ẩn dữ liệu: ................................................. 16
2.5.1 Trên văn bản:.................................................................................. 16


2.5.2 Trên ảnh tĩnh: ................................................................................. 16
CHƯƠNG 3 : LÝ THUYẾT VỀ ẨN DỮ LIỆU ............................................. 18
3.1 Các yếu tố ảnh hưởng đến quá trình ẩn dữ liệu: ................................. 19
3.1.1 Sự thay đổi trên đối tượng chứa là tối thiểu: .................................. 19
3.1.2 Mức độ tránh các thao tác biến đổi trên đối tượng chứa:................ 19
3.1.3 Số lượng dữ liệu nhúng: ................................................................. 20
3.1.4 Sự khó phát hiện bởi tri giác của con người-sự vô hình: .............. 21
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-ii-
3.1.5 Không thể giải mã dữ liệu nhúng từ đối tượng chứa–Tính bảo mật:
........................................................................................................ 22
3.2 Các mức độ ảnh hưởng của các yếu tố trong các ứng dụng của ẩn dữ
liệu: ............................................................................................................ 22
3.3 Các kỹ thuật ẩn dữ liệu trên văn bản: ................................................. 23
3.3.1 Các kỹ thuật của Brassil: ................................................................ 23

3.3.1.1 Nhúng dữ liệu bằng cách dịch chuyển dòng:.......................... 24
3.3.1.2 Nhúng dữ liệu bằng cách dịch chuyển từ:............................... 25
3.3.1.3 Nhúng dữ liệu đặc trưng:........................................................ 26
3.3.2 Các kỹ thuật của Bender:................................................................ 26
3.3.2.1 Phương pháp khoảng trắng mở (open space methods): .......... 27
3.3.2.2 Phương pháp cú pháp (syntactic methods): ............................ 29
3.3.2.3 Phương pháp ngữ nghĩa (semantic methods):......................... 30
3.4 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:................................................. 30
3.4.1 Các hướng tiếp cận của các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:........ 31
3.4.1.1 Hướng tiếp cận chèn vào bit LSB:.......................................... 31
3.4.1.2 Phương pháp ngụy trang và lọc:............................................. 32
3.4.1.3 Các thuật toán và phép biến đổi:............................................. 33
3.4.2 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:............................................. 33
3.4.2.1 Ẩn dữ liệu với tỉ lệ bit thấp:.................................................... 34
3.4.2.2 Mã hóa với dữ liệu bit cao – Mã hóa affine:........................... 39
3.5 Các kỹ thuật ẩn dữ liệu trên mô hình ba chiều: .................................. 53
3.5.1 Lý thuyết của ẩn dữ liệu trên mô hình ba chiều:............................. 53
3.5.1.1 Các yêu cầu của ẩn dữ liệu trong mô hình ba chiều: .............. 53
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð

H
KHTN TP.H
C
M
-iii-
3.5.1.2 Mục đích của ẩn dữ liệu: ........................................................ 55
3.5.1.3 Các đối tượng nhúng trong mô hình ba chiều:........................ 55
3.5.1.4 Sự sắp xếp các đối tượng nhúng:............................................ 57
3.5.2 Các kỹ thuật ẩn dữ liệu:.................................................................. 59
3.5.2.1 Thuật giải dựa trên sự biến đổi các đối tượng hình học:......... 59
3.5.2.2 Thuật giải dựa trên sự thay đổi hình dạng lưới tam giác: ....... 68
CHƯƠNG 4 : CÁC THỬ NGHIỆM TRÊN STEGANOGRAPHY ............. 72
4.1 Giới thiệu:........................................................................................... 73
4.2 Lịch sử phát triển:............................................................................... 74
4.3 Các phần mềm ứng dụng:................................................................... 77
4.3.1 Hide and Seek:................................................................................ 78
4.3.2 StegoDos: ....................................................................................... 79
4.3.3 White Noise Storm: ........................................................................ 79
4.3.4 S-Tools:.......................................................................................... 79
4.3.5 Jpeg-Jsteg v4: ................................................................................. 79
4.4 Lý do đề tài chọn ứng dụng Steganography là các thử nghiệm trên các
kỹ thuật ẩn dữ liệu:........................................................................................ 79
4.5 Steganography trên ảnh tĩnh:.............................................................. 80
4.5.1 Phát biểu bài toán: .......................................................................... 80
4.5.2 Phương án giải quyết:..................................................................... 81
4.6 Steganography trên mô hình ba chiều: ............................................... 82
4.6.1 Phương pháp áp dụng thuật giải TSQ:............................................ 82
4.6.1.1 Phát biểu bài toán: .................................................................. 83
K
hoa C

N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-iv-
4.6.1.2 Phương án giải quyết:............................................................. 83
4.6.2 Phương pháp áp dụng thuật giải TVR: ........................................... 91
4.6.2.1 Phát biểu bài toán: .................................................................. 91
4.6.2.2 Phương án giải quyết:............................................................. 91
4.7 Hướng dẫn sử dụng chương trình:...................................................... 94
CHƯƠNG 5 : KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN101
5.1 Kết quả thực nghiệm: ....................................................................... 102
5.1.1 Kết quả thực nghiệm trên ảnh tĩnh: .............................................. 102
5.1.2 Kết quả thực nghiệm trên mô hình ba chiều:................................ 107
5.2 Các khó khăn khi thực hiện luận văn:............................................... 113
5.3 Hướng phát triển: ............................................................................. 113
5.3.1 Hướng phát triển trên ảnh tĩnh:..................................................... 113
5.3.2 Hướng phát triển trên mô hình ba chiều:...................................... 113
TÀI LIỆU THAM KHẢO ............................................................................. 115
K

hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-v-
DANH SÁCH CÁC HÌNH
Hình 1. Quá trình nhúng dữ liệu......................................................................... 11
Hình 2. Quá trình rút trích dữ liệu...................................................................... 12
Hình 3. Quá trình nhúng và rút trích dữ liệu ...................................................... 12
Hình 4. Sơđồ phân cấp các kỹ thuật ẩn dữ liệu ................................................. 13
Hình 5. Biểu đồ liên hệ giữa số lượng dữ liệu nhúng và tính bền vững ............. 21
Hình 6. Phương pháp khoảng trắng mở khai thác các khoảng trắng sau mỗi dòng.
Hình (a) là đoạn văn bản trước khi nhúng, hình (b) là đoạn văn bản sau khi
nhúng.................................................................................................................. 28
Hình 7. Đoạn văn bản chứa dữ liệu nhúng sử dụng các khoảng trắng sau mỗi từ.
........................................................................................................................... 29
Hình 8. Các cặp từ đồng nghĩa. .......................................................................... 30
Hình 9. Vòng lặp đơn trong thuật giải Patchwork.............................................. 35
Hình 10. Hình dáng các mảnh ............................................................................ 37

Hình 11. Sự sắp xếp các mảnh ........................................................................... 38
Hình 12. Một ví dụ về phương pháp mã hóa kết cấu khối.................................. 38
Hình 13. Nhúng 3 bit vào ảnh 6 x 6 ................................................................... 44
Hình 14. Ảnh F, ma trận khóa K và ma trận trọng lượng W. ............................. 50
Hình 15. Ảnh F sau khi thực hiện toán tử XOR và ảnh chứa bị thay đổi dữ liệu51
Hình 16. Các phương pháp sắp xếp các đối tượng nhúng. (a) sắp xếp toàn cục,
(b) sắp xếp cụcbộ, (c) sắp xếp theo chỉ số ......................................................... 58
Hình 17. Các đặc trưng đồng dạng trong tam giác ............................................. 60
Hình 18. Cấu trúc một MEP............................................................................... 62
Hình 19. Lưới tam giác và các MEP với dữ liệu nhúng là "data hiding"............ 63
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-vi-
Hình 20. Cạnh xác định tứ diện chính là bốn đỉnh của hai tam giác có cạnh này là
cạnh chung ......................................................................................................... 65
Hình 21. Quá trình tạo chuỗi tỉ số thể tích.......................................................... 66

Hình 22. Mô tả các bước của thuật giải TSPS.................................................... 70
Hình 23. Chuỗi tam giác S tương ứng với dữ liệu nhúng "10101101011". Nếu bit
cuối cùng là "1" thì tam giác cuối trong dãy là tam giác nét đứt ........................ 71
Hình 24. Ma trận K 5x5 trong thuật giải LSB1bit và LSB2bit........................... 81
Hình 25. Ma trận W 5x5 trong thuật giải LSB2bit với r=3 ................................ 82
Hình 26. Ví dụ về một thao tác chèn bit............................................................. 85
Hình 27. Tam giác trong không gian hai chiều .................................................. 87
Hình 28. Biến đổi trên tam giác Mark................................................................ 88
Hình 29. Biến đổi trên tam giác Subscript, Data1 và Data2............................... 89
Hình 30. Quá trình biến đổi một tứ diện............................................................. 93
Hình 31. Giao diện ảnh tĩnh ............................................................................... 94
Hình 32. Giao diện 3D ....................................................................................... 95
Hình 33. Hộp thoại tham số của thuật giải LSB1bit.......................................... 96
Hình 34. Hộp thoại tham số của thuật giải LSB2bit........................................... 96
Hình 35. Hộp thoại thông tin của thao tác nhúng dữ liệu trên ảnh ..................... 97
Hình 36. Hộp thoại thông tin của thao tác rút trích dữ liệu ................................ 98
Hình 37. Hộp thoại thông tin nhúng trên mô hình 3D........................................ 98
Hình 38. Hộp thoại thông tin về ảnh .................................................................. 99
Hình 39. Hộp thoại thông tin về mô hình 3D ................................................... 100
Hình 40. Thử nghiệmthuật giải TSQ trên mô hình con mèo với sự thay đổi trên
d ....................................................................................................................... 109
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K

hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-vii-
Hình 41. Thử nghiệm thuật giải TSQ trên mô hình con chó với sự thay đổi trên c
......................................................................................................................... 110
Hình 42. Thử nghiệm thuật giải TVR trên mô hình con mèo với sự thay đổi trên
d ....................................................................................................................... 111
Hình 43. Thử nghiệm thuật giải TVR trên mô hình con chó với sự thay đổi trên c
......................................................................................................................... 112
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M

-viii-
DANH SÁCH CÁC BẢNG
Bảng 1. Số lượng các ấn phẩm về kỹ thuật ẩn dữ liệu.......................................... 9
Bảng 2. So sánh giữa Watermarking và Steganography về các yếu tố............... 23
Bảng 3. Mối quan hệ giữa n và độ tin cậy.......................................................... 36
Bảng 4. Đối tượng nhúng và tính chất bất biến của chúng với các phép biến đổi
........................................................................................................................... 56
Bảng 5. Thời gian nhúng và rút trích trong thuật toán TSQ trên mô hình con mèo
......................................................................................................................... 108
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-1-
LỜI MỞ ĐẦU
WWXX
Thế kỷ XXI còn được gọi là thế kỷ củanền kinh tế tri thức, thế kỉ của
thông tin số hóa. Vấn đề bảo vệ bản quyền của các dạng thông tin số hiện đang

được sự quan tâm của các nhà sản xuất, phân phối thông tin kỹ thuật số và kỹ
thuật ẩn dữ liệu là kỹ thuật được sử dụng trong các ứng dụng bảo vệ bản quyền,
nhúng dấu hiệu đặc trưng, truyền thông mật,… Tuy nhiên, tại Việt Nam, các ứng
dụng trên chưa có nhiều. Luận văn này được thực hiện với sự mong muốn được
thử nghiệm các kỹ thuật ẩn dữ liệu trong truyền thông mật. Trong phạm vi một
luận văn có sự giới hạnvề thời gian, một đề tài tương đối mới tại Việt Nam, một
nguồn tài liệu không nhiều, tôi thực hiện luận văn này chắc hẳn không thiếu sự
sai sót, tôi mong muốn được thử nghiệm các kỹ thuật mới và mong muốn sự chỉ
dạy của các thầy cô và các ý kiến của các bạn. Luận văn được trình bày theo cấu
trúc sau:
Chương 1 trình bày tổng quan về nội dung của luận văn, các đối tượng và
các phạm vi nghiên cứu trong luận văn.
Chương 2 bao gồm khái niệm về ẩn dữ liệu, các ứng dụng của ẩn dữ liệu
và phân loạicác kỹ thuật ẩn dữ liệu. Đồng thời chương 2 còn giới thiệu một số
hướng nghiên cứu trên văn bản và ảnh tĩnh của các nhà nghiên cứutại các phòng
thí nghiệm nổi tiếng trên thế giới.
Chương 3 đi sâu vào lý thuyết của các kỹ thuật ẩn dữ liệu, giới thiệu một
số kỹ thuật ẩn dữ liệu trên văn bản, ảnh tĩnh và mô hình ba chiều. Các yếu tố
trong ẩn dữ liệu cũng được đề cập trong chương 3.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N

TT - Ð
H
KHTN TP.H
C
M
-2-
Lịch sử và các phần mềm ứng dụng của Steganography được tìm hiểu
trong chương 4. Chương 4 còn bao gồm các phương pháp được đề nghị để áp
dụng thực tế các kỹ thuật ẩn dữ liệu trong Steganography, các vấn đề phát sinh
và hướng giải quyết. Một phần hướng dẫn sử dụng sẽ giúp người dùng sử dụng
chương trình thực nghiệmdễ dàng hơn.
Các kết quả thực nghiệm không thể thiếu trong một luận văn, kếtquả thực
nghiệm này được mô tả trong chương 5. Sự nhận xét trên các kỹ thuật ẩn dữ liệu,
các hướng phát triển, cải tiến được tôi đề cập trong phần cuối chương 5.
Và tài liệu tham khảo sẽ kết thúc phần báo cáo củaluận vănnày.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C

M
-3-
CHƯƠNG 1 : MỞ ĐẦU
Chương mở đầu trình bày về lý do chọn đề tài này, mục đích của đề tài,
các vấn đề, các đối tượng được luận văn đề cập đến, đồng thời nói rõ phạm vi
nghiên cứu trong đề tài.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-4-
1.1 Lý do chọn đề tài:
Ngày nay, cùng với sự phát triển của Internet và sự xuất hiện của các
phương tiện thông tin đại chúng, các định dạng lưu trữ số hóa nhưảnh số, âm
thanh,..., cùng với các thiết bị lưu trữ dung lượng cao như CD-ROM, DVD-
ROM, thì những sự xâm phạm trên hình thức sở hữu trí tuệ ngày càng nhiều và
càng tinh vi. Các hình thức xâm phạm hiện nay là giả mạo, ăn cắp tác phẩm, sử
dụng các tác phẩm của tác giả mà không có bản quyền... Hàng ngày trên mạng

Internet truyền thông vô số các tập tin ảnh, âm thanh, hay video không rõ nguồn
gốc. Các thao tác sao chép một bản sao giống hệt bảnchính được thực hiện rất
dễ, và chỉ cần chứa trong một đĩa mềm, đĩa CD_ROM, hay tải lên mạng là có thể
di chuyển khắp nơi.
Với các vấn đề trên, kỹ thuật ẩn dữ liệu (data hiding) còn được gọi là ẩn
thông tin (ìnformation hiding) ra đời như một cứu cánh cho các nhà kinh
doanh, phân phối thông tin kỹ thuật số. Kỹ thuật ẩn dữ liệu là kỹ thuật đưa một
lượng dữ liệu có giá trị vào thông tin dạng số cần phổ biến. Lượng dữ liệu này
không thể dễ dàng bị hủy bỏ, nhưng lại phải dễ dàng được rút trích với các yếu
tố phù hợp. Không chỉ để giải quyết các vấn đề về xâm phạm quyền sở hữu trí
tuệ, kỹ thuật ẩn dữ liệu còn hỗ trợ một số nhu cầu thiết yếu cho các định dạng
thông tin số nhưứng dụng nhúng một đoạn chú thích vào một đoạn video, đưa
một hình mờ vào một ảnh... Một nhiếp ảnh gia có thể giám sát các bức ảnh của
mình lưu thông trên mạng bằng cách nhúng dấu hiệu đặc trưng vào các ảnh và
nhờ một trình duyệt Web kiểm tra các ảnh lưu thông trên mạng để nhận dạng
được các ảnh củamìnhnhờ vào dấu hiệu đặc trưng có trong ảnh.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H

C
M
-5-
Các kỹ thuật ẩn dữ liệu xuất hiện vào thập niên 90 cua thế kỷ XX, và ngày
nay đã trở nên phổ biến. Một dạng quan trọng của ẩn dữ liệu, Steganography, là
một dạng của mã hóa, còn được gọi là mã hóa vô hình, nó đã được phát triển rất
lâu, trước Công Nguyên, nhưng việc ứng dụng Steganography trên dữ liệu số chỉ
mới xuất hiện gần đây. Steganography là một ứng dụng quan trọng trong truyền
thông mật (anonymous communication), đây là phương pháp truyền thông tin
trên các phương tiện thông tin đại chúng nhưng vẫn bảo đảm được tính bảo mật
của thông tin. Truyền thông mật đượcsử dụng chủ yếu trong các hệ thống truyền
thông trong quân đội. Ở Việt Nam, các kỹ thuật và ứng dụng của ẩn dữ liệuchưa
được sự quan tâm thích đáng của các nhà nghiên cứu. Với nhu cầu bảo mật
thông tin, truyền thông các thông điệp mà người trung gian không nhận biết và
không thể giải mã, tôi thực hiện luận văn này nhằmthử nghiệmcác kỹ thuật ẩn
dữ liệu nói chung và Steganography nói riêng hiện đang còn là các kỹ thuậtkhá
mớitạiViệtNam.
1.2 Mục đích nghiên cứu:
Mục đích nghiên cứu của luận văn này nhằm tìm hiểu và đánh giá các kỹ
thuật ẩn dữ liệu và đi sâu vào các kỹ thuật Steganography - kỹ thuật hiện nay
đang được quan tâm trong lĩnh vựctruyền thông mật.
Để minh họa và khảo sát các ưu khuyết điểm của các kỹ thuật
Steganography, tôi tiến hành cài đặt một số kỹ thuật Steganography trên ảnh tĩnh
và mô hình ba chiều.
1.3 Đối tượng nghiên cứu:
Các đối tượng hiện nay đang phổ biến để nhúng dữ liệu vào là văn bản,
ảnh tĩnh, âm thanh và video vì các dạng thức số này được phổ biến trên Internet
K
hoa C
N

TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-6-
và trong đời sống hằng ngày. Tùy vào từng loại đối tượng mà có các kỹ thuật
khác nhau. Các định dạng ảnh trong chương trình ứng dụng là BMP, TIFF, PCX
với 1 bit màu, 8 bit màu, ảnh xám và 24 bit màu. Định dạng của mô hình ba
chiều là MS3D, được thể hiệndưới dạng lưới tam giác.
Luận văn nghiên cứu đi sâu vào các kỹ thuật Steganography trên ảnh tĩnh
và mô hình ba chiều. Mặc dù mô hình ba chiều không phải là đối tượng phổ biến
trong ẩn dữ liệu, nhưng là hướng phát triển trong tương lai vì hiện nay đồ họa ba
chiềurất phát triển và tràn ngập trong các trò chơi, trong kỹ xảo điện ảnh, trong
các đồ họa ứng dụng như trong xây dựng (CAD), kiến trúc, trang trí nội thất... Vì
thế có thể nói ẩn dữ liệu trong mô hình ba chiều là một hướng sẽ rất phát triển
trong tương lai.
1.4 Phạm vi nghiên cứu:
Đề tài này nghiên cứu các kỹ thuật ẩn dữ liệu truyền thống và hiện đại,
tiến hành so sánh các kỹ thuật về các yếu tố như tỉ lệ nhúng, khả năng chống lại
các biến đổi trên đốitượng chứa và khả năng vô hình. Do có sự giới hạn trong
phạm vi một luận văn, tôi chỉ tiến hành cài đặt thử nghiệm một số kỹ thuật và

đưa ra một số điều chỉnh, phát kiến trên các kỹ thuật.
------------------------------------------------
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-7-
CHƯƠNG 2 : TỔNG QUAN
Chương 2 giới thiệutổng quan về ẩn dữ liệu, phân loại của các kỹ thuật ẩn
dữ liệu. Chương 2 trình bày các hướng nghiên cứu về ẩndữ liệu của các nhà
nghiên cứuvàcácứng dụng của ẩn dữ liệu.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C

M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-8-
2.1 Giới thiệu:
Hiện nay, các kỹ thuật ẩn dữ liệutrở nên quan trọng trong một số các lĩnh
vực ứng dụng. Ảnh, âm thanh và video được cung cấp các dấuhiệu phân biệt,
các dấu hiệu này vô hình, có chứa một thông tin bản quyền hoặc con số đăng ký
(serial number) để bảo vệ bản quyền. Các hệ thống truyền thông trong quân đội
đang gia tăng việc sử dụng các kỹ thuật truyền thông bảo mật đường truyền hơn
là che dấu nột dung của một thông điệp bằng cách sử dụng mật mã, hướng đến
việc che dấu người gửi, người nhận và sự tồn tại của thông điệp.
Cho đến gần đây, các nghiên cứu trong truyền thông và trong công nghiệp
tập trung nhiều vào mật mã, kỹ thuật ẩn dữ liệu ít nhận được sự quan tâm hơn,
nhưng điều này đã thay đổi nhanh chóng (bảng 1) và hội nghị đầu tiên vềẩn dữ
liệu được tổ chức vào năm 1996. Động lực chính của sự quan tâm đến kỹ thuật
ẩn dữ liệulà sự lo âu về bản quyềncủa các nhà sản xuất, phân phốicácđịnh
dạng số. Âm thanh, video và nhiều dạng khác đã được tích hợp vào dạng số,việc
dễ dàng sao chép các định dạng số có thể dẫn đến một tỉ lệ cao về các bản chép
không bản quyền. Và sự lo lắng lớnnhấttập trung trong công nghiệp xuất bản là
âm nhạc, phim ảnh, sách và phần mềm. Gần đây đã có các nghiên cứu về
Watermarks (thông điệp về bản quyền) và Fingerprints (số đăng ký ẩn),
Fingerprints nhằmgiúp đỡ việcnhận dạng các sản phẩm không bản quyền và
Watermarks nhằm để điều tra, kiểm tra, theo dõi chúng.

K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-9-
Năm 1992 1993 1994 1995 1996 1997 1998
Số lượng
xuất bản
22 4 132964103
Bảng 1. Số lượng các ấn phẩm về kỹ thuật ẩn dữ liệu
Ẩn dữ liệu (data hiding) là thao tác nhúng dữ liệu vào các dạng lưu trữ số
hóa như tập tin văn bản, tập tin ảnh nhị phân, các tập tin âm thanh,..., nhằm mục
đích nhận diện, chú thích, bảo vệ bản quyền tác giả và truyền thông mật. Ẩn dữ
liệu bao gồm hai quá trình: nhúng dữ liệu (embedding) vào đối tượng nhúng và
rút trích dữ liệu (extracting) từ đối tượng chứa. Quá trình nhúng dữ liệu và quá
trình rút trích dữ liệu còn được gọi là quá trình mã hóa và quá trình giải mã. Đối
tượng nhúng là đối tượng được chọn để nhúng dữ liệu vào, đối tượng nhúng có
ký hiệu Cover <data type>, trong đó data type là loại đối tượng (văn bản, ảnh

tĩnh, âm thanh,...). Đối tượng chứa là đối tượng sau khi đã được nhúng vào một
lượng dữ liệu, đối tượng chứa có ký hiệu Stego <data type>. Dữ liệu được
nhúng vào đối tượng chứa có thể là các ký hiệu, thông điệp hay các mẫu
(pattern),dữ liệu này được gọi là dữ liệu nhúng.Các kỹ thuật ẩn dữ liệu nói
chung còn có một hay nhhiều khóa gọi là stego-key, stego-key là tham số điều
khiển quá trình nhúng dữ liệunhằm hạn chế khả năng dữ liệu nhúng bị phát hiện
hay nhằm lấy lại dữ liệu nhúng từ đối tượng chứa.
Mỗi ứng dụng cụ thể có các ràng buộc riêng trên các yếu tố tác động đến
quá trình nhúng dữ liệu. Các yếu tốđó có thể là số lượng dữ liệu nhúng, mức độ
bất biến của dữ liệu nhúng khi đối tượng chứa bị thao tác bởi các phép biến đổi,
mức độ bảo toàn dữ liệu nhúng trong các chuẩn nén mất dữ liệu (như JPEG –
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-10-
Joint Photograghic Experts Group ), mức độ ngăn chặn, thay đổi, di chuyển hay
rút trích dữ liệu nhúng của một người khác.

Những tác động không mong muốn trong việc truy cập dữ liệu dễ dàng là
sự gia tăng khả năng xâm phạm bản quyền tác giả, việc giả mạo có hay không có
thay đổi nội dung dữ liệu. Mục đích của các phương pháp ẩn dữ liệu là bảo vệ
quyền sở hữu trí tuệ, cung cấp phương tiện chú thích và truyền thông mật. Các
dữ liệu nhúng, thường là thông tin về bản quyền, được nhúng vào các dạng
truyền thông như văn bản, ảnh, âm thanh với số lượng tín hiệu bị suy biến tối
thiểu để không ảnh hưởng nhiều đến đối tượng chứa. Đối với ứng dụng truyền
thông mật, dữ liệu còn phải vô hình với các hệ thống tri giác của người, ví dụ dữ
liệu nhúng trong ảnh phải vô hình vớihệ thống thị giác HVS (Human Visuality
System), với âm thanh phải không bị hệ thống thính giác HAS (Human
Auditory System) nhận ra. Các phương pháp này ngăn chặn hay điều chỉnh việc
truy cập đến dữ liệu nhúng trong tín hiệu chứa, và trên hết là phải bảo đảm dữ
liệu nhúng không bị xâm phạm và có thể phục hồi lại. Tín hiệu chứa là tín hiệu,
dữ liệu của đối tượng chứa.
Các ứng dụng của ẩn dữ liệu phụ thuộc vào số lượng dữ liệu được nhúng
và sự cần thiết của việc các dữ liệu nhúng không bị biến đổi qua các thao tác trên
đối tượng chứa. Bất cứ vị trí nào trong tín hiệu chứa đều có thể là mục tiêu của
sự di chuyển hay phá hủy trong các chuẩn nén mất dữ liệu. Để có hiệu quả lớn,
các kỹ thuật ẩn dữ liệu phải nhúng dữ liệu vào các vị trí mà không bị thuật toán
nén xén mất.
K
hoa C
N
TT - é
H
KHTN TP.H
C
M
K
hoa C

N
TT - é
H
KHTN TP.H
C
M
-11-
2.2 Mụ t h thng n d liu:
Quỏ trỡnh nhỳng d liu ca mt h thng n d liu thụng thng cú cỏc
u vo l i tng cha (gi s l nh) I, mt du hiu M v mt khúa K
(thng c phỏt sinh t dóy s gi ngu nhiờn pseudoramdom). Quỏ trỡnh
nhỳng d liu l mt ỏnh x cú dng nh sau:
IKM I
Â
đ
v u ra l mt i tng cha (nh cha). Hỡnh 1 l cu trỳc mt quỏ trỡnh n
d liu thụng thng.
Thuaọt toaựn nhuựng
Mark (M)
Cover image (I)
Key (K)
Stego Image (I)
Hỡnh 1. Quỏ trỡnh nhỳng d liu
Quỏ trỡnh rỳt trớch d liu c mụ t qua vớ d trog hỡnh 2. Trong ú
u vo l mt i tng cha cn kim tra, duhiu M, khúa K, cú th cú
thờm i tng gc tựy tng loi k thut. u ra l du hiu tht s c
nhỳng v giỏ tr tin cy trờn s tn ti ca du hiu ú.
K
hoa C
N

TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-12-
Thuật toán rút trích
M and/or I
Test image I”
Key (K)
M hay độ tin cậy
Hình 2. Q trình rút trích dữ liệu
Q trình từ nhúng dữ liệu sang rút trích dữ liệu ẩn từ đối tượng chứa
được mơ tả bằng sơ đồ sau:
Quá trình nhúng
dữ liệu
Dữ liệu được nhúng
Dữ liệu được nhúng
Chữ cái,
con số,
các mẫu,...
Văn bản,

ảnh tónh,
mô hình 3D,
âm thanh,...
Quá trình rút
trích dữ liệu
Phân phối qua các phương tiện truyền thông
Stego <data type>Cover <data type>
Stego <data type>
Hình 3. Q trình nhúng và rút trích dữ liệu
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-13-
2.3 Phân loại các kỹ thuật ẩn dữ liệu:
Theo B. Pflitzmann[1], ẩn dữ liệu được phân chia như sơ đồ sau:
Data hiding
Steganography

AnonymityCovert channels Copyright
marking
Linguistics
steganography
Technical
steganography
Robust copyright
marki ng
Fragile
wat ermarkin
g
Fingerprinting
Watermarking
Imperceptible
watermarking
Visible
wat ermarkin
g
Hình 4. Sơđồphân cấp các kỹ thuật ẩn dữ liệu
Trong đó mục đích của Steganography là che dấu sự truyền thông giữa
người gửi và người nhận, không để người thứ ba biết được, người thứ ba tấn
công vào hệ thống thành công khi sự truyền thông đó đã bị phát hiện. Copyright
marking có các yêu cầu thêm về tính bền vững, chống lại các xâm phạm trên đối
tượng chứa. Dấu hiệu bản quyền không cần thiếtphải vô hình, một số các hệ
thống sử dụng các dấu hiệutrực quan là nhúng các dấu hiệu logo vào sản phẩm.
Thông thường trong Watermarking, đối tượng chứa được gọi là đối tượng
được đánh dấu. Các dấu hiệu yếu ớt (trong Fragile watermarking) sẽ bị hủy diệt
K
hoa C
N

TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-14-
bởi các thay đổi lớn trên đối tượng chứa.. Các dấu hiệu bền vững (trong Robust
copyright marking) khó bị hủy diệt và nếudấu hiệu bị hủy đi thì đối tượng chứa
không còn sử dụng được nữa, điều này có nghĩa là các dấu hiệu được nhúng vào
các vị trí đặc biệt trong đối tượng chứa như phần header. Robust copyright
marking được chia thành hai loại Fingerprinting và Watermarking. Fingerprints
còn được gọi là các nhãn, thường là các số đăng ký. Nhờ vào các nhãn này mà
người chủ sỡ hữu đặc tính trí tuệ có thể biết được khách hàng nào đã vi phạm
bản quyền bằng cách cung cấp số đăng ký cho một người khác. Trong khi đódấu
hiệu bản quyền cho phép chúng ta biết được ai là người chủ sở hữu đặc tính trí
tuệ của sản phẩm đó.
Hệ thống Robust copyright marking được chia thành các loại sau:
 Hệ thống kín (private system): đầu vào của quá trình rút trích cần
phải có đối tượng gốc. Hệ thống bán kín (semi-private system) tương tự như
hệ thống kín nhưng đầu vào của quá trình rút trích không cần đối tượng gốc mà
phải được cung cấp thêm một số thông tin. Hệ thống kín và bán kín thường được
sử dụng cho mục đích chứng minh quyền sở hữu và điều khiển việc sao chép

trong các ứng dụng như DVD, khi người sử dụng cần được biết nơi nào cho phép
sao chép nội dung, nơi nào không. Hệ thống kín và bán kín còn được gọi là hệ
thống non-blind.
 Hệ thống công khai (public system): còn được gọi là hệ thống blind,
đầu vào của quá trình rút trích dữ liệu không cần cảđối tượng gốc lẫndấu hiệu
M. Hệ thống công khai được sử dụng nhiều hơn hệ thống kín và bán kín, các
thuật giải trong hệ thống công khai còn được sử dụng trong hệ thống kín và bán
kín.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-15-
 Hệ thống không đối xứng (asymmetric system): còn được gọi là hệ
thống khóa công khai (public key system),mọi người dùng đều có thểđọc
được dấu hiệu nhưng không thể xóa nó.
2.4 Các ứng dụng của ẩn dữ liệu:
Dưới đây là một số các ứng dụng hấp dẫncủa ẩn dữ liệu:

 Các cơ quan quân sự và tình báo có nhu cầutruyền thông không bịđột
nhập-truyền thông mật. Ngay cả trong trường hợpnội dung đã được mã hóa, sự
phát hiện một tín hiệu trên một chiến trường hiện đại có thể dẫn đến một cuộc
tấn công nhanh chóng lên nơi phát ra tín hiệu. Vì lý do này, các truyền thông
trong quân đội sử dụng các kỹ thuật như điều biến phổ dãy rộng hoặc kỹ thuật
nổi tiếng là truyền thông phân tán để làm tín hiệu khó bị kẻ thù phát hiện và ngăn
chặn.
 Các tội phạm cũng sử dụng sự truyền thông không bịđột nhập. Các tội
phạm sử dụng các kỹ thuậttrênđiện thoại di động trả tiền trước, điện thoạidi
động sẽđược thay đổi thường xuyên và được sử dụng để đột nhập vào các tổng
đài điện thoại.
 Gần đây, các chính phủ sử dụng kỹ thuật ẩn dữ liệu để giới hạn các lời
nói tự do trực tuyến trên mạng và mật mã được sử dụng trong dân chúng đã
khuyến khích người dân quan tâm đến quyền tự do phát triển kỹ thuật cho truyền
thông mật trên mạng bao gồm các thư nặc danh và các Web proxy.
 Các hệ thống bầu cửđiện tử và giao dịch tiền điện tử có nhu cầu về
truyền thông mật.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H

KHTN TP.H
C
M
-16-
 Các nhà kinh doanh sử dụng các kỹ thuật giả mạo email để gửi một số
lượng lớn các thông điệp quảng cáo đến người dùng và có khả năng tránh sự
phản ứng từ các người dùng giận dữ.
2.5 Các hướng nghiên cứu về ẩndữ liệu:
Có thể nói ẩn dữ liệu là một vấn đề đang được các nhà khoa học quan tâm
rất nhiều, nhất là các trung tâm nghiên cứu và các công ty điện tử, điển hình là
phòng nghiên cứu của IBM, phòng nghiên cứu của Panasonic, phòng nghiên cứu
của MIT,...Sau đây là một số kỹ thuật đã được áp dụng:
2.5.1 Trên văn bản:
Các nhà nghiên cứu kỹ thuật ẩn dữ liệu trên văn bản nổi bật là Bender của
viện MIT – USA [3][4], ông sử dụng số lượng khoảng trắng giữa các từ, phương
pháp ngữ nghĩa củatừ và cú pháp trong câu để nhúng dữ liệu. Tuy nhiên, các
phương pháp ẩn dữ liệu trên văn bản của ông không nhúng được nhiều dữ liệu và
dễ gây chú ý cho người khác.
Ngoài ra còn có nhà nghiên cứuBrassil[5]của phòng thí nghiệm Bell,
chuyên nghiên cứu về các kỹ thuật ẩn dữ liệu trên vănbản, Brassil sử dụng
khoảng cách giữa các từ, các câu và các đặc trưng của ký tự để nhúng dữ liệu.
Các phương pháp này có nhược điểm trong trường hợpvăn bản được canh lề và
sắp chữ lại.
2.5.2 Trên ảnh tĩnh:
Adelson[3][4] nghiên cứu một phương pháp ẩn dữ liệubằng cách khai
thác sự nhạy cảm của mắt người đối nghịch với các vùng dữ liệu có tần số xuất
hiện cao. Thực hiện trên ảnh tĩnh được mã hóa theo hình chóp, Adelson thay thế
K
hoa C
N

TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-17-
những dữ liệu ảnh nơi có tần số xuất hiện cao bằng những dữ liệu nhúng. Bằng
cách này có thể nhúng hiệu quả một số lượng lớn dữ liệu, nhưng phương pháp
này không cung cấp một phương tiện nào để tránh khỏi sự dò tìm và sự xóa bỏ
dữ liệu nhúng khi thực hiện các thao tác cơ bản trên ảnh như lọc ảnh hay biến
đổi tỉ lệ.
Stego, một trong những phần mềm đóng gói, chỉ đơn giản là mã hóa dữ
liệu tại những bit thấp nhất của tín hiệu chứa. Phương pháp này cũng gặp phải
vấn đề như Adelson, nhưng nó lại chịu sự suy biến chất lượng ảnh hay chất
lượng truyền thông.
Bender bổ sung thêm phương pháp của Adelson bằng cách sử dụng các
hình thái hỗn loạn (chaos) như một phương tiện để mã hóa dữ liệu nhúng,
nhưng nó cũng không cung cấp một cải tiến nào để tránh được các biến đổi trên
tín hiệu chứa.
Lippman[3] ẩn dữ liệu trong kênh thành phần màu của của tín hiệu tivi
NTSC (National Television Standard Committee). Phương pháp này sẽ nhúng
một số lượng lớn dữ liệu, nhưng dữ liệu nhúng sẽ bị mất đi sau các qui trình ghi

lại, nén và chuyển mã.
Những kỹ thuật khác như Hecht’s Data-Glyph[3][4], thêm một mã kẻ sọc
vào ảnh, được bố trí để xác định trướcmột tập hợp các biến đổi hình học. Luồng,
một kỹ thuật hứa hẹn trong lĩnh vực ẩn dữ liệu, khó bị ngăn chặn và di chuyển
dữ liệu, nhưng tín hiệu chứa dễ bị phát hiện và suy biến.
------------------------------------------------

×