Học viện kỹ thuật quân sự
LÊ THANH BằNG
Khoá 36
Hệ đào tạo dài hạn
đồ án tốt nghiệp đại học
chuyên ngành điện tử- viễn thông
Nghiên cứu ph-ơng pháp che giấu thông tin
trong tín hiệu âm thanh
Năm 2006
Học viện kỹ thuật quân sự
Lê thanh bằng
Khoá 36
Hệ đào tạo dài hạn
đồ án tốt nghiệp đại học
ngành điện- điện tử
mã số: 20.00
nghiên cứu ph-ơng pháp che giấu thông tin
trong tín hiệu âm thanh
Cán bộ h-ớng dẫn khoa học:
th-ợng tá, ts. Nguyễn thế hiếu
th-ợng tá, Th.s mai quốc khánh
Năm 2006
Bộ quốc phòng cộng hoà xã hội chủ nghĩa việt nam
Học viện ktqs Độc lập -Tự do -Hạnh phúc
khoa: vô tuyến điện tử .
Phê chuẩn Độ mật:
Ngày tháng năm 2006 Số:
Chủ nhiệm khoa
Nhiệm vụ đồ án tốt nghiệp
Họ và tên: LÊ THANH BằNG Lớp: Thông tin2 Khoá 36
Ngành: Điện- Điện tử Chuyên ngành: Viễn thông
1. Tên đồ án:
Nghiên cứu ph-ơng pháp che giấu thông tin trong tín hiệu âm thanh
2. Các số liệu ban đầu: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. Nội dung bản thuyết minh:
Ch-ơng 1: Tổng quan về giấu tin
Ch-ơng 2: Các ph-ơng pháp giấu tin trong tín hiệu âm thanh
Ch-ơng 3: Thiết kế mô hình giấu tin bằng kỹ thuật trải phổ kết
hợp với mô hình giả lập thính giác.
4. Số l-ợng, nội dung các bản vẽ và các sản phẩm cụ thể (nếu có)
Số l-ợng: bản vẽ A
0
Nội dung:
5. Cán bộ h-ớng dẫn:
1/ Th-ợng tá, TS Nguyễn Thế Hiếu, Viện tr-ởng Viện điện tử viễn
thông - Trung tâm Khoa học kỹ thuật và công nghệ quân sự. (h-ớng dẫn
ch-ơng 1 và ch-ơng 3)
2/ Th-ợng tá, Th.S Mai Quốc Khánh, Phó chủ nhiệm Bộ môn Lý thuyết
mạch - Đo l-ờng, Khoa Vô tuyến điện tử, Học viện Kỹ thuật quân sự. (h-ớng
dẫn ch-ơng 2)
Ngày giao: 14/ 03/ 2006. Ngày hoàn thành: 19/ 06/ 2006.
Hà nội, ngày.tháng.năm 2006.
Chủ nhiệm bộ môn Cán bộ h-ớng dẫn
Th.S. Mai Quốc Khánh
Đã hoàn thành và nộp đồ án ngày 19 tháng 06 năm 2006
Học viên thực hiện
Lê Thanh Bằng
Bảng ký hiệu, các từ viết tắt
Từ viết
tắt
Thuật ngữ tiếng Anh
Thuật ngữ tiếng Việt
A/D
Analog to Digital
Biến đổi t-ơng tự sang dạng số
AAC
Advanced Audio Coding
Mã hóa âm thanh cải tiến
AWGN
Additive White Gaussian Noise
Tạp âm Gauss trắng cộng tính
BEP
Bit Error Probability
Xác xuất lỗi bit
BER
Bit Error Ratio
Tỉ lệ lỗi bit
bps
Bit Per Second
Bit/ giây
BPSK
Binary Phase Shift Keying
Khoá dịch pha nhị phân
D/A
Digital to Analog
Biến đổi số sang t-ơng tự
DCT
Discrete Cosin Transform
Biến đổi Cosin rời rạc
DFT
Discrete Fourier Transform
Biến đổi Fourier rời rạc
DS
Discrete Sequence
Chuỗi trực tiếp
DSSS
Discrete Sequence Spread
Spectrum
Trải phổ chuỗi trực tiếp
DSP
Digital Signal Processing
Xử lý tín hiệu số
DWT
Discrete Wavelet Transform
Biến đổi Wavelet rời rạc
FEC
Forward Error Correction
Sửa lỗi tr-ớc
FFT
Fast Fourier Transform
Biến đổi Fourier nhanh
FH
Frequency Hopping
Nhảy tần
HAS
Human Auditory System
Hệ thống thính giác con ng-ời
HVS
Human Visual System
Hệ thống thị giác con ng-ời
IID
Independent Identically
Distributed
Phân bố độc lập nh- nhau
ITU-R
International
Telecommunication Union
Liên minh viễn thông quốc tế
ISS
Improved Spread Spectrum
Trải phổ cải tiến
JND
Just Noticeable Distortion
Méo còn cảm nhận đ-ợc
LSB
Least Significant Bit
Bit ít quan trọng nhất
LBM
Least Bit Modulation
Điều chế bit thấp tổng quát
MER
Minimum Error Replacement
Thay thế lỗi tối thiểu
MPEG
Moving Picture Experts Group
Nhóm biểu diễn ảnh động
Mp3
MPEG 1 Compression, Leyer 3
Nén chuẩn MPEG 1, lớp 3
MSE
Mean-Squared Error
Lỗi bình ph-ơng trung bình
NMR
Noise to Mask Ratio (dB)
Tỉ lệ tạp âm ng-ỡng che
PDA
Personal Digital Assistant
Thiết bị trợ giúp cá nhân số
PDF
Probability Density Function
Hàm mật độ xác suất
PDS
Power Density Spectrum
Phổ mật độ công suất
PN
Pseudo Noise
Giả tạp âm
PRN
Pseudo Random Noise
Giả tạp âm ngẫu nhiên
QIM
Quantization Index Modulation
Điều chế l-ợng tử hoá chỉ mục
SMR
Signal to Mask Ratio (dB)
Tỉ lệ tín hiệu ng-ỡng che
SNR
Signal to Noise Ratio (dB)
Tỉ lệ tín hiệu tạp âm
SPL
Sound Pressure Level
Mức nén âm thanh
SS
Spread Spectrum
Trải phổ
STDM
Spead Transform Dither
Modulation
Điều chế Dither trải biến đổi
WEP
Word Error Probability
Xác suất lỗi từ
TH
Time Hopping
Nhảy thời gian
WER
Word Error Ratio
Tỉ lệ lỗi từ
WIPO
World Intellectual Property
Organization
Hiệp hội bảo vệ sở hữu trí tuệ
thế giới
Audio Tín hiệu âm thanh
Critical Band Băng tần chủ chốt
Dither Nhiễu hạt
Digital watermaking Thủy vân số
De-Interleaver Bộ giải cài xen bit
Interleaver Bộ cài xen bit
masker Tín hiệu che
maskee Tín hiệu bị che
mutlimedia Dữ liệu đa ph-ơng tiện
Steganography Giấu tin mật
Watermark Thủy vân
Mục lục
Mục lục
Lời mở đầu 1
Ch-ơng 1: Tổng quan về giấu tin 3
1.1 Định nghĩa giấu tin và lịch sử phát triển của lĩnh vực giấu tin 3
1.1.1 Định nghĩa giấu tin trong dữ liệu đa ph-ơng tiện 3
1.1.2 Lịch sử phát triển . 5
1.2 Mô hình giấu thông tin 5
1.3 Phân loại lĩnh vực giấu tin 13
1.3.1 Giấu tin mật 13
1.3.2 Thủy vân 14
1.4 Các yêu cầu trong một mô hình giấu tin 16
1.4.1 Tính bền vững.16
1.4.2 Khả năng không bị phát hiện.17
1.4.3 Tốc độ bit17
1.4.4 Tính bảo mật 18
1.4.5 Khả năng vô hình 18
1.4.6 Tính trong suốt 18
1.5 Các ứng dụng của lĩnh vực giấu tin 19
1.5.1 Bảo vệ bản quyền, sở hữu trí tuệ19
1.5.2 Nhận thực thông tin và chống giả mạo thông tin 19
1.5.3 Điều khiển sao chép 20
1.5.4 Giấu vân tay và dán nhãn 20
1.5.5 Quản lý phát sóng 20
1.5.6 Giấu tin mật 21
Kết luận 21
Ch-ơng 2: Các ph-ơng pháp giấu tin trong tín hiệu âm thanh 22
2.1 Đặc điểm của tín hiệu âm thanh 22
2.1.1 Âm thanh và đặc điểm của tín hiệu âm thanh 23
2.1.2 Biểu diễn âm thanh d-ới dạng số 24
2.1.3 Cấu trúc tệp âm thanh định dạng Wav 25
2.2 Các đặc tính của hệ thống thính giác HAS 26
2.2.1 Ngụy trang (đồng thời) tần số 27
2.2.2 Ngụy trang về thời gian 29
2.2.3 áp dụng HAS trong thiết kế, kiểm tra thuật toán giấu tin 30
2.3 Các ph-ơng pháp giấu tin trong tín hiệu âm thanh 31
2.3.1 Ph-ơng pháp mã hoá pha 33
2.3.2 Ph-ơng pháp điều biến pha 33
2.3.3 Ph-ơng pháp sử dụng bản sao 34
2.3.4 Ph-ơng pháp l-ợng tử hoá chỉ mục 38
2.3.5 Ph-ơng pháp tự đánh dấu 44
2.3.6 Ph-ơng pháp tập đôi 46
2.3.7 Ph-ơng pháp trải phổ 50
2.4 Các yếu tố tác động đến bài toán giấu tin 55
2.5 Đánh giá các yêu cầu của mô hình giấu tin 57
2.5.1 Đánh giá tính bền vững 57
2.5.2 Đánh giá tính trung thực 58
2.5.3 Dung l-ợng kênh giấu tin 58
Kết luận 62
Ch-ơng 3: Thiết kế mô hình giấu tin bằng kỹ thuật trải phổ kết hợp với
mô hình giả lập thính giác 63
3.1 Cơ sở thiết kế 63
3.2 Giải quyết vấn đề 63
3.3 Giải thích mô hình giấu tin đề xuất 66
3.3.1 Phần tạo tín hiệu âm thanh và nhúng tin 66
3.3.2 Phần chiết rút tin 70
3.4 Ch-ơng trình thực hiện 73
3.4.1 Xây dựng thuật toán 73
3.4.2 Lựa chọn các tham số 74
3.4.3 Kết quả thực hiện 75
3.5 Đánh giá tính bền vững của mô hình 78
3.5.1 Chuyển đổi định dạng 78
3.5.2 Biến đổi A/D và D/A 80
3.5.3 Các thao tác với nhiễu 81
3.5.4 So sánh với các ph-ơng pháp giấu tin khác 82
Kết luận 85
Kết luận 86
Tài liệu tham khảo
Phụ lục
Phụ lục 1: Ch-ơng trình mô phỏng MATLAB i
Phụ lục 2.1.3: Cấu trúc tệp Audio nén định dạng Wav .ii
Phụ lục 3.5.1: Bảng kết quả thực nghiệm chuyển đổi định dạng iii
Phụ lục 3.5.2: Bảng kết quả thực nghiệm biến đổi A/D và D/A .iv
Phụ lục 3.5.3: Bảng kết quả thực nghiệm trong các thao tác xử lý với nhiễu. v
1
Lời mở đầu
Trong xã hội loài ng-ời, thông tin liên lạc luôn giữ vai trò quan trọng,
là nhu cầu thiết yếu không thể thiếu đ-ợc của đời sống. Xã hội càng hiện
đại, nhu cầu thông tin càng tăng cả về số l-ợng lẫn chất l-ợng. Những thành
tựu của cuộc cách mạng khoa học và kỹ thuật thế kỷ 20 đã làm thay đổi sâu
sắc cuộc sống, giúp chúng ta ngày càng gần nhau hơn, mang lại cho nhau
nhiều cơ hội phát triển hơn nh-ng đồng thời cũng phát sinh thêm nhiều
thách thức mới. Mạng Internet toàn cầu đã tạo ra những cơ cấu ảo, là nơi
diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực, đã thúc đẩy khả năng
sáng tạo, xử lý và th-ởng thức các dữ liệu đa ph-ơng tiện. Và chính trong
môi tr-ờng mở, tiện nghi nh- thế làm xuất hiện những vấn nạn, những tiêu
cực đang rất cần các giải pháp hữu hiệu nhằm bảo đảm an toàn thông tin,
chống lại nạn ăn cắp bản quyền, giả mạo thông tin, truy cập thông tin trái
phép Việc tìm giải pháp cho những vấn đề này không chỉ giúp ta hiểu
thêm về công nghệ phức tạp đang phát triển rất nhanh này mà còn tạo ra
những cơ hội phát triển mới.
Bên cạnh đó, nhiệm vụ đảm bảo thông tin liên lạc cho quân đội trong
thời kỳ mới chiếm một vị trí hết sức quan trọng. Tuy hiện nay đã có nhiều
biện pháp giải quyết, nh-ng chủ yếu vẫn dựa vào ph-ơng pháp mã mật
thông tin. Chính vì tính chất đặc thù của mã mật đã khiến bản tin rất dễ bị
thám mã, phá hoại. Cho nên, để nâng cao tính an toàn và bí mật, bản tin có
thể đ-ợc đem giấu vào các đối t-ợng rất bình th-ờng khác mà không gây ra
bất kỳ sự chú ý nào. Và nh- vậy, sẽ lợi dụng một cách hiệu quả các mạng
truyền thông th-ơng mại sẵn có phục vụ cho nhiệm vụ quốc phòng, an ninh
với tính tin cậy, an toàn và bí mật cao.
Xuất phát từ yêu cầu của thực tế nhằm mục đích h-ớng tới một phần
nhiệm vụ trên, đồ án có tên: Nghiên cứu ph-ơng pháp che giấu thông
tin trong tín hiệu âm thanh .
2
Nội dung đồ án chia thành 3 ch-ơng:
Ch-ơng 1: Tổng quan về lĩnh vực giấu tin - Ch-ơng này trình
bày các vấn đề cơ bản của một mô hình giấu tin trong dữ liệu đa ph-ơng
tiện; phân tích quá trình nhúng và khôi phục thông tin, các yêu cầu bắt buộc
đối với mỗi mô hình giấu tin.
Ch-ơng 2: Các ph-ơng pháp giấu tin trong tín hiệu âm thanh
Ch-ơng này nêu khái quát đặc điểm của tín hiệu âm thanh, cấu trúc tệp âm
thanh nén, đặc tính của hệ thống thính giác con ng-ời. Từ đó, trình bày cụ
thể các ph-ơng pháp giấu thông tin trong tín hiệu âm thanh đang đ-ợc sử
dụng phổ biến hiện nay.
Ch-ơng3: Thiết kế mô hình giấu tin trong tín hiệu âm thanh
bằng kỹ thuật trải phổ kết hợp với mô hình giả lập thính giác Ch-ơng
này đề xuất một ph-ơng pháp giấu tin mới. Sau đó, tiến hành thử nghiệm
đánh giá tính bền vững của ph-ơng pháp này đối với các thao tác biến đổi
và xử lý tín hiệu.
Trong khuôn khổ thời gian cũng nh- trình độ bản thân có hạn, đồ án
sẽ không tránh khỏi những sai sót. Rất mong nhận đ-ợc sự đóng góp từ các
thầy giáo và bạn đọc để đồ án hoàn thiện hơn. Tôi xin chân thành cảm ơn
sự h-ớng dẫn, và giúp đỡ tận tình của TS. Nguyễn Thế Hiếu, Th.S Mai
Quốc Khánh, các thầy giáo thuộc Phòng thí nghiệm trọng điểm an toàn
thông tin, Viện điện tử viễn thông, Trung tâm KHKT & CN quân sự, cùng
các thầy trong khoa Vô tuyến điện tử đã giúp đỡ tôi trong quá trình học tập
cũng nh- trong quá trình làm đồ án.
3
Ch-ơng 1
Tổng quan về lĩnh vực giấu tin
Ch-ơng này sẽ trình bày những khái niệm cơ bản về lĩnh vực giấu tin
trong dữ liệu đa ph-ơng tiện, giải thích quá trình nhúng, khôi phục thông
tin giấu và các yêu cầu cần thiết đối với một mô hình giấu tin.
1.1. Định nghĩa giấu tin và lịch sử phát triển của lĩnh vực giấu tin.
1.1.1. Định nghĩa giấu tin trong dữ liệu đa ph-ơng tiện.
Để xây dựng một định nghĩa khái quát về giấu tin, tr-ớc tiên, phải
làm sáng tỏ khái niệm thế nào là dữ liệu đa ph-ơng tiện và tính phổ biến
của chúng.
Định nghĩa dữ liệu đa ph-ơng tiện (multimedia):
Media đ-ợc định nghĩa trong từ điển ngôn ngữ là truyền thông, môi
tr-ờng hay ph-ơng tiện. Trong lĩnh vực công nghệ thông tin, media mang ý
nghĩa là ph-ơng tiện nghe nhìn. Ng-ời ta xem media là một thuật ngữ để
chỉ chung cho các dữ liệu liên quan đến hình ảnh, hình chuyển động, nhạc
và phim.
Thuật ngữ multimedia dùng để mô tả những công nghệ, công cụ cho
phép các ph-ơng tiện nghe nhìn kết hợp theo những cách mới nhằm mục
đích truyền thông truyền thông đa ph-ơng tiện. Multimedia đ-ợc ứng
dụng rộng rãi trong nhiều lĩnh vực nh- giải trí, giáo dục và quảng cáo. Gần
nh- mọi máy tính để bàn hiện nay đều chứa đựng multimedia trong nó, bởi
vì chúng đều có các thiết bị nh-: CD-ROM, DVD và các cấu trúc phần
cứng Card âm thanh, Card Video. Hiện nay, số l-ợng các thiết bị trình diễn
multimedia rất đa dạng và phong phú, chẳng hạn: máy sao chép phim kĩ
thuật số (DVR), Tivi màn hình t-ơng tác, máy nghe nhạc MP3, các thiết bị
không dây, điện thoại di động, PDAs, Bên cạnh đó, sự phát triển nhanh
chóng của công nghệ kỹ thuật số đã làm thay đổi sâu sắc cách chúng ta sử
4
dụng media từ việc sản xuất, sao chép, phân phối và tiêu thụ. Các công
nghệ mới này giúp giảm đáng kể chi phí và tiết kiệm thời gian khi thực hiện
multimedia.
Với những tiện ích nh- vậy, multimedia có mặt ở tất cả mọi nơi, mọi
lĩnh vực. Chính bởi multimedia dễ sử dụng và phổ biến, nên nó không chỉ
đ-ợc dùng trong truyền thông đại chúng mà còn đ-ợc sử dụng tại gia đình,
cơ quan, tr-ờng học.
Định nghĩa giấu tin trong multimedia:
Giấu tin là kỹ thuật nhúng thông tin vào trong một nguồn đa ph-ơng
tiện nào đó (ảnh số, tín hiệu audio, video) mà không gây ra bất kỳ nhận biết
nào về sự tồn tại của thông tin đem giấu. Các nguồn đa ph-ơng tiện này
đ-ợc gọi chung là ph-ơng tiện chứa, hoặc đối t-ợng gốc.
Ví dụ, gọi đối t-ợng cần bảo mật là A (một văn bản, một tấm bản đồ,
hoặc một tệp âm thanh ). Nếu dùng ph-ơng pháp mã hoá để bảo mật A, ta
sẽ thu đ-ợc bản mã A chứa toàn các ký tự vô nghĩa . Và chính điều này
khiến đối ph-ơng nghi ngờ, tìm mọi cách thám mã. Nh-ng nếu giấu A vào
một đối t-ợng khác, một tệp âm thanh B chẳng hạn, ta sẽ thu đ-ợc tệp B
hầu nh- không khác gì so với B. Sau đó, chỉ cần gửi B cho ng-ời nhận. Để
lấy lại bản tin A từ B ng-ời nhận không cần đến tệp gốc B. Do đó, dù đối
ph-ơng có bắt đ-ợc B , và do B chỉ là một tệp âm nhạc bình th-ờng sẵn có
trên mạng, thì đối ph-ơng cũng khó nảy sinh nghi ngờ về khả năng chứa tin
mật trong B . Mặt khác, ta còn có thể nâng cao tính an toàn của thông tin
giấu bằng cách đem nhúng bản mã A vào đối t-ợng chứa B.
Kỹ thuật giấu thông tin nhằm mục đích bảo mật ở hai khía cạnh. Một
là, bảo mật cho dữ liệu đ-ợc đem giấu, và thứ hai, bảo mật cho chính đối
t-ợng đ-ợc dùng để giấu tin. Hai khía cạnh khác nhau này dẫn đến hai
khuynh h-ớng chủ yếu trong giấu tin. Khuynh h-ớng thứ nhất là giấu tin
mật (Steganography): tập trung vào các kỹ thuật sao cho thông tin đem giấu
đ-ợc nhiều, và quan trọng là đối ph-ơng khó phát hiện ra có thông tin giấu
5
bên trong hay không. Khuynh h-ớng thứ hai là thuỷ vân số: yêu cầu thông
tin đ-ợc giấu phải có tính bền vững rất cao đối với các biến đổi (mong
muốn hay không mong muốn). Các ứng dụng của thuỷ vân số đang đ-ợc
triển khai rộng rãi, nhất là trong lĩnh vực bảo vệ bản quyền và xác thực
thông tin.
1.1.2 Lịch sử phát triển
Từ Steganography (chữ viết đ-ợc che giấu) bắt nguồn từ Hy Lạp, và
đ-ợc dùng đến tận ngày nay. Nếu mã mật tập trung vào vấn đề bảo vệ nội
dung thông điệp thì Steganography lại nghiên cứu ở khía cạnh làm thế nào
có thể che giấu đ-ợc sự tồn tại của các thông điệp này. Quan niệm trên xuất
phát từ tác phẩm Steganographia của tác giả Trithemius (1462 - 1516)
ng-ời Hy Lạp. Do vậy, Steganography th-ờng đ-ợc hiểu là một ph-ơng
pháp giấu thông tin này vào một thông tin khác. Các nghiên cứu về kỹ thuật
giấu tin ra đời từ rất sớm, đ-ợc sử dụng nhiều nhất ở trong quân đội và các
cơ quan tình báo. Ví dụ nh- giấu một bản tin mật vào trong bài báo thông
qua hình thức sử dụng mực in vô hình để gửi cho các điệp viên. Cho đến vài
thập niên gần đây, lĩnh vực giấu tin trong multimedia mới nhận đ-ợc sự
quan tâm của các nhà nghiên cứu và các Viện công nghệ thông tin với hàng
loạt công trình nghiên cứu giá trị. Chính cuộc cách mạng số hoá thông tin
và sự phát triển nhanh chóng của mạng truyền thông là nguyên nhân dẫn
đến sự thay đổi này.
Thuật ngữ thủy vân cũng xuất hiện từ rất sớm, khởi nguồn từ nền
công nghiệp sản xuất giấy ở châu Âu. Thủy vân đ-ợc hiểu giống nh- một
loại hoa văn in chìm trên giấy và chỉ hiển thị khi nhúng tờ giấy đó vào
n-ớc. Thủy vân đã đem lại những lợi ích thiết thực trong việc xác định nhãn
hiệu th-ơng mại, ghi nhận ngày sản xuất, chống làm tiền giả, bảo vệ bản
quyềnThuật ngữ thuỷ vân số đ-ợc cộng đồng thế giới chấp nhận rộng rãi
6
vào đầu thập niên 1990. Đến năm 1996, Hiệp hội bảo vệ sở hữu trí tuệ thế
giới (WIPO) đã tổ chức hội thảo đầu tiên về giấu tin trong multimedia, chọn
lĩnh vực thủy vân làm nội dung chính. Sau hơn 10 năm phát triển, đã có
nhiều tác giả nghiên cứu về thủy vân số, và hình thành nên một số l-ợng lớn
các tổ chức, công ty chuyên kinh doanh trong lĩnh vực này. Tuy vậy, thủy
vân thông tin trong tín hiệu âm thanh mới chỉ đ-ợc chú ý vài năm lại đây do
gặp rất nhiều khó khăn khi tiếp cận với hệ thống thính giác con ng-ời
(HAS). Bởi vì HAS rất nhạy cảm và phức tạp hơn so với hệ thống thị giác
(HVS). Nh-ng bù lại, tiềm năng của lĩnh vực này là rất lớn, cả trong th-ơng
mại lẫn quân sự [7], [8],[10].
1.2. Mô hình giấu thông tin
Do lĩnh vực giấu thông tin trong multimedia còn khá mới nên hiện
nay đang tồn tại nhiều mô hình giấu tin khác nhau [12]. Tùy theo h-ớng
nghiên cứu và phạm vi áp dụng mà ta chọn một mô hình thích hợp.
Nhỳng tin
X lý/
Tn
cụng
Khoỏ mt
Tớn hiu gc
Tớn hiu ỏnh du
B ghi/ Nghe nhc
Chit rỳt
B nghe nhc tu chn
Khoỏ mt
Tin mt
Tin mt
Hình 1.1: Mô hình giấu tin cơ bản
Dựa vào mô hình trên, ta thấy có 4 đối t-ợng chính trong một bài
toán giấu thông tin:
7
Thông tin mật : Là thông tin nhúng vào đối t-ợng chứa, và cũng là
thông tin cần đ-ợc bảo vệ. Tuỳ theo từng ph-ơng pháp cụ thể, thông tin này
sẽ đ-ợc bảo vệ với các mức độ khác nhau. Thông tin mật không giới hạn về
kiểu định dạng. Còn kích th-ớc của nó phụ thuộc vào yêu cầu bảo mật và
lĩnh vực ứng dụng.
Đối t-ợng chứa : Là đối t-ợng dùng để chứa thông điệp mật. Còn
đ-ợc gọi là môi tr-ờng, tín hiệu gốc, hoặc tín hiệu chủ. Do các ph-ơng pháp
giấu tin ngày nay hầu hết đều hỗ trợ định dạng dữ liệu số, nên đối t-ợng
chứa có chung đặc điểm là số . Kích th-ớc của đối t-ợng chứa th-ờng đòi
hỏi lớn hơn nhiều kích th-ớc thông tin mật.
Đối t-ợng đã nhúng : Là đối t-ợng chứa sau khi nhúng thông tin
mật, hay còn gọi là đối t-ợng đã đánh dấu. Khi xét đối t-ợng nhúng, ta chỉ
quan tâm đến chất l-ợng và kích th-ớc của nó. Nhìn chung, chất l-ợng bị
thay đổi so với đối t-ợng gốc. Tuy nhiên, mức độ thay đổi phụ thuộc vào
yêu cầu và ph-ơng pháp tiến hành. Kích th-ớc của đối t-ợng đã nhúng bằng
kích th-ớc của đối t-ợng chứa.
Khoá mật : Là khoá tham gia vào quá trình nhúng, tuỳ theo từng
thuật toán mà khoá này có tham gia hay không. Chiều dài của khoá phụ
thuộc vào thuật toán tạo khoá. Nh-ng nhìn chung, khoá càng dài thì mức độ
an toàn, bí mật càng cao. Khoá mật này hoặc chỉ đ-ợc dùng trong giai đoạn
mã hoá, hoặc có thể dùng trong cả hai giai đoạn mã hoá và giải mã.
1.2.1. Giải thích mô hình giấu tin:
B nhỳng Tn cụng B thu
Tin mt
m
Tớn hiu gc x
s
r
d
emb
att
d
Khoỏ mt
K
x
m
^
01
/HH
Khoỏ mt
K
Hình 1.2: Mô hình giấu tin do Cox I đề xuất.
8
Trong một bài toán giấu tin cơ bản gồm hai quá trình:
Nhúng thông tin (hay còn gọi là mã hoá)
Chiết rút thông tin (còn gọi là giải mã)
Quá trình nhúng tin mật phụ thuộc vào khoá K và nhất thiết phải thoả
mãn yêu cầu trong suốt, nghĩa là sự khác biệt giữa tín hiệu gốc x và tín
hiệu đánh dấu s (méo sinh ra do nhúng d
em b
) phải nằm d-ới mức ng-ỡng
khác biệt còn chấp nhận đ-ợc. Ta xem bất cứ các thay đổi nào dành cho s
(mong muốn hay không mong muốn) đều là các kiểu tấn công. Và yêu cầu
méo sinh ra do bị tấn công d
att
phải ở mức còn cảm thụ đ-ợc. Sau khi bị tấn
công, bộ chiết rút thu đ-ợc tín hiệu r.
Quá trình chiết rút khôi phục lại thông tin đã giấu gồm hai quá trình
con: đầu tiên giải mã tín hiệu nhận đ-ợc bằng khóa K để thu bản tin m
,
và b-ớc thứ hai là dò tách tín hiệu đánh dấu, nghĩa là tiến hành kiểm định
hai giả thiết:
Giả thiết H
0
: tín hiệu r không đ-ợc đánh dấu với khoá K
Giả thiết H
1
: tín hiệu r đ-ợc đánh dấu với khoá K
Để phân tích sâu hơn về các quá trình của mô hình giấu tin ở trên, ta
sử dụng các tính chất của xác xuất thống kê [1] với các định nghĩa sau :
Xem đối t-ợng chứa x là một véctơ có độ dài
x
L
, trong mô hình
thống kê coi x nh- một quá trình ngẫu nhiên rời rạc của biến
x
. Nh- vậy,
hàm mật độ xác suất
x
px
là:
1
()
x
n
L
x x n
n
p x p x
với
()
n
xn
px
là hàm phân bố thứ n của
x
Để đơn giản hoá, giả sử các thành phần dữ liệu đ-ợc phân bố độc lập,
giống nhau, do đó
nj
x n x n x
p x p x p x
. Nh-ng thực tế, hầu hết các dạng
dữ liệu đa ph-ơng tiện không thể xem là các quá trình ngẫu nhiên có tính
chất IID đ-ợc. Tuy vậy, trong một số tr-ờng hợp, chúng ta có thể phân tích
dữ liệu trên thành các thành phần nhỏ hơn sao cho mỗi thành phần này thoả
9
mãn tính chất thống kê độc lập. Do vậy, d
em b
và d
att
đ-ợc tính dựa theo
công thức sau:
emb
d
= D(x,s,
) =
2
1
1
{( ) }
Lx
n
n n n
x
E x s
L
(1.1)
att
d
= D(x,r,
) =
2
1
1
{( ) }
Lx
n n n
n
x
E x r
L
(1.2)
Trong đó
E
là hàm kỳ vọng và
n
R
là trọng số gán cho lỗi
sinh ra trong thành phần dữ liệu thứ n. Trọng số này dùng để dung hòa giữa
đại l-ợng méo mong muốn và không mong muốn. Đối với dữ liệu có tính
chất IID,
n
th-ờng cho bằng 1 để đơn giản trong tính toán.
1.2.3 Quá trình nhúng tin:
Giả sử rằng tại phần thu, quá trình chiết rút tin mật không cần đến tín
hiệu gốc, nh- vậy bộ mã hoá có thể mô hình hoá thành một kênh truyền sử
dụng thông tin phụ (side information). Nghĩa là, mặc dù phần thu không có
khả năng truy nhập vào tín hiệu gốc x nh-ng bộ mã hoá có thể lợi dụng sự
hiểu biết về x nhằm giảm tối đa ảnh h-ởng của x đến các quyết định chiết
rút. Sơ đồ nhúng tin nh- sau:
B mó hoỏ B gii mó
m
x
w s = x+w
v
r
m
^
+ +
Hình 1.3: Mô hình truyền thông với thông tin phụ tại bộ mã hoá.
Sơ đồ trên mô tả quá trình nhúng thông tin vào trong tín hiệu gốc x
(có tính chất IID) độ dài L
x
và phần chiết rút hoàn toàn không cần đến x.
Thông điệp
m
1, 2,, M đ-ợc nhúng với độ méo d
em b
. Ta chia quá trình
nhúng tin trong tr-ờng hợp này thành hai giai đoạn:
Chọn w thích hợp biểu diễn cho bản tin m
Cộng w vào x.
Đại l-ợng méo xuất hiện khi nhúng đ-ợc tính theo công thức (1.3):
10
22
11
emb
xx
d E s x E w
LL
(1.3)
Tiến hành phép ánh xạ từ m vào w thông qua sách mã W
Lx
(K). Với
W
Lx
(K) là bản mã hoá của khoá mật K.
Giả sử chuỗi tín hiệu đánh dấu w có trung bình bằng 0 và có tính chất
IDD. Thì d
em b
sẽ bằng với ph-ơng sai
2
w
của các thành phần
n
w
. Nếu
nhiễu tạp tác động độc lập với các đặc tính của tín hiệu gốc và tín hiệu đánh
dấu thì đại l-ợng méo sinh ra trong truờng hợp này đ-ợc tính nh- sau:
d
att
= d
em b
+
2
v
=
2
w
+
2
v
(1.4)
1.2.3 Quá trình chiết rút:
Để lấy lại thông tin đã nhúng một cách tin cậy, ta xét bản tin m đ-ợc
mã hoá vào véctơ b độ dài L
b
, b chứa các thành phần nhị phân b
n
= 0,1.
Thông th-ờng, b đ-ợc gọi là bản tin thủy vân nhị phân, t-ơng ứng phần thu
có bản tin giải mã b
. Tính tin cậy trong giải mã véctơ b đ-ợc mô tả bằng
công thức tính xác xuất lỗi từ (WEP):
w
p
= P
mm
r
= P
bb
r
(1.5)
hoặc xác xuất lỗi bit (BEP):
b
p
=
b
l
n
nnr
b
bbP
L
1
1
(1.6)
WEP và BEP đ-ợc tính trong một mô hình giấu tin cụ thể bao gồm cả
các kiểu tấn công. Xác xuất lỗi có thể dự báo tr-ớc thông qua thực nghiệm
bằng cách mô phỏng sử dụng nhiều khoá K khác nhau, sử dụng các đối
t-ợng chứa x khác nhau, các tham số của các kiểu tấn công và bản tin m
khác nhau.
Thông qua lý thuyết thông tin, ta có thể tính toán hiệu suất của mô
hình giấu tin đề xuất. Ví dụ, l-ợng tin đánh dấu lớn nhất mà ta nhận đ-ợc
trên lý thuyết khi không có lỗi đ-ợc xác định bằng l-ợng tin t-ơng hỗ
/I r m
giữa bản tin m đã truyền và dữ liệu nhận đ-ợc r.
11
//I r m h r h r m
(1.7)
Với
hr
là entropy vi phân của r còn
/h r m
là entropy vi phân của r
trong điều kiện phần phát đã truyền m.
Ta định nghĩa dung l-ợng C của kênh truyền là l-ợng tin t-ơng hỗ
/I r m
lớn nhất thông qua mô hình truyền dẫn với một công suất truyền
xác định cho tr-ớc. Dựa trên phân tích C làm cơ sở để đánh giá hiệu quả
của các ph-ơng pháp giấu tin đề xuất. Tuy vậy, đến nay vẫn ch-a có một
quy chuẩn chung để so sánh mức độ hiệu quả của các kỹ thuật trong lĩnh
vực giấu tin. Với mỗi mô hình giấu tin khác nhau thì dung l-ợng kênh C
cũng khác. C khác nhau khi sử dụng tham số khác nhau, ví dụ nh- miền
nhúng tin (miền thời gian, miền tần số, miền Wavelet, miền Cepstrum), các
tham số tấn công (méo hình học, lấy mẫu, lọc thông thấp ).
Để phần thu ra quyết định tín hiệu nhận r có đ-ợc đánh dấu (
1
H
) hay
không (
0
H
) một cách tin cậy, ta đ-a ra các khái niệm xác suất
fp
p
(bắt
nhầm) trong tr-ờng hợp chọn
1
H
nh-ng
0
H
lại đúng và xác suất
fn
p
(bỏ sót)
khi chọn
0
H
mà
1
H
đúng. Trong nhiều ứng dụng, xác suất bắt nhầm phải
nằm trong một giá trị giới hạn chấp nhận đ-ợc. Ví dụ: p
fp
< 10
12
đối với
lĩnh vực bảo vệ sao chép đĩa DVD.
Gọi f có độ dài L
f
là véctơ con của bản tin nhị phân b, f đ-ợc mã hoá
cùng với b để thu bản mã b
c
. Tại quá trình chiết rút tin, véctơ f đ-ợc dùng
để so sánh với giá trị f
của bản tin giải mã b
t-ơng ứng. Không mất tính
tổng quát, ta kiểm tra tất cả các bản tin, kể cả bản tin toàn giá trị zero, bởi
vì độ an toàn của quá trình nhúng đã đ-ợc bảo đảm nhờ khoá mật K. Nh-
vậy, ta phân ra hai tr-ờng hợp quyết định chọn bản tin giải mã:
Quyết định cứng
So sánh giá trị của f và f
có bằng nhau không. Từ đó đ-a ra luật
quyết định chọn giả thiết nh- công thức (1.8):
12
H
0
: f
f và H
1
: f
= f (1.8)
Giả sử rằng: P
r
(f
n
= 0/ H
0
) = P
r
(f
n
= 0/ H
1
) = 0,5
Thì: p
fp
= 0,5
f
L
và p
fn
= 1 (1 - p
b
)
f
L
(1.9)
Tổng quát hơn, ta có thể đ-a ra luật quyết định chọn H
1
nếu khoảng
cách Hamming d
H
(f
n
, f) nhỏ hơn ng-ỡng xác định tr-ớc. Ng-ỡng này đ-ợc
thiết kế sao cho tồn tại một điểm dung hoà tốt nhất giữa p
fp
và p
fn
.
Quyết định mềm
Trong tr-ờng hợp bị tấn công, vấn đề lựa chọn giả thiết nào mang ý
nghĩa rất quan trọng. Chính vì vậy quyết định mềm sẽ đem lại sự linh hoạt
và hiệu quả hơn. Véctơ kiểm tra f đ-ợc lấy bằng giá trị của L
f
bit đầu tiên
của bản tin b, còn đoạn mã sửa lỗi (các bit L
c
f
đầu tiên của b
c
) độc lập với
các bit còn lại của bản tin. Không mất tính tổng quát, giả sử:
(b
, ,0,c
b
1
,
fc
Lc
) = f = 0 (1.10)
Kí hiệu I
f
là tập chỉ tất cả các thành phần dữ liệu đ-ợc nhúng vào
các bit kiểm tra mã hoá. Và giả sử hàm mật độ xác xuất của dữ liệu nhận
đ-ợc r
f
I
là: P
r
( r
f
I
/ H
0
) và P
r
( r
f
I
, H
1
) độc lập với hai giả thiết H
0
, H
1
đã
biết. Để kiểm định hai giả thiết này, ta áp dụng định lý Bayes:
)/(
)/(
0
1
HrP
HrP
Ir
Ir
> T
chọn H
1
, ng-ợc lại chọn H
0
(1.11)
trong đó T là ng-ỡng quyết định. T là hằng số phụ thuộc vào xác xuất tiên
nghiệm của H
0
, H
1
và giá trị này cũng liên hệ mật thiết với lỗi quyết định
vi phân. Nếu T = 1 thì luật quyết định trên sẽ cho khả năng chiết rút lớn
nhất. Còn nếu các xác xuất tiên nghiệm bằng nhau thì xác xuất lỗi quyết
định đ-ợc tính nh- sau:
p
e
=
2
1
( p
fp
+ p
fn
) (1.12)
13
Nh- vậy, quyết định chọn H
1
nếu:
P
r
=
)/()/(
)/(
01
1
HrPHrP
HrP
IrIr
Ir
> 0,5 (1.13)
Trong đó P
r
[0,1] chỉ ra độ tin cậy mà b
nhận đ-ợc có chứa thông
tin đem giấu hợp lệ hay không.
1.3. Phân loại lĩnh vực giấu tin:
1.3.1. Giấu tin mật : Chia thành hai lĩnh vực nh- sau
a/ Giấu tin bằng ngôn ngữ:
Các ph-ơng pháp thuộc loại ngôn ngữ hữu hình th-ờng sử dụng các
thực thể vật lý để thể hiện nội dung của thông điệp mật. Ví dụ, sử dụng vị
trí của các quân cờ trên bàn cờ hoặc vẽ một con ng-ời trong các t- thế khác
nhau và mỗi t- thế ứng với một ý nghĩa nào đó.
Giu d liu
Giu tin bng
ngụn ng
Giu tin bng
k thut
Ngụn ng Mó m
Mó Jargon
Mó chuyn
i
Ngụn ng hu
hỡnh
Ngụn ng vn
bn
Hình 1.4: Phân loại giấu tin mật
Trong ph-ơng pháp nhóm ngôn ngữ văn bản, nội dung của bản tin
mật sẽ đ-ợc ẩn chứa thông qua cách hiển thị của văn bản. Một số kỹ thuật
loại này có thể áp dụng cho cả văn bản viết tay và văn bản in. Ví dụ, thay
đổi khoảng cách giữa các kí tự.
Ngoài ra, các ph-ơng pháp thuộc nhóm mã Jargon th-ờng nhúng nội
dung bản tin mật vào trong những tín hiệu có công suất lớn, và nh- thế
thông tin ẩn sẽ khó bị phát hiện.
14
b/ Giấu tin bằng kỹ thuật:
Lên quan đến việc sử dụng các ph-ơng pháp vật lý hay hoá học để
che giấu thông tin. Ví dụ: ph-ơng pháp mực không màu, ph-ơng pháp
microdot. Các ph-ơng pháp này đã đ-ợc dùng từ rất lâu và hiện nay hầu
nh- không còn đ-ợc sử dụng.
1.3.2. Thủy vân
Dựa vào các tính chất khác nhau, lĩnh vực áp dụng, ta có thể phân
loại thủy vân thành các nhóm nh- sau:
a/ Phân loại theo khả năng cảm nhận:
Dựa vào khả năng cảm nhận của con ng-ời tr-ớc các thay đổi trên
đối t-ợng chứa sau khi nhúng thông tin. Nhóm này phân thành hai loại
chính là: Thủy vân hữu hình và Thủy vân vô hình.
Đối với loại thủy vân hữu hình, ng-ời dùng cuối có khả năng nhìn
thấy thông tin đem giấu. Thông th-ờng các ứng dụng loại này sử dụng một
logo làm thông tin mật để chống việc giả mạo, ăn cắp thông tin. Ví dụ nh-
nhúng logo vào giấy, hoặc nhúng vào tiền
Đối với các ứng dụng theo h-ớng thủy vân vô hình, ng-ời dùng cuối
không thể biết đ-ợc bất cứ thông tin nào về đối t-ợng nhúng. Các ứng dụng
loại này th-ờng dùng để bảo vệ quyền sở hữu trí tuệ. Thông tin đ-ợc nhúng
th-ờng là ảnh hay đoạn văn bản nhận thực tác giả.
Cần l-u ý: Đối với đối t-ợng chứa là ảnh số hay video, ta sử dụng
thuật ngữ thủy vân hữu hình/ vô hình. Còn đối với âm thanh thì sử dụng
thuật ngữ thủy vân cảm thụ/ không cảm thụ.
b/ Phân loại theo tính chất bền vững:
Dựa vào khả năng chống lại các kiểu tấn công của kỹ thuật thủy vân,
có thể chia hệ thống thủy vân thành ba loại: bền vững, yếu và bán yếu.
15
Thy võn
Thy võn
bn vng
Thy võn yu
Thy võn
bỏn yu
Hình 1.5: Phân loại thủy vân theo tính bền vững
Thông th-ờng thủy vân bền vững đ-ợc dùng trong tr-ờng hợp thông
tin mật rất quan trọng không thể tiết lộ, chỉ có tác giả mới biết chính xác
thông tin gì đang đ-ợc nhúng vào đối t-ợng chứa.
Còn thủy vân yếu th-ờng đ-ợc sử dụng trong các ứng dụng bảo vệ
nội dung. Bất cứ sự thay đổi nào cũng dẫn tới sự phá huỷ hoàn toàn thông
tin đem giấu. Ngoài mục đích xác thực nội dung thì thủy vân yếu còn dùng
để phát hiện lỗi trong quá trình truyền dẫn nhằm nâng cao hiệu quả truyền
tải dữ liệu.
Thông tin đ-ợc nhúng trong hệ thống thủy vân bán yếu sẽ không bị
ảnh h-ởng tr-ớc các thao tác thay đổi phù hợp, nh-ng sẽ bị phá huỷ nếu đấy
là các thao tác không hợp lệ.
c/ Phân loại theo thuộc tính chiết rút:
Thy võn
Thy võn giao thoa
tớn hiu gc
Thy võn
bỏn giao thoa
tớn hiu gc
Thy võn khụng
giao thoa
tớn hiu gc
Hình 1.6: Phân loại theo thuộc tính chiết rút
Dựa vào các đặc tính chiết rút thông tin mật của phần thu mà ta có
thể phân loại thủy vân nh- sau:
Thủy vân giao thoa tín hiệu gốc: sử dụng thông tin đối t-ợng chứa và
thông tin mật trong quá trình chiết rút. ứng dụng này đ-ợc dùng trong các
tr-ờng hợp nhận thực một đối t-ợng có chứa thông tin mật xác định nào đó
hay không.