Tải bản đầy đủ (.pdf) (63 trang)

Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.29 MB, 63 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHÙNG TẤN PHI

PHÙNG TẤN PHI

NGHIÊN CỨU
KỸ THUẬT VIỄN THÔNG

PHƯƠNG PHÁP WATERMARKING ÂM THANH
ỨNG DỤNG KỸ THUẬT PHÂN TÍCH ÂM NHẠC

(MUSIC TRANSCIPTION)
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

2015 – 2017
TP.HCM
2017

TP.HCM - 2017


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

PHÙNG TẤN PHI

NGHIÊN CỨU
PHƯƠNG PHÁP WATERMARKING ÂM THANH


ỨNG DỤNG KỸ THUẬT PHÂN TÍCH ÂM NHẠC
(MUSIC TRANSCIPTION)

Chuyên ngành: KỸ THUẬT VIỄN THÔNG
Mã số: 60.52.02.08
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC : TS. NGUYỄN THANH BÌNH

TP.HCM – 2017



i

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công
bố trong bất kỳ công trình nào khác.

Tác giả luận văn ký và ghi rõ họ tên

Phùng Tấn Phi


ii

MỤC LỤC

Lời cam đoan ................................................................................................................i
Mục lục ....................................................................................................................... ii
Danh mục các ký hiệu, các chữ viết tắt ..................................................................... iii
Danh mục hình .......................................................................................................... iii
MỞ ĐẦU .....................................................................................................................1
Chương 1 - TỔNG QUAN VỀ WATERMARKING .................................................3
ÂM THANH ...............................................................................................................3
1.1 Tổng quan về các phương pháp Watermarking âm thanh ............................... 3
1.2 Các phương pháp Watermarking trong miền thời gian ..................................7
1.3 Các phương pháp Watermarking trong miền biến đổi ...................................8
Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH DỰA TRÊN KỸ
THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC ........................................................11
2.1 Kỹ thuật watermarking âm thanh ..................................................................11
2.2 Kỹ thuật watermarking âm nhạc ....................................................................14
2.3 Các bước thực hiện watermarking âm thanh .................................................17
2.4 Cách thực hiện watermarking âm nhạc..........................................................21
2.5 Phương pháp watermarking dựa trên nguyên lý đồng âm ............................ 28
2.6 Hệ thống nhận dạng và phân tích âm nhạc tự động ......................................34
2.7 Chất lượng âm thanh theo tiêu chí PEAQ (Perceptual Evaluation Of Audio
Quality) .................................................................................................................36
CHƯƠNG 3 - KẾT QUẢ MÔ PHỎNG ...................................................................42
3.1 Mô phỏng và đánh giá kết quả ......................................................................42
3.1.1 Sơ đồ khối quá trình nhúng – giải nhúng và lưu đồ giải thuật ..............42
3.1.2 Giao diện chương trình mô phỏng .........................................................45
3.1.3 Đánh giá kết quả mô phỏng....................................................................48
Chương 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................52
DANH MỤC CÁC TÀI LIỆU THAM KHẢO .........................................................54


iii


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt

ATM

Automatic Music Transcription

Kỹ thuật phân tích âm nhạc tự động

MIDI

Musical Instrument Digital Interface

Giao diện kỹ thuật số dành cho nhạc cụ

HAS

Human Auditory System

Hệ thống thính giác con người

LSB

Least Significant Bit


Phương pháp mã hóa Bits trọng số thấp

DSSS

Direct Sequency Spread Spectrum

Kỹ thuật trải phổ trực tiếp

FHSS

Frenquency Hopped Spread Spectrum

Kỹ thuật trải phổ nhảy tần

DFT

Discrete Fourier Transform

Phép biến đổi fourier rời rạc

FFT

Fast Fourier Transform

Phép biến đổi fourier nhanh

DCT

Discrete Cosine Transform


Phép biến đổi cosine

DWT

Discrete Wavelet Transform

Phép biến đổi wavelet

BER

Bit Error Rate

Tỉ lệ lỗi bit

PEAQ

Perceptual Evaluation Of Audio Quality

Chất lượng âm thanh về mặt cảm nhận

MOV

Model Output Variables

Mô hình các biến số đầu ra

SDG

Subjective Difference Grade


Tiêu chí đánh giá chất lượng chủ quan

MOS

Mean Opinion Scores

Mô hình điểm số ý kiến trung bình

ACR

Absolute Category Rating

Đánh giá phân loại tuyệt đối

DCR

Degradation Category Rating

Đánh giá phân loại độ suy giảm


iv

DANH MỤC HÌNH

Hình 2.1. Lược đồ nhúng watermarking âm thanh ...................................................11
Hình 2.2. Lược đồ giải nhúng watermarking âm thanh ............................................12
Hình 2.3. Đồ thị dạng sóng trong miền tần số trước và sau khi nhúng.....................16
Hình 2.4. Biểu đồ spectrogram 2D của giọng nam nói cụm từ “Thế Kỷ XIX” ........19
Hình 2.5. Biểu đồ Spectrogram của một đoạn ghi âm nhạc cụ violin được chơi .....20

Hình 2.6. Biểu đồ 3D spectrogram của một đoạn nhạc ............................................20
Hình 2.7. Hai Octave liền kề nhau ............................................................................22
Hình 2.8. Mười ba tần số trong một octave .............................................................. 23
Hình 2.9. Sơ đồ 8 tần số cơ bản trong một octave ....................................................23
Hình 2.10. Tên gọi của 8 nốt nhạc ứng với 8 tần số chính trong một Octave ..........24
Hình 2.11. Đáp ứng tần số của bộ lọc răng lược với trường hợp r = 8. ....................24
Hình 2.12. Đáp ứng tần số của bộ lọc răng lược " ngược"với trường hợp r = 8 ......24
Hình 2.13. Mô tả quá trình xác định tần số âm điệu cơ bản .....................................25
Hình 2.14. Tần số chuẩn của 8 nốt nhạc ...................................................................26
Hình 2.15. Đồ thị spectrogram tín hiệu âm thanh .....................................................28
Hình 2.16. Đồ thị spectrogram với các tần số cơ bản có mức năng lượng cao nhất.29
Hình 2.17. Độ rộng tìm kiếm trong miền tần số .......................................................29
Hình 2.18. Tín hiệu âm thanh được chia thành các phân đoạn nhỏ theo miền thời
gian ............................................................................................................................ 30
Hình 2.19. Minh họa quá trình watermaking ............................................................ 31
Hình 2.20. Tần số đặc trưng k0 của mẫu K thứ i có giá trị tần số trùng với nốt La.36


v

Hình 2.21. Sơ đồ khối hệ thống mã hóa theo nhận thức ...........................................37
Hình 2.22. Sơ đồ mối quan hệ giữa hệ thống âm thanh con người và mô hình tâm lý
khách quan.................................................................................................................38
Hình 2.23. Bảng đánh giá chất lượng bằng chỉ số MOS...........................................39
Hình 2.24. ABX Comparator plugin của foobar2000 ...............................................41
Hình 3.1. Lược đồ quá trình nhúng watermark .........................................................42
Hình 3.2. Lược đồ quá trình giải nhúng watermarking .............................................42
Hình 3.3. Lưu đồ giải thuật watermarking music .....................................................43
Hình 3.4. Lưu đồ giải thuật bộ giải mã watermarking âm nhạc ............................... 44
Hình 3.4. Giao diện “Music Watermarking Matlab” ................................................45

Hình 3.5. Chương trình Music Watermarking Matlab đọc các nốt nhạc trong quá
trình nhận dạng ..........................................................................................................46
Hình 3.6. Hình ảnh chương trình “Music Watermarking Matlab” đã thực hiện thành
công việc nhúng và giải nhúng..................................................................................46
Hình 3.7. Chương trình so sánh tín hiệu hai audio trước và sau khi nhúng .............47
Hình 3.8. So sánh kết quả nhúng dựa trên spectrogram ...........................................48
Hình 3.9. Chất lượng PEAQ đối với watermarking từng dòng nhạc ........................49
Hình 3.10. Độ bền vững của PSNR đối với từng phương pháp watermarking ........51
Hình 3.11. Biểu đồ đánh giá độ bền vững của các phương pháp watermarking dưới
tác động của nhiễu .....................................................................................................51


1

MỞ ĐẦU
Sự phát triển của internet băng thông rộng đang thúc đẩy mạnh mẽ sự phát
triển của công nghệ đa truyền thông Multimedia. Các nguồn dữ liệu multimedia như
âm thanh, hình ảnh, văn bản… có thể được truy cập và được phân phối nhanh hơn và
rộng hơn. Xu thế này mang lại nhiều lợi ích cho người sở hữu các sản phẩm
multimedia, nhưng cũng thách thức quyền sở hữu của chúng ta bởi vì hầu hết các dữ
liệu multimedia được phân phối dưới các định dạng không bảo mật. Hiện nay, việc
sao chép và phân phối lại bất hợp pháp các sản phẩm multimedia đang diễn ra khá
phổ biến, do đó các công nghệ bảo vệ bản quyền và xác thực quyền sở hữu trí tuệ
đang được quan tâm đặc biệt và cũng là mục tiêu nghiên cứu của nhiều tổ chức khoa
học trong thời gian gần đây.
Một trong những kỹ thuật tiên tiến cho phép thực hiện nhúng thông tin bản
quyền vào các sản phẩm trí tuệ (lưu dưới dạng số) là kỹ thuật watermarking.
Watermarking (thủy ấn) là quá trình nhúng thông tin watermark (thủy vân) vào luồng
dữ liệu đa phương tiện (audio, video...) sao cho watermark không ảnh hưởng tới chất
lượng của dữ liệu và khi cần thiết, có thể nhận biết và tách chúng với độ chính xác

cao nhất có thể.
Watermark thường được sử dụng với các mục đích sau:
- Xác nhận bản quyền (Copyright protection)
- Kỹ thuật vân tay (Fingerprinting)
- Cấm sao chép (Copy protection)
- Giám sát độ xác thực của dữ liệu (Data authentication)
- Giám sát phát sóng (Broadcast monitoring)
Ngoài ra, watermark còn được sử dụng ngoài mục đích bảo mật:
- Đánh dấu vị trí đoạn video
- Lưu dữ liệu về bệnh nhân trong ảnh y sinh
- Truyền tải các thông tin mật


2

Mục đích đề tài là tìm hiểu các phương pháp nhúng thủy vân vào tín hiệu âm
thanh. Qua đó cải tiến và đề xuất phương pháp nhúng có mức độ “ẩn” cũng như độ
“bền vững” cao. Kết quả mô phỏng trong đề tài sẽ được sử dụng để đánh giá tính tối
ưu của phương pháp dựa trên tính "Ẩn" và "Bền vững" của watermark.
Cấu trúc luận văn gồm:
Chương 1: Tổng Quan vấn đề nghiên cứu
Chương này giới thiệu tổng quan các phương pháp watermarking âm thanh.
Chương 2: Phương pháp Watermarking âm thanh dựa trên kỹ thuật tự động
phân tích âm nhạc (Automatic Music Transcription)
Chương này trình bày về nội dung chính của đề tài bao gồm kỹ thuật tự động
phân tích âm nhạc sử dụng DFT, watermarking sử dụng nguyên lý đồng âm quãng 8
và watermarking sử dụng kỹ thuật AMT.
Chương 3: Kết quả mô phỏng
Chương này trình bày về giao diện mô phỏng và đánh giá kết quả mô phỏng.
Chương 4: Kết luận và hướng phát triển

Chương này trình bày kết luận và hướng phát triển của đề tài.


3

Chương 1 - TỔNG QUAN VỀ WATERMARKING
ÂM THANH
1.1 Tổng quan về các phương pháp Watermarking âm thanh
Các kỹ thuật Watermarking âm thanh số chủ yếu khai thác vào khuyết
điểm ít nhạy cảm với những thay đổi nhỏ trên miền thời gian và miền tần số của hệ
thống thính giác con người (Human Auditory System - HAS). Trong đó, các phương
pháp watermarking âm thanh tiêu biểu hiện nay là: phương pháp mã hóa Least
Significant Bit (LSB), phương pháp mã hóa pha, trải phổ, hay phương pháp ẩn echo.
Phương pháp LSB có nhược điểm lớn là độ “bền vững” rất thấp nên thường không
được sử dụng trên thực tế. Phương pháp mã hóa pha thì ngược lại, có độ “bền vững”
cao trước sự tấn công của nhiễu, nhưng lưu trữ được ít thông tin. Đáng chú ý hơn là
phương pháp chèn echo có biên độ nhỏ vào miền thời gian, phương pháp này được
đánh giá cao về độ “bền vững” và tỉ lệ nhúng, tuy nhiên chất lượng âm thanh sau khi
nhúng không tốt. Được đánh giá cao hơn hẳn là các kỹ thuật nhúng trong miền tần
số. Ưu điểm của những phương pháp này là không nhúng trực tiếp vào tín hiệu gốc
nên thông tin Watermark khó bị phát hiện bằng các phương pháp phân tích thống kê,
nghĩa là độ “ẩn” cao. Thông thường, watermarking trong miền thời gian làm thay đổi
trực tiếp biên độ của tín hiệu thời gian, trong khi đó, tại miền tần số khi nhúng người
ta chỉ làm một vài vạch phổ bị thay đổi nên tín hiệu không bị biến dạng nhiều. Do đó,
người ta hay sử dụng miền tần số để khai thác các đặc tính về tần số của tín hiệu để
nhúng thông tin ngay cả đối với watermark mật độ cao. Tuy nhiên, mỗi miền biến đổi
chỉ có thể hoạt động tốt với một số trường hợp nhất định. Vì lý do đó, các kỹ thuật
chỉ áp dụng trong miền thời gian hoặc miền tần số đều bị ảnh hưởng bởi các nhược
điểm đặc thù.
Trong luận văn này, tôi nghiên cứu và đề xuất một phương pháp nhúng dựa

trên cảm nhận âm nhạc của hệ thống thính giác. Phương pháp này có thể áp dụng cho
tất cả các dạng âm thanh, ngay cả khi tín hiệu âm thanh không được liệt kê vào dạng


4

“âm nhạc”. Có một số thách thức đặc biệt khi thực hiện watermarking cho tín hiệu
âm nhạc đó là độ ẩn thông tin phải rất cao nhằm giữ được chất lượng âm thanh, đồng
thời độ bền vững cũng là yếu tố rất quan trọng vì tín hiệu âm nhạc thường biến dạng
do nén có tổn hao cũng như khi đưa qua các bộ lọc khử nhiễu, bộ equalizer v.v.
Điểm chính yếu của phương pháp này là nhúng tín hiệu watermark vào dải tần
số có cùng âm sắc với độ cao nốt nhạc xuất hiện trong âm thanh gốc. Trong trường
hợp này, theo một số nghiên cứu [13], hệ thống thính giác sẽ cảm nhận rõ nhất nốt
nhạc gốc, thành phần đồng âm (dùng để nhúng) khi biến đổi sẽ bị “che” bởi nốt nhạc
gốc ít ảnh hưởng tới chất lượng âm thanh. Nói đến âm sắc, phương pháp sẽ áp dụng
quy luật hợp âm trong âm nhạc để thực hiện các quy tắc watermarking và sẽ được nói
rõ trong phần sau.
Một phần quan trọng và cũng được quan tâm không ít đó là các phương pháp
có sử dụng tín hiệu gốc cho quá trình rút trích đặc trưng hay chỉ dùng bản sao để
nhúng.
Ở đây chúng ta chia làm hai nhóm chính đó là nhóm sử dụng tín hiệu gốc trong
quá trình rút trích và nhóm không cần tín hiệu gốc trong quá trình rút trích thông tin.


Nhóm các phương pháp cần dùng tín hiệu gốc trong quá trình rút

trích: tỏ ra không hiệu quả vì cần gấp đôi bộ nhớ để lưu trữ cùng một thông tin nhưng
nó lại đạt hiệu quả trong quá trình chứng thực bản quyền, đại diện là phương pháp
mã hóa pha, và điều biến pha.
Như trong phương pháp mã hóa pha, âm thanh được chia thành các block, và

chỉ có block đầu tiên được nhúng tín hiệu watermark dẫn đến thời gian nạp âm thanh
lâu trong khi chỉ có block đầu tiền được mã hóa, hay mã hóa không trải đều trên toàn
bộ tín hiệu âm thanh. Nhưng nó lại tránh được việc mất thông tin trong các trường
hợp bị cắt xén bất ngờ.
Do đó, nhóm phương pháp này cũng ít được nghiên cứu và quan tâm.


Nhóm phương pháp không dùng tín hiệu gốc trong quá trình rút

trích: nhóm này chỉ cần một nửa băng thông hoạt động so với nhóm dùng tín hiệu


5

gốc. Nó được chia làm bốn nhóm nhỏ là nhóm phương pháp trải phổ, nhóm phương
pháp tập đôi, nhóm phương pháp sử dụng bản sao, nhóm phương pháp tự đánh dấu.


Trong phương pháp trải phổ: phương pháp trải phổ truyền thống có

nhược điểm luôn có giá trị xác suất rút trích bị lỗi, do đó trải phổ cải tiến được ra đời.
Ngoài ra, phương pháp trải phổ kết hợp với mô hình thính giác mang lại hiệu quả cao
và mang lại được khả năng bền vững hơn. Đặc biệt, phương pháp này chống tấn công
tốt hơn để bảo mật được các thông tin quan trọng, nhất là các dạng nén như MP3,
WMA.
Trong kỹ thuật trải phổ, các tập tin audio được truyền qua các kênh truyền
thông, các kênh truyền thông này sẽ tập trung dữ liệu vào vùng hẹp của phổ tần số để
duy trì năng lượng và tiết kiệm được băng thông hơn. Các kỹ thuật trải phổ luôn cố
gắng trải các thông tin mật vào phổ tần số của dữ liệu gốc nhiều nhất có thể. Nó tương
tự kỹ thuật LSB, trải ngẫu nhiên các thông tin nhúng trên toàn bộ file audio. Ưu điểm,

bền vững trước các quá trình tấn công. Nhược điểm, sinh nhiễu và không có tính ẩn.
Hai phương pháp trải phổ sử dụng trong lĩnh vực âm thanh watermarking là DSSS
(Direct Sequency Spread Spectrum) và FHSS (Frenquency Hopped Spread
Spectrum).


Nhóm phương pháp tập đôi: phương pháp này dùng hai tập gốc và đã

nhúng để so sánh với nhau, trong quá trình giải mã nếu có sự khác biệt đó chính là
thông tin watermark. Trong nhóm này, đại diện là phương pháp Patchwork và phương
pháp điều chỉnh biên độ. Trong phương pháp điều chỉnh biên độ, nhúng thông tin
bằng cách thay đổi năng lượng của hai hay ba block. Năng lượng và biên độ tín hiệu
tỉ lệ thuận với nhau. Do đó, ta có thể tinh chỉnh biên độ để thay đổi năng lượng hai
block kế bên theo ý muốn để đặt giá trị nhúng.


Nhóm các phương pháp sử dụng bản sao: phương pháp này sử dụng

chính nội dung của tín hiệu gốc để biểu diễn watermark. Phương pháp echo là ví dụ
minh họa. Ngoài ra, phương pháp này có nhúng một phần tín hiệu gốc vào miền tần
số. Do vậy, phương pháp sử dụng bản sao là nhúng các bản sao, hay sử dụng chính


6

tín hiệu gốc biểu diễn cho thông tin watermark. Ưu điểm là chống lại được các kiểu
tấn công như đồng bộ hóa.
Đại diện của phương pháp này là thay thế bit ít quan trọng nhất (LSB).
Về mặt ứng dụng, nhìn chung watermarking audio bao gồm các ứng dụng thực
tế sau:



Bảo vệ quyền sở hữu (copyright protection): đây là ứng dụng cơ bản

và cũng là quan trọng nhất cho watermarking âm thanh nói riêng và lĩnh vực
watermarking nói chung.
Mục đích của watermarking cho việc bảo vệ quyền tác giả là nhúng thông tin
xác nhận bản quyền (watermarking) vào dữ liệu số để khi cần có thể nhận biết người
chủ sở hữu bản quyền của sản phẩm. Ngoài ra, công việc này còn dùng để kiểm soát
quá trình phân phối của sản phẩm. Dữ liệu watermark có thể là một chữ ký số, một
đoạn thông điệp, hình ảnh hay bất kỳ ký tự nào để quy ước và phân biệt với các sản
phẩm khác, mà chỉ có sản phẩm đó mới có mã ký tự chứng minh cho nó.


Kiểm tra tính nguyên bản của sản phẩm: dùng kỹ thuật nhận dạng

bản gốc theo thông tin watermark và đưa số liệu vào hệ thống. Một khi hệ thống phát
hiện một sản phẩm bất kỳ có độ tương tự cao, công việc này là đưa hai sản phẩm ra
so sánh, dùng bản nghi ngờ so sánh với dữ liệu có sẵn trong hệ thống của bản chính.
Sau đó, hệ thống sẽ nhận dạng được những điểm chung và riêng của hai sản phẩm để
đưa ra quyết định. Quyết định có thể là nhận định bản nghi ngờ chính là bản gốc
nhưng đã bị mất chất lượng, gửi thông tin đến nhà phân phối để có biện pháp khôi
phục dữ liệu nếu muốn; hoặc có thể là quyết định đưa ra kết luận bản mới là bản gốc
và được thêm một số thông tin khác nhằm để thay đổi bản gốc, gửi thông tin đến nhà
chủ sở hữu để cho ra quyết định.


Theo dõi quá trình sử dụng Tracking: đối với một số sản phẩm âm

nhạc được phép sử dụng cho một nhóm các nhà đầu tư, việc theo dõi sử dụng các sản

phẩm này tỏ ra hiệu quả hơn cả. Giống như một phần của việc bảo vệ bản quyền,
công việc này theo dõi các sản phẩm đang được gắn mã watermarking đang được sử
dụng bởi ai, và vì công việc gì, vị trí ở đâu. Nếu dùng cho việc kinh doanh, chỉ có các


7

chủ sở hữu được cấp mã bản quyền mới có quyền này. Các bên sử dụng bản nhạc cho
việc truyền bá hoặc quảng cáo mà không dùng cho kinh doanh sẽ được khích lệ nếu
không giữ mã bản quyền sản phẩm. Nếu thực hiện ngược lại, hệ thống theo dõi
Tracking sản phẩm sẽ nhận dạng và phát hiện, sau đó sẽ thông báo cho các nhà đầu
tư hoặc các chủ sở hữu bản quyền để quyết định.


Việc chống giả mạo: trong vấn đề này, phương pháp làm giống như

ứng dụng kiểm tra tính nguyên bản nhưng chỉ khác ở mục đích sử dụng.
Một số sản phẩm của các nhà sáng tạo vĩ đại của những thập niên đầu của nền
âm nhạc đã để lại cho thế giới những tác phẩm bất hủ như Beethoven, Mozart…, và
đáng được đưa vào viện bảo tàng của âm nhạc. Bởi vậy, độ quan tâm của các sản
phẩm này trở nên rất khủng khiếp, đó là lý do một số nhà sản xuất đã dựng lại các tác
phẩm này và cho rằng đó là của các nhà vĩ đại. Nhằm kiếm lợi nhuận và sự chú ý cao.
Nhờ các mã watermarking, việc chứng minh sản phẩm nào mới đúng của nhà
sáng tạo người nghe đang quan tâm dễ dàng được nhận ra. Điều này được đề cao để
giữ lại những mốc lịch sử lớn của nền âm nhạc thế giới.

1.2

Các phương pháp Watermarking trong miền thời gian
Phương pháp watermarking trong miền thời gian là phương pháp giấu thông


tin bản quyền vào thời gian thực của tín hiệu gốc.
Dưới đây là một số phương pháp watermarking tiêu biểu trong miền thời gian:
 Phương pháp giấu thông tin trong bit có trọng số thấp LSB. Vì phương pháp
này sẽ tác động trực tiếp vào khung thời gian thực tín hiệu nên có hai điểm
đáng chú ý sau:


Chất lượng âm thanh: Khi nhúng dữ liệu vào miền thời gian thực, tín

hiệu watermark sẽ làm thay đổi giá trị thực của các mẫu dữ liệu, do đó chất lượng âm
thanh tín hiệu gốc sẽ giảm một cách rõ rệt.


Tính bền vững của thông tin watermarking tỷ lệ thuận với sự suy

giảm về chất lượng âm thanh: nếu không tác động đủ mạnh, tín hiệu watermark sẽ
không đảm bảo an toàn cho bản quyền thông tin được nhúng, nhưng tác dụng quá


8

mạnh sẽ gây nhiễu hay mất chất lượng cho tín hiệu âm thanh gốc. Nhìn chung, độ
bền vững của các phương pháp nhúng trong miền thời gian là rất thấp so với nhúng
trong miền biến đổi.
Để giảm thiểu các yếu điểm trên, phương pháp nhúng echos là đề xuất hiệu
quả nhất cho nhúng thông tin vào miền thời gian thực.
 Thêm tiếng ồn (noise): dữ liệu được nhúng vào âm thanh gốc dưới dạng tín
hiệu tạp âm công suất thấp (tương tự tiếng ồn). Tạp âm này phải có biên độ
nhỏ hơn ngưỡng nghe để không ảnh hưởng tới chất lượng âm thanh.

 Thêm tiếng vọng (echo): kỹ thuật này nhúng bằng cách thêm tiếng vọng echo
vào tín hiệu gốc. Dữ liệu nhúng được thực hiện bằng cách thay đổi các hàm số
của tiếng vọng echo là: biên độ ban đầu, tỷ lệ phân rã và độ trễ. Khi thời gian
giữa tín hiệu gốc và tiếng vang echo nhỏ hơn 20ms, hệ thống thính giác con
người không thể cảm nhận được, yếu tố này đảm bảo tính ẩn của phương pháp
nhúng.
 Modifying phase: phương pháp nhúng bằng cách thay đổi pha dựa vào tính
chất quan trọng của hệ thống thính giác là thành phần pha hầu như không gây
ảnh hưởng đến chất lượng âm thanh cảm nhận được. Việc đưa tín hiệu
watermarking vào tín hiệu được thực hiện bằng cách điều chỉnh pha trong phổ
pha của tín hiệu dữ liệu sau khi nhúng.
 Điều chế biên độ

1.3

Các phương pháp Watermarking trong miền biến đổi
Phương pháp watermarking trong miền biến đổi chủ yếu bao gồm: miền

biến đổi Fourier FFT (Fast Fourier Transform), miền chuyển đổi sang Cosine DCT
(Discrete Cosine) hay miền wavelet DWT (Discrete Wavelet Transform), v.v …
Các thông tin watermarking được nhúng vào hệ số khai triển của các miền
chuyển đổi. Điều đó đảm bảo hơn về mặt an toàn thông tin của watermarking trước
các kỹ thuật xử lý tín hiệu âm thanh (nén, lọc, lấy mẫu, lọc dải tần …).


9

Trong miền phổ tần số, người ta nhúng tín hiệu chứa thông tin watermark vào
các vùng tần số khác nhau. Việc lựa chọn vùng tần số nhúng tối ưu sẽ làm tăng độ
bền vững cũng như cải thiện độ ẩn thông tin của phương pháp watermarking này.



Một số phương pháp watermarking trong miền tần số:



Thêm tần số sóng mang



Thêm tiếng ồn (noise) trong miền biến đổi



Lọc bỏ bớt các dải tần số phụ



Hoặc kết hợp giữa lọc dải tần và thêm tiếng ồn



Thêm các tín hiệu tiếng ồn vào các hệ số mã hóa

Một kỹ thuật khá đặc biệt là mã hóa và giải mã thông tin trên miền nén. Hiện
nay, sự phổ biến của các dạng tín hiệu âm thanh nén được sử dụng rộng rãi trên khắp
thế giới, đặc biệt là thị trường inthernet. Bởi vậy, kỹ thuật nhúng thông tin trên miền
nén có tính thực tế cao. Mã hóa bằng cách tín hiệu được đưa về dạng nén sau khi
được lọc dải tần … Hình ảnh tín hiệu được chụp lại và việc mã hóa bắt đầu từ đây.
Thông thường các hệ số âm thanh có tần số cao sẽ được chọn làm vị trí mã hóa bởi

vì tránh các trường hợp lowpass trong miền nén.
Kỹ thuật audio watermarking trong miền nén dựa vào các thành phần chính
của âm thanh. Đối với tập tin MP3, các dữ liệu watermarking được ẩn trong các dòng
bit MP3, do đó bất kỳ tác động loại bỏ hay bóp méo thông tin watermark, kể cả mã
hóa lại nội dung âm thanh đều sẽ khiến âm thanh bị biến dạng. Nhúng watermark và
trích lọc watermark có thể diễn ra rất nhanh chóng. Các thông tin watermarking chứa
đầy đủ các thông tin nhận dạng bản quyền và phân phối. Trong khi đối với một số âm
thanh dạng khác, mỗi khung âm thanh chỉ chứa một vài hệ số nhận diện. Do đó, cách
watermarking dựa trên khung không có nhiều dữ liệu để watermarking.
Tiếp theo, phương pháp watermarking trên miền chuyển đổi cosine rời rạc
(DCT) cũng rất được quan tâm trong lĩnh vực nhúng thông tin ẩn vào tín hiệu âm
thanh và âm thanh phụ. Đầu tiên, âm thanh gốc được chuyển đổi thành miền DCT,
các hệ số DCT được xác định và các đỉnh năng lượng cũng được tính toán. Tiếp theo,
watermark được nhúng vào các vị trí có đỉnh năng lượng đạt mức lớn nhất của tín


10

hiệu trong miền DCT. Điểm đáng chú ý của phương pháp này, các tín hiệu nhúng vào
miền cosine ít gây ảnh hưởng đến tín hiệu gốc về mặt âm thanh. Hơn nữa, nó không
bị ảnh hưởng bởi các kỹ thuật thêm tiếng ồn, lấy mẫu lại hay mã hóa lại.
Và dưới đây là một số điều kiện cần và đủ cho một hệ thống nhúng watermark
trong miền cosine:


Tín hiệu watermark không gây ảnh hưởng cho tín hiệu gốc sau khi đã

nhúng (tính ẩn).



Đủ sức chống chọi lại với các nguồn tấn công nhằm gây phá vỡ hoặc

biến dạng tín hiệu thông tin watermark (tính bền vững).


Dung lượng nhúng thông tin ẩn cao, thông thường tỉ lệ thuận với chỉ số



Mặt an ninh cao, nghĩa là chỉ có người nhúng hoặc các bộ phận đảm

bit.
trách nhiệm vụ lấy thông tin watermark mới có thể lấy thông tin bản quyền thành
công.


11

Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH
DỰA TRÊN KỸ THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC

2.1 Kỹ thuật watermarking âm thanh
Một cách tổng quan, watermarking âm thanh bao gồm các dạng âm thanh
số, chúng đều được thực hiện theo lược đồ hình 2.1:
Thông tin giấu

Sản phẩm thô
(audio)

Bộ nhúng

thông tin

Sản phẩm đã
được giấu tin

Phân phối

Internet

khóa

Hình 2.1: Lược đồ nhúng watermarking âm thanh

Trước khi phân phối, sản phẩm chưa được nhúng watermarking được gọi là
sản phẩm thô, sản phẩm thô này được đưa qua một bộ nhúng thông tin số. Bộ nhúng
này kết hợp thông tin nhúng và khóa tương ứng để đưa thông tin ẩn vào sản phẩm thô
ban đầu. Sau đó, sản phẩm thô đã được nhúng trở thành sản phẩm chứa watermarking
và được phân phối.
Khi có nhu cầu giải mã watermarking để chứng thực về bản quyền, các sản
phẩm âm thanh đã được phân phối đều sẽ được giải mã dựa theo lược đồ hình 2.2.


12

khóa

Internet

Sản phẩm đã
được giấu tin


Sản phẩm thô
(audio)

Bộ nhúng
thông tin

Thông tin giấu

Kiểm định

Kết
Quả

Hình 2.2: Lược đồ giải nhúng watermarking âm thanh

Sản phẩm phân phối được đưa qua bộ giải mã thông tin. Bộ giải mã này đưa
mã khóa tương ứng vào để so sánh dữ liệu đầu vào và lấy mã watermarking của dữ
liệu ra để đưa vào bộ phận thông tin giấu và đưa ra kiểm định. Bộ kiểm định là một
bộ từ điển có các mã có sẵn để nhận diện. Sau khi nhận diện được mã thông tin giấu,
bộ giải mã cho ra quyết định bản quyền của sản phẩm tương ứng với mã watermarking
đã được nhận diện và cả sản phẩm thô ban đầu được nhúng tương ứng với mã đó.
Trong kỹ thuật watermarking âm thanh nói chung, dù đối với dạng âm thanh
nào cũng phải đạt hai tiêu chuẩn về “độ ẩn” và “độ bền vững”. Hai yếu tố quyết định
phương pháp hay kỹ thuật watermarking có đủ mạnh mẽ hay không. Và cũng là tiêu
chí để so sánh các kỹ thuật watermarking âm thanh với nhau.


Độ “bền vững”: đánh giá khả năng watermark chống lại các cuộc tấn


công từ bên ngoài tới tín hiệu được nhúng. Đối với một âm thanh đã được phép phân
phối nghĩa là đã được định danh bằng watermarking, thông tin watermark được giấu
trong tập tin âm thanh phải được giữ nguyên vẹn sau các quá trình chuyển đổi qua lại
nhiều lần giữa các dạng âm thanh để đáp ứng nhu cầu người dùng.
Một ví dụ thông dụng nhất, sản phẩm gốc ban đầu từ các hãng sản xuất âm
nhạc luôn đạt chất lượng lossless (âm thanh dạng .wave). Trước khi đưa ra phân phối,


13

chúng được định danh bằng cách nhúng các tín hiệu watermarking. Khi được phân
phối ở thị trường, để tiện cho việc tải về các phương tiện cá nhân, các sản phẩm này
được chuyển đổi từ file wave sang dạng mp3 (nén có tổn hao) để thu nhỏ dung lượng
sản phẩm đảm bảo cho việc tải và sử dụng được tiện hơn. Khi nén có tổn hao, âm
thanh sẽ bị biến dạng dù ít hay nhiều, do đó kỹ thuật watermarking mạnh mẽ, hay độ
“bền vững” đạt tiêu chuẩn phải đảm bảo giữ nguyên vẹn các thông tin watermark
trong trường hợp này.


Độ “ẩn”: là việc giấu watermark trong các tín hiệu âm thanh mà không

làm thay đổi tín hiệu âm thanh đó về mặt cảm nhận của hệ thính giác con người
(HAS). Hay nói cách khác, độ ẩn đạt yêu cầu khi người nghe không thấy sự khác biệt
giữa hai tín hiệu âm thanh trước và sau khi được nhúng watermark. Quan trọng hơn,
nó còn giữ được sự bảo mật thông tin, không dễ bị phát hiện bởi các bộ giải mã không
thuộc quyền sở hữu.
Các tin tặc thường đánh cắp dữ liệu mật được ẩn trong các tín hiệu âm thanh
bằng cách đọc các thông tin ẩn đó bởi các thông tin giải mã watermarking.
Vậy độ mạnh yếu của độ “ẩn” là việc nó có cho phép các tin tặc đọc ra các tin
thư mật hay không.

Một ví dụ đặc biệt khác, một tín hiệu dạng hiệu ứng âm thanh khi đã được
watermarking, chúng được phân phối ra thị trường và được các nhà sản xuất phim sử
dụng. Trong quá trình người xem trải nghiệm, vì mức kịch tính của thể loại phim gây
sự tập trung cao độ của các giác quan cơ thể, thính giác cũng không ngoại lệ. Khi
nghe đến hiệu ứng âm thanh đó, người nghe sẽ cảm nhận tiếng ồn bất thường gây mất
cảm hứng nhất thời và sẽ nhận định rằng đó là lỗi của bộ phim về mặt âm thanh. Điều
đó cho thấy nếu độ ẩn thông tin watermarking được thể hiện tốt hơn, hiệu ứng âm
thanh sẽ không có sự bất thường và không gây ảnh hưởng đến bộ phim cũng như chất
lượng âm thanh của nó.


14

2.2 Kỹ thuật watermarking âm nhạc
Âm nhạc là tinh hoa của âm thanh. Vậy watermarking âm nhạc là một
dạng của watermarking âm thanh. Nhưng điều đặc biệt, watermarking âm nhạc là
dạng nâng cao của watermarking âm thanh và các quá trình nhúng hay giải nhúng
watermark đều khác với các dạng âm thanh số khác.
Điểm chú ý hơn, đối với âm thanh, hai dạng tiêu chí để đánh giá watermarking
là độ “ẩn” và độ “bền vững” thì với âm nhạc, tiêu chí đánh giá watermarking là độ “
bền vững”, độ “ẩn” và độ “thẩm mỹ của ẩn”.
Đối với âm nhạc, ta cũng có thể nói hai tiêu chí chính để đánh giá giá trị
watermarking của các kỹ thuật đó là độ “ẩn” và độ “bền vững” nhưng độ “ẩn” này
không đơn thuần chỉ là độ “ẩn” trong kỹ thuật watermarking của âm thanh số nói
chung, mà nó còn là độ “hòa âm”,và độ “hòa hợp” để đạt được tính thẩm mỹ đối với
cảm nhận người nghe. Đó cũng chính là điểm mấu chốt của giải thuật watermarking
âm nhạc.
Về cơ bản, âm nhạc là sự hòa âm của nhiều loại âm thanh. Sự hòa âm này
được tuân theo “quy luật âm nhạc”. Quy luật này không phải gọi là nhạc lý, mà nhạc
lý chỉ mô tả một phần của quy luật này. Nếu một tín hiệu bất kỳ được cho vào bài hát

mà không tuân thủ theo quy luật của bài hát đó sẽ tạo ra sự bất hòa âm hay sự trái
ngược tức thời về mặt cảm nhận, âm nhạc gọi đó là “tiếng ồn” hay “tạp âm”. Ở đây,
chúng tôi khái niệm quy luật của bài hát là gam của bài hát đó, tất nhiên một gam
gồm nhiều hợp âm trong nó.
Watermarking âm nhạc là nhúng tín hiệu âm thanh vào bài hát mà vẫn giữ
nguyên cảm nhận của người nghe về chất lượng bài hát đó. Nên độ “ẩn” của
watermarking âm nhạc bao gồm cả độ “hòa âm” và độ “thẩm mỹ hòa âm” trong đó.
Bởi chỉ cần một âm thanh trái ngược với quy luật hòa âm của bài hát được nhúng vào
bài hát, cho dù biên độ cực nhỏ cũng gây ra sự phát hiện rõ ràng cho tai người nghe.
Vậy watermarking âm nhạc là watermarking âm thanh được nâng cao thêm
phần thẩm mỹ hòa âm cho độ “ẩn”.


15

Người kỹ thuật viên thực hiện watermarking âm nhạc giống như một nhạc sĩ
thực hiện hòa âm thêm một loại nhạc cụ mới cho bài hát, và nhạc cụ mới đó chính là
tín hiệu watermarking.
Và ở đây, đồ án nhận định rõ rằng tính chuyên nghiệp của watermarking âm
nhạc phụ thuộc vào tính hợp lý của vị trí nhúng trong cả mặt thời gian lẫn tần số đối
với tín hiệu âm nhạc.
Những quy tắc nhúng thỏa quy tắc hòa âm của các nhạc công cũng như nhạc
sỹ sẽ giúp các tín hiệu watermark sau khi được nhúng vào đoạn nhạc sẽ mang tính
“ẩn” cao hơn trường hợp nhúng tuần tự thường dùng trong các phương pháp cổ điển.
Không phức tạp như cách hòa âm của âm nhạc, trong phương pháp
watermarking đề xuất, chúng tôi chỉ chọn lựa những vị trí hòa âm tốt nhất (ứng với
các nốt nhạc có cường độ lớn và có hiệu ứng “che” mạnh) và cũng là đơn giản nhất
để việc nhúng thông tin trở nên thuận lợi.
Các vị trí nhúng được ưu tiên là quãng 8 trên của nốt nhạc trong tín hiệu gốc
(tần số gấp đôi độ cao nốt nhạc), quãng 8 dưới (tần số chỉ bằng một nửa độ cao nốt

nhạc). Ngoài ra còn có các quãng ưu tiên như quãng 4 chuẩn hay quãng 5 chuẩn như
đã giới thiệu ở phần đầu luận án [13].


Sự khác biệt giữa kỹ thuật watermarking âm thanh và âm nhạc:



Về mặt kỹ thuật, watermarking âm nhạc đòi hỏi người kỹ thuật viên

nhúng watermark không chỉ phải thành thạo nhúng watermarking âm thanh mà còn
cần phải am hiểu về âm nhạc và các quy luật hòa âm. Về watermarking âm thanh thì
chỉ cần kỹ thuật viên watermarking biết nhúng watermark âm thanh.


Về cách thực hiện, watermarking âm thanh chỉ cần xác định vị trí nhúng

về mặt thời gian, còn về âm nhạc, không chỉ tìm vị trí nhúng theo thời gian thực cho
hợp lý mà còn tìm cả về vị trí nhúng theo tần số để đảm bảo tính hòa âm. Ở
watermarking âm thanh, biểu đồ vị trí nhúng chỉ là một chiều (miền thời gian), còn
với watermarking âm nhạc, biểu đồ vị trí nhúng là thể hiện hai chiều (miền thời gian
và miền tần số).


16

Lý do tìm vị trí nhúng theo miền tần số bởi quy luật hòa âm của bài hát tính
theo đơn vị nốt nhạc, mà nốt nhạc được đặc trưng bởi tần số. Mỗi nốt nhạc đều có độ
cao riêng ứng với một tần số cụ thể. Ví dụ nốt La (A) có tần số là 440 Hz.
Tín hiệu watermark khi nhúng vào đoạn âm nhạc có thể gây ra ít hay nhiều

ảnh hưởng tới chất lượng âm thanh dưới cảm nhận chủ quan của người nghe: nếu
nhúng chính xác vào vị trí quãng 8 (hay các vị trí hòa âm khác) của nốt nhạc tức thời,
âm thanh của nốt nhạc đó sẽ “che” bớt sự thay đổi tín hiệu tạo ra bởi watermark và
ngược lại. Ví dụ, nếu nốt nhạc tức thời là nốt La (440 Hz), dữ liệu watermark phải
được nhúng vào vị trí ứng với tần số 880 Hz (quãng 8 trên) và 220 Hz, điều này sẽ
phù hợp với quy luật hòa âm và ảnh hưởng của quá trình watermarking sẽ là nhỏ nhất.
Xét một đoạn nhạc có ba nốt Son, La, Si. Khi nhúng vào một bit ‘0’ ở nốt son.
Đồ thị miền tần số của tín hiệu ở đầu vào và ra như sau: (hình 2.3)

Hình 2.3: Đồ thị dạng sóng trong miền tần số trước và sau khi nhúng


17

Tần số nốt sol là 391 Hz, vậy khi nhúng thực hiện thay đổi giá trị biên độ phổ
tần số tại vạch tần mang giá trị tần số 784 Hz và 196 Hz. Vì yêu cầu bài toán muốn
bit ‘0’ được nhúng nên vạch tần tại 196 Hz phải nhỏ hơn 784 Hz. Do đó, thay đổi
biên độ phổ tại 196 Hz bằng 0. (hình 2.3)
Như vậy, quá trình watermarking tín hiệu âm nhạc phải được thực hiện trong
hai bước chính như sau:
 Nhận dạng độ cao và cường độ của các nốt nhạc trong đọan nhạc gốc.
Xác định vị trí nhúng thông tin: quãng 8, quãng 4 hay quãng 5 của các
nốt nhac có cường độ lớn (khả năng che lớn) trong đoạn nhạc.
 Nhúng lần lượt từng bit dữ liệu watermark theo quy luật cho trước.

2.3

Các bước thực hiện watermarking âm thanh
Cách thực hiện watermarking âm thanh bao gồm các bước sau:



Bước 1: Chuyển tín hiệu trong miền thời gian thực sang miền tần số với

biến đổi Fourier rời rạc; sau đó đưa tín hiệu vừa thu được trong miền tần số kết hợp
với tín hiệu trong miền thời gian ban đầu để thể hiện vào biểu đồ Spectrogram – biểu
đồ thời gian tần số.


Bước 2: Chia biểu đồ spectrogram thành từng khung âm thanh (Frame)

đều nhau, mỗi khung âm thanh được coi là một đơn vị của biểu đồ Spectrogram trong
suốt quá trình nhúng watermarking, thông thường mỗi khung âm thanh sẽ đảm nhận
thể hiện cho một giá trị ẩn sau khi được watermarking.


Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để tìm ra đỉnh cao

nhất trong mỗi khung âm thanh, cũng là đỉnh thể hiện mức năng lượng cao nhất trong
mỗi đơn vị biểu đồ Spectrogram. Đỉnh này cũng được coi là đỉnh đặc trưng cho mỗi
đơn vị nhúng watermark vì vị trí nhúng watermarking gốc được định vị tại đỉnh có
mức năng lương cao nhất trong mỗi đơn vị.


×