Tải bản đầy đủ (.pdf) (23 trang)

Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (977 KB, 23 trang )

1
MỞ ĐẦU
Tính cấp thiết của đề tài
Sự phát triển của internet băng thông rộng đang thúc đẩy mạnh mẽ sự
phát triển của công nghệ đa truyền thông Multimedia. Các nguồn dữ liệu
multimedia như âm thanh, hình ảnh, văn bản… có thể được truy cập và được
phân phối nhanh hơn và rộng hơn. Xu thế này mang lại nhiều lợi ích cho
người sở hữu các sản phẩm multimedia, nhưng cũng thách thức quyền sở hữu
của chúng ta bởi vì hầu hết các dữ liệu multimedia được phân phối dưới các
định dạng không bảo mật. Hiện nay, việc sao chép và phân phối lại bất hợp
pháp các sản phẩm multimedia đang diễn ra khá phổ biến, do đó các công
nghệ bảo vệ bản quyền và xác thực quyền sở hữu trí tuệ đang được quan tâm
đặc biệt và cũng là mục tiêu nghiên cứu của nhiều tổ chức khoa học trong
thời gian gần đây.

1.

Một trong những kỹ thuật tiên tiến cho phép thực hiện nhúng thông
tin bản quyền vào các sản phẩm trí tuệ (lưu dưới dạng số) là kỹ thuật
watermarking. Watermarking (thủy ấn) là quá trình nhúng thông tin
watermark (thủy vân) vào luồng dữ liệu đa phương tiện (audio, video...) sao
cho watermark không ảnh hưởng tới chất lượng của dữ liệu và khi cần thiết,
có thể nhận biết và tách chúng với độ chính xác cao nhất có thể.
Watermark thường được sử dụng với các mục đích sau:
- Xác nhận bản quyền (Copyright protection)
- Kỹ thuật vân tay (Fingerprinting)
- Cấm sao chép (Copy protection)
- Giám sát độ xác thực của dữ liệu (Data authentication)
- Giám sát phát sóng (Broadcast monitoring)
Ngoài ra, watermark còn được sử dụng ngoài mục đích bảo mật:
- Đánh dấu vị trí đoạn video


- Lưu dữ liệu về bệnh nhân trong ảnh y sinh
- Truyền tải các thông tin mật


2
Mục đích đề tài là tìm hiểu các phương pháp nhúng thủy vân vào tín
hiệu âm thanh. Qua đó cải tiến và đề xuất phương pháp nhúng có mức độ
“ẩn” cũng như độ “bền vững” cao. Kết quả mô phỏng trong đề tài sẽ được sử
dụng để đánh giá tính tối ưu của phương pháp dựa trên tính "Ẩn" và "Bền
vững" của watermark.

2. Tổng quan về vấn đề nghiên cứu
Có nhiều nghiên cứu về các phương pháp nhúng dữ liệu vào tín hiệu âm
thanh (Audio Watermarking). Thông tin watermark có thể được nhúng vào
miền thời gian [1,2], miền tần số [3,5,6] hoặc miền biến đổi khác [4]. Các
phương pháp nhúng khác nhau có ưu và nhược điểm riêng, việc so sánh
thường được thực hiện dựa trên các thông số khách quan về độ “ẩn”, độ
“bền vững” và mức độ phức tạp của giải thuật. Hầu hết các phương pháp
nhúng nêu trên đều làm giảm chất lượng âm thanh gốc.
Trong luận văn này, để nâng cao tính “ẩn” của phương pháp watermarking,
chúng tôi đề xuất nhúng dữ liệu vào các thành phần "hòa âm" (consonance )
trong tín hiệu âm thanh gốc. Thông tin Watermark tác động tới các thành
phần hòa âm hầu như không ảnh hưởng tới hệ thống thính giác của người
nghe [14].
Các thành phần consonances có độ cao cách nhau 1 quãng tám (octave),
quãng 4 chuẩn (perfect fourth) hoặc quãng 5 đầy đủ (perfect fifth). Để xác
định được thành phần consonances chúng ta phải nhận dạng độ cao của các
âm trong đoạn âm thanh, tức các kỹ thuật phân tích âm nhạc tự động
(Automatic Music Transcription - AMT). Các phương pháp thường được sử
dụng để tự động chuyển đổi âm thanh thành bản nhạc hay thành âm thanh

dạng MIDI. Phương pháp xác định độ cao sử dụng DFT, lọc răng lược, lọc
notch được mô tả trong [8,9].

Trên hình 1 là sơ đồ khối của hệ thống Watermarking âm thanh sử dụng
thông tin từ bộ AMT.


3
Watermark
generator

Audio in

Watermarking
bits

Automatic
Music
Transcription

x

Watermark
Embedder

Watermarked
Audio

Inverse
Notch

Filter

Hình 1: Sơ đồ khối hệ thống Watermarking âm thanh sử dụng thông tin từ
bộ AMT.
3.

4.

5.

6.

Mục đích nghiên cứu
 Nghiên cứu lý thuyết watermarking ứng dụng cho tín hiệu
âm thanh số.
 Xây dựng chương trình mô phỏng nhằm so sánh và tìm ra
phương pháp watermarking tối ưu theo hai tiêu chí "Ẩn" và
"Bền vững".
Đối tượng và phạm vi nghiên cứu
 Nghiên cứu các kỹ thuật watermarking ứng dụng cho âm thanh
số.
 Mô phỏng và đánh giá từng giải thuật.
Phương pháp nghiên cứu
 Tìm hiểu lý thuyết về watermarking, lựa chọn kỹ thuật
watermarking cho âm thanh số.
 Viết chương trình mô phỏng
 Đề xuất các hướng nghiên cứu tiếp theo.
Cấu trúc luận văn
Cấu trúc luận văn gồm 4 chương:
Chương 1: Tổng Quan vấn đề nghiên cứu

Chương 2: Phương pháp Watermarking âm thanh dựa trên kỹ thuật tự
động phân tích âm nhạc (Automatic Music Transcription)
Chương 3: Kết quả mô phỏng
Chương 4: Kết luận và hướng phát triển


4
Chương 1 - TỔNG QUAN VỀ WATERMARKING ÂM THANH

1.1 Tổng quan về các phương pháp Watermarking âm thanh
Các kỹ thuật Watermarking âm thanh số chủ yếu khai thác vào
khuyết điểm ít nhạy cảm với những thay đổi nhỏ trên miền thời gian và miền
tần số của hệ thống thính giác con người (Human Auditory System - HAS).
Trong đó, các phương pháp watermarking âm thanh tiêu biểu hiện nay là:
phương pháp mã hóa Least Significant Bit (LSB), phương pháp mã hóa pha,
trải phổ, hay phương pháp ẩn echo. Phương pháp LSB có nhược điểm lớn là
độ “bền vững” rất thấp nên thường không được sử dụng trên thực tế. Phương
pháp mã hóa pha thì ngược lại, có độ “bền vững” cao trước sự tấn công của
nhiễu, nhưng lưu trữ được ít thông tin. Đáng chú ý hơn là phương pháp chèn
echo có biên độ nhỏ vào miền thời gian, phương pháp này được đánh giá cao
về độ “bền vững” và tỉ lệ nhúng, tuy nhiên chất lượng âm thanh sau khi nhúng
không tốt. Được đánh giá cao hơn hẳn là các kỹ thuật nhúng trong miền tần
số. Ưu điểm của những phương pháp này là không nhúng trực tiếp vào tín
hiệu gốc nên thông tin Watermark khó bị phát hiện bằng các phương pháp
phân tích thống kê, nghĩa là độ “ẩn” cao. Thông thường, watermarking trong
miền thời gian làm thay đổi trực tiếp biên độ của tín hiệu thời gian, trong khi
đó, tại miền tần số khi nhúng người ta chỉ làm một vài vạch phổ bị thay đổi
nên tín hiệu không bị biến dạng nhiều. Do đó, người ta hay sử dụng miền tần
số để khai thác các đặc tính về tần số của tín hiệu để nhúng thông tin ngay cả
đối với watermark mật độ cao. Tuy nhiên, mỗi miền biến đổi chỉ có thể hoạt

động tốt với một số trường hợp nhất định. Vì lý do đó, các kỹ thuật chỉ áp
dụng trong miền thời gian hoặc miền tần số đều bị ảnh hưởng bởi các nhược
điểm đặc thù.


5
Trong luận văn này, tôi nghiên cứu và đề xuất một phương pháp
nhúng dựa trên cảm nhận âm nhạc của hệ thống thính giác. Phương pháp này
có thể áp dụng cho tất cả các dạng âm thanh, ngay cả khi tín hiệu âm thanh
không được liệt kê vào dạng “âm nhạc”. Có một số thách thức đặc biệt khi
thực hiện watermarking cho tín hiệu âm nhạc đó là độ ẩn thông tin phải rất
cao nhằm giữ được chất lượng âm thanh, đồng thời độ bền vững cũng là yếu
tố rất quan trọng vì tín hiệu âm nhạc thường biến dạng do nén có tổn hao cũng
như khi đưa qua các bộ lọc khử nhiễu, bộ equalizer v.v.
Điểm chính yếu của phương pháp này là nhúng tín hiệu watermark
vào dải tần số có cùng âm sắc với độ cao nốt nhạc xuất hiện trong âm thanh
gốc. Trong trường hợp này, theo một số nghiên cứu [13], hệ thống thính giác
sẽ cảm nhận rõ nhất nốt nhạc gốc, thành phần đồng âm (dùng để nhúng) khi
biến đổi sẽ bị “che” bởi nốt nhạc gốc ít ảnh hưởng tới chất lượng âm thanh.
Nói đến âm sắc, phương pháp sẽ áp dụng quy luật hợp âm trong âm nhạc để
thực hiện các quy tắc watermarking và sẽ được nói rõ trong phần sau.
Về mặt ứng dụng, nhìn chung watermarking audio bao gồm các ứng
dụng thực tế sau:

1.2



Bảo vệ quyền sở hữu (copyright protection)




Kiểm tra tính nguyên bản của sản phẩm



Theo dõi quá trình sử dụng Tracking



Việc chống giả mạo

Các phương pháp Watermarking trong miền thời gian
Phương pháp watermarking trong miền thời gian là phương pháp giấu

thông tin bản quyền vào thời gian thực của tín hiệu gốc.


6
Dưới đây là một số phương pháp watermarking tiêu biểu trong miền thời
gian:

1.3



Phương pháp giấu thông tin trong bit có trọng số thấp LSB




Thêm tiếng ồn (noise)



Thêm tiếng vọng (echo)



Modifying phase



Điều chế biên độ

Các phương pháp Watermarking trong miền biến đổi
Phương pháp watermarking trong miền biến đổi chủ yếu bao

gồm: miền biến đổi Fourier FFT (Fast Fourier Transform), miền chuyển đổi
sang Cosine DCT (Discrete Cosine) hay miền wavelet DWT (Discrete
Wavelet Transform), v.v …
Các thông tin watermarking được nhúng vào hệ số khai triển của các
miền chuyển đổi. Điều đó đảm bảo hơn về mặt an toàn thông tin của
watermarking trước các kỹ thuật xử lý tín hiệu âm thanh (nén, lọc, lấy mẫu,
lọc dải tần …).
Trong miền phổ tần số, người ta nhúng tín hiệu chứa thông tin
watermark vào các vùng tần số khác nhau. Việc lựa chọn vùng tần số nhúng
tối ưu sẽ làm tăng độ bền vững cũng như cải thiện độ ẩn thông tin của phương
pháp watermarking này.



Một số phương pháp watermarking trong miền tần số:



Thêm tần số sóng mang



Thêm tiếng ồn (noise) trong miền biến đổi



Lọc bỏ bớt các dải tần số phụ



Hoặc kết hợp giữa lọc dải tần và thêm tiếng ồn



Thêm các tín hiệu tiếng ồn vào các hệ số mã hóa


7
Một kỹ thuật khá đặc biệt là mã hóa và giải mã thông tin trên miền
nén. Hiện nay, sự phổ biến của các dạng tín hiệu âm thanh nén được sử dụng
rộng rãi trên khắp thế giới, đặc biệt là thị trường inthernet. Bởi vậy, kỹ thuật
nhúng thông tin trên miền nén có tính thực tế cao. Mã hóa bằng cách tín hiệu
được đưa về dạng nén sau khi được lọc dải tần … Hình ảnh tín hiệu được
chụp lại và việc mã hóa bắt đầu từ đây. Thông thường các hệ số âm thanh có

tần số cao sẽ được chọn làm vị trí mã hóa bởi vì tránh các trường hợp lowpass
trong miền nén.
Tiếp theo, phương pháp watermarking trên miền chuyển đổi cosine
rời rạc (DCT) cũng rất được quan tâm trong lĩnh vực nhúng thông tin ẩn vào
tín hiệu âm thanh và âm thanh phụ. Đầu tiên, âm thanh gốc được chuyển đổi
thành miền DCT, các hệ số DCT được xác định và các đỉnh năng lượng cũng
được tính toán. Tiếp theo, watermark được nhúng vào các vị trí có đỉnh năng
lượng đạt mức lớn nhất của tín hiệu trong miền DCT. Điểm đáng chú ý của
phương pháp này, các tín hiệu nhúng vào miền cosine ít gây ảnh hưởng đến
tín hiệu gốc về mặt âm thanh. Hơn nữa, nó không bị ảnh hưởng bởi các kỹ
thuật thêm tiếng ồn, lấy mẫu lại hay mã hóa lại.


8
Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH DỰA
TRÊN KỸ THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC

2.1 Kỹ thuật watermarking âm thanh
2.2 Kỹ thuật watermarking âm nhạc
Âm nhạc là tinh hoa của âm thanh. Vậy watermarking âm nhạc
là một dạng của watermarking âm thanh. Nhưng điều đặc biệt, watermarking
âm nhạc là dạng nâng cao của watermarking âm thanh và các quá trình nhúng
hay giải nhúng watermark đều khác với các dạng âm thanh số khác.
Điểm chú ý hơn, đối với âm thanh, hai dạng tiêu chí để đánh giá
watermarking là độ “ẩn” và độ “bền vững” thì với âm nhạc, tiêu chí đánh giá
watermarking là độ “ bền vững”, độ “ẩn” và độ “thẩm mỹ của ẩn”.
Đối với âm nhạc, ta cũng có thể nói hai tiêu chí chính để đánh giá
giá trị watermarking của các kỹ thuật đó là độ “ẩn” và độ “bền vững” nhưng
độ “ẩn” này không đơn thuần chỉ là độ “ẩn” trong kỹ thuật watermarking của
âm thanh số nói chung, mà nó còn là độ “hòa âm”,và độ “hòa hợp” để đạt

được tính thẩm mỹ đối với cảm nhận người nghe. Đó cũng chính là điểm mấu
chốt của giải thuật watermarking âm nhạc.
Về cơ bản, âm nhạc là sự hòa âm của nhiều loại âm thanh. Sự hòa
âm này được tuân theo “quy luật âm nhạc”. Quy luật này không phải gọi là
nhạc lý, mà nhạc lý chỉ mô tả một phần của quy luật này. Nếu một tín hiệu
bất kỳ được cho vào bài hát mà không tuân thủ theo quy luật của bài hát đó
sẽ tạo ra sự bất hòa âm hay sự trái ngược tức thời về mặt cảm nhận, âm nhạc
gọi đó là “tiếng ồn” hay “tạp âm”. Ở đây, chúng tôi khái niệm quy luật của
bài hát là gam của bài hát đó, tất nhiên một gam gồm nhiều hợp âm trong nó.


9
Watermarking âm nhạc là nhúng tín hiệu âm thanh vào bài hát mà
vẫn giữ nguyên cảm nhận của người nghe về chất lượng bài hát đó. Nên độ
“ẩn” của watermarking âm nhạc bao gồm cả độ “hòa âm” và độ “thẩm mỹ
hòa âm” trong đó. Bởi chỉ cần một âm thanh trái ngược với quy luật hòa âm
của bài hát được nhúng vào bài hát, cho dù biên độ cực nhỏ cũng gây ra sự
phát hiện rõ ràng cho tai người nghe.
Vậy watermarking âm nhạc là watermarking âm thanh được nâng
cao thêm phần thẩm mỹ hòa âm cho độ “ẩn”.
Người kỹ thuật viên thực hiện watermarking âm nhạc giống như một
nhạc sĩ thực hiện hòa âm thêm một loại nhạc cụ mới cho bài hát, và nhạc cụ
mới đó chính là tín hiệu watermarking.
Và ở đây, đồ án nhận định rõ rằng tính chuyên nghiệp của
watermarking âm nhạc phụ thuộc vào tính hợp lý của vị trí nhúng trong cả
mặt thời gian lẫn tần số đối với tín hiệu âm nhạc.
Những quy tắc nhúng thỏa quy tắc hòa âm của các nhạc công cũng
như nhạc sỹ sẽ giúp các tín hiệu watermark sau khi được nhúng vào đoạn
nhạc sẽ mang tính “ẩn” cao hơn trường hợp nhúng tuần tự thường dùng trong
các phương pháp cổ điển.

Các vị trí nhúng được ưu tiên là quãng 8 trên của nốt nhạc trong tín
hiệu gốc (tần số gấp đôi độ cao nốt nhạc), quãng 8 dưới (tần số chỉ bằng một
nửa độ cao nốt nhạc). Ngoài ra còn có các quãng ưu tiên như quãng 4 chuẩn
hay quãng 5 chuẩn như đã giới thiệu ở phần đầu luận án [13].


10
2.3

Các bước thực hiện watermarking âm thanh


Bước 1: Chuyển tín hiệu trong miền thời gian thực sang miền

tần số với biến đổi Fourier rời rạc; sau đó đưa tín hiệu vừa thu được trong
miền tần số kết hợp với tín hiệu trong miền thời gian ban đầu để thể hiện vào
biểu đồ Spectrogram – biểu đồ thời gian tần số.


Bước 2: Chia biểu đồ spectrogram thành từng khung âm thanh

(Frame) đều nhau, mỗi khung âm thanh được coi là một đơn vị của biểu đồ
Spectrogram trong suốt quá trình nhúng watermarking, thông thường mỗi
khung âm thanh sẽ đảm nhận thể hiện cho một giá trị ẩn sau khi được
watermarking.


Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để tìm

ra đỉnh cao nhất trong mỗi khung âm thanh, cũng là đỉnh thể hiện mức năng

lượng cao nhất trong mỗi đơn vị biểu đồ Spectrogram. Đỉnh này cũng được
coi là đỉnh đặc trưng cho mỗi đơn vị nhúng watermark vì vị trí nhúng
watermarking gốc được định vị tại đỉnh có mức năng lương cao nhất trong
mỗi đơn vị.
2.4 Cách thực hiện watermarking âm nhạc
Trong phần này, các bước thực hiện watermarking âm nhạc
giống như 3 bước đầu của watermarking âm thanh, chỉ thêm một vài giai đoạn
ở các bước còn lại.


Bước 1: Chuyển tín hiệu trong miền thời gian thực sang

miền biểu đồ Spectrogram – biểu đồ thời gian tần số.


Bước 2: Chia biểu đồ Spectrogram thành từng khung âm

thanh (Frame) đều nhau.


11


Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để

tìm ra đỉnh cao nhất trong mỗi khung âm thanh.


Bước 4: Đưa tấm lược tần số khớp với các đỉnh cao nhất


trong biểu đồ spectrogram vừa tìm thấy để lọc lấy các tần số cơ bản và các
âm điệu chính của bài.


Bước 5: Nhận diện nốt nhạc dựa trên giá trị tần số cơ bản

nhận được từ bước 4.


Bước 6: Nhúng các bit “0” “1” theo quy ước. Trong miền

thời gian, nhúng vào tất cả các frames trong khoảng thời gian tồn tại nốt nhạc
đã được nhận dạng. Trong miền tần số, nhúng vào vị trí các quãng hòa âm ưu
tiên (quãng 8, quãng 5 hoặc quãng 4) của nốt nhạc nói trên.
2.5

Phương pháp watermarking dựa trên nguyên lý đồng âm

Hình 2.18: Tín hiệu được chia thành các phân đoạn nhỏ theo miền thời
gian
Đầu tiên, tín hiệu âm thanh được chia thành những đoạn nhỏ đều
nhau có chiều dài N mẫu như hình 2.18. Trong mỗi chuỗi N mẫu, chúng ta
sử dụng chuỗi K mẫu để nhúng thông tin watermark, K bé hơn hoặc bằng N.
Và chúng được định nghĩa như sau:


Chuỗi K mẫu: là chuỗi xi(n’) (n’ = 0,1,…, K -1 )




N – K: được định nghĩa là chuỗi yi(n”) (n” = 1,..., N-K )

Khi nhúng tín hiệu watermarking, chúng tôi chỉ tác động vào các
mẫu K hay chuỗi xi(n’) bị thay đổi giá trị, và các chuỗi yi(n”) được giữ


12
nguyên để đảm bảo chất lượng âm thanh được giữ ở mức ổn định, hay không
bị thay đổi quá nhiều.


Phương pháp nhúng:

Bước 1: Ta xác định chỉ nhúng watermarking vào chuỗi tín hiệu
xi(n’) trong miền thời gian. Sử dụng biến đổi Fourier rời rạc (DFT) với chuỗi
xi(n’) chúng ta có phổ Ai(k). Quá trình nhúng watermarking được thực hiện
trực tiếp ở miền tần số nên ở bước 2 chúng tôi chỉ xét đến tín hiệu Ai(k).
Bước 2: chuỗi tín hiệu Ai(k) sẽ được lọc lấy các tần số cơ bản bằng
bộ lọc răng lược. Sau khi thực hiện so sánh ngưỡng để nhận diện đỉnh, đặt
đỉnh có mức năng lượng cao nhất làm Ai(k0). Với k0 là tần số có biên độ cao
nhất trong đồ thị spectrogram của tín hiệu. Ai(k0) là vạch tần có biên độ về
tần số cao nhất trong chuỗi Ai(k), được định nghĩa theo điều kiện (2.7).
(2.7)

Bước 3: Xác định vị trí nhúng:
Quãng 8 là vị trí nhúng ưu tiên số 1 nên chúng tôi chọn nó làm
trường hợp tổng quát, các quãng khác được thực hiện tương tự.
k0 là tần số có mức năng lượng cao nhất trong chuỗi mẫu K, ta gọi
k0 là tần số đặc trưng. Ta tìm vị trí quãng 8 trên và quãng 8 dưới của tần số
đặc trưng k0.



Quãng 8 trên có tần số gấp đôi tần số đặc trưng nên tần số của nó là



Quãng 8 dưới có tần số bằng một nửa tần số đặc trưng nên tần số

2*k0.

bằng k0/2.
Vậy vị trí nhúng trong trường hợp này là tần số 2*k0 và k0/2.


13
Điểm lưu ý, nếu chúng ta chỉ nhúng thông tin vào 1 vạch phổ duy
nhất trong một khoảng không gian tần số, độ “bền vững” của phương pháp
watermarking sẽ thấp vì tác động của nhiễu dễ làm thay đổi giá trị của một
vạch tần.


Giải thuật nhúng được thực hiện theo công thức (2.8) sau:

(2.8)

với A’i(k) là tín hiệu Ai(k) sau khi được nhúng watermark.
mi là giá trị watermarking


Với mi bằng 1 thì thực hiện watermarking tại quãng 8 trên (2*k0)


của tần số đặc trưng k0.


Với mi bằng 0, thực hiện watermarking ở quãng 8 dưới của k0.



Vì việc nhúng watermarking bằng cách thay đổi giá trị biên độ vạch

phổ tần số ở quãng 8 trên và quãng 8 dưới được thực hiện như nhau nên chúng
tôi đặt l là quãng 8 trên hoặc quãng 8 dưới của tần số đặc trưng k0:
l = 2*k0 (trường hợp nhúng ở quãng 8 trên)
hoặc l = k0/2 (với trường hợp nhúng ở quãng 8 dưới)
Đối với một tần số k bất kỳ thuộc âm vực con người 20 – 20.000
Hz:


nếu k thuộc đoạn tần số [l – r; l + r], giá trị biên độ tần số

của k sau khi nhúng watermarking đều được đưa về không:
A’i(k) = 0


các giá trị khác đều được giữ nguyên biên độ tần số:


14
A’i(k) = Ai(k)



Phương pháp giải mã watermarking:

Bước 1: Chuyển chuỗi xi(n’) sang miền tần số với phép biến đổi
Fourier rời rạc (DFT) để có tập hệ số khai triển Ai(k).
Bước 2: chuỗi tín hiệu Ai(k) sẽ được lọc lấy các tần số cơ bản. Sau
khi nhận diện đỉnh, ta có đỉnh có mức năng lượng cao nhất trong chuỗi Ai(k0).
Bước 3: Xác định vị trí đã nhúng:
Ở đây, vì giải thuật nhúng được xác định tại vị trí quãng 8 trên 2*k0
và quãng 8 dưới k0/2 nên chúng tôi xác định giá trị biên độ phổ tại 2 vị trí tần
số này.
Khi đã có giá trị biên độ tần số Ai(2*k0) và Ai(k0/2), chúng tôi so
sánh chúng để đưa ra kết quả dựa vào điều kiện (2.9) dưới đây:

(2.9)


Nếu giá trị Ai(2*k0) ≤ Ai(k0/2), nghĩa là giá trị Ai(2*k0) = 0,
Suy ra vạch tần số 2*k0 bị thay đổi biên độ, hay việc nhúng

watermarking được thực hiện tại quãng 8 trên của tần số đặc trưng. Dựa vào
điều kiện (2.8), ta kết luận mi = 1.


Nếu giá trị Ai(2*k0) > Ai(k0/2), nghĩa là giá trị Ai(k0/2) = 0,
Suy ra tín hiệu tần số k0/2 đã bị thay đổi biên độ tần số, hay tín hiệu

đã được thực hiện nhúng watermarking tại quãng 8 dưới của tần số đặc trưng.
Dựa vào điều kiện (2.8) kết luận mi = 0.



15
2.6

Hệ thống nhận dạng và phân tích âm nhạc tự động
 Hệ thống tự động nhận dạng – phân tích âm nhạc tự động:
o

Áp dụng lý thuyết: độ cao của nốt nhạc được đặc trưng bởi

tần số, nên chúng tôi sẽ dựa vào đặc điểm tần số trên đồ thị phổ tần và đồ thị
biên độ tần số Spectrogram để nhận dạng ra các nốt nhạc và tìm vị trí các
quãng hợp âm cần phải nhúng watermarking.
o

Áp dụng quy luật âm nhạc: Dựa vào các quy luật hòa âm

phối khí của các nhạc công cũng như các tác giả sáng tác âm nhạc, chúng tôi
tìm chọn các quy luật đặc trưng nhất để xác định các vị trí nhúng hợp lý.
o

Áp dụng từ thực tế:

Trong thực tế, một nốt nhạc được thể hiện với độ dài ít nhất 2s thì
hệ thính giác con người (HAS) mới cảm nhận được độ cao của nốt. Trong
khi, mỗi khung K mẫu chỉ thường có chiều dài là 10ms. Bởi vậy, ví dụ nốt
nhạc La được đặc trưng bởi tần số 440 Hz, nhưng nếu tần số đặc trưng k0 của
một khung K mẫu nào đó được xác định là 440 Hz thì vẫn chưa thể kết luận
được là nốt nhạc tại thời điểm tồn tại khung K mẫu này là nốt La. Như vậy,
việc nhận dạng nốt nhạc ở đây không đơn thuần chỉ là xác định tần số mà còn

phải xác định độ dài tương đương với một nốt nhạc để tai người có thể cảm
nhận được (thông thường lớn hơn 2s).
Nói cách khác, nếu một tần số k0 nào đó đặc trưng cho nhiều khung
K mẫu liền kề nhau thì điều đó có nghĩa là tần số k0 tồn tại đủ dài để nó được
coi là tần số đặc trưng cho độ cao của một nốt nhạc.
2.7

Chất lượng âm thanh về mặt cảm nhận PEAQ (Perceptual

Evaluation Of Audio Quality)


16
CHƯƠNG 3 - KẾT QUẢ MÔ PHỎNG

3.1 Mô phỏng và đánh giá kết quả
3.1.1 Sơ đồ khối quá trình nhúng – giải nhúng và lưu đồ giải thuật
Quá trình nhúng được thực hiện theo lược đồ hình 3.1.

Hình 3.1: Lược đồ quá trình nhúng watermark
Quá trình giải nhúng được thực hiện theo lược đồ hình 3.2.

Hình 3.2: Lược đồ quá trình giải nhúng watermarking


17


Lưu đồ giải thuật nhúng watermarking âm nhạc :


Hình 3.3: Lưu đồ giải thuật watermarking music


18


Lưu đồ giải thuật giải nhúng watermarking âm nhạc:

Hình 3.4: Lưu đồ giải thuật bộ giải mã watermarking âm nhạc


19
3.1.2 Giao diện chương trình mô phỏng
Chương trình mô phỏng “Music Watermarking Matlab” có giao diện
gồm có 3 khối chức năng lớn, cùng 20 chức năng chi tiết liên kết chặt chẽ với
nhau (hình 3.4).

Hình 3.4: Giao diện “Music Watermarking Matlab”


Khối chức năng thứ nhất nằm bên tay trái màn hình nhìn

vào, là khối chức năng dành cho file cần được nhúng watermark.


Khối chức năng tiếp theo nằm bên tay phải màn hình nhìn

vào, chứa chức năng xử lý dành cho file vừa được nhúng watermark bằng
chương trình.



Khối chức năng thứ ba là chức năng dành cho việc giải

nhúng watermarking hay dành cho công việc lấy thông tin watermarking từ
file đã được nhúng.
Ngoài ra, chương trình còn có các màn hình hiển thị được đặt tại các
góc nhìn cân xứng đối với khối chức năng và giúp người nghe có thể hình
dung một cách dễ dàng công việc mà chương trình đang thực hiện.


20
3.1.3 Đánh giá kết quả mô phỏng
Qua thực nghiệm và kiểm tra đánh giá bằng cảm nhận người nghe
với chương trình kiểm tra độ cảm nhận ABX plugin foobar, chúng tôi đã tiến
hành đánh giá sự khác biệt giữa hai file nhạc trước và sau khi watermarking.
Có thể nói là chất lượng âm thanh sau khi nhúng không bị thay đổi nhiều vì
đa số người nghe không cảm nhận thấy sự khác biệt. Tuy nhiên, khi khảo sát
“độ ẩn” của phương pháp watermarking với các dòng nhạc khác nhau theo
tiêu chí PEAQ, chúng ta có một số kết quả đáng chú ý sau (hình 3.9).

Chất lượng PEAQ

%

khi thực hiện WATERMARKING-MUSIC

100
80
60
40

20

30

50

70

90

0
nhạc cổ điển

nhạc trẻ

nhạc REMAKE

Nhạc SDM

Hình 3.9: Chất lượng PEAQ đối với watermarking từng dòng nhạc
Để đánh giá khách quan chất lượng âm thanh sau khi nhúng bằng
các phương pháp watermarking khác nhau, trong luận văn sử dụng tiêu chí tỷ
lệ đỉnh tín hiệu trên nhiễu (PSNR). Chúng tôi đã sử dụng phần mềm mô phỏng
để so sánh các tiêu chí chất lượng giữa phương pháp Watermarking Music
(WM) và các phương pháp watermarking khác như LSB và FFT cũng khá


21
phổ biến trong lĩnh vực watermarking. Hai phương pháp nhúng nói trên đại
diện cho watermarking ở miền thời gian thực và miền tần số không thích nghi.

Kết quả đánh giá tính bền vững của 3 phương pháp watermarking
LSB, FFT và phương pháp WM được hiển thị trên hình 3.10. Có thể thấy
rằng độ ẩn của phương pháp nhúng trong miền thời gian nhỏ hơn nhiều so
với các phương pháp nhúng trong miền tần số. Phương pháp nhúng tuần hoàn
sử dụng DFT và nhúng với kỹ thuật nhận dạng âm nhạc cho chỉ số PSNR như
nhau. Điều này hoàn toàn trùng khớp với lý thuyết, vì khi nhúng các thành
phần phổ bị biến đổi tương đương. Tuy nhiên, khi nhúng vào các quãng đồng
âm, hiệu ứng che sẽ làm giảm ảnh hưởng méo phổ tới cảm nhận của người
nghe. Quan sát các đồ thị trên hình 3.10 cũng có thể kết luận là tính bền vững
của phương pháp nhúng trong miền thời gian thấp hơn so với nhúng trong
miền tần số.

Hình 3.10: Độ bền vững của PSNR đối với từng dạng
watermarking


22
File audio được nhúng bởi phương pháp WM (watermarking music) và FFT
(tần số thích nghi) có tỷ số tín hiệu trên nhiễu tương đương nhau khoảng 70
(dB). Riêng phương pháp LSB, tỷ số PSNR đạt bé nhất 33,2744 (dB).
Các đồ thị trên hình 3.10 cho thấy phương pháp Watermarking Music
được đề xuất có nhiều ưu điểm nhất trong ba phương pháp.

Hình 3.11: Biểu đồ đánh giá độ bền vững của các phương pháp
watermarking dưới tác động của nhiễu
Đồ thị trên hình 3.11 cho chúng ta thấy mức độ biến dạng của logo sau khi
được giải nhúng khi tín hiệu watermarking chịu tác động của các mức nhiễu
khác nhau. Mức độ biến dạng cũng được xác định dựa trên tỷ lệ PSNR.
Khi nhiễu có công suất thấp, cả 3 phương pháp watermarking cho kết quả
giải nhúng tốt tương đương nhau. Với mức nhiễu lớn hơn, khả năng chống

nhiễu của WM (phương pháp đề xuất) cao hơn so với các phương pháp
truyền thống.


23
Chương 4 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Đề tài nghiên cứu phương pháp watermarking tín hiệu âm nhạc dựa
trên kỹ thuật nhận dạng âm thanh và đặc điểm cảm nhận âm nhạc của hệ
thống thính giác. Việc kết hợp hai kỹ thuật trên cho phép đề xuất hệ thống
nhúng dữ liệu có độ ẩn cao hơn so với các phương pháp nhúng âm nhạc truyền
thống. Phương pháp nhúng đề xuất thực hiện trong miền tần số, các bít dữ
liệu phụ (logo) được nhúng vào vị trí các quãng hòa âm (quãng 8, quãng 4,
quãng 5) của các nốt nhạc trong đoạn âm thanh. Khi đó, hiệu ứng che âm
thanh trong hệ thống thính giác sẽ làm giảm ảnh hưởng méo tần xảy ra trong
quá trình nhúng. Vì vậy “độ ẩn” của phương pháp watermarking sẽ được cải
thiện. Đây cũng là mục đích chính của đề tài.
Qua việc nghiên cứu và viết luận văn, em đã có cách nhìn tổng quan
hơn về lý thuyết âm nhạc, cảm nhận được sự kết hợp giữa âm nhạc và kỹ
thuật watermarking là một hướng nghiên cứu rất có tiềm năng trong tương lai
và cần được quan tâm nhiều hơn.
Kết quả mô phỏng nhận được trong đề tài chứng minh tính đúng đắn
của các kết luận trong phần lý thuyết.
Hướng phát triển của đề tài là tiếp tục nghiên cứu và cải thiện chất lượng
nhận dạng âm thanh cũng như tìm hiểu các phương pháp nhúng mới nhằm
cải thiện tính bền vững của hệ thống watermarking cho tín hiệu âm nhạc



×