Tải bản đầy đủ (.pdf) (245 trang)

Sách Hướng Dẫn Học Tập Xử Lý Âm Thanh Và Hình Ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.07 MB, 245 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

SÁCH HƯỚNG DẪN HỌC TẬP

XỬ LÝ ÂM THANH VÀ HÌNH ẢNH
(DÙNG CHO SINH VIÊN HỆ ĐÀO TẠO ĐẠI HỌC TỪ XA)

Biên soạn: TS Nguyễn Thanh Bình
ThS Võ Nguyễn Quốc Bảo

LƯU HÀNH NỘI BỘ

TP HỒ CHÍ MINH - 2007

CuuDuongThanCong.com

/>

LỜI NÓI ĐẦU
Tài liệu hướng dẫn học tập môn "Xử lý âm thanh và hình ảnh" dành cho khối đào tạo từ xa
chuyên ngành điện tử viễn thông. Tài liệu này giới thiệu những kiến thức cơ bản về xử lý âm
thanh và hình ảnh. Đặc biệt, tác giả chú trọng tới vấn đề xử lý tín hiệu ứng dụng trong mạng viễn
thông: đó là các phương pháp nén tín hiệu, lưu trữ, các tiêu chuẩn nén tín hiệu âm thanh và hình
ảnh. Những kiến thức được trình bày trong tài liệu sẽ giúp học viên tiếp cận nhanh với các vấn đề
thực tiễn thường gặp trong mạng viễn thông.
Vì khối lượng kiến thức trong lĩnh vực xử lý âm thanh cũng như hình ảnh rất lớn, trong tài
liệu hướng dẫn chỉ có thể nêu lên một số vấn đề chính. Để tìm hiểu sâu và rộng hơn học viên phải
nghiên cứu thêm trong các sách tham khảo được tác giả đề cập tới trong phần cuối của tài liệu
này.
Đây là lần biên soạn đầu tiên, chắc chắn tài liệu còn nhiều sơ sót, rất mong các bạn đọc
trong quá trình học tập và các thày cô giảng dạy môn học này đóng góp các ý kiến xây dựng.



Tp. Hồ Chí Minh 10/11/2007
Nhóm biên soạn

Biên soạn phần xử lý âm thanh: ThS Võ Nguyễn Quốc Bảo
Biên soạn phần xử lý hình ảnh: TS Nguyễn Thanh Bình

CuuDuongThanCong.com

/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU
1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN
Xử lý tín hiệu là lĩnh vực khoa học được nghiên cứu và phát triển trong một thời gian dài.
Hệ thống xử lý tín hiệu tương tự cũng như xử lý tín hiệu số được ứng dụng rất rộng rãi trong
ngành viễn thông cũng như trong nhiều ngành khoa học khác. Trong những năm gần đây, các
phương pháp xử lý tín hiệu số đang dần chiếm ưu thế, cho dù, về mặt bản chất, tín hiệu nguyên
thủy được truyền đi và tín hiệu mà người nhận tin có thể tiếp thu được vẫn là tín hiệu tương tự.
Xu hướng phát triển trên hình thành do hệ thống số có nhiều tính năng nổi trội của so với các hệ
thống analog cổ điển:
1. Các hệ thống xử lý số có độ linh hoạt cao: có thể nhanh chóng thay đổi cơ chế hoạt
động của phần cứng thông qua phần mềm điều khiển.
2. Độ ổn định cao, ít chịu ảnh hưởng của môi trường xung quanh, tính chất của hệ thống
số hầu như không thay đổi theo thời gian.
3. Khả năng xử lý tín hiệu với độ chính xác cao. Tín hiệu số cho phép lưu trữ và sao chép
nhiều lần với mức độ tin cậy cao. Khả năng chống nhiễu của tín hiệu số cao hơn so với
tín hiệu tương tự.
4. Thời gian thiết kế và thi công các hệ thống số nhanh, kích thước nhỏ gọn, mức tiêu hao

năng lượng thấp v.v.
Trước đây, do tốc độ xử lý của máy tính còn chậm, việc xử lý các tín hiệu "phức tạp" như
tín hiệu âm thanh chất lượng cao hay tín hiệu ảnh số không thể thực hiện được trong thời gian
thực. Tuy nhiên, trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ vi điện tử,
nhược điểm nêu trên đã được khắc phục. Ví dụ điển hình là DSP xử lý ảnh và âm thanh cao cấp
của hãng Texac Instrument TMS320DM6446 Digital Media System-on-Chip làm việc với tần số
xung nhịp 594 Mhz, cho phép thực hiện nén video theo chuẩn MPEG-2 và MPEG-4 thời gian
thực ( Tốc độ xử lý của DSP này
là 4752 MIPS (Million Instructions Per Second - MIPS). DSP TMS320DM6446 được tích hợp 4
kênh biến đổi DAC (54MHz) để tạo các tín hiệu video tiêu chuẩn theo hệ NTSC/PAL, S-Video
cũng như video thành phần (Component video). Giá thành của DSP xử lý video chuyên dụng nói
trên khoảng <45$. Hiện nay, kỹ thuật xử lý tín hiệu số đang được sử dụng rất hiệu quả trong các
lĩnh vực xử lý âm thanh (nhận dạng tiếng nói, tổng hợp âm thanh và tiếng nói v.v.), xử lý ảnh
(nâng cao chất lượng ảnh, phân vùng, nhận dạng .v.v), đo lường và điều khiển, thiên văn học v.v.
Tài liệu hướng dẫn học tập môn xử lý âm thanh và hình ảnh này thực chất có thể được gọi
là tài liệu hướng dẫn "nhập môn" xử lý âm thanh và hình ảnh. Thông thường các tài liệu nghiên
cứu về xử lý ảnh và âm thanh được tách riêng vì: 1- Đây là hai lĩnh vực xử lý tín hiệu rất rộng,
liên quan tới rất nhiều ngành khoa học khác nhau; 2- Quá trình xử lý tín hiệu âm thanh và hình
ảnh phải được thực hiện dựa trên những hiểu biết sâu sắc về hệ thống thính giác và thị giác của
con người. Ở các phần sau, ta sẽ thấy rằng đa số các kỹ thuật xử lý tín hiệu âm thanh và hình ảnh
sẽ dựa trên đặc điểm tiếp thu thông tin của các giác quan nói trên; 3- Tín hiệu âm thanh và hình
ảnh khác nhau về bản chất: tín hiệu âm thanh là tín hiệu một chiều còn tín hiệu hình ảnh (tĩnh hay
động) là tín hiệu hai hoặc ba chiều. Chính vì thế, công cụ toán học để mô tả và phân tích quá trình
xử lý hai loại tín hiệu trên cũng khác nhau.
Tuy âm thanh và hình ảnh là hai tín hiệu tương đối khác nhau, nhưng quá trình xử lý chúng
 
CuuDuongThanCong.com

 3 
/>


Chương 1 Giới thiệu chung về xử lý tín hiệu 

vẫn được mô tả dựa trên nền tảng lý thuyết xử lý tín hiệu tổng quát. Sau đây chúng ta nhắc lại một
số những khái niệm cơ bản về tín hiệu và hệ thống xử lý tín hiệu.

1.1.1 Tín hiệu và phân loại tín hiệu
Tín hiệu do một thiết bị đầu cuối tạo ra, tín hiệu là biểu diễn vật lý (dòng điện, điện áp...)
của tin tức, được truyền đi từ đầu phát đến đầu thu. Tín hiệu có thể được biểu diễn bằng một hàm

của nhiều biến số: m(t ) = f (t , v, f , ϕ ) , f - tần số, t - thời gian, v - biên độ, ϕ - trạng thái pha.

Khi phân loại tín hiệu ta có thể dựa trên các cơ sở khác nhau như phân loại theo năng lượng,
hình thái, theo tính chất của phổ của tín hiệu v.v.
Trong lý thuyết tín hiệu có hai lớp tín hiệu quan trọng đó là tín hiệu xác định và ngẫu nhiên.
Tín hiệu xác định là tín hiệu có quá trình biến đổi biểu diễn bằng một hàm thời gian, và có thể xác
định chính xác ở mọi thời điểm. Các tín hiệu xác định có vai trò rất quan trọng trong lý thuyết tín
hiệu cổ điển. Tín hiệu xác định còn chia ra thành tín hiệu tuần hoàn (theo chu kỳ T) và không
tuần hoàn (phi chu kỳ).Tín hiệu tuần hoàn là những tín hiệu có thể biểu diễn bằng công thức như
sau: x (t ) = x (t + kT ) k − nguyeân - tín hiệu này tuân theo quy luật lặp lại đều với chu kỳ T.
Tín hiệu ngẫu nhiên là các tín hiệu mà không thể dự kiến trước hành vi của chúng theo thời
gian và để biểu diễn chúng phải dựa trên lý thuyết thống kê. Trên thực tế, các tín hiệu thông tin
đều mang tính chất ngẫu nhiên.
Tín hiệu có thể có biên độ và biến thời gian (không gian) là rời rạc hay liên tục, do đó
chúng ta còn phân biệt bốn loại tín hiệu sau:
Tín hiệu

Tín hiệu

Tín hiệu


Tín hiệu

tương tự (analog)

lượng tử

rời rạc

số (digital)

Biên độ

liên tục

rời rạc

liên tục

rời rạc

Biến thời gian

liên tục

liên tục

rời rạc

rời rạc


Như vậy, tín hiệu tương tự là tín hiệu có biên độ và biến thời gian là liên tục. Nếu tín hiệu
được biểu diễn bằng hàm của biến rời rạc thì tín hiệu đó là tín hiệu rời rạc. Ký hiệu chung của tín

hiệu rời rạc là xs ( nTs ) , nTs là biến độc lập, rời rạc, n là số nguyên, Ts là chu kỳ lấy mẫu.

Tín hiệu có biên độ và thời gian đều rời rạc được gọi là tín hiệu số, ký hiệu là xd ( n ) .
Ngoài ra, dựa trên tính chất của tin tức truyền đi, người ta còn phân loại các tín hiệu sau:

- Tín hiệu thoại (tiếng nói con người).
- Tín hiệu hình ảnh tĩnh hay ảnh động (tín hiệu video)
- Tín hiệu dữ liệu (data) dùng trong hệ thống máy tính, bộ vi xử lý.
Một số tín hiệu khác, phân biệt theo bề rộng phổ và tần số (tín hiệu dải rộng, dải hẹp, cao
tần v.v.) cũng sẽ được định nghĩa và sử dụng trong những phần tiếp theo.

1.1.2 Tín hiệu rời rạc
Tín hiệu x(t) có biến thời gian t rời rạc được gọi là tín hiệu rời rạc, chúng ta có thể ký hiệu
là {xn} với n là số nguyên (n = 0, ±1, ±2, … ).

 
CuuDuongThanCong.com

 4 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

1.1.2.1 Biểu diễn tín hiệu rời rạc

x(n)


a- Biểu diễn tốn học
Xét hàm x(n) với n là phần tử ngun.
Ký hiệu tín hiệu rời rạc :

x = { x( n )}

n

− ∞ < n < +∞

-1 0 1 2 3 4 5 6
Hình 1.1.1 Tín hiệu rời rạc

⎧biểu thức toán
x ( n) = ⎨
⎩0

N1 ≤ n ≤ N 2
n còn lại

b- Biểu diễn bằng đồ thị
Để minh hoạ theo kiểu nhìn trực quan, ta có thể vẽ đồ thị (hình 1.1.1) của dãy x(n).
Biểu diễn bằng dãy số

c-

Chúng ta khơng để ở dạng chung (một tổng hay tích) mà khai triển các giá trị của tín hiệu

x (n ) = {..., n (n − 1), x (n ), x (n + 1),...}


rời rạc như sau :

3 1 1
x (n ) = {..., 0, 1, , , , 0, ,...}
4 2 4

↑ : chỉ mẫu tại n = 0.

1.1.2.2 Các phép biến đổi tín hiệu rời rạc
a- Phép nhân hai tín hiệu rời rạc :

x. y = {x(n). y(n)}

(1.1.1)

b- Phép nhân tín hiệu rời rạc với hằng số :

α. y = {α. y(n)}

(1.1.2)

c- Phép cộng hai tín hiệu rời rạc :

x + y = {x(n) + y(n)}

(1.1.3)

d- Phép dịch (trễ) :
Dãy x được dịch sang phải n0 mẫu, thành dãy y :


y (n) = x(n − n 0 )

với n0 > 0

(1.1.4)

Dãy x được dịch sang trái n0 mẫu, thành dãy y :

y(n ) = x (n + n 0 )

với n0 > 0

(1.1.5)

Như vậy một tín hiệu x(n) bất kỳ có thể biểu diễn :

x ( n) =



∑ x(k )δ (n − k )

(1.1.6)

k = −∞

 
CuuDuongThanCong.com


 5 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

e- Tín hiệu rời rạc tuần hoàn với chu kỳ là N nếu thoả mãn :

x(n) = x(n + N )

, ∀ n.

(1.1.7)

Tín hiệu tuần hoàn có thể được ký hiệu với chỉ số p (period) : xp(n). Tín hiệu chỉ được xác
định trong một khoảng hữu hạn N mẫu được gọi là tín hiệu có độ dài hữu hạn N.
f- Tín hiệu năng lượng và tín hiệu công suất:
* Năng lượng của tín hiệu được định nghĩa bằng tổng bình phương các modul :

E xN =





x( n )

2

(1.1.8)


n=−∞

* Công suất trung bình của tín hiệu rời rạc được định nghĩa như sau:
N
1
2
∑ x( n )
N →∞ 2 N + 1
n=− N

PxN = lim

(1.1.9)

g- Tín hiệu tuần hoàn và tín hiệu không tuần hoàn
* Tín hiệu là tuần hoàn với chu kỳ N (N > 0) , nếu và chỉ nếu
x(n + N) = x(n)

(1.1.10)

Giá trị nhỏ nhất của N được gọi là chu kỳ.
x(n + kN) = x(n)

; k nguyên dương

* Nếu không có giá trị N thỏa (1.1.10), thì tín hiệu gọi là không tuần hoàn.
h- Tín hiệu chẵn và tín hiệu lẻ
Tín hiệu x(n) được gọi là chẵn khi
x(-n) = x(n)


(1.1.11)

Ngược lại, tính hiệu x(n) được gọi lẻ khi
x(-n) = -x(n)

(1.1.12)

i- Phép gập tín hiệu:
Thay biến n bằng (-n), kết quả ta có x ( n ) thay vì x ( − n ) . Phép biến đổi này thực hiện
bằng cách lấy đối xứng tín hiệu x ( n ) qua gốc thời gian.

1.1.3 Phân loại hệ thống
1.1.3.1 Hệ thống tương tự
Quá trình biến đổi tín hiệu được thực hiện trong hệ thống xử lý tín hiệu. Các hệ thống xử lý
tín hiệu được phân loại dựa vào đặc trưng của tín hiệu mà nó xử lý. Từ cách phân loại tín hiệu trên
đây, ta có các hệ thống xử lý tín hiệu tương ứng như sau:
Hệ thống tương tự: các mạch lọc tương tự, mạch khuyếch đại, nhân tần số, điều chế tín hiệu
v.v.
Hệ thống rời rạc: mạch tạo xung, điều chế xung v.v
Hệ thống số: mạch lọc số..
 
CuuDuongThanCong.com

 6 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Ngoài ra cũng còn các hệ thống hỗn hợp khác như hệ thống biến đổi tương tự- số hay
ngược lại.

Tín hiệu vào và tín hiệu ra của một hệ thống quan hệ với nhau thông qua toán tử biến đổi T:

T ⎡⎣ x ( t ) ⎤⎦ = y ( t )

hay

T
x ( t ) ⎯⎯
→ y (t )

(1.1.13)

1.1.3.1.1 Các tính chất của hệ thống tương tự
a) Tính tuyến tính:
Hệ thống là tuyến tính khi nó có tính xếp chồng:

x 1 ( t ) → y1 ( t )
nếu

(1.1.14)

x 2 (t ) → y 2 (t )
a 1 x 1 ( t ) + a 2 x 2 ( t ) → a 1 y1 ( t ) + a 2 y 2 ( t )

b) Tính bất biến theo thời gian:
Hệ thống được gọi là bất biến nếu

y ( t ) = T ⎡⎣ x ( t ) ⎤⎦ thì y ( t − t0 ) = T ⎡⎣ x ( t − t0 ) ⎤⎦

(1.1.15)


c) Tính nhân quả
Hệ thống được gọi là nhân quả nếu đáp ứng của nó tại thời điểm bất kỳ chỉ phụ thuộc vào
các giá trị của tín hiệu vào ở thời điểm hiện tại và quá khứ.
d) Tính ổn định: Một hệ thống được gọi là ổn định nếu tín hiệu ra giới hạn với tất cả các
tín hiệu vào giới hạn.
Dựa trên các tính chất đã nêu của hệ thống, chúng ta có thể phân loại các hệ thống như sau:
hệ thống tuyến tính, hệ thống bất biến, hệ thống nhân quả, hệ thống tuyến tính bất biến.

1.1.3.1.2 Các hệ thống tuyến tính bất biến (LTI)
Các hệ thống tuyến tính bất biến thường được biểu diễn trong miền thời gian dưới các dạng
sau:
-

Phương trình vi phân

-

Phương trình trạng thái

-

Đáp ứng xung.

Đáp ứng xung của hệ thống h ( t ) là đáp ứng ra của hệ thống khi tín hiệu đưa vào là xung
đơn vị. Nếu hệ thống là tuyến tính và bất biến thì tín hiệu ra của hệ thống có thể tìm được
thông qua tích chập giữa tín hiệu vào và hàm đáp ứng xung:

y (t ) = x (t ) ∗ h (t ) =




∫ x (τ ) h ( t − τ ) dτ

(1.1.16)

−∞

Các tính chất của hệ thống LTI
Tính nhân quả
Hệ thống LTI là nhân quả nếu h ( t ) = 0 với
nếu h ( t ) = 0 với

∀t

và ngược lại

∀t thì hệ thống là nhân quả.

 
CuuDuongThanCong.com

 7 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Tính ổn định của hệ thống LTI
Cho tín hiệu vào hệ thống được giới hạn biên độ:


x ( t ) ≤ M x < ∞ , M x là hằng số.

Trong trường hợp này, hệ thống sẽ là ổn định nếu đáp ứng xung của nó thỏa mãn điều


kiện:

∫ h ( t ) dt < ∞ . Điều kiện này là cần và đủ để hệ thống LTI là ổn định.

−∞

Hệ thống LTI không nhớ: hệ thống tuyến tính bất biến là không nhớ nếu h ( t ) = 0
với

t ≠0.
1.1.3.1.3 Phương trình sai phân tuyến tính hệ số hằng

Cho x ( t ) và y ( t ) là tín hiệu vào ra của hệ thống tuyến tính bất biến. Phương trình sai
phân tuyến tính hệ số hằng tổng quát của hệ thống có thể biểu diễn dưới dạng:
N

M

∑ ak y( k ) ( t ) = ∑ br x( r ) ( t )
k =0

(1.1.17)

r =0


N, M là số nguyên dương, N là bậc của phương trình.
Nghiệm đầy đủ của phương trình bằng tổng nghiệm riêng yr ( t ) và nghiệm thuần nhất

y0 ( t ) : y ( t ) = yr ( t ) + y0 ( t ) .
Trong đó nghiệm thuần nhất y0 ( t ) là nghiệm của phương trình thuần nhất:
N

∑ ak y( k ) ( t ) = 0 .

(1.1.18)

k =0

1.1.3.2 Hệ thống rời rạc

Hệ thống rời rạc được đặc trưng bởi toán tử T làm nhiệm vụ biến đổi dãy vào x ( n ) (là tín
hiệu rời rạc) thành dãy ra y ( n ) . Toán tử T cho chúng ta thấy quan hệ vào ra của hệ thống.
Chúng ta có hai cách để biểu diễn toán tử T:

T ⎡⎣ x ( t ) ⎤⎦ = y ( t )

hay

T
x ( t ) ⎯⎯
→ y (t )

(1.1.19)

Dãy vào còn được gọi là kích thích, còn dãy ra là đáp ứng của hệ thống đối với kích thích

đang khảo sát.

1.1.3.2.1 Hệ thống rời rạc tuyến tính bất biến (LTI)
a. Hệ thống tuyến tính
Hệ thống tuyến tính là hệ thống mà quan hệ vào ra của hệ thống thoả mãn nguyên lý xếp chồng.
Với x1 ( n ) và x2 ( n ) là các chuỗi vào bất kỳ, y1 ( n ) và y2 ( n ) là các chuỗi ra tương ứng. Hệ

thống được gọi là tuyến tính khi:
T
T
x1 ( n ) ⎯⎯
→ y1 ( n ); x2 ( n ) ⎯⎯
→ y2 ( n )
T
a1 x1 ( n ) + a2 x2 ( n) ⎯⎯
→ a1 y1 ( n ) + a2 y2 ( n )

(1.1.20)

trong đó a1, a2 là các hằng số.
 
CuuDuongThanCong.com

 8 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

b. Hệ thống tuyến tính bất biến
Nếu y ( n ) là đáp ứng của kích thích x ( n ) thì hệ thống tuyến tính gọi là bất biến khi


y ( n − k ) là đáp ứng của hệ thống đối với kích thích x ( n − k ) . Nếu biến số là thời gian thì ta
có hệ thống bất biến theo thời gian. Đối với hệ thống bất biến, khi kích thích giống nhau thì đáp
ứng sẽ giống nhau tại mọi thời điểm.
c. Hệ thống nhân quả và không nhân quả
Một hệ thống gọi là nhân quả khi tín hiệu ngõ ra tại một thời điểm nào đó chỉ phụ thuộc vào
các giá trị của tín hiệu vào từ thời điểm đó trở lại. Ta có thể biểu diễn quan hệ vào - ra của hệ
thống nhân quả bằng một phương trình toán học như sau:

y ( n ) = F ⎡⎣ x ( n ) , x ( n − 1) , x ( n − 2 ) ....⎤⎦ , với F là một hàm số nào đó.
Nếu hệ thống không thỏa mãn được điều kiện trên thì ta gọi hệ thống đó là không nhân quả.
d. Hệ thống ổn định và không ổn định
Một hệ thống gọi là ổn định nếu nó bị chặn (Bounded Input Bounded Output - BIBO), tức

là với một tín hiệu vào x ( n ) hữu hạn thì tín hiệu ra y ( n ) cũng hữu hạn:
nếu

x ( t ) ≤ M x < ∞ , M x là hằng số thì

y ( t ) ≤ M y < ∞ , M y là hằng số.
1.1.3.2.2 Đáp ứng xung của hệ thống tuyến tính bất biến
Nếu hệ thống là tuyến tính và bất biến ta có:
Khi hệ thống là tuyến tính và bất biến, thì ta có quan hệ sau :

y( n) =



∑ x(k )h(n − k )


(1.1.21)

k =−∞

h ( n ) là đáp ứng xung của hệ thống tuyến tính bất biến, không phụ thuộc vào biến k.
Đáp ứng của hệ thống có thể tìm được thông qua tích chập của kích thích và đáp ứng xung:

y( n) =



∑ x(k )h(n − k ) = x(n) ∗ h(n)

(1.1.22)

k =−∞

Như chúng ta đã biết, các hệ thống có tín hiệu ra chỉ phụ thuộc vào tín hiệu vào trong quá
khứ và hiện tại được gọi là hệ thống nhân quả.
Định lý : Hệ thống tuyến tính bất biến là nhân quả nếu và chỉ nếu đáp ứng xung h(n) = 0
với mọi n < 0.

1.1.3.2.3 Hệ thống tuyến tính bất biến và ổn định
Tính ổn định là một điều kiện ràng buộc quan trọng cần xét đến trong thực tế đối với các
hệ thống xử lý tín hiệu. Theo định nghĩa, một hệ thống được gọi là ổn định hay là hệ BIBO
(Bounded Input Bounded Output) nếu đáp ứng của hệ thống đó luôn bị chặn khi kích thích vào bị
chặn. Thuật ngữ bị chặn có thể hiểu là “có giá trị hữu hạn”.
 
CuuDuongThanCong.com


 9 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

Định lý: Một hệ thống tuyến tính bất biến được xem là ổn định nếu và chỉ nếu đáp ứng
xung thoả mãn điều kiện sau :

S=



∑ h(n) < ∞

(1.1.23)

n = −∞

1.1.3.2.4 Phương trình sai phân tuyến tính hệ số hằng
a. Phương trình sai phân tuyến tính
Về mặt toán học, kích thích vào x(n) và đáp ứng ra y(n) của hầu hết các hệ thống tuyến tính
thoả mãn một phương trình sai phân tuyến tính sau đây :
N

M

k =0

r =0


∑ a k ( n) y ( n − k ) = ∑ b r ( n) x ( n − r )

(1.1.24)

ở đây N và M là các số nguyên dương, N gọi là bậc của phương trình sai phân.
Trong phương trình này, tập hợp các hệ số ak(n) và br(n) sẽ quyết định toàn bộ hành vi của
hệ thống. Phương trình này chính là ảnh rời rạc của phương trình vi phân tuyến tính đối với các hệ
số liên tục, phương trình vi phân tuyến tính có dạng sau :
N

∑ a (t )
k

k =0

d k y (t ) M
d r x (t )
b
(
r
)
=

r
dt k
dt r
r =0

(1.1.25)


Chúng ta có thể nhận được phương trình sai phân tuyến tính từ một phương trình vi phân
tuyến tính bằng cách thay gần đúng của các đạo hàm vào vị trí của các đạo hàm. Ví dụ với đạo
hàm bậc một, ta có gần đúng như sau :

dy(t ) y(t ) − y(t − Δt )

dt
Δt
b. Phương trình sai phân tuyến tính hệ số hằng
Hệ tuyến tính bất biến đóng vai trò rất quan trọng trong nhiều ứng dụng thực tiễn. Một lớp
hệ con của hệ tuyến tính bất biến là các hệ có tín hiệu vào và tín hiệu ra thoả mãn phương trình sai
phân tuyến tính hệ số hằng (PT-SP-TT-HSH) dưới dạng:
N

M

k =0

r =0

∑ ak y( n − k ) = ∑ br x( n − r )

(1.1.26)

trong đó tập các hệ số ak và br đặc trưng cho hệ tuyến tính bất biến.
Hệ tuyến tính bất biến mô tả bằng PT-SP-TT-HSH đóng vai trò đặc biệt trong xử lý tín
hiệu số. Trong tài liệu này, chúng ta chỉ sử dụng các hệ thống xử lý tín hiệu được mô tả bằng
phương trình tuyến tính bất biến hệ số hằng nói trên.

1.1.3.2.5 Các hệ thống đệ quy và không đệ quy

a. Hệ thống không đệ quy
Một hệ thống tuyến tính bất biến được đặc trưng bởi PT-SP-HSH bậc N như sau :
N

M

k =0

r =0

∑ ak . y( n − k ) = ∑ br . x(n − r )

(1.1.27)

 
CuuDuongThanCong.com

 10 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

nếu trường hợp N = 0, ta có :
M

br
. x( n − r )
r =0 a0

y( n) = ∑

M

y( n) = ∑ br . x( n − r )

a0 ≠ 0
a0 = 1

(1.1.28)

r =0

Định nghĩa :

Hệ thống được đặc trưng bởi phương trình sai phân tuyến tính bậc không (N = 0) được gọi
là hệ thống không đệ qui.
b. Hệ thống đệ quy
Trong trường hợp nếu N > 0, ta có phương trình SP-TT-HSH bậc N như sau :
M

N
b
br
. x( n − r ) − ∑ k . y ( n − k )
r =0 a0
k =1 a0

y( n) = ∑

(1.1.29)


Định nghĩa :
Hệ thống được đặc trưng bởi phương trình sai phân bậc N > 0 được gọi là hệ thống đệ qui.

1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH

VÀO MẠNG BĂNG THÔNG ĐA DỊCH VỤ
1.2.1 Đặc điểm của multimedia
Multimedia là nguồn dữ liệu được tổng hợp từ các dạng thông tin khác nhau. Multimedia có
thể có dạng rất đơn giản, đơn cử như một vài hình ảnh kèm với dữ liệu text hay có thể có dạng
phức tạp như các file trình diễn multimedia sử dụng video clips, âm thanh, ảnh động và dữ liệu
text. File multimedia chiếm một dung lượng rất lớn khi chứa dữ liệu là các file video. Ví dụ như
tín hiệu video theo chuẩn PAL sau khi được số hóa cho luồng dữ liệu có tốc độ lên tới 170Mbps.
Dữ liệu âm thanh chiếm ít dung lượng hơn, ví dụ tốc độ dòng bits của tín hiệu Dolby Digital Plus
lên tới 6.144 Mbps. Đối với dữ liệu dạng ảnh thì dung lượng của nó tỷ lệ thuận với kích thước của
ảnh.
Một vấn đề quan trọng khác của multimedia là vấn đề đồng bộ.
- Dữ liệu âm thanh rất nhạy cảm với độ trễ hay tỷ lệ mất gói trong quá trình lưu trữ hay
trong qua trình truyền dẫn.
- Dữ liệu video thì ít nhạy cảm hơn với độ trễ (phụ thuộc vào ứng dụng) nhưng vẫn nhạy
cảm với jitter. Jitter có thể được loại bỏ trong các ứng dụng bằng các giải thuật tại máy thu.
Trong bảng dưới đây mô tả một số yêu cầu đối với tín hiệu âm thanh và hình ảnh trên mạng
ATM (RFC 1193 - Các yêu cầu cho các dịch vụ thời gian thực 11/1990).

 
CuuDuongThanCong.com

 11 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 


Nhìn chung, dữ liệu multimedia có dung lượng rất lớn và có đặc tính nhạy cảm với trễ cũng
như mất mát dữ liệu.
Để truyền các dạng dữ liệu trên mạng điện thoại, Internet hay mạng truyền hình, các đặc
tính kỹ thuật của từng loại dữ liệu phải được biến đổi cho phù hợp với đường truyền. Việc điều
chỉnh này bao gồm việc nén dữ liệu, định thời trong truyền dẫn và lưu trữ multimedia.

1.2.2 Nén tín hiệu trong mạng đa dịch vụ
Các kỹ thuật và giải thuật nén quyết định đến sự sống còn của các mạng đa dịch vụ. Ví dụ
như một kênh truyền hình số không nén có thể yêu cầu băng thông lên đến 216 Mbps. Nếu chúng
ta không dùng kỹ thuật nén, hệ thống chỉ có thể phục vụ đồng thời cho một số ít người. Nén là
giải pháp cứu cánh cho phép việc truyền bá rộng rãi video số và multimedia. Kỹ thuật nén phụ
thuộc vào giải thuật được cài đặt trên phần cứng hoặc phần mềm của máy phát và máy thu. Khi
ứng dụng yêu cầu tốc độ nén và giải nén cao, giải thuật phải được cài đặt trên phần cứng (card âm
thanh hay card đồ họa trên máy tính).
Nén dữ liệu là giải pháp để giảm bớt áp lực về băng thông trên mạng và giảm bớt không
gian lưu trữ, tuy nhiên nó cũng tạo ra một số nhược điểm đáng kể. Một số kỹ thuật nén hoạt động
dựa trên ý tưởng lược bớt các thông tin kém quan trọng trong tín hiệu vì thế sẽ tạo ra sự mất mát
độ phân giải trong tín hiệu nén. Nhưng bên cạnh đó, việc nén dữ liệu sẽ làm tăng tính bảo mật của
thông tin khi được truyền qua mạng công cộng. Khi tiến hành nén dữ liệu chúng ta phải quan tâm
đến các yếu tố sau: độ phức tạp của phần cứng và phần mềm, thời gian trễ gây nên bởi quá trình
xử lý nén và giải nén và cũng như các yếu tố quan trọng khác.
Trong các ứng dụng khác nhau người ta sử dụng các phương pháp mã hóa khác nhau để tận
dụng tối đa tài nguyên sẵn có, đồng thời đạt chất lượng dịch vụ cao nhất. Ví dụ như hội nghị video
phải được thực hiện và xử lý trong thời gian thực, vì thế các phương pháp má hóa và giải mã được
phải thỏa mãn các tiêu chuẩn xử lý trong thời gian thực. Đây là lý do quan trọng mà tiêu chuẩn
H.261 được thiết kế. Một ví dụ khác là việc truyền file video qua mạng có dây, không dây tới hệ
thống lưu trữ video không đòi hỏi thời gian thực, quá trình thực hiện ít nhạy cảm với thời gian trễ
nên thời gian xử lý mã hóa và giải mã không là một vấn đề quan trọng, ngược lại hiệu quả nén
mới là tiêu chí đặt lên hàng đầu, vì vậy tiêu chuẩn nén MPEG được thiết kế (ban đầu) dựa trên

quan điểm này.

1.2.3 Lưu trữ
Như đã nói ở trên, thông tin âm thanh chất lượng cao và video trong multimedia làm cho
luồng số tổng hợp có kích thước rất lớn, vì thế lưu trữ dữ liệu là một trong những vấn đề quan
 
CuuDuongThanCong.com

 12 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

trọng trong hệ thống multimedia. Hiện nay, hệ thống multimedia sử dụng hầu hết các công nghệ
truyền thống để ghi dữ liệu đó là các công nghệ lưu trữ từ, quang và công nghệ flash. Giá thành
các hệ thống lữu trữ dung lượng lớn ngày càng hạ, trong khi các thông số kỹ thuật liên tục được
cải thiện. Ví dụ, các ổ đĩa cứng (HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới
300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng
không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Hệ thống RAID (Redundant
Array of Independent Disks) có thể được thiết lập từ 8, 16 hoặc nhiều hơn nữa các ổ cứng có dung
lượng lên tới 750 GB mỗi ổ. Với dung lượng 12 TB, hệ thống RAID cho phép ghi tới ~2700 giờ
video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Giá
thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng
1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps.
Trong các hệ thống truyền dẫn có băng thông hẹp, việc truyền tải dữ liệu multimedia không
thể thực hiện trong thời gian thực, khi đó các user đầu cuối phải sử dụng thiết bị lưu trữ cục bộ.
Toàn bộ dữ liệu sau khi tải về sẽ được giải mã để trình chiếu offline. Ví dụ như mạng Internet chỉ
có khả năng phân phối video và audio trực tuyến với chất lượng thấp, tuy nhiên lưu trữ cục bộ vẫn
cho phép người dùng nghe nhạc hoặc xem video chất lượng cao. Hệ thống lưu trữ ngày càng được
cải tiến để đáp ứng nhu cầu này.

Các thiết bị lưu trữ như CDROM và DVD cũng được cải tiến để cung cấp luồng dữ liệu tốc
độ cao. Công nghệ CDROM hiện tại có thể truyền tải dữ liệu khoảng 64 Mbps hay cao hơn, lưu
trữ khoảng 700MB dữ liệu và có thời gian truy cập khoảng 300 ms. Đĩa DVD một mặt có dung
lượng ~4.7 GB. Với các thông số như vậy, công nghệ CD ROM là tạm chấp nhận được cho một
số ứng dụng. Hiện tại công nghệ đĩa cứng vẫn được cải tiến liên tục để phục vụ cho nhu cầu lưu
trữ đa dạng của dữ liệu multimedia ngày càng đòi hỏi những tiêu chuẩn khắt khe về không gian
lưu trữ, thời gian trễ…

1.2.4 Băng thông
Các ứng dụng multimedia, đặc biệt các ứng dụng liên quan đến video và hình ảnh yêu cầu
băng thông rất lớn. Tuy nhiên băng thông là nguồn tài nguyên giới hạn. Tăng băng thông đồng
nghĩa với việc tăng chi phí để nâng cấp, cài đặt các thiết bị truyền dẫn quang, các thiết bị đầu cuối
phức tạp, các bộ chuyển mạch tốc độ cao….
Mặc dù hiện này công nghệ chuyển mạch đã phát triển mạnh mẽ cũng với mạng cáp quang
cho phép cung cấp nhiều băng thông hơn, nhưng kinh nghiệm cho thấy việc phát triển của mạng
luôn luôn thấp hơn nhu cầu thực tế. Do đó, cần có cơ chế phân phối và quản lý băng thông cho
các ứng dụng tại thiết bị đầu cuối để băng thông được sử dụng một cách hợp lý và hiệu quả.

1.2.5 Chất lượng dịch vụ (Quality of Service)
Hiện này nhu cầu trao đổi dữ liệu multimedia qua mạng là rất lớn. Để đảm bảo chất lượng
dịch vụ ở đầu cuối, các thông số quan trọng sau phải được đánh giá và điều khiển: tỷ lệ lỗi bit (Bit
Error Ratio), tỷ lệ mất gói, thời gian trễ và sự biến thiên của thời gian trễ…Ở một số dịch vụ tài
nguyên của mạng sẽ được dành sẵn để đảm bảo các thông số trên. Ví dụ như trong mạng ATM,
người dùng đầu cuối sẽ được phân định các mức băng thông và chất lượng dịch vụ khác nhau phụ
thuộc vào ứng dụng cụ thể. Với các ứng dụng liên quan đến thoại, tài nguyên của mạng được phân
phối sao cho mức trễ nằm trong phạm vi cho phép để đảm bảo chất lượng thoại.

 
CuuDuongThanCong.com


 13 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

1.2.6 Tương tác
Ngày này, cùng với sự phát triển của công nghệ, tồn tại rất nhiều các loại phần cứng khác
nhau, các loại mạng khác nhau, các ứng dụng khác nhau và các loại định dạng multimedia khác
nhau. Việc tương tác để chúng cùng hoạt động được là vấn đề cốt lõi của người dùng đầu cuối
multimedia.
Để giải quyết vấn đề đó, tổ chức IMA (Interactive Multimedia Association) và MMCF
(Multimedia Communications Forum) được thành lập để phát triển các giải pháp giải quyết vấn đề
tương tác multimedia giữa các chuẩn khác nhau.
Mục đích của MMCF là phát triển:
- Giải pháp tương tác multimedia từ người dùng đầu cuối đến người dùng đầu cuối mà
không phụ thuộc vào ứng dụng cũng như công nghệ truyền dẫn.
- Phát triển Application Programming Interfaces (API) mở rộng hỗ trợ tương tác giữa người
dùng đầu cuối với người dùng đầu cuối mà không phụ thuộc vào nhà sản xuất. Loại phần mềm
như vậy được gọi dưới tên là ‘middleware” bởi vì nó liên quan đến ứng dụng của người dùng đầu
cuối cũng như định dạng file, kỹ thuật lưu trữ và mạng truyền dẫn.
IMA đảm nhận trách nhiệm kết hợp các tiêu chuẩn định dạng multimedia. Đây là một công
việc khó khăn vì hiện này tồn tại rất nhiều định dạng cho âm thanh, hình ảnh và video.
Hiện nay có khoản 20 mô hình (scheme) mã hóa âm thanh. Hầu hết đều dựa trên u-law, Alaw và ADPCM sử dụng 4, 8 hay 16 bit/mẫu. Các định dạng tiêu biểu như:
• Sound Blaster .VOC
• Windows .WAV
• Sounder/Soundtools .SND
• Apple/SGI AIFF files
Với dữ liệu ảnh màu cũng tồn tại rất nhiều định dạng khác nhau. Các định dạng ảnh màu
cho phép hiển thị từ 16 đến hàng triệu màu. Các định dạng ảnh tĩnh tiêu biểu đang được sử dụng
rộng rãi là:

• Windows Bitmap .BMP
• Graphic Interchange Format .GIF
• Joint Picture Experts Group .JPEG or JPG
• TIFF
• PCX
• PhotoCD .PCD
Hiện nay trên toàn thế giới có tổng cộng khoảng 15 loại định dạng video cho truyền hình
tương tự và truyền hình chất lượng cao (High Definition TV) đã được thực hiện và đưa ra thị
trường. Một số định dạng tiêu biểu của video:
• Motion JPEG
• Video conferencing H.261
• Microsoft AVI Video for Windows
• Apple Quicktime
• Intel Indeo DVI
 
CuuDuongThanCong.com

 14 
/>

Chương 1 Giới thiệu chung về xử lý tín hiệu 

• ISO MPEG-1, MPEG-2, MPEG-4
TÓM TẮT CHƯƠNG 1

Trong chương một chúng ta đã nhắc lại một số khái niệm cơ bản về tín hiệu và hệ thống xử
lý tín hiệu nói chung. Những kiến thức này sẽ được sử dụng và mở rộng để phục vụ cho quá trình
nghiên cứu xử lý tín hiệu âm thanh và hình ảnh ở những chương sau.
Phạm vi ứng dụng kỹ thuật xử lý âm thanh và hình ảnh nói chung rất rộng. Nhưng, nói
riêng trong ngành viễn thông, mục đích chính của việc xử lý các tín hiệu nói trên nhằm vào việc

nâng cao chất lượng tín hiệu và nén dung lượng tín hiệu để truyền qua kênh truyền. Trong chương
một chúng ta cũng nhắc tới khái niệm về hệ thống truyền thông đa dịch vụ. Một số đặc điểm và
các thông số quan trọng của hệ thống truyền thông đa dịch vụ được đã được nêu ra. Có thể thấy
rằng, tín hiệu audio và video là một phần thông tin multimedia phải được xử lý để đáp ứng nhưng
yêu cầu khắt khe đặt ra trong hệ thống truyền thông đa dịch vụ. Đó là các tiêu chuẩn về độ nén,
thời gian trễ, các đòi hỏi về cấu hình bộ mã hoá và giải mã v.v. Trong mạng truyền thông đa dịch
vụ, vai trò của xử lý ảnh và âm thanh trở nên vô cùng quan trọng.
Trong các chương tiếp theo của tài liệu này, chúng ta sẽ giới thiệu cụ thể hơn về các công
cụ toán học được sử dụng để phân tích từng loại tín hiệu cũng như các ứng dụng riêng của xử lý
âm thanh và hình ảnh.
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 1

1. Cho biết ưu điểm và nhược điểm của hệ thống xử lý tín hiệu số
2. Kỹ thuật xử lý âm thanh được sử dụng trong các lĩnh vực khoa học nào?
3. Liệt kê các ứng dụng chính của hệ thống xử lý ảnh
4. Phân tích các phương pháp phân loại tín hiệu. Trong các hệ thống xử lý tín hiệu, cách
phân loại tín hiệu nào được sử dụng rộng rãi nhất.
8. Các hệ thống xử lý tín hiệu được phân loại theo cách nào? Trong thực tế chúng ta thường
gặp những hệ thống xử lý tín hiệu loại nào?
9. Thế nào là hệ thống xử lý tín hiệu tuyến tính và bất biến?
10. Nêu định nghĩa hàm đáp ứng xung của hệ thống xử lý tín hiệu
12. Thế nào là hệ thống nhân quả và ổn định?
13. Phát biểu định nghĩa hệ thống đệ quy. Cho biết hàm đáp ứng xung của hệ thống xử lý
tín hiệu nào có chiều dài hữu hạn?
14. Thế nào là Multimedia? Phân tích tầm quan trọng của kỹ thuật nén tín hiệu trong lĩnh
vực truyền dẫn dữ liệu Multimedia.
15. Nêu ra các phương tiện thường được dùng để lưu trữ dữ liệu số? Những thông số nào
đặc trưng cho hệ thống lưu trữ dữ liệu?
16. Cho biết các định dạng ảnh tĩnh và ảnh động thông dụng được sử dụng trong hệ thống
truyền phát multimedia hiện nay?


 
CuuDuongThanCong.com

 15 
/>

Chương 2 Kỹ thuật xử lý âm thanh

CHƯƠNG 2 KỸ THUẬT XỬ LÝ ÂM THANH
2.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH
2.1.1 Giới thiệu sơ lược về âm thanh và hệ thống xử lý âm thanh
2.1.1.1 Đặc tính của âm thanh tương tự
Mục đích của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc điểm
của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi
thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời nói là tín
hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.

Hình 2.1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người
Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như
trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau.
Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là
vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp khi so sánh với nhau
phải dùng một tỉ lệ thời gian.
Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết
bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù công nghệ có vẻ xử
lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số
liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý
âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban

đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên
hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tín hiệu số sẽ truyền
trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn. Trong giáo trình này,
tập trung đề cập đến hệ thống số xử lý âm thanh.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể
được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu
(symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme).
Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến
50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên
thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới
hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong
một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có
16
CuuDuongThanCong.com

/>

Chương 2 Kỹ thuật xử lý âm thanh
thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây,
và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc
độ truyền trung bình của âm thoại khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều
cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần
quan tâm chung là:
1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại
2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc
lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm
giảm nghiêm trọng nội dung của thông điệp thoại.
Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ

dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự động.
2.1.1.2 Khái niệm tín hiệu
Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều
biến độc lập khác, ví dụ như:
¾ Âm thanh, tiếng nói: dao động sóng theo thời gian (t)
¾ Hình ảnh: cường độ sáng theo không gian (x, y, z)
¾ Địa chấn: chấn động địa lý theo thời gian
Biểu diễn toán học của tín hiệu: hàm theo biến độc lập
Ví dụ:
¾ u (t ) = 2t 2 − 5
¾

f ( x, y ) = x 2 − 2 xy − 6 y 2

Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho
nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự nhiên.
Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các phép
toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực hiện phép toán còn
được gọi là xử lý tín hiệu.
2.1.1.3 Phân loại tín hiệu
Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần, cùng chung mô tả một đối tượng nào
đó, thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECGElectroCardioGram), tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu
RGB.
Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình
ảnh, tín hiệu tivi trắng đen.
Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn
thời gian [a, b], ký hiệu x(t ) .

17
CuuDuongThanCong.com


/>

Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh

Hìn
nh 2.1.1 Tínn hiệu liên tụục theo thời gian
g
Tín hiệu rờ
ời rạc thời gian:
g
là tín hiệu
h
chỉ đượcc định nghĩaa tại những thời
t
điểm rờ
ời rạc
khác nhau,
n
ký hiệuu x(n) .

Hìn
nh 2.1.2 Tínn hiệu rời rạcc theo thời gian
g
Tín hiệu liên tục giá trrị: là tín hiệuu có thể nhậnn trị bất kỳ trong
t
đoạn [Ymin , Ymax ] , ví
v dụ

tín hiệệu tương tự (analog).
(

Hìn
nh 2.1.3 Tínn hiệu liên tụục giá trị
Tín hiệu rờ
ời rạc giá trrị: tín hiệu chỉ
c nhận trị trong một tậập trị rời rạc định trướcc (tín
hiệu sốố).

CuuDuongThanCong.com

/>

Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.1.4 Tín hiệu rời rạc giá trị
Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.

Hình 2.1.5 Tín hiệu analog
Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.

Hình 2.1.6 Tín hiệu số
Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các
tín hiệu trong tự nhiên thường thuộc nhóm này
Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ,
thông thường có công thức xác định rõ ràng
2.1.1.4 Phân loại hệ thống xử lý
Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý
số: là hệ thống có thể lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt với độ chính

xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khó thực
hiện với các tín hiệu có tần số cao
19
CuuDuongThanCong.com

/>

Chương 2 Kỹ thuật xử lý âm thanh
2.1.1.5 Hệ thống số xử lý âm thanh
Độ nhạy của tai người rất cao, nó có thể phân biệt được số lượng nhiễu rất nhỏ cũng
như chấp nhận tầm biên độ âm thanh rất lớn. Các đặc tính của một tín hiệu tai người nghe
được có thể được đo đạc bằng các công cụ phù hợp. Thông thường, tai người nhạy nhất ở tầm
tần số 2kHz và 5kHz, mặc dù cũng có người có thể nhận dạng được tín hiệu trên 20kHz. Tầm
động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp
ứng logarith.
Tín hiệu âm thanh được truyền qua hệ thống số là chuỗi các bit. Bởi vì bit có tính chất
rời rạc, dễ dàng xác định số lượng bằng cách đếm số lượng trong một giây, dễ dàng quyết
định tốc độ truyền bit cần thiết để truyền tín hiệu mà không làm mất thông tin.

Hình 2.1.7 Để nhận được tám mức tín hiệu khác nhau một cách phân biệt, tín hiệu
đỉnh-đỉnh của tín hiệu nhiểu phải nhỏ hơn hoặc độ sai biệt giữa các mức độ. Tỉ số tín hiệu trên
nhiễu phải tối thiểu là 8:1 hoặc là 18dB, truyền bởi 3 bit. Ở 16 mức thì tỉ số tín hiệu trên nhiễu
phải là 24dB, truyền bởi 4 bit.
2.1.1.6 Mô hình hóa tín hiệu âm thanh
Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong
việc khôi phục âm thanh. Chất lượng của âm thoại phụ thuộc rất lớn vào mô hình giả định phù
hợp với dữ liệu. Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong
muốn, mô hình phải tổng quát và không sai lệnh so với giả định. Một điều cần lưu ý là hầu hết
các tín hiệu âm thoại là các tín hiệu động trong thực tế, mặc dù mô hình thực tiễn thì thường
giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang

xét.
Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao
gồm việc phục hồi âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình
20
CuuDuongThanCong.com

/>

Chương 2 Kỹ thuật xử lý âm thanh
chuẩn cho việc phân tích dự đoán tuyến tính.
Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín hiệu
nhiễu trắng, P là bậc của mô hình AR:
P

s[u ] = ∑ s[n − i ]ai + e[n]

(2.1.1)

i =1

Mô hình AR đại diện cho các quá trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự
nhiễu và tín hiệu tương tự điều hòa. Một mô hình khác phù hợp hơn đối với nhiều tình huống
phân tích là mô hình auto regressive moving-average (ARMA) cho phép các điểm cực cũng
như điểm 0. Tuy nhiên mô hình AR có tính linh động hơn trong phân tích hơn mô hình
ARMA, ví dụ một tín hiệu nhạc phức tạp cần mô hình có bậc P > 100 để biểu diễn dạng sóng
của tín hiệu, trong khi các tín hiệu đơn giản hơn chỉ cần biểu diễn bằng bậc 30. Trong nhiều
ứng dụng, việc lựa chọn bậc của mô hình phù hợp để đảm bảo việc biểu diễn tín hiệu để
không làm mất đi thông tin ban đầu là tương đối phức tạp. Có rất nhiều phương pháp dùng để
ước lượng bậc của mô hình AR như phương pháp trong các phương pháp dùng để giảm nhiễu.
Tín hiệu được cho bởi công thức (2.1.2):


⎛ nT

s[n] = ∑ ai [n]sin⎜⎜ ∫ ωi (t )dt + φi ⎟⎟
i =1
⎝0

Pn

(2.1.2)

Đây là mô hình tổng quát đối với các tín hiệu điều chế biên độ và điều chế tần số, tuy
nhiên lại không phù hợp để mô tả các thành phần nhiễu tương tự, mặc dù nhiễu có thể được
biểu diễn bởi số lượng hàm sin rất lớn.
2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh
Để sử dụng máy tính trong xử lý âm thanh, người ta thường dùng phương pháp điều
chế xung (Pulse Code Modulation - PCM). Dạng sóng âm thanh được chuyển sang dãy số
PCM như sau, xét tín hiệu hình sin làm ví dụ:
Tín hiệu gốc là tín hiệu âm thanh lan truyền trong không khí như hình 2.1.8
Tín hiệu âm thanh dịch
Air Displacement
lan truyền trong không khí

ƒ

Time

Hình 2.1.8 Dạng sóng âm thanh nguyên thủy
ƒ


Kế đến, sử dụng một microphone để thu tín hiệu âm thanh và chuyển đổi thành tín
hiệu điện, biên độ điện áp ngõ ra của microphone (sau khi được khuếch đại) nằm trong
khoảng ±1 volt như hình 2.1.9.

21
CuuDuongThanCong.com

/>

Chương 2 Kỹ thuật xử lý âm thanh

+1.0
Voltage

+0.5
0
-0.5
-1.0
Time

Hình 2.1.9 Dạng sóng của tín hiệu điện
ƒ

Vì số lượng điểm dữ liệu là vô hạn nên không thể truyền đi tất cả các điểm trên trục
thời gian, việc lấy mẫu sẽ được thực hiện trong một khoảng thời gian đều đặn. Số
lượng mẫu trong một giây được gọi là tần số lấy mẫu (sampling rate). Hình 2.1.10 mô
tả 43 mẫu được lấy:
Converter Output

+32,767

+16,383
0
-16,384
-32,768
1

43

Hình 2.1.10 Thực hiện việc lấy mẫu
ƒ

Tín hiệu điện áp dạng tương tự sau đó được lượng tử hóa và số hóa bằng thiết bị
chuyển đổi tương tự-số (analog-to-digital converter). Khi sử dụng bộ lượng tử chuyển
đổi 16bit/mẫu, tầm số nguyên ngõ ra có giá trị từ –32,768 đến +32,767, được mô tả
như hình 2.1.11.
Converter Output

+32,767
+16,383
0
-16,384
-32,768
Time

Hình 2.1.11 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số
ƒ

Kết quả của việc lấy mẫu và lượng tử được biến đổi thành một chuỗi gồm 43 chữ số
biểu diễn các mẫu của dạng sóng ứng thời gian (hình 2.1.12).
Recorded Value


+32,767
+16,383
0
-16,384
-32,768
1

43

Hình 2.1.12 Kết quả của việc lấy mẫu các giá trị
22
CuuDuongThanCong.com

/>

Chương 2 Kỹ thuật xử lý âm thanh
Tín hiệu số có thể được chuyển đổi ngược thành tín hiệu tương tự bằng việc kết nối
các điểm dữ liệu rời rạc lại với nhau. Dạng sóng kết quả được mô tả ở hình 2.1.13.
Recorded V alue

+32,767
+16,383
0
-16,384
-32,768
1

43


Hình 2.1.13 Dạng sóng được tái tạo lại
Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái
tạo giữa hình 2.1.9 và hình 2.1.13, lý do:
A. Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số
nguyên và được làm tròn giá trị.
B. Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận.
Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một
dạng sóng tín hiệu tương tự với độ chính xác hữu hạn.
2.1.1.8 Tần số lấy mẫu
Khi chuyển đổi một âm thanh sang dạng số, điều cần lưu ý là tần số lấy mẫu của hệ
thống xử lý phải đảm bảo để có thể phục hồi lại dạng sóng tín hiệu ban đầu một cách chính
xác.
Theo định lý lấy mẫu Nyquist và Shannon, tần số lấy mẫu xác định bởi tần số cao nhất
của tín hiệu phục hồi. Để tái tạo lại dạng sóng có tần số là F , cần phải lấy 2 F mẫu trong
một giây. Tần số này còn được gọi là tần số Nyquist.
2.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh
2.1.2.1 Phép biến đổi z
Phép biến đổi z của một chuỗi được định nghĩa bởi cặp biểu thức

X (z ) =



∑ x ( n) z

−n

(2.1.3a)

n = −∞


x ( n) =

1
X ( z ) z n−1dz

2πj C

(2.1.3b)

Biến đổi Z của x (n) được định nghĩa bởi biểu thức (2.1.3a). X (z ) còn được gọi là
dãy công suất vô hạn theo biến z −1 với các giá trị của x (n) chính là các hệ số của dãy công
suất. Miền hội tụ ROC là { z X (z ) < ∞ }, là những giá trị của z sao cho chuỗi hội tụ, hay
nói cách khác


∑ x(n) z

−n

<



(2.1.4)

n=−∞

23
CuuDuongThanCong.com


/>

Chương 2 Kỹ thuật xử lý âm thanh
Thông thường, miền hội tụ của z có dạng:

R1 < z < R2

(2.1.5)

Ví dụ: Cho x ( n ) = δ ( n − n0 ) . Theo công thức (2.1.3a), ta có X ( z ) = z − n0
Ví dụ: Cho x ( n ) = u ( n ) − u ( n − N ) . Theo công thức (2.1.3a), ta có
N −1

X ( z ) = ∑ (1).z

−n

n =0

1− z−N
=
1 − z −1



n −n
Ví dụ: Cho x ( n ) = a n .u ( n ) . Suy ra X ( z ) = ∑ a z =
n =0


Ví dụ: Cho x ( n) = −b n u ( − n − 1) . Then X ( z ) =

−1

∑b z
n

1
,a < z
1 − az −1
−n

=

n=−∞

1
, z 1 − bz −1

Bảng 2.1.1 Chuỗi tín hiệu và biến đổi z tương ứng
Chuỗi tín hiệu

Biến đổi z

ax1 ( n) + bx2 ( n )

aX 1 ( z ) + bX 2 ( z )

x ( n + n0 )


z n X ( z)

3. Hàm mũ

a n x(n )

X ( a −1 z )

4. Hàm tuyến tính

nx(n)

5. Đảo thời gian

x(-n)

X ( z −1 )

6. Tương quan

x(n)*h(n)

X(z)H(z)

7. Nhân chuỗi

x(n)w(n)

1

X (ν )W ( z /ν )ν −1dν

2πj C

1. Tuyến tính
2. Dịch

0

−z

dX ( z )
dz

2.1.2.2 Phép biến đổi Fourier
Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức


X (e jw ) =

∑ x(n)e

− jwn

(2.1.6a)

n=−∞

x ( n) =


1


π

∫ π X (e


jw

)e jwn dw

(2.1.6b)

Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế

z = e . Như mô tả trong hình 2.1.14, trong mặt phẳng z, tần số w là góc quay. Điều kiện đủ
để tồn tại biến đổi Fourier là z = 1 , như vậy
iw



∑ x(n) < ∞

(2.1.7)

24
CuuDuongThanCong.com

/>


Chương 2 Kỹ thuật xử lý âm thanh

Hình 2.1.2 Vòng tròn đơn vị thuộc mặt phẳng z
Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là X (e iw ) là hàm điều hòa
w, với chu kỳ là 2π .
Bằng cách thay z = e iw ở bảng 2.1.1, có có được bảng biến đổi Fourier tương ứng.
2.1.2.3 Phép biến đổi Fourier rời rạc
Trong trường hợp tín hiệu tương tự, tuần hoàn với chu kỳ N

~
x ( n) = ~
x (n + N )

−∞ < n<∞

(2.1.8)

Với ~
x ( n) có thể có dạng là tổng rời rạc các tín hiệu sin thay vì tích phân như ở công
thức (2.1.9b). Phép biến đổi Fourier cho chuỗi tuần hoàn như sau

N −1
−j
kn
~
X (k ) = ∑ ~
x ( n )e N

(2.1.9a)


n=0

1
~
x (k ) =
N



N −1

j
kn
~
∑ X ( k )e N

(2.1.9b)

k =0

Chuỗi x(n) hữu hạn, có giá trị bằng 0 với 0 ≤ n ≤ N − 1, có phép biến đổi z là.
N −1

X ( z ) = ∑ x ( n) z − n

(2.1.10)

n =0


Nếu chia X (z ) thành N điểm trên vòng tròn đơn vị, z k = e j 2πk N , k = 0,1,..., N − 1 , ta
có:

X (e

j


k
N

N −1

) = ∑ x ( n )e

−j


kn
N

, k = 0,1,..., N − 1

(2.1.11)

n=0

Chuỗi tuần hoàn vô hạn ~
x (n) có công thức từ x(n) như sau


~
x ( n) =



∑ x(n + rN )

(2.1.12)

r =−∞
j



k

Ta nhận thấy rằng các mẫu X (e N ) từ phương trình (2.1.9a) và (2.1.11) chính là các
hệ số Fourier của chuỗi tuần hoàn ~
x (n) trong phương trình (2.1.12). Như vậy, một chuỗi có
chiều dài N có thể được biểu diễn bởi phép biến đổi Fourier rời rạc (DFT) như sau:
N −1

X ( k ) = ∑ x ( n)e

−j


kn
N


, k = 0,1,..., N − 1

(2.1.13a)

n =0

25
CuuDuongThanCong.com

/>

×