Tải bản đầy đủ (.pdf) (31 trang)

Bài giảng xử lý âm thanh và hình ảnh-p3 pps

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (501.45 KB, 31 trang )

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




12

Chương 2: Kỹ thuật xử lý âm thanh

2.1. Các đặc trưng cơ bản của âm thanh
2.1.1. Khái niệm về âm thanh và các tham số đánh giá
Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định.
Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của
các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường
là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một
màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần
kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độ lớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói
là truyền thông tin từ não người nói sang não người nghe. Có thể xem như tiếng nói
(thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.

Âm thanh có các tham số đánh giá đặc trưng sau đây:
1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một
đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn
thì âm thanh càng cao và ngược lại. Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là
Hz).
Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến
khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay
âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những
âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được


các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể
nghe được sóng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không
khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều
trong các thiết bị máy móc hiện nay.
Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng
λ
của âm
thanh được xác định theo biểu thức
λ
= c.T (c là tốc độ lan truyền của âm thanh trong
không khí = 340m/s). Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến
0.017m.
Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm
phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn.
Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




13

300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz. Tiếng nói con
người thường có dải tần số từ 300Hz đến 3400Hz.
2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyền lan
đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một
điểm gọi là thanh áp ở điểm đó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động
lên một diện tích 1cm2 một lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta
thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.


3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian
một giây. Công suất âm thanh P có thể tính bằng biểu thức:

P = p.S.v (2.1)

Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S
là diện tích. Công suất âm thanh tính theo đơn vị oát (W).
Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải
phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W.
4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị
diện tích là 1cm2.

I = P/S = p.v (2.2)

Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suất của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt
là dB). Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm
lượng của âm và trọng âm của từ.
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh
tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên
các nguyên âm đối lập nhau về độ dài. Hai từ "tang" và "tăng" trong tiếng Việt có sự đối
lập âm a dài (trong "tang") và âm a ngắn (trong "tăng").
7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các
thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm sắc được quyết định
bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm
thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ

dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với
từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




14

Âm sắc chính là cái sắc thái riêng của từng âm. Âm sắc còn được quyết định bởi vật thể
dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra
âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động
(non - sonants hoặc bruyants).

Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự
hiện diện của âm thanh đối với người nghe. Chúng bao gồm: (1) Tái tạo lại âm nhạc với
độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio
compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại
(synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người.

Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm:
Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng
(enhancement) và hồi phục tiếng nói (restoration).

Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin
di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén
cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử
dụng tài nguyên hệ thống có hiệu quả hơn. Một ví dụ khác nữa là lưu trữ thoại số (các
máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu
nhiều bản tin dài hơn.

Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra
tiếng nói và đặc trưng hệ thống thính giác con người.
2.1.2. Các đặc điểm của hệ thống thính giác con người

2.1.2.1. Cấu trúc tai người

Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp.
Hình 2.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai
phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính
0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm
thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an
toàn ở trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ
(tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào
màng nhĩ và làm cho nó rung động.
Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của
màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung
động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ
có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu
được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




15

giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp
có nghĩa là ốc sên (snail) – hình 2.2.

Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng,

chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường,
trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở
kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số
nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính
kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong
không khí. Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị
phản xạ trở lại tại giao tiếp không khí/chất lỏng.

Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng
lượng sóng âm đi vào dung dịch chất lỏng của tai trong. Chẳng hạn, cá không có trống tai
hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí. Phần lớn
những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai
(màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm
thành vào trong dung dịch chất lỏng. Màng nhĩ có diện tích khoảng chừng 60 mm2, trong
khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho
diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15
lần.
Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng
12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai
(cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về
phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum
analyzer). Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái
cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như
vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều
này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt.
Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường
dẫn âm tới bộ não.

Hình 2.1: Sơ đồ chức năng của tai người
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh





16



1. Ống tai 2. Trống tai 3-5. Xương
tai giữa
6. Cửa sổ
oval
7. Ống
thông
xuống mũi
8. Ốc tai 9. Thần
kinh âm
thanh

Hình 2.2: Cấu tạo của tai người

2.1.2.2. Sự cảm thụ của tai người đối với âm thanh

Tai người rất nhạy cảm âm thanh. Chúng ta có thể nghe những sóng âm kéo dài
chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại. Mắt người không cảm nhận được
những thay đổi về mức độ ánh sáng trong một vài ms. Kết quả là trong quá trình truyền
thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng
âm thanh lớn hơn hình ảnh.

1. Ngưỡng nghe

Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được
đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức
áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện
được. Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây. Ngưỡng này là một hàm
của tần số âm thanh. Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới
mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất
trong phạm vi tần số từ 2 – 4KHz.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




17


Hình 2.3: Ngưỡng nghe
2. Mặt nạ tần số (frequency masking)
Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che
khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này là
gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng”
qua các thành phần bên cạnh. Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần
bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được. Kết quả là có một
thành phần – thành phần che khuất làm dịch ngưỡng nghe. Hình 2.4 minh họa hiện tượng
này.

Hình 2.4: Mặt nạ tần số
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh





18

3. Mặt nạ thời gian
Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong
miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm
thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi
tăng âm lượng có thể bị che khuất. Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển
hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau.

Hình 2.5: Mặt nạ thời gian
4. Các dải băng tần tới hạn

Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng
tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được
các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là
khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz.
Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng
thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây.
Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải
tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6). Nói cách khác, hệ thống
thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn
nhau, trong dải tần từ 0 đến 20kHz. Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm
thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới
hạn thay vì chỉ nằm trong một dải tần. Trong thực tế, tai người không có khả năng biết
phân biệt trong cùng một dải tần tới hạn do sự che tần số.

Dải tần #
Tần số giới hạn
dưới

(Hz)
Tần số
trung tâm
(Hz)
Tần số giới hạn
trên
(Hz)
Độ rộng
băng tần (Hz)
1 - 50 100 -
2 100 150 200 100
3 200 250 300 100
4 300 350 400 100
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




19

5 400 450 510 110
6 510 570 630 120
7 630 700 770 140
8 770 840 920 150
9 920 1000 1080 160
10 1080 1170 1270 190
11 1270 1370 1480 210
12 1480 1600 1720 240
13 1720 1850 2000 280
14 2000 2150 2320 320

15 2320 2500 2700 380
16 2700 2900 3150 450
17 3150 3400 3700 550
18 3700 4000 4400 700
19 4400 4800 5300 900
20 5300 5800 6400 1100
21 6400 7000 7700 1300
22 7700 8500 9500 1800
23 9500 10500 12000 2500
24 12000 13500 15500 3500
25 15500 18775 22050 6550

Bảng 2.1: Các băng tần tới hạn và độ rộng băng tần

Hình 2.6: Hệ thống các bộ lọc thông dải

Một đơn vị mới được gọi là Bark, theo tên của Heinrich Barkhausen (1881-1956),
một nhà khoa học về âm thanh. Một đơn vị Bark tương ứng với độ rộng của một dải tần
tới hạn, với bất kỳ tần số che chắn nào.
Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị
Bark như sau:



(2.3)3)
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh





20

Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz.

Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các
dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người
ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ
biến nhất trong các chuẩn nén âm thanh MPEG.

2.2. Mã hóa tín hiệu thoại

2.2.1. Quá trình tạo ra tiếng nói
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc
biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nhờ
có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như
ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở
tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết.
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm
thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người,
có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện
thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là
phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ
nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ,
điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao
tiếp nhanh chóng.
Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có
điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại.

Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7. Cơ
bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật

ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ
thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm
thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để
hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi
và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi.

Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với
nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi.
Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống
họng để hình thành nên các âm thoại giọng mũi.
Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục
theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




21

Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số
được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này




Hình 2.7: Bộ phận phát âm của con người

Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra
tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây
thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người

có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh.

Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra
được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí
ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở.

Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một
chu kỳ nhất định T
0
tạo ra các nguyên âm.

Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua
tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra
các phụ âm xát - rít.

Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng
hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




22

số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông
qua sự chuyển động của lưỡi.
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn
thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số
được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có
nhiều formant:

• F1: ứng với cộng hưởng vùng yết hầu
• F2: ứng với cộng hưởng khoang miệng

Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4,
F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi lần môi, lưỡi,
hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình
dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng.
Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng
tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm.

Bộ lọc cuống họng bị kích thích bởi luồng không khí tác động vào nó từ các dây
thanh âm. Theo đó các âm thanh thoại phát ra được phân chia thành ba loại phụ thuộc vào
phương thức kích thích.

• Các âm hữu thanh (voiced sound): được tạo ra khi các dây thanh âm rung động mở
hoặc đóng, do vậy mà làm gián đoạn (ngắt) luồng không khí được tạo ra từ phổi
tới cuống họng và tạo ra các các xung không khí có chu kỳ (quasi-periodic) khi bị
kích thích. Tốc độ của việc đóng hoặc mở các dây thanh âm xác định độ cao thấp
của âm thanh (pitch). Pitch có thể được điều chỉnh qua việc thay đổi hình dạng, độ
căng của các dây thanh âm cũng như áp suất của luồng không khí tác động lên
chúng từ phổi. -> nguyên âm. Các âm hữu thanh thường có tính chu kỳ cao, điển
hình trong khoảng 2 đến 20 ms như được minh họa ở hình 2.8. của một đoạn âm
hữu thanh lấy mẫu tại tần số 8KHz. Hàm mật độ phổ công suất – PSD (Power
Spectral Density) của đoạn âm hữu thanh này được minh họa ở hình 2.9.


Các âm vô thanh (unvoiced sound): được tạo ra khi kích thích là một nhiễu loạn từ
việc ép luồng không khí ở tốc độ cao qua khe hẹp ở cuống họng trong khi các dây
thanh âm ở trạng thái mở. Lưu ý âm vô thanh là các tín hiệu không có chu kỳ, nó
có thể ở dạng tạp âm, nhiễu… Tính chu kỳ của những âm vô thanh cũng được thể

hiện ở các hình vẽ 2.10 và 2.11.


Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống
họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột ngột
> phụ âm.

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




23




Hình 2.8: Một đoạn điển hình của các âm hữu thanh



Hình 2.9: Mật độ phổ công suất cho đoạn thoại hữu thanh

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




24




Hình 2.10: Một đoạn điển hình của các âm vô thanh



Hình 2.11: Mật độ phổ công suất cho đoạn thoại vô thanh

Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói
trên, tuy nhiên chúng là sự hỗn hợp. Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát)
được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng
được hình thành.

Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: âm tắc, xát
và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:


Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




25



Bảng 2.1: Các loại phụ âm trong tiếng Việt

Mặc dầu rất nhiều âm thanh thoại có thể được tạo ra, nhưng hình dạng của cuống
họng và phương thức kích thích lên nó thay đổi tương đối chậm. Do vậy, thoại - tiếng nói

có thể xem như là quá trình dừng (quasi-stationary) qua những chu kỳ thời gian ngắn
(khoảng chừng 20ms). Trên cơ sở các hình vẽ (2.8 – 2.11), chúng ta có thể thấy được các
tín hiệu thoại có tính dự đoán trước cao do những sự rung động có tính chu kỳ của các
dây thanh âm và do những sự cộng hưởng âm trong cuống họng. Các bộ mã hóa thoại
đang cố gắng khai thác những đặc tính dự đoán trước này của tín hiệu thoại để giảm tốc
độ truyền dẫn thoại ở mức cần thiết cho đảm bảo chất lượng truyền dẫn thoại.

2.2.2. Tổng quan về mã hóa tín hiệu thoại

Từ những năm 1930, mã hoá tiếng nói được phát triển trở thành một đặc tính quan
trọng của những nhà vận hành hệ thống điện thoại ngày ngày. Sự mã hóa tiếng nói bây
giờ được ứng dụng trong truyền thông tế bào, những hệ thống máy tính, tự động hóa,
truyền thông quân sự, những hệ thống sinh địa, và ở khắp nơi mà thông tin số chiếm giữ.
Mã hoá tiếng nói bao gồm lấy mẫu và lượng tử hóa biên độ tín hiệu tiếng nói.
Mục tiêu là sẽ sử dụng một cực tiểu số lượng mẫu, trong khi giữ gìn chất lượng tiếng nói
được xây dựng lại tại phía thu. Nghiên cứu mã hoá bây giờ tập trung vào các kỹ thuật tốc
độ thấp (8 tới 2.4 kbits/s) và tốc độ rất thấp (ở dưới 2.4 kbits/s).
Hình 2.12 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại
tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa
thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biến đổi thành tín hiệu
rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá
(nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã
hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




26


Tại đầu thu, một bộ giải mã kênh sẽ tách và (hoặc) sửa những lỗi trong quá trình truyền
dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống
hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến
theo một vài cách nào đó (nén có tổn thất).














Hình 2.12: Sơ đồ khối hệ thống mã hóa thoại

Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những
ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý
Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để
tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn (cho) tiếng nói. Nếu sử
dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s.


Như ta đã biết, tín hiệu số ưu điểm hơn hẳn so với tín hiệu tương tự trong việc
truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật
điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thống để biến đổi

tín hiệu tương tự thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi
thành một kênh PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng
trong mạng thoại truyền thống đảm bảo chất lượng âm khá trung thực nhưng băng tần sử
dụng còn khá lớn. Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di
động (tốc độ của một cuộc gọi càng thấp thì càng cung cấp được thêm các dịch vụ khác-
dữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường
thấp hơn <16 Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền
thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet.
Một kỹ thuật nén khác cũng thường được sử dụng là điều chế xung mã vi sai thích
ứng (ADPCM) theo chuẩn G.726 ITU-T. ADPCM chỉ sử dụng các mẫu 4 bit để mã hóa
(tạo ra băng thông 32 Kbit/s). Khác với PCM, 4 bit không phải do trực tiếp mã hóa biên
Bộ lọc
Bộ lấy
mẫu
Bộ biến
đổi A/D
Bộ mã
hóa nguồn
Bộ mã
hóa kênh
Nguồn
thoại
Kênh
truyền
Bộ giải
mã kênh
Bộ giải
mã nguồn
Bộ biến
đổi D/A

Bộ lọc
Thoại
đầu ra
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




27

độ xung lấy mẫu mà là mã hóa sự khác nhau giữa biên độ các xung, cũng như tốc độ thay
đổi các biên độ đó sử dụng phương pháp dự đoán tuyến tính trước.
Vấn đề đặt ra là giảm băng thông hơn nữa mà vẫn đảm bảo chất lượng dịch vụ để
phù hợp với mạng VoIP, từ đó xuất hiện một số kỹ thuật mã hóa và nén tín hiệu thoại tốc
độ thấp cụ thể như trong GSM: G.723.1, G.729. PCM và ADPCM đều là kỹ thuật mã hóa
theo dạng sóng. Kỹ thuật nén mới (mã hóa nguồn) được phát triển cách đây 10 đến 15
năm dựa vào sự nhận biết các đặc tính nguồn của tín hiệu thoại phát ra. Kỹ thuật này sử
dụng thủ tục xử lý tín hiệu và nén thoại bằng việc chỉ gửi đi thông tin ở dạng các tham số
đã được đơn giản hóa về việc kích thích tín hiệu nguồn dạng của giọng nói do vậy đòi hỏi
ít băng thông hơn.
2.2.3. Các phương pháp mã hóa tín hiệu thoại

Nhiệm vụ phân loại các bộ mã hóa thoại hiện đại là không đơn giản và thường
không rõ ràng do sự phân chia thiếu rõ rệt giữa các cách tiếp cận khác nhau. Mục này
giới thiệu một số tiêu chuẩn phân loại hiện có. Lưu ý rằng đây là lĩnh vực tiến triển liên
tục và nhiều loại bộ mã hóa mới sẽ được tạo ra khi có những công nghệ thay thế được
giới thiệu.

Phân loại theo tốc độ


Tất cả các bộ mã hóa được thiết kế để giảm tốc độ bit từ 64-128 Kbps xuống các giá
trị thấp hơn. Căn cứ theo tốc độ của luồng bit được mã hóa, việc phân loại các bộ mã hóa
thoại theo bảng 2.2 dưới đây.


Phân loại Phạm vi tốc độ

Tốc độ cao >15 Kbps
Tốc độ trung bình 5 – 15 Kbps
Tốc độ thấp 2 – 5 Kbps
Tốc độ rất thấp <2 Kbps

Bảng 2.2: Phân loại các bộ mã hóa thoại theo tốc độ

Môt bộ mã hóa thoại được cho là làm việc tốt tại một tốc độ bit nhất định (tùy theo
phương pháp mã hóa) nhưng chất lượng của bộ giải mã thoại sẽ bị ảnh suy giảm nhanh nếu
nó giảm xuống quá mức dưới mức độ giới hạn cho phép. Tốc độ bit thấp nhất mà các bộ
mã hóa thoại có thể đạt được bị giới hạn bởi nội dung thông tin của tín hiệu thoại. Các bộ
mã hóa hiện tại có thể hoạt động với chất lượng tốt ở tốc độ 2 Kbps hay cao hơn, đây cũng
là những cơ hội mới cho những nghiên cứu cải tiến trong tương lai.

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




28

Phân loại theo kỹ thuật mã hóa


a. Mã hóa dạng sóng

Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của
các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại
nguồn tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng
nói. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá
thành tín hiệu số trước khi phát đi. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để
khôi phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi
phục được sẽ rất giống với dạng sóng của tiếng nói gốc.

Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất
lượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạng
sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỷ số tín hiệu trên nhiễu – SNR
(Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa
dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM.

b. Mã hóa tham số

Mã hóa tham số (parametric coding) hay còn gọi là Vocoder. Ở đây, các tín hiệu
thoại được giả thiết được tạo ra từ một mô hình (giống như mô hình tạo tiếng nói từ cơ
quan phát âm của con người), mô hình này được điều khiển bởi một vài tham số chức
năng. Trong quá trình mã hóa, những tham số của mô hình được suy ra (ước đoán) từ tín
hiệu thoại đầu vào. Kiểu mã hóa này không bảo toàn hình dạng sóng ban đầu của tín hiệu
nên không thể dùng tỷ số tín hiệu trên nhiễu SNR để đánh giá. Chất lượng nhận thức (cảm
nhận) của tín hiệu thoại sau khi giải mã liên quan trực tiếp đến độ chính xác của mô hình.
Do hạn chế này, bộ mã hóa tham số có hiệu năng thấp đối với các tín hiệu không phải là tín
hiệu thoại.

Có một số mô hình đề xuất cho bộ mã hóa tham số và thành công nhất là mô hình
dự đoán tuyến tính. Theo cách tiếp cận này, cơ chế tạo ra tiếng nói của con người được

thực hiện bằng việc sử dụng bộ lọc biến đổi theo thời gian với các tham số của bộ lọc được
xây dựng dựa trên thủ tục phân tích dự đoán tuyến tính.

Bộ mã hóa tham số làm việc rất tốt với tốc độ bit thấp từ 2 đến 5 Kbps và ví dụ điển
hình của các bộ mã hóa tham số là bộ mã hóa dự đoán tuyến tính LPC (Linear Prediction
Coding) và bộ mã hóa dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed Excitation
Linear Prediction).

c. Mã hóa lai
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




29

Mã hóa lai (hybrid coding) hay còn gọi là mã hóa tổng hợp là sự kết hợp của hai
loại mã hóa nói trên. Giống như mã hóa tham số, mã hóa lai dựa vào một mô hình tạo ra
tiếng nói và trong quá trình mã hóa, các tham số của mô hình sẽ được xác định. Thêm
vào đó, các tham số của mô hình được tối ưu theo cách mà tín hiệu thoại được giải mã
gần giống nhất có thể được với dạng sóng tín hiệu ban đầu.
Các bộ mã hóa lai được dùng chủ yếu cho tốc độ bit ở mức trung bình với chất
lượng khá tốt với thuật toán dự đoán tuyến tính kích thích mã – CELP (Code-Excited
Linear Prediction).
Hình vẽ 2.13 dưới đây minh họa chất lượng thoại của cả ba loại bộ mã hóa phổ
biến thay đổi theo tốc độ mã hóa như thế nào.

Hình 2.13: Chất lượng thoại so với tốc độ bit của các loại bộ mã hóa

2.2.3.1. Mã hóa dạng sóng


Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số, phương pháp
này khai thác các đặc tính của dạng sóng tín hiệu nguồn (hình bao phổ/hài/độ cao thấp
của âm) thông qua các phương pháp tương quan ngắn hạn, ví dụ như: bằng phương pháp
dự đoán tuyến tính – cố gắng dự đoán các mẫu dạng sóng từ giá trị của các mẫu trước đó.
Có rất nhiều kiểu mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín
hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân
tích trong miền thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi
dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do đó nó không có
nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




30

phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất
lượng tốt và có thể chịu được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng
sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con
người. Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng
xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu.
Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương
đối cao (trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn
giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa
sóng đầu vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng
trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức
tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM
có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727).
a. Mã hóa 64 Kbít PCM (ITU G. 711)

Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất.
Thoại băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng
tử hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa
cho một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm
xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính.

Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã
hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt
được so với thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại
bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thế kỷ 20.

Ở Bắc Mỹ, người ta dùng mã hóa theo luật µ, trong khi đó ở Châu Âu, mã hóa
theo luật A được áp dụng. Do tính đơn giản, chất lượng thoại đảm bảo và độ trễ thấp, cả
hai loại mã hóa PCM này vẫn được sử dụng rộng rãi cho đến ngày nay.

Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị
của mẫu tiếp theo từ những mẫu trước đó. Điều này có thể khả thi bởi có sự tương quan
hiện tại giữa những mẫu thoại dưới tác dụng của cơ quan phát âm và sự rung động của
dây thanh âm như đã được giới thiệu ở 2.2.1.

Nếu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và
những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên
gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng
bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của những mô hình điều chế xung
mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác
biệt giữa những tín hiệu gốc và tín hiệu dự đoán.

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh





31

Kết quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ
lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại
được mã hoá. Điều này dẫn tới kỹ thuật điều chế xung mã vi sai thích ứng – ADPCM
(Adaptive Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã
chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương
đương với phương pháp điều chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt
động ở các tốc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải
mã ADPCM được minh họa ở hình 2.14 dưới đây.


Hình 2.14: Bộ mã hóa và giải mã ADPCM

b. Mã hóa ADPCM (ITUG.721, G.726, G.727)

Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng
thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử
hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự đoán.

Nếu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán
sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được
lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu
thoại gốc.

Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu
dự đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện
thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ

lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá.

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




32

Vào giữa những năm 1980, CCITT đã chuẩn hoá ADPCM 32Kbps được biết đến
với cái tên G721, cho phép khôi phục thoại tốt như phương pháp PCM 64 Kbps. Các
khuyến nghị sau đó: các bộ mã hóa G726 và G727 hoạt động ở các tốc độ 40, 32, 24 và
16 Kbps cũng đã được chuẩn hoá.

Các bộ mã hóa dạng sóng được mô tả ở trên đều mã hóa thoại hoàn toàn trong
miền thời gian. Tuy nhiên, các tiếp cận theo miền tần số cũng có thể thực hiện được và có
một số ưu điểm. Ví dụ như ở trong mã hóa băng con - SBC (Sub – Band Coding), tín hiệu
thoại đầu vào được phân chia thành một số dải băng tần thoại gọi là các băng con thông
qua các bộ lọc số và sau đó mỗi một băng con được mã hóa độc lập bằng việc sử dụng
các bộ mã hóa như ADPCM. Ở đây, các băng con tương ứng với phổ tần số thấp chứa
hầu hết năng lượng của tín hiệu thoại sẽ được cấp phát với số bit mã hóa lớn, còn các
băng con tương ứng với các phổ tần số cao, chứa ít năng lượng tín hiệu sẽ được mã hóa
với số bit nhỏ hơn. Kết quả là tổng số bit dùng cho mã hóa băng con sẽ ít hơn so với
trường hợp mã hóa trên toàn dải phổ của tín hiệu. Tại phía thu, các tín hiệu băng con
được giải mã và kết hợp lại để khôi phục lại tín hiệu thoại ban đầu (G. 722 1988).

Ưu điểm của mã hóa băng con là nhiễu trong mỗi băng con chỉ phụ thuộc vào mã
hóa sử dụng trong băng con đó. Bởi vậy chúng ta có thể cấp phát nhiều bit hơn cho các
băng con quan trọng sao cho nhiễu trong những vùng tần số này là thấp, trong khi đó ở
các băng con khác, chúng ta có thể cho phép có nhiễu mã hóa cao vì nhiễu ở những tần

số này có tầm quan trọng thấp hơn. Các mô hình cấp phát bit thích ứng có thể được sử
dụng để khai thác thêm ý tưởng này. Các bộ mã hóa băng con cho chất lượng thoại tốt
trong phạm vi tốc độ từ 16 – 32 Kbps. Do phải cần đến bộ lọc để tách tín hiệu thoại trong
các băng con nên mã hóa băng con phức tạp hơn bộ mã hóa DPCM thông thường và có
thêm độ trễ mã hóa. Tuy nhiên, độ phức tạp và độ trễ là tương đối thấp so với các bộ mã
hóa lai.

2.2.3.2. Mã hóa tham số

Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps.
Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có
khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình.

Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được
tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của
mô hình và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hiệu thoại còn
được gọi là Vocoder (Voice + Coder).
Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu,
trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng
sóng và nó chỉ có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




33

tốc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn
dễ hiểu nhưng chúng lại khác khá nhiều so với giọng nói tự nhiên của con người.


a. Mô hình LPC

Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới
đây:

Hình 2.15: Mô hình toán học của LPC

Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các
xung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biến
đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đoạn thoại
vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.

Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ
lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm
thanh. Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (non-
stationary) của tín hiệu thoại.

Các tham số của mô hình có thể được xác định bởi bộ mã hóa theo một số cách
khác nhau sử dụng các kỹ thuật trong miền thời gian hoặc tần số. Đồng thời các thông tin
có thể được mã hóa để truyền dẫn theo những cách khác nhau.

Mối quan hệ giữa mô hình toán học và mô hình vật lý – cơ quan phát âm thoại của
con người được mô tả dưới đây:

Cuống họng


H(z) (Bộ lọc LPC)
Không khí


u(n)
Dao động của dây thanh âm


V (Các âm hữu thanh)

Chu kỳ dao động của dây thanh âm


T (Độ cao âm thanh)
Các âm vô thanh


UV (Vô thanh)
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




34

Lượng không khí


G (Độ tăng ích)


Hàm truyền đạt của bộ lọc được xác định theo biểu thức (2.4)



(2.4)

Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình
vi phân tuyến tính:


(2.5)

Mô hình LPC có thể được biểu diễn lại dưới dạng vector như sau:



(2.6)

A thay đổi theo chu kỳ 20 ms, tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương
đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20
ms hay có 50 khung/sec. Mô hình A theo biểu thức (2.6) tương đương với


(2.7)

Cho nên 160 giá trị của S được đại diện tương ứng bới 13 giá trị của A. Ngoài ra,
cần phân biệt hai quá trình:
• Tổng hợp LPC (LPC Synthesis): Cho A, tạo S.

Phân tích LPC (LPC Analysis): Cho S, tìm A tốt nhất

b. LPC Vocoder 2,4Kbps

LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 2.16 dưới

đây. Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo ra
thoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại con
người. LPC Vocoder chủ yếu được áp dụng trong lĩnh vự quân sự, ở đó các âm thanh tự
nhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điện
thoại an toàn.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




35


Hình 2.16: Sơ đồ khối chức năng LPC Vocoder 2,4Kbps
2.2.3.3. Mã hóa lai

Mã hóa lai cố gắng lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóa
nguồn. Mã hóa dạng sóng như được mô tả ở trên là có khả năng cung cấp được thoại với
chất lượng khá tốt với tốc độ bít xuống đến 16Kbps nhưng bị giới hạn về sử dụng tại tốc
độ thấp hơn. Bộ mã nguồn có thể hoạt động ở tốc độ khoảng 2,4 Kbps và thấp hơn,
nhưng không thể tạo ra âm thanh trung thực ở bất kỳ tốc độ nào.

Mặc dù có nhiều dạng mã hóa lai, nhưng thành công và thường được sử dụng
nhiều nhất là các bộ mã hóa trong miền thời gian “thực hiện các phép phân tích thông qua
việc tổng hợp” - AbS (Analysic - by - Synthesis). Những bộ mã hóa này sử dụng mô hình
bộ lọc dự đoán tuyến tính cho cơ quan phát âm như được trong các bộ mã thoại LPC. Tuy
nhiên, để thay thế cho việc ứng dụng mô hình 2 trạng thái đơn giản - hữu thanh/vô thanh,
mô hình này cố gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào và dạng sóng
tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích thích lý tưởng.
Các bộ mã hóa AbS lần đầu tiên được giới thiệu bởi Atal và Remde và mô hình

đầy đủ của hệ thống mã hóa và giải mã AbS được miêu tả ở trong hình 2.17 dưới đây:

Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh




36


Hình 2.17: Cấu trúc bộ mã hóa và giải mã lai AbS


Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn
có độ dài 20 ms. Các tham số của một khung sẽ xác định một bộ lọc tổng hợp tương ứng
với khung đó và tín hiệu kích thích tương ứng cho mỗi bộ lọc này sẽ được xác định thông
qua một vòng lặp. Tín hiệu kích thích phải đảm bảo rằng sai lệch giữa tín hiệu đầu vào và
tín hiệu được tái tạo lại là nhỏ nhất. Cuối cùng bộ mã hóa sẽ truyền đi những thông tin
liên quan đến các bộ lọc bao gồm các tham số và tín hiệu kích thích tương ứng với mỗi
bộ lọc gửi cho bộ giải mã. Ở bộ giải mã, tín hiệu kích thích sẽ được đưa qua bộ lọc tổng
hợp để xây dựng lại tín hiệu thoại ban đầu. Bộ lọc tổng hợp thường là một bộ lọc tuyến
tính, ngắn hạn nhưng nó cũng có thể bao gồm một bộ lọc độ cao âm thanh (pitch filter)
liên quan đến mô hình tuần hoàn dài hạn của tín hiệu thoại. Phương pháp này cung cấp
tín hiệu thoại có chất lượng cao tại tốc độ bit thấp. Tuy nhiên độ phức tạp của phương
pháp này là khá lớn bởi vì tất cả các tín hiệu kích thích có thể có đều phải được đưa qua
bộ lọc tổng hợp để tìm ra tín hiệu kích thích thích hợp nhất.
Có một số phương pháp mã hóa lai khác cũng được phát triển và đưa vào sử dụng
bao gồm: bộ mã hóa kích thích đa xung - MPE (Multi – Pulse – Excited); bộ mã hóa kích
thích xung đều – RPE (Regular – Pulse – Excited); bộ mã hóa dự đoán tuyến tính kích
thích mã - CELP (Code - Excited – Linear – Predictive.

Trong phương pháp MPE tín hiệu kích thích u(n) được xác định bằng một số
lượng cố định các xung tương ứng đối với mỗi khung tín hiệu. Do vậy thông tin cần
truyền đi sẽ bao gồm thông tin về độ lớn và về vị trí của các xung này. Phương pháp này
cung cấp chất lượng thoại khá tốt tại tốc độ bit khoảng 10 kbits/s.

×