Bài giảng môn học : xử lý tiếng nói P2

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (672.31 KB, 25 trang )

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 26

CNT45DH
GROUP
sách này, mặc dù đƣợc viết để hƣớng dẫn "đọc" các ảnh phổ, cung cấp nhập môn tuyệt
vời về ngữ âm học.
2.2.Ngữ âm học (Acoustic Phonetics): Nhiều ngôn ngữ, bao gồm cả tiếng Anh Mỹ, có thể
mô tả theo tập hợp các âm khác nhau gọi là các âm vị (phoneme). Tiếng Anh Mỹ có
khoảng 42 âm vị, bao gồm các nguyên âm (vowel), nguyên âm đôi (diphthong), bán
nguyên âm (semivowel) và phụ âm (consonant). Có nhiều cách để nghiên cứu ngữ âm
học; chẳng hạn, các nhà ngôn ngữ nghiên cứu các đặc trƣng của âm vị. Với mục đích
của chúng ta, nghiên cứu xử lý tiếng nói, chỉ cần xét đặc trƣng âm học của các âm vị, bao
gồm vị trí và cách phát âm, các dạng sóng âm và các đặc trƣng về phổ của các âm này.
Bảng 3.1 nêu cách phân các âm tiếng Anh Mỹ ra các lớp âm vị. Bốn lớp lớn của
các âm là nguyên âm (NA), nguyên âm đôi, bán nguyên âm và phụ âm (PA). Mỗi lớp lại
đƣợc chia thành các lớp con theo cách thức, vị trí phát âm của âm trong bộ máy phát âm.
Mỗi âm vị của bảng 3.1 có thể phân ra thành âm xát (continuant) hoặc âm không
xát (noncontinuant). Các âm xát đƣợc tạo ra bởi hình dạng bộ máy phát âm cố định
(không biến đổi theo thời gian) đƣợc tác động bởi nguồn hơi thích hợp. Lớp các âm xát
bao gồm nguyên âm, âm mũi (nasal) và phụ âm rung (fricative). Các âm còn lại (nguyên
âm đôi (diphthong), bán nguyên âm (semivowel), dừng (stop) và tắc xát (affricate)) đƣợc
tạo ra bằng cách thay đổi hình dạng bộ máy phát âm và do vậy đƣợc phân lớp là không
xát.

2.2a. Nguyên âm. (NA) đƣợc tạo ra bằng cách kích động bộ máy phát âm cố định với
các xung gần tuần hoàn của không khí do các dây thanh âm rung động.
Theo Từ điển Tiếng Việt, nguyên âm là âm mà khi phát âm, luồng hơi từ phổi ra
không gặp trở ngại đáng kể. Ví dụ của nguyên âm tiếng Việt là a, e, i, o, u, y; phụ âm là
âm mà khi phát âm, luồng hơi từ phổi ra đi lên qua thanh hầu, gặp phải trở ngại đáng kể.

Ví dụ của phụ âm tiếng Việt là b, c, d, đ, g, ... .
Ngƣời ta thấy diện tích mặt cắt ngang thay đổi dọc theo bộ máy phát âm xác định
các tăng cƣờng và do đó âm đƣợc tạo ra. Sự phụ thuộc của diện tích mặt cắt ngang vào
khoảng cách dọc theo bộ máy phát âm đƣợc gọi là hàm diện tích (area function) của bộ
máy phát âm. Hàm diện tích của một nguyên âm nào đó đầu tiên đƣợc xác định bởi vị trí
của lƣỡi, tuy nhiên các vị trí của hàm, môi và vòm miệng mềm cũng ảnh hƣởng đến kết
quả của âm. Ví dụ để tạo ra âm a: trong từ "father" fa:ðә (cha), Bộ máy phát âm mở ở
phía trƣớc và đôi khi thu hẹp lại ở phía sau do thân lƣỡi. Trái lại, nguyên âm i trong từ
"eve" iv (buổi chiều) đƣợc tạo ra bằng cách nâng lƣỡi lên vòm miệng, do vậy tạo ra khe
hẹp ở phía trƣớc và tăng khe hở ở cuối bộ máy phát âm. Nhƣ vậy, mỗi nguyên âm có thể
đặc trƣng bởi cấu hình bộ máy phát âm (hàm diện tích) dùng để phát ra nó. Đặc trƣng
này không chính xác lắm vì sự khác nhau bên trong của bộ máy phát âm của những
ngƣời nói khác nhau. Một biểu diễn khác đƣợc xây dựng trên tần số cộng hưởng của bộ
máy phát âm. Việc này cũng vƣớng mắc phải sự đa dạng của bộ máy phát âm của ngƣời
nói. Peterson và Barney (J. Acoust. Soc. Am. Vol24 No2, 1952) đã đo tần số tăng cƣờng
(dùng đồ thị phổ của âm) của các nguyên âm.

Ngƣời ta đo các dạng sóng âm và ảnh phổ (spectrogram) cho mỗi nguyên âm
tiếng Anh (ở hình 3.6 gồm i , i: , e , ổ , ә , a , Ɔ , u , u: , Ə: ). Các ảnh phổ thể hiện
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 27

CNT45DH
GROUP
rõ ràng mẫu các cộng hƣởng khác nhau cho mỗi nguyên âm. Các dạng sóng âm, bên
cạnh việc chỉ ra đặc trƣng tuần hoàn của các âm hữu thanh, còn hiển thị các tính chất
phổ thô (gros) của các "chu kỳ" (period) đơn. Chẳng hạn, nguyên âm i thể hiện dao động
tắt dần với tần số thấp mà ở trên nó có một dao động tần số cao đè lên. Điều này phù
hợp với tăng cƣờng thứ nhất thấp và hai tăng cƣờng sau cao. Trái lại, nguyên âm u thể

hiện năng lƣợng tần số cao tƣơng đối ít vì là kết quả của tần số tăng cƣờng thứ nhất và
thứ hai thấp.

2.2b. Các nguyên âm đôi: Mặc dù còn có một chút không rõ ràng trong việc phân biệt âm
vị nào là nguyên âm đôi, một định nghĩa có thể chấp nhận đƣợc của nguyên âm đôi là:
"phát âm đơn âm lướt bắt đầu ở hoặc gần ở vị trí phát âm cho một nguyên âm và di
chuyển đến hoặc về phía vị trí phát âm cho nguyên âm kia." Theo định nghĩa này có 6
nguyên âm đôi trong tiếng Anh Mỹ, bao gồm: ei: (ở bay), ou: (ở boat), ai: (ở buy), au:
(ở how), i: (ở boy) và ju (ở you).
Các nguyên âm đôi đƣợc tạo ra bằng cách thay đổi bộ máy phát âm mềm mại
giữa các cấu hình nguyên âm thích hợp với nguyên âm đôi. Dựa trên điều này và các số
đo khác, các nguyên âm đôi có thể đƣợc đặc trƣng bởi hàm diện tích của bộ máy phát
âm theo thời gian thay đổi giữa hai nguyên âm cấu thành.
2.2c. Các bán nguyên âm: Nhóm các âm gồm w , l , r và y khá khó mô tả đặc điểm.
Các âm này gọi là bán nguyên âm vì bản chất khá giống nguyên âm của chúng. Nói
chung, chúng đƣợc đặc trƣng bởi việc thay đổi chút ít ở hàm diện tích của bộ máy phát
âm giữa các âm vị liền kề. Nhƣ vậy, các đặc trƣng âm học của các âm này bị tác động
lớn của ngữ cảnh mà chúng đƣợc tạo ra. Chúng đƣợc mô tả tốt nhất nhƣ là các âm giống
nguyên âm, chuyển tiếp và do đó, về bản chất, tƣơng tự nhƣ các nguyên âm và nguyên
âm đôi.
2.2d. Các âm mũi: Các âm mũi /m/, /n/ và / / đƣợc tạo ra do kích thích thanh môn và
bộ máy phát âm thắt lại hoàn toàn tại một điểm ở đƣờng miệng. Vòm miệng mềm hạ
xuống làm không khí đi qua đƣờng mũi với âm đƣợc phát xạ tại lỗ mũi. Khoang miệng,
mặc dù hẹp lại ở phía trƣớc, vẫn nối âm với cổ họng. Nhƣ vậy, mồm dùng làm khoang
cộng hƣởng, bẫy năng lƣợng âm ở các tần số tự nhiên xác định. Theo chừng mực âm
phát xạ đƣợc chú ý đến, các tần số cộng hƣởng của khoang miệng xuất hiện nhƣ các
phản cộng hưởng (anti-resonance) hay là các không điểm của việc truyền âm (zero of
sound transmission) (theo J. L. Flanagan [2]). Hơn nữa, các phụ âm mũi và các nguyên
âm phát âm theo giọng mũi (. một số nguyên âm đi trƣớc hoặc đi sau phụ âm mũi) đƣợc
đặc trƣng bởi các cộng hƣởng rộng hơn về phổ, hoặc là bị tắt dần nhanh hơn các cộng

hƣởng cho các nguyên âm. Việc mở rộng của các cộng hƣởng mũi là do mặt trong của
BMmũi bị quấn xoắn lại, nhƣ vậy khoang mũi có tỷ lệ bề mặt tƣơng đối rộng so với diện
tích mặt cắt của nó. Do vậy, việc dẫn nhiệt và các mất mát nhớt lớn hơn bình thƣờng.
Ba phụ âm mũi đƣợc phân biệt do vị trí thắt lại hoàn toàn dọc theo bộ máy miệng
đƣợc thực hiện của chúng. Với /m/ thì việc thắt lại ở môi; /n/ thì ở ngay sau răng; còn / /
thì ở ngay trƣớc vòm miệng mềm. Rõ ràng là các dạng sóng của /m/ và /n/ nhìn rất giống
nhau. Các ảnh phổ cho thấy việc tập trung của năng lƣợng tần số thấp với phạm vi trung
bình của các tần số chứa các đỉnh lồi lên. Điều này là do tổ hợp riêng của các cộng
hƣởng và các phản cộng hƣởng là kết quả của việc ghép đôi bộ máy mũi và bộ máy
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 28

CNT45DH
GROUP
miệng (xem O. Fujimura, Analysis of Nasal Consonants (Phân tích các phụ âm mũi), J.
Acoust. Soc. Am., Vol. 34, No12, pp1865-1875, December 1962).
2.2e. Các phụ âm xát vô thanh (Unvoiced Fricatives) Các phụ âm xát vô thanh /f/, / /, /s/
và /sh/ đƣợc tạo ra khi kích thích bộ máy phát âm bằng luồng không khí đều đặn, luồng
này trở nên hỗn loạn (turbulent) trong vùng hẹp của bộ máy phát âm. Vị trí của vùng hẹp
xác định phụ âm xát đƣợc tạo ra. Với âm /f/ vùng hẹp ở gần môi; âm / / vùng hẹp ở gần
răng; âm /s/ vùng hẹp ở gần giữa bộ máy miệng; còn âm /sh/ thì vùng hẹp ở gần cuối của
bộ máy miệng. Nhƣ vậy, hệ thống để tạo ra các phụ âm xát vô thanh có nguồn của tiếng
ồn ở vùng hẹp, vùng này chia bộ máy phát âm thành 2 khu vực. Âm đƣợc phát ra từ
môi,từ khu vực trƣớc. Khu vực sau, giống nhƣ trƣờng hợp các phụ âm mũi, dùng để bẫy
năng lƣợng và do đó đƣa ra các phản cộng hƣởng vào đầu ra của phụ âm. Bản chất
không tuần hoàn của các kích thích phụ âm xát thấy rõ ở dạng sóng. Các sai khác về phổ
trong các phụ âm xát dễ dàng thấy đƣợc khi so sánh các ảnh phổ.
2.2f. Các phụ âm xát hữu thanh (Voiced Fricatives) Các phụ âm xát hữu thanh /v/, /th/, /z/
và /zh/ là các bản sao (counterpart) của các phụ âm xát vô thanh /f/, / /, /s/ và /sh/ tƣơng

ứng, theo nghĩa là vị trí của vùng hẹp cho mỗi âm vị tƣơng ứng là đồng nhất. Tuy nhiên,
các phụ âm xát hữu thanh khác biệt rõ ràng với các phụ âm xát vô thanh ở chỗ là 2
nguồn kích thích có liên quan với nhau khi tạo ra chúng. Với các phụ âm xát hữu thanh,
các dây thanh âm rung động và nhƣ vậy, một nguồn kích thích là ở thanh môn. Tuy
nhiên, vì bộ máy phát âm bị thu hẹp ở một vị trí nào đó phía trƣớc thanh môn nên luồng
khí bị xáo trộn ở gần chỗ thu hẹp. Nhƣ vậy, các phổ của các phụ âm xát hữu thanh có thể
hy vọng là có 2 thành phần phân biệt. Sự tƣơng tự của phụ âm xát vô thanh /f/ với phụ
âm xát hữu thanh /v/ có thể thấy rõ ràng bằng cách so sánh các ảnh phổ.
2.2g. Các phụ âm tắc hữu thanh (Voiced Stops): Các phụ âm tắc hữu thanh /b/, /d/ và /g/
là các âm ngắn (transient, tạm thời), không xát (noncontinuant), đƣợc phát âm bằng cách
tạo ra áp lực sau khi đóng hoàn toàn ở một chỗ nào đó trong khoang miệng và bất ngờ
giải phóng áp lực ấy. Với âm /b/ đóng tại môi; âm /d/ đóng sau răng; còn âm /g/ đóng ở
gần vòm miệng mềm. Trong khoảng thời gian đóng hoàn toàn khoang miệng, không có
một âm nào phát xạ từ môi cả. Tuy nhiên, thƣờng có một lƣợng nhỏ năng lƣợng tần số
thấp phát xạ qua các vách ngăn của họng (đôi khi gọi là thanh âm (voice bar)). Điều này
xảy ra khi các dây thanh âm (vocal cord) có thể rung động dù bộ máy phát âm bị đóng ở
một chỗ nào đó.
Do các phụ âm tắc có bản chất động nên các tính chất của chúng bị ảnh hƣởng
lớn bởi nguyên âm đi liền sau (xem P.C. Delattre, A.M. Liberman, and F.S. Cooper, A
coustic Loci and Transitional Cues for Consonant (Vị trí âm học và các dấu hiệu chuyển
tiếp cho Phụ âm), J. Acoust. Soc. Am., Vol. 27, ¹ 4, pp. 769-773, July 1955). Nhƣ vậy, các
dạng sóng của các phụ âm tắc cung cấp ít thông tin về chúng. Dạng sóng của /b/ cho
thấy các nét khác biệt nhỏ trừ ra kích thích hữu thanh và thiếu năng lƣợng tần số cao.
2.2h. Các phụ âm tắc vô thanh (Unvoiced Stops): Các phụ âm tắc vô thanh /p/, /t/ và /k/
giống nhƣ các phụ âm hữu thanh bản sao của chúng /b/, /d/ và /g/, chỉ trừ ra một ngoại lệ
lớn. Trong lúc BMmiệng đóng hoàn toàn, để áp lực tăng lên thì các dây thanh âm không
rung. Nhƣ vậy, sau thời gian đóng kín, khi áp suất không khí đƣợc thoát ra, có một
khoảng ngắn ma sát (do sự náo động bất ngờ của không khí thoát ra), tiếp sau là một
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 29

CNT45DH
GROUP
khoảng bật hơi (luồng không khí đều đặn từ thanh môn kích thích các cộng hƣởng của bộ
máy phát âm) trƣớc khi kích thích hữu thanh bắt đầu.
Xét hình vẽ dạng sóng và ảnh phổ của các phụ âm tắc vô thanh /p/ và /t/. "Lỗ hổng
tắc" (Stop gap), hoặc là khoảng thời gian trong đó áp lực tạo ra, đƣợc nhìn thấy rõ ràng.
Cũng có thể thấy chiều dài và tần số của ồn cọ xát (frication noise) và sự bật hơi
(aspiration) thay đổi lớn ở phụ âm tắc.
2.2i. Các phụ âm tắc xát và /h/ (affricate): Các phụ âm còn lại của tiếng Anh Mỹ là các
phụ âm tắc xát /t∫/, /j/ và âm /h/. phụ âm tắc xát vô thanh /t∫/ là âm động, có thể mô hình
hoá nhƣ dán phụ âm tắc /t/ vào phụ âm xát /∫/. Phụ âm tắc xát /j/ có thể mô hình hoá nhƣ
dán phụ âm tắc /d/ vào phụ âm xát /zh/. Cuối cùng, âm /h/ đƣợc tạo ra bằng cách kích
thích bộ máy phát âm bằng luồng không khí đều đặn,không rung các dây thanh âm mà
tạo ra luồng không khí náo động ở thanh môn (đó cũng là kiểu kích thích để nói thầm).

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 30

CNT45DH
GROUP
§ 3. LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG NÓI

Phần trên đã xét sơ lƣợc mô tả định tính của các âm tiếng nói và cách tạo ra
chúng. ở phần này ta sẽ xét các biểu diễn toán học của quá trình tạo. Các biểu diễn toán
học này là cơ sở để phân tích (analysis) và tổng hợp (synthesis) .
3.1. Sự truyền âm (Sound Propagation): Âm gần nhƣ đồng nghĩa với rung động
(vibration). Sóng âm đƣợc tạo ra do rung động và đƣợc lan truyền trong không khí hoặc

các môi trƣờng khác bằng các dao động của các hạt của môi trƣờng. Do vậy, các định
luật vật lý là cơ sở để mô tả việc tạo ra và truyền đi của âm thanh trong hệ thống phát âm.
Đặc biệt, các định luật cơ bản về bảo toàn khối lƣợng, bảo toàn động lƣợng và bảo toàn
năng lƣợng cùng với các luật nhiệt động học và cơ chất lỏng, đều đƣợc áp dụng cho
dòng chất lỏng (không khí) ít dẻo, chịu nén là môi trƣờng để truyền âm trong. Dùng các
nguyên lý vật lý này, có thể thu đƣợc một tập hợp các phƣơng trình vi phân đạo hàm
riêng mô tả chuyển động của không khí trong hệ thống phát âm. Việc phát biểu và giải
các phƣơng trình này là cực kỳ khó, trừ ra khi đặt các giả thiết đơn giản về bộ máy phát
âm và về việc mất năng lƣợng trong hệ thống âm. Lý thuyết âm chi tiết phải gồm những
phần sau:
1. Sự thay đổi theo thời gian của hình dạng bộ máy phát âm.
2. Các tổn hao do dẫn nhiệt và ma sát nhớt ở các vách ngăn của bộ máy phát âm.
3. Tính mềm của các vách ngăn của bộ máy phát âm.
4. Các bức xạ của âm tại môi.
5. Ghép nối âm mũi (Nasal coupling).
6. Kích thích âm trong bộ máy phát âm.
Lý thuyết âm học chi tiết, đầy đủ, kết hợp chặt chẽ tất cả các phần trên vƣợt quá
phạm vi của chƣơng này, và dĩ nhiên, còn chƣa có thể có đƣợc. Chúng ta đành phải hài
lòng với việc xét các nhân tố này, cung cấp các tài liệu chi tiết khi có thể, và thảo luận
định tính khi chƣa có các tài liệu thích hợp.

Bộ máy phát âm đƣợc mô phỏng nhƣ một ống không đều, có diện tích mặt cắt
ngang thay đổi theo thời gian. Cho các tần số tƣơng ứng với những bƣớc sóng dài so với
những kích thƣớc của bộ máy phát âm (nhỏ hơn khoảng 4000 Hz), có thể giả thiết hợp lý
là việc truyền sóng phẳng dọc theo chiều dài ống. Một giả thiết làm đơn giản hoá hơn nữa
là không có mất mát do nhớt hoặc dẫn nhiệt cả trong khối chất lỏng hoặc ở thanhf ống.
Với các giả thiết này và các định luật bảo toàn khối lƣợng, động lƣợng và năng lƣợng,
Portnoff đã chứng tỏ, trong luận án Thạc sỹ (năm 1973) của ông, là các sóng âm trong
ống thoả mãn cặp phƣơng trình vi phân đạo hàm riêng sau:

2
p (u / A)
(1a)
xt
u 1 (pA) A
(1b)
x c t t

trong đó
p = p(x,t) là biến đổi của áp lực âm lên ống tại vị trí x và thời gian t.
u = u(x,t) là biến đổi của luồng vận tốc âm tại vị trí x và thời gian t.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 31

CNT45DH
GROUP
là mật độ không khí trong ống; c là vận tốc âm.
A = A(x,t) là "hàm diện tích" của ống;giá trị của diện tích mặt cắt vuông góc với
trục ống, phụ thuộc vào vị trí x và thời gian t.
Ngƣời ta chƣa có lời giải dạng giải tích của các phƣơng trình (1), ngoại trừ các
trƣờng hợp có cấu hình đơn giản. Tuy nhiên có thể có các lời giải bằng số. Lời giải đầy
đủ của hệ phƣơng trình vi phân yêu cầu phải có p và u tại mọi giá trị x và t trong miền giới
hạn bởi thanh môn và môi. Để có lời giải phải cho các điều kiện biên tại mỗi đầu của ống.
Điều kiện biên tại môi phải tính đến hiệu suất truyền âm. Tại thanh môn (hoặc một điểm
nào đó ở giữa) điều kiện biên chịu tác động của kích thích tự nhiên.
Bên cạnh các điều kiện biên, còn phải biết hàm diện tích A(x,t). Với các phụ âm
xát có thể giả sử A(x,t) không thay đổi theo thời gian, còn với các phụ âm không xát thì
không phải nhƣ vậy. Đo đạc chi tiết A(x,t) là cực kỳ khó ngay cả với các phụ âm xát. Một
cách đo dùng X-quang đã đƣợc thực hiện vào năm1969 (xem J.S. Perkell, Phisology of

Speech Production: Results and Implications of a Quantitative Cineradiographic Study,
(Sinh lý học của việc tạo ra tiếng nói: Các kết quả và liên quan của nghiên cứu chụp phim
X-quang định lƣợng), MIT Press, Cambridge, Mass., 1969), nhƣng cách đo này chỉ thực
hiện đƣợc ở một phạm vi hạn chế. Một cách tiếp cận khác là coi bộ máy phát âm nhƣ
hình thành từ các dụng cụ đo âm, Sondhi và Gopinath đã mô tả một cách tiếp cận có kích
thích bên ngoài vào bộ máy phát âm (M.M. Sondhi and B. Gopinath, Determination of
Vocal- Tract Shape from Impulse Response at the Lips, (Xác định sự hình thành của bộ
máy phát âm từ đáp ứng xung tại môi), J. Acoust. Soc. Am., Vol. 49, ¹ 6 (Part 2), pp.
1847-1873, June 1971). Cả hai cách tiếp cận này cho thấy tính chất động của việc tạo ra
tiếng nói, tuy nhiên chúng không có ứng dụng trực tiếp vào việc biểu diễn các tín hiệu
tiếng nói (cho mục đích truyền tiếng nói). Atal đã đƣa ra các nghiên cứu để nhận đƣợc
A(x,t) trực tiếp từ tín hiệu tiếng nói trong các điều kiện nói chuẩn (B.S. Atal, Towards
Determining Articulator Positions from the Speech Signal, (Về việc xác định những vị trí
phát âm rõ từ tín hiệu tiếng nói), Proc. Speech Comm. Seminar, Stockholm, Sweden, pp.
1-9, 1974).
Năm 1973 M.R. Portnoff đã đƣa ra lời giải phƣơng trình (1) theo A(x,t). Tuy nhiên
cũng không cần phải giải các phƣơng trình theo các điều kiện chung nhất để nhận đƣợc
bản chất bên trong của tín hiệu tiếng nói. Nhiều cách giải gần đúng và đơn giản đã đƣợc
đƣa ra để thu đƣợc các lời giải chấp nhận đƣợc.

3.2. Ống mất ít đều (Uniform Lossless Tube): Bằng cách xét mô hình rất đơn giản, trong
đó hàm diện tích của bộ máy phát âm đƣợc giả thiết là không đổi theo cả x và t (mặt cắt
đều và thời gian không đổi), ta có thể có đƣợc hiểu biết sâu về bản chất của tín hiệu tiếng
nói. Trƣớc hết, ta sẽ kiểm tra mô hình này, sau đó quay lại kiểm tra các mô hình hiện
thực hơn. Nguồn lý tƣởng đƣợc biểu diễn bằng pittông có thể chuyển động theo cách
mong muốn, độc lập với việc thay đổi áp lực trong ống. Giả thiết thêm nữa là ở đầu mở
cuối ống không có tác động của áp lực không khí mà chỉ có tác động của tốc độ âm. Các
giả thiết này, rõ ràng là để đơn giản đi rất nhiều, khó có thể đạt đƣợc trong thực tế; tuy
nhiên, ta phải xét ví dụ nhƣ vậy do vì muốn tiếp cận cơ bản đến việc phân tích và các nét
căn bản của lời giải thu đƣợc có rất nhiều điểm chung với các mô hình thực tế hơn. Sau

đây ta sẽ chửng tỏ là các mô hình tổng quát hơn có thể xây dựng bằng cách ghép các
ống đều.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 32

CNT45DH
GROUP
Nếu A(x,t) = A là hằng số thì các phƣơng trình vi phân DHR (1) có dạng:
2
pu
(2a)
x A t
u A p
(2b)
x c t

Lời giải của các phƣơng trình (2) có dạng (có thể giải hoặc thay trực tiếp vào các
phƣơng trình để kiểm tra):
u(x,t) = u
+
(t - x/c) - u
-
(t + x/c) (3a)
p(x,t) =
c
A
[ u
+
(t - x/c) + u

-
(t + x/c)] (3b)
Ở các phƣơng trình (3), các hàm u
+
(t - x/c) và u
-
(t + x/c) có thể hiểu là các sóng
chạy tƣơng ứng theo các hƣớng dƣơng và âm. Quan hệ giữa các sóng chạy (traveling
wave) này đƣợc xác định bởi các điều kiện biên.
Các biểu diễn miền tần số của các hệ thống tuyến tính theo các đƣờng truyền và
các vòng tròn truyền là rất hữu ích. Tƣơng tự, ta có thể có các biểu diễn nhƣ vậy cho ống
mất ít đều. Có thể nhận đƣợc biểu diễn miền tần số của mô hình này bằng cách giả thiết
điều kiện biên tại x = 0 là
u(0,t) = u
G
(t) = U
G
( )e
j t
.
Điều này có nghĩa là ống đƣợc kích thích bởi biến đổi luỹ thừa phức của tốc độ âm có tần
số và biên độ phức U
G
( ). Do các phƣơng trình (2) tuyến tính, lời giải u
+
(t - x/c) và u
-

(t + x/c) phải có dạng:
u

+
(t - x/c) = K
+
e
j (t - x/c)

u
-
(t + x/c) = K
-
e
j (t + x/c)

Thế các phƣơng trình này vào (3.3) và dùng điều kiện biên
p(l,t) = 0
tại môi của ống và điều kiện biên tại thanh âm, ta có thể tìm các hằng số K
+
và K
-
. Lời
giải là:
p(x,t) = j Z
0

jt
G
sin[ (t x) / c]
U ( )e
cos[ / c]
(4a)

u(x,t) =
jt
G
cos[ ( x) / c]
U ( )e
cos[ / c]


(4b)
trong đó
Z
0
=
c
A
(4c)
đƣợc gọi là trở kháng âm học đặc trưng (characteristic acoustic impedance) của ống.
Ta sẽ dùng một cách viết khác để tránh lời giải viết bằng các sóng chạy xuôi và
chạy ngƣợc là biểu diễn trực tiếp p(x,t) và u(x,t) dƣới dạng kích thích luỹ thừa phức
(complex exponential excitation):
p(x,t) = P(x, ) e
j t

u(x,t) = U(x, ) e
j t

(Do vậy ta sẽ ký hiệu các biến trong miền thời gian bằng chữ thƣờng, nhƣ u(x,t), còn các
biểu diễn trong miền tần số tƣơng ứng bằng chữ hoa, nhƣ U(x, )). Thay các lời giải này
vào phƣơng trình (1) ta có các phƣơng trình vi phân thƣờng liên hệ các biên độ phức
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 33

CNT45DH
GROUP
-
dP
dx
= Z U (5a)
-
dU
dx
= Y P (5a)
trong đó
Z =
j
A
(5c)
có thể gọi là trở kháng âm học (acoustic impedance) theo đơn vị dài và
Y =
2
A
j
c

là độ dẫn tạp âm (acoustic admittance) theo đơn vị dài. Các Phƣơng trình vi phân (5) có
các lời giải dạng
P(x, ) = A e
x
+ B e

- x

U(x, ) = C e
x
+ D e
- x

trong đó
ZY j / c

Các hệ số chƣa biết có thể xác định đƣợc bằng cách dùng các điều kiện biên
P(ℓ, ) = 0
U(0, ) = U
G
( )
Dĩ nhiên kết quả cũng là các phƣơng trình (4). Các phƣơng trình (4) biểu diễn
quan hệ giữa nguồn vận tốc âm hình sin, áp lực và vận tốc âm tại mọi điểm của ống. Đặc
biệt, nếu ta xét quan hệ giữa vận tốc âm tại môi và nguồn vận tốc âm thì từ phƣơng trình
(4b) ta có:
u(ℓ,t) = U(ℓ, )e
j t
=
jt
G
1
U ( )e
cos( / c)

Tỉ số
G

U( , )
U ( )

= V
a
(j ) =
1
cos( / c)

là đáp ứng tần số (frequency response) liên kết các tốc độ âm vào và ra. Thay bằng s/j
ta đƣợc biến đổi Laplace hay hàm hệ thống
V
a
(s) =
s / c
s2 / c
2e
1e



Lƣu ý rằng V
a
(s) có số vô hạn các cực đặt tại các điểm cách đều trên trục j tại
s
n
=
(2n 1) c
j
2

n = 0, 1, 2, ...
Các vị trí cực này vẽ ở hình 3.15b. Các cực của hàm Hệ thống của Hệ thống tuyến tính
bất biến theo thời gian là các tần số riêng (tần số tự nhiên) của hệ thống. Các cực cũng
tƣơng ứng với các tần số cộng hưởng (resonnance frequency) của hệ thống. Các tần số
cộng hƣởng còn đƣợc gọi là các tần số tăng cường (formant frequency) khi xét việc tạo ra
tiếng nói. Ta sẽ thấy là các hiệu ứng cộng hưởng (resonance effect) sẽ đƣợc xét theo độ
chính xác của tuyến âm.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 34

CNT45DH
GROUP
Cần nhắc lại ở đây là hàm đáp ứng tần số (frequency response function) V
a
(j )
cho phép ta xác định đáp ứng của hệ thống không chỉ cho các cái vào hình sin mà còn
cho các cái vào bất kỳ bằng việc sử dụng giải tích Fourier. Có thể suy luận tổng quát hơn
rằng V
a
(j ) là tỷ số của biến đổi Fourier (FT, Fourier Transform) của tốc độ âm tại môi (cái
ra) với FT của tốc độ âm tại thanh môn (cái vào hoặc nguồn). đáp ứng tần số là đặc trƣng
thuận tiện của mô hình cho Hệ thống âm. Nhƣ vậy, ta đã xác định đáp ứng tần số của mô
hình âm học tạo tiếng nói đơn giản nhất có thể có đƣợc, bây giờ ta có thể xét các mô
hình sát với thực tế hơn.
3.3. Các hiệu ứng mất mát (Effects of losses) trong bộ máy phát âm Các phƣơng trình
chuyển động cho việc truyền âm trong bộ máy phát âm đã cho ở trên đƣợc thiết lập theo
giả thiết là không có năng lƣợng bị mất trong ống. Trong thực tế, năng lƣợng bị mất do
ma sát nhớt (viscous friction) giữa không khí và thành ống, do sự dẫn nhiệt qua thành ống
và do rung động của thành ống. Để tính đến các hiệu ứng này, ta phải trở lại các luật vật

lý cơ bản và đƣa ra các phƣơng trình chuyển động mới. Việc này rất khó do sự phụ thuộc
tần số của các mất mát. Ngƣời ta đã có cách tiếp cận chung để mô phỏng biểu diễn miền
tần số của các phƣơng trình chuyển động ([2]). Sau đây ta sẽ xét qua các kết quả của
cách tiếp cận chung này.
Trƣớc hết, ta xét các hiệu ứng rung động (effect of the vibration) của thành bộ
máy phát âm. Các thay đổi áp lực không khí bên trong bộ máy phát âm làm cho các thành
ống rung động. Nhƣ vậy, nếu thành ống đàn hồi (elastic) thì diện tích mặt cắt của ống sẽ
thay đổi phụ thuộc vào áp lực trong ống. Giả sử ống phản ứng "địa phƣơng" thì diện tích
A(x,t) là hàm của p(x,t). Do sự biến đổi của áp lực rất nhỏ thì dao động của diện tích mặt
cắt có thể coi là thay đổi nhỏ của diện tích "định sẵn" ("norminal" area),có thể giả thiết
rằng
A(x,t) = A
0
(x,t) + A(x,t) (6)
trong đó A
0
(x,t) là diện tích định sẵn, còn A(x,t) là thay đổi nhỏ. Điều này đƣợc minh hoạ
ở hình 3.16. Do khối lượng (mass) và đàn hồi (elasticity) của thành bộ máy phát âm nên
quan hệ giữa thay đổi nhỏ A(x,t) và áp lực p(x,t) có thể mô hình hoá bằng Phƣơng
trìnhVP
m
w

2
2
d ( A)
dt
+ b
w

d( A)
dt
+ k
w
( A) = p(x,t) (7)
trong đó m
w
(x) là khối lượng theo độ dài (mass/unit length); b
w
(x) là độ ẩm theo độ dài
(damping/unit length); k
w
(x) là độ cứng theo độ dài (stiffness/unit length) của thành bộ
máy phát âm.

Hình 3.16. Minh hoạ các hiệu ứng rung động của thành bộ máy phát âm.

Bỏ qua số hạng bậc hai ở các đại lƣợng u/A và pA ta có thể viết các phƣơng trình
(1) dƣới dạng
-
p
x
=
0
(u / A )
t
(8a)

-
u

x
=
0
2
(pA )
1
t
c
+
0
A
t
+
( A)
t
(8b)
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 35

CNT45DH
GROUP
Nhƣ vậy, sự truyền âm trong ống thành mềm nhƣ bộ máy phát âm đƣợc biểu diễn bằng
tập hợp các phƣơng trình (6), (7), (8).
Để kiểm tra hiệu ứng này chi tiết hơn ta lấy biểu diễn miền tần số nhƣ ở trên, xét
ống bất biến theo thời gian đƣợc kích thích bởi nguồn vận tốc âm phức,điều kiện biên ở
thanh môn là
u(0,t) = U
G
( )e

i t

Do các Phƣơng trình vi phân (7), (8) ở trƣờng hợp này là tuyến tính và không phụ thuộc
thời gian nên tốc độ và áp lực âm cũng có dạng
p(x,t) = P(x, )e
j t
(9a)
u(x,t) = U(x, )e
j t
(9b)
Thay (9) vào (7) và (8) ta đƣợc
-
P
x
= ZU (10a)
-
U
x
= YP + Y P (10b)
trong đó
Z(x, ) = j
0
()Ax
(11a)
Y(x, ) = j
0
2
()Ax
c
(11b)

và
Y (x, ) =
1
()
( ) ( )
w
ww
kx
j m x b x
j
(11c)
Chú ý rằng các phƣơng trình (10) đồng nhất với các phƣơng trình (5) trừ ra việc cộng với
số hạng hầp thụ của thành Y và ở đây trở kháng âm học Z và độ dẫn nạp Y là các hàm
của biến x. Nếu ta xét ống đều thì A
0
(x) là hằng số và các phƣơng trình (5) đồng nhất với
các phƣơng trình (11).

Dùng các ƣớc lƣợng nhận đƣợc từ việc đo các vật thể mịn màng ([2]), ngƣời ta
xác định các tham số ở (11c) và các Phƣơng trình vi phân (10) đƣợc giải với điều kiện
biên tại môi (xem M. R. Portnoff, MS Thesis MIT, Cambridge, Mass., 1973). Tỉ số
V
a
(j ) =
( , )
()
G
U
U


(11)
đƣợc vẽ theo biến ở hình 3.17 cho trƣờng hợp ống đều dài 17,5 cm (xem M. R.
Portnoff). Các kết quả cũng giống ở hình 3.15, nhƣng có khác biệt ở một điểm quan
trọng. Rõ ràng là các cộng hƣởng không thể chính xác trên trục j của s - mặt phẳng vì
đáp ứng tần số không thể là vô hạn ở các tần số 500 Hz, 1500 Hz, 2500 Hz, v. v..., dù
các ĐƢ là cao nhất ở gần các tần số này. Các tần số trung tâm và các độ rộng dải của
cộng hưởng (bandwidths of the resonances), đƣợc định nghĩa là khoảng tần số xung
quanh cộng hƣởng mà trong đó đáp ứng tần số lớn hơn 0,707 lần giá trị lớn nhất ở tần số
trung tâm, của các tần số trong hình 3.17 đƣợc cho trong bảng kèm theo. ở Ví dụ này

Bài giảng môn học : xử lý tiếng nói P2

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về