Tải bản đầy đủ (.doc) (91 trang)

tìm hiểu về phương pháp lpc trong xử lý tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (785.77 KB, 91 trang )

Lời nói đầu 2
Chương 2 Ứng dụng của LPC trong xử lý tiếng nói 34
Chương 3 Xây dựng chương trình 79

1
Lời nói đầu
Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật thì
vấn đề trao đổi thông tin đa phương tiện ngày càng trở nên cần thiết, từ lúc đầu chỉ
giao tiếp, tương tác thông qua các văn bản giấy tờ, ngày nay nhu cầu sử dụng tiếng
nói trong truyền thông, tương tác người máy càng trở nên cấp thiết hơn. Vì vậy mà
một lĩnh vực kỹ thuật mới đã ra đời, đó là xử lý tiếng nói.
Mặc dù mới nhưng xử lý tiếng nói đã đạt được những thành tựu đáng kể. Các ứng
dụng của xử lý tiếng nói đã và đang được áp dụng trong rất nhiều lĩnh vực khác nhau
trong xã hội như nhận dạng, tổng hợp tiếng nói, tương tác người máy, truyền thông,
dạy học, ….Nhờ có xử lý tiếng nói mà con người có thể tạo ra những máy móc thông
minh hơn, có khả năng hiểu được tiếng nói con người và có thể giao tiếp với con
người thông qua lời nói.
Một trong những phương pháp được ứng dụng rất nhiều trong lĩnh vực xử lý tiếng nói
đó là phương pháp mã hóa dự đoán tính (LPC). Phương pháp LPC được sử dụng
trong các phân tích tiếng nói, mã hóa tiếng nói, tổng hợp tiếng nói… Do vậy tôi đã
chọn đề tài là “Tìm hiểu về phương pháp LPC trong xử lý tiếng nói”.
Nội dung của đồ án này gồm có ba chương
• Chương 1: Tổng quan về tiếng nói và xử lý tiếng nói
Chương này sẽ nêu một cách tổng quan về những vấn đề liên quan đến
tiếng nói và xử lý tiếng nói:
 Giới thiệu về tiếng nói, các đặc trưng và cơ chế tạo tiếng nói của con
người.
 Giới thiệu tổng quan về đặc điểm, hoạt động và một số phép biến đổi
của một hệ xử lý tín hiệu chung.
 Các phương pháp trong xử lý tiếng nói như: tổng hợp tiếng nói, mã
hóa tiếng nói, phân tích tiếng nói.



2
• Chương 2: Ứng dụng của LPC trong xử lý tiếng nói
Chương này sẽ đề cập tới phương pháp LPC trong xử lý tiếng nói.
 Trình bày cơ sở của phương pháp LPC
 Ứng dụng của LPC trong phân tích tiếng nói
 Mô hình tổng hợp tiếng nói LPC
• Chương 3: Xây dựng chương trình
Chương này giới thiệu về chương trình đã được xây dựng, các kết quả đạt
được và nêu ra nhận xét.
• Kết luận: Khái quát những kết quả đạt được. Định hướng phát triển tiếp.

3
Chương 1 Tổng quan về tiếng nói và xử lý tiếng nói
1.1 Tiếng nói và đặc điểm của tiếng nói
Tiếng nói là một trong những phương tiện trao đổi thông tin của con người. Tiếng nói
được tạo ra từ tư duy của con người dưới sự chỉ đạo của trung khu thần kinh, mệnh lệnh
phát sinh tiếng nói được phát ra và hệ thống phát âm thực hiện nhiệm vụ tạo âm thanh.
Tiếng nói mà con người vẫn giao tiếp hàng ngày có bản chất là sóng âm thanh lan truyền
trong không khí. Sóng âm thanh trong không khí là sóng dọc sinh ra do sự dãn nở của
không khí. Tín hiệu âm thanh là tín hiệu biến thiên liên tục về thời gian và biên độ, có dải
tần số rất rộng. Tuy nhiên tai người chỉ có thể nhận biết được các sóng âm có tần số trong
khoảng 20 - 20000 (Hz). Những sóng âm có tần số lớn hơn 20000 Hz gọi là sóng siêu
âm. Những sóng có tần số nhỏ hơn 20 Hz gọi là sóng hạ âm. Thực tế người ta có thể hạn
chế dải tần số của tín hiệu tiếng nói trong khoảng từ 300 đến 3500 Hz. Do đó, quá trình
phân tích cũng như tổng hợp tiếng nói chỉ cần dùng một số nhất định các tham số cũng đủ
để biểu diễn tín hiệu tiếng nói mà não người xử lý.
Hình 1.1 Mô phỏng quá trình truyền tiếng nói trong không khí
Về bản chất vật lí, sóng âm, sóng siêu âm, sóng hạ âm không khác gì nhau và cũng như
các sóng cơ học khác. Sự phân biệt như trên là dựa vào khả năng cảm thụ các sóng cơ

học của tai con người, do các đặc tính sinh lí của tai người quyết định. Vì vậy sóng âm
thanh được phân biệt hai loại đặc tính là đặc tính vật lý và đặc tính âm học.

4
1.1.1 Đặc tính vật lý của âm thanh
Bản chất âm thanh tiếng nói là sóng cơ học nên có các tính chất cơ bản của sóng cơ học.
Các tính chất của sóng cơ học mang một ý nghĩa khác khi xét trên góc độ là âm thanh
tiếng nói.
Tín hiệu âm thanh tiếng nói là một tín hiệu ngẫu nhiên không dừng, tuy nhiên những đặc
tính của nó tương đối ổn định trong những khoảng thời gian ngắn (vài chục mili giây).
Trong khoảng thời gian nhỏ đó tín hiệu gần tuần hoàn, có thể coi như tuần hoàn.
1.1.1.1 Độ cao (Pitch)
Độ cao hay còn gọi là độ trầm bổng của âm thanh chính là tần số của sóng cơ học. Âm
thanh nào phát ra cũng ở một độ cao nhất định. Độ trầm bổng của âm thanh phụ thuộc
vào sự chấn động nhanh hay chậm của các phần tử trong không khí trong một đơn vị thời
gian nhất định. Nói cách khác, độ cao của âm phụ thuộc vào tần số dao động. Đối với
tiếng nói, tần số dao động của dây thanh quy định độ cao giọng nói của con người và mỗi
người có một độ cao giọng nói khác nhau.
Độ cao của nữ giới thường cao hơn so với nam giới và độ cao tiếng nói của trẻ em cao
hơn so với nữ giới, điều này cũng tương tự đối với tần số của dây thanh.
1.1.1.2 Cường độ
Cường độ chính là độ to nhỏ của âm thanh, cường độ càng lớn thì âm thanh có thể truyền
đi càng xa trong môi trường có nhiễu. Nếu xét trên góc độ sóng cơ học thì cường độ
chính là biên độ của dao động sóng âm, nó quyết định cho năng lượng của sóng âm.
Trong tiếng nói, cường độ của nguyên âm phát ra thường lớn hơn phụ âm. Do vậy chúng
ta thường dễ phát hiện ra nguyên âm hơn so với phụ âm. Tuy nhiên đối với tai người giá
trị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so với một giá
trị I
0
nào đó chọn làm chuẩn. Người ta định nghĩa mức cường độ âm L là logarit thập

phân của tỉ số I/I
0
: (đơn vị mức cường độ là Ben - kí hiệu B)

5

0
lg)(
I
I
BL =
1.1.1.3 Trường độ
Trường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu hay nhanh của các phần tử
không khí. Cùng một âm nhưng trong các từ khác nhau thì độ dài khác nhau.
1.1.1.4 Âm sắc
Âm sắc là bản sắc, sắc thái riêng của một âm, cùng một nội dung, cùng một độ cao nhưng
khi nói mỗi người đều có âm sắc khác nhau.
1.1.2 Đặc tính âm học của âm thanh
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và được
mô tả bởi các âm vị khác nhau. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị
nhiều hay ít. Thông thường số lượng các âm vị vào khoảng 20 – 30 và nhỏ hơn 50 đối với
mọi ngôn ngữ. Đối với từng loại âm vị mà có các đặc tính âm thanh khác nhau. Các âm
vị được chia thành hai loại nguyên âm và phụ âm. Tổ hợp các âm vị tạo nên âm tiết. Âm
tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.
1.1.2.1 Nguyên âm
Nguyên âm được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn
đẩy lên. Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các
nguyên âm khác nhau. Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định.
Mỗt nguyên âm được đặc trưng bởi 3 formant đầu tiên, các formant tiếp theo thường thì ít
mang thông tin hơn.

1.1.2.2 Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của
đường dẫn âm thanh do cách phát âm tạo thành. Dòng không khí tại chỗ đóng của vòm

6
miệng tạo ra phụ âm tắc. Những phụ âm xát được phát ra từ chỗ co thắt lớn nhất và các
âm tắc xát tạo ra từ khoảng giữa. Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộc
việc dây thanh có dao động để tạo thành cộng hưởng không. Đặc tính của phụ âm tuỳ
thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và sự truyền dẫn âm.
1.1.2.3 Tỷ suất thời gian
Trong khi nói chuyện, khoảng nói chuyện và khoảng nghỉ xen kẽ nhau. Phần trăm thời
gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ xuất thời gian. Giá trị này biến
đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay
nói bình thường.
1.1.2.4 Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nói
thành nhiều khung chứa N mẫu và tính diện tích trung bình tổng các mẫu tín hiệu trong
mỗi khung. Các khung này được đưa qua một cửa sổ có dạng hàm như sau:

( )
( )



=
0
nW
nW
Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ chữ nhật, cửa sổ Hamming
và cửa sổ Hanning.

Cửa sổ chữ nhật:

Cửa sổ Hamming :

Cửa sổ Hanning:


7
Với 0 ≤ n ≤ N
Với n ≥ N
Với 0 ≤ n ≤ N
Với n ≥ N



=
0
1
W(n)




≤≤−
=
NnVới
NnVới
n
nW
0

1 )cos(46.054.0
)(




≤≤−
=
NnVới
N
nVới
n
nW
0
1)cos(5.05.0
)(
Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau :
( ) ( ){ }


=
∗+=
1
0
2
N
n
m
nWmnxE
Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh.

1.1.2.5 Tần số vượt qua điểm không.
Tần suất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị không
trong một khoảng thời gian cho trước. Thông thường giá trị này đối với âm vô thanh lớn
hơn âm hữu thanh do đặc tính ngẫu nhiên của âm vô thanh. Do đo tần suất vượt qua điểm
không là tham số quan trọng để phân loại âm hữu thanh và âm vô thanh.
1.1.2.6 Phát hiện điểm cuối.
Trong xử lý tiếng nói việc xác định khi nào bắt đầu xuất hiện tín hiệu tiếng nói và khi nào
kết thúc quá trình nói rất cần thiết và quan trọng. Trong một môi trường nhiều tiếng ồn
(nhiễu ) hoặc môi trường nhiều người nói thì việc phát hiện điểm kết thúc rất khó khăn.
Có rất nhiều phương pháp để phát hiện điểm cuối của tiếng nói. Ví dụ như một phương
pháp đơn giản sau :
Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trước khi bắt đầu nói.
Sử dụng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu. Ngưỡng của tiếng
nói được chọn là giá trị giữa năng lượng yên tĩnh và năng lượng đỉnh. Ban đầu giả thiết
điểm cuối xuất hiện tại điểm năng lượng tín hiệu vượt quá mức ngưỡng. Để tính đúng
ước lượng này, người ta giả thiết và so sánh chúng với giá trị đó trong vùng yên tĩnh. Khi
những thay đổi phát hiện được trong khi tính toán tần suất trên suất hiện ở ngoài ngưỡng
giả thiết thì điểm cuối được giả thiết lại tại điểm mà sự thay đổi xảy ra.

8
1.1.2.7 Tần số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu trong đó biên độ biến đổi
ngẫu nhiên và phần tuần hoàn. Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có
dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động
của dây dây thanh.
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Tần số cơ bản của trẻ
em thường cao hơn so với người lớn và của nữ giới cao hơn so với nam giới, Sau đây là
một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Người nói Giá trị tần số cơ bản
Nam giới 80 – 200 Hz

Nữ giới 150 – 450 Hz
Trẻ em 200 – 600 Hz
Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính tuần hoàn. Một
âm hữu thanh có tín hiệu gần như tuần hoàn khi được phân tích phổ sẽ xuất hiện một
vạch tại vùng tần số rất thấp. Vạch này đặc trưng cho tính tuần hoàn cơ bản của âm hay
đó chính là tần số cơ bản của âm. Trong giao tiếp bình thường tần số cơ bản thay đổi liên
tục tạo nên ngữ điệu cho tiếng nói.
Hình dưới mô tả tín hiệu trên miền thời gian và phổ của chúng (trên miền tần số) của các
nguyên âm a, i, u. đỉnh đầu tiên của các phổ tương ứng với tần số cơ bản F
0
.

9
Hình 1.2 Tín hiệu và phổ của tín hiệu
1.1.2.8 Formant
Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét trong một
khoảng nào đó (còn gọi là cực trị địa phương) xác định một formant. Ngoài tần số,
formant còn được xác định bởi biên độ và dải thông của chúng. Về mặt vật lý các tần số
formant tương ứng với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói và
nhất là trong tổng hợp tiếng nói để mô phỏng lại tuyến âm người ta phải xác định được
các tham số formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng các formant
có ý nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói và
phụ thuộc vào các dạng âm vị tương ứng với formant đó. Đồng thời, formant còn phụ
thuộc các âm vị trước và sau đó. Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ
với hình dạnh và kích thước tuyến âm. Thông thường trong phổ tần số của tín hiệu có
khoảng 6 formant nhưng chỉ có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tính
của các âm vị, còn các formant còn lại cũng có ảnh hưởng song rất ít. Các formant có giá
trị tần số xê dịch từ vài trăm đến vài nghìn Hz.
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều

kiện phát âm nhất định. Mặc dù phạm vi của các tần số formant tương ứng với mỗi
nguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì sự xê dịch
của các formant là song song.
Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản formant (anti-
formant). Phản formant được tạo nên khi luồng khí đi qua khoang mũi. Các formant

10
tương ứng nói các điểm cực của hàm truyền đạt vì tại lân cận điểm cực giá trị hàm truyền
đạt là rất lớn, tương tự vậy các anti-formant tương ứng với các điểm không của hàm
truyền đạt.
1.1.3 Phân loại đơn giản dạng sóng tiếng nói:
Tiếng nói của con người tạo ra bao gồm có hai thành phần đó là:
• Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là
tiếng nói hữu thanh (voiced speech). Chu kỳ lặp lại đó gọi là chu kì cơ bản T
0

nghịch đảo
của T
0
là tần số cơ bản F
0
. Âm hữu thanh được phát ra bởi một luồng khí cực mạnh từ
thanh môn thổi qua dây thanh làm dung dây thanh, sự dao động của dây thanh tạo nên
nguồn tuần hoàn. Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh. Vùng âm
hữu thanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng lượng tin nhiều nhất
và thời gian lớn nhất trong quá trình nói.
• Phần tín hiệu có dạng giống như tập âm nhiễu có biên độ ngẫu nhiên
còn được gọi là tiếng nói vô thanh (unvoiced speech). Tiếng nói vô thanh được tạo ra do
sự co thắt theo một dạng nào đó của tuyến âm và luồng khí chạy qua chỗ thắt với tộc độ
lớn tạo nên nhiễu loạn, ví dụ như lúc ta nói thì thào (cần phân biệt thì thầm với thì thào,

theo từ điển tiếng Việt thì thào là nói chuyện với nhau rất nhỏ tựa như gió thoảng qua tai
còn thì thầm là nói chuyện với nhau không để người ngoài nghe thấy). Năng lượng do
nguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo nên tiếng nói vô thanh, năng lượng
của tiếng nói vô thanh nhỏ hơn so với tiếng nói hữu thanh.
Ta có thể phát hiện ra tiếng nói hữu thanh là khi nói dây thanh rung. Còn âm vô thanh khi
nói dây thanh không rung. Nói thì thào thì ở xa không nghe được do năng lượng của âm
vô thanh rất nhỏ và tiếng thì thào là do âm vô thanh tạo nên.

11
1.1.4 Bộ máy phát âm và cơ chế phát âm
1.1.4.1 Bộ máy phát âm
Hình 1.3 Bộ máy phát âm của con người
1.1.4.2 Cơ chế phát âm
Hình 1.3 mô tả bộ máy phát âm của con người. Nguồn năng lượng chính nằm ở thanh
môn, Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn. Tiếng nói
được tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy không khí có trong phổi
lên tạo thành dòng khí va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao
động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến
âm đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói.
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng đầu tiên
của quá trình tạo thành âm thanh.
- Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dây
thanh hoặc thanh quản. Ống có độ dài khoảng 17cm đối với người bình thường.
- Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu từ mũi,
kết thục tại vòm miệng, đối với người bình thường khoang mũi có độ dài 12 cm.

12
1. Hốc mũi
2. Vòm miệng trên
3. Ổ răng

4. Vòm miệng mềm
5. Đầu lưỡi
6. Thân lưỡi
7. Lưỡi gà
8. Cơ miệng
9. Yết hầu
10. Nắp đóng của thanh quản
11. Dây thanh giả
12. Dây thanh
13. Thanh quản
14. Thực quản
15. Khí quản
- Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanh
giữa khoang miệng và khoang mũi.
Hình 1.4 Mô tả dây thanh âm
Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi qua
đường mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theo
khoang miệng ra môi.
1.2 Một số kiến thức chung về xử lý tín hiệu rời rạc
1.2.1 Mô hình hệ xử lý tín hiệu rời rạc
Một hệ xử lý tín hiệu sẽ xác lập mối quan hệ nhân quả giữa tín hiệu vào và tín hiệu ra. Ta
có thể biểu diễn hệ xử lý bằng mô hình toán học thông qua một phép biến đổi hay một
toán tử T nào đó. Tín hiệu vào x(n) được gọi là tác động, còn tín hiệu ra y(n) được gọi là
đáp ứng của hệ xử lý. Mối quan hệ giữa tín hiệu vào và tín hiệu ra của hệ có thể được
biểu diễn như sau:
y(n) = T[x(n)]

13
y(n)
Hình 1.5 Mô hình hệ xử lý biến đổi tín hiệu vào x(n) thành tín hiệu ra y(n)

Các hệ xử lý phân thành 2 loại là hệ tuyến tính và hệ phi tuyến. Một hệ thống được gọi là
tuyến tính nếu nó thoả mãn nguyên lý xếp chồng, tức là thoả mãn 2 tính chất sau:
Tính tỷ lệ:
T[a.x(n)] = a.T[x(n)] = a.y(n)
Tính tổ hợp:
T[x
1
(n)+x
2
(n)] = T[x
1
(n)] + T[x
2
(n)] = y
1
(n) + y
2
(n)
Các hệ tuyến tính có một ý nghĩa đặc biệt trong phân tích và xử lý, vì nó giúp ta đưa việc
xử lý một hệ phức tạp về việc xử lý các hệ đơn giản, sau đó ta chỉ việc tổng hợp lại kết
quả. Vì thế ngay cả các hệ phi tuyến nhiều khi cũng được xấp xỉ thành các hệ tuyến tính
để tiện cho việc xử lý.
Các hệ tuyến tính cũng được phân thành 2 loại là tuyến tính bất biến và tuyến tính thay
đổi theo thời gian. Trong xử lý tín hiệu thường chúng ta chỉ quan tâm đến các hệ tuyến
tính bất biến. Một hệ tuyến tính được gọi là bất biến theo thời gian nếu đáp ứng của hệ
đối với tác động x(n) thì đáp ứng của hệ đối với tác động x(n-k) sẽ là y(n-k).
Các hệ tuyến tính bất biến được đặc trưng hoàn toàn bằng đáp ứng xung h(n) (là đáp ứng
ra ứng với tác động vào là xung Dirac
)(n
δ

). Nếu biết h(n) ta hoàn toàn có thể tính được
đáp ứng y(n) của tín hiệu vào x(n):



−∞=
−==
k
knhkxnxnhny )(.)()(*)()(

T [ ]
Đáp ứngTác động
14
x(n)
Trong xử lý tín hiệu tiếng nói, các hệ thống mà chúng ta quan tâm đều là hệ tuyến tính
bất biến, do đó chúng ta có thể áp dụng các tính chất, kết quả của hệ tuyến tính bất biến
để áp dụng vào việc khảo sát phân tích tín hiệu tiếng nói.
1.2.2 Phép biến đổi Z
Đối với tín hiệu rời rạc, phép biến đổi Z là một công cụ mạnh phục vụ cho việc phân tích
và xử lý tín hiệu. Phép biến đổi Z của tín hiệu rời rạc x(n) được định nghĩa như sau:



−∞=

=
n
n
znxzX ).()(
Trong đó hàm X(z) là hàm biến phức của biến phức z.

a. Điều kiện hội tụ:

1|).(|lim
/1
<

∞→
nn
n
znx
hay
∞+≤=

<<=<
+
+∞→
∞→
− x
m
m
n
n
x
R
mx
znxR
/1
/1
|)(|lim
1

|||)(|lim0
b. Một số tính chất của biến đổi Z:
• Tính chất tuyến tính:
Z[a.x(n) + b.y(n)] = Z[a.x(n)] + Z[b.y(n)]
= a.Z[x(n)] + b.Z[y(n)]
= a.X(z) + b.Y(z)
 Tính dịch chuyển theo thời gian:
Giả sử y(n) = x(n – n
0
) ( dịch chuyển 1 đoạn n
0
mẫu)
Khi đó: Y(z) = Z[x(n-n
0
)] = z
-n0
. X(z)
 Đảo trục thời gian:

15
giả sử Z[x(n)] = X(z) , R
x-
< |z| < R
x+
khi đó: Z[x(-n)] = X(1/z) ( với 1/R
x-
> |z| > 1/R
x+
)
 Thay đổi thang tỷ lệ:

giả sử Z[x(n)] = X(z) , R
x-
< |z| < R
x+
Z[a
n
. x(n)] = X(z/a) ( với |a|.R
x-
< |z| < |a|.R
x+
)
 Tổng chập của hai dãy:
Giả sử y(n) là tổng chập của hai dãy h(n) và x(n) tức là:
y(n) = h(n) * x(n)
Vậy thì: Y(z) = H(z) . X(z)
c. Hàm truyền đạt:
Tín hiệu ra y(n) của một hệ tuyến tính bất biến là tổng chập của đáp ứng xung h(n) và tác
động vào là dãy x(n) : y(n) = h(n) * x(n).
Qua phép biến đổi Z ta có: Y(z) = H(z) . X(z)
hay:
)(
)(
)(
zX
zY
zH =
và H(z) được gọi là hàm truyền đạt của hệ thống, nó có một ý nghĩa đặc biệt bởi vì đó là
hàm đặc trưng cho sự biến đổi của hệ thống.
Như vậy biến đổi Z của đáp ứng xung h(n) là hàm truyền đạt H(z) của hệ thống.
1.3 Mô hình tạo tiếng nói

Tiếng nói là một loại âm thanh, nhưng ngược lại, không phải bất kỳ âm thanh nào cũng là
tiếng nói. Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có
nguồn gốc từ cơ chế tạo tiếng nói.
Trong quá trình tạo tiếng nói có 2 loại nguồn âm:
- Nguồn tuần hoàn: là nguồn tương ứng với các âm mà khi phát ra làm
cho dây thanh rung. Trong tiếng Việt nguồn tuần hoàn tương ứng với các nguyên âm và
các phụ âm hữu thanh

16
- Nguồn không tuần hoàn (nguồn tạp âm): là nguồn tương ứng với các âm
mà khi phát ra không làm cho dây thanh rung. Trong tiếng Việt các nguồn không tuần
hoàn tương ứng với các phụ âm vô thanh.
Với nguồn tuần hoàn thì vị trí nguồn tại chính thanh môn, còn nguồn không tuần hoàn thì
có vị trí trong tuyến âm tức là từ thanh môn trở lên cho đến dưới môi.
Quá trình tạo tiếng nói từ thanh môn đến tuyến âm đã được Fant (1960) mô hình hoá qua
mô hình sau:

Hình 1.6 Mô hình tạo tiếng nói (Fant – 1960)
Trong mô hình trên, tín hiệu vào của hệ thống là một chuỗi xung đơn vị có chu kỳ T
0.
Tín
hiệu này được cho qua một bộ lọc thông thấp có hàm truyền đạt:
)1)(1(
)(
11 −−
++
=
zz
A
zG

βα
Đầu ra của bộ lọc ta được tín hiệu nguồn của hệ thống (cũng là tín hiệu tuần hoàn với chu
kỳ T
0
). Tín hiệu nguồn sau đó được đưa qua tuyến âm thực chất là một hốc cộng hưởng
được mô hình hoá bằng K mạch cộng hưởng mắc nối tiếp nhau với hàm truyền đạt:

17
x(n)
u(n)
T
0
Lọc thông
thấp G(z)
Tuyến âm
V(z)
Tải bức xạ
R(z)
T
0

=
−−
++
=
K
k
kk
zbzb
B

zV
1
2
2
1
1
)1(
)(
Cuối cùng âm thanh được phát ra ở môi, nơi được coi như một tải âm học. Sự tán xạ ở
môi được thể hiện qua hàm truyền đạt:
)1()(
1−
−= zCzR
Như vậy theo mô hình Fant, hàm truyền đạt của hệ thống có dạng:
T(z) = G(z).V(z).R(z)
Hình 1.7 Mô hình tạo tiếng nói
Nếu giả thiết là một trong hai điểm cực tại thanh môn bằng -1 (
β
= -1 ). Khi đó hàm
truyền đạt của hệ thống sẽ có dạng:


+
=

−−
=

+
=

+++
=
12
1
2
2
1
1
1
1
.1

) 1()1(

)(
K
i
i
i
k
K
k
k
z
CBA
zzz
CBA
zT
α
ββα

Đặt
CBA =
σ

18
T(z)
Tín hiệu tiếng
nói tại môi
T
0
Tín hiệu nguồn

∑ ∑
+
= =
−−
=+=
12
1 0
1)(
K
i
p
i
i
i
i
i
zzzA
αα

với
1.2,1
0
+== Kp
α
Khi đó ta có
)(
)(
zA
zT
σ
=
và A(z) được gọi là hàm truyền đạt của bộ lọc đảo. Mô hình
của bộ lọc đảo có thể minh họa như sau:
Hình 1.8 Mô hình bộ lọc đảo
Do
σ
là hằng số nên dễ thấy T(z) chỉ gồm toàn điểm cực, do đó mô hình trên gọi là mô
hình toàn điểm cực.Việc xác định các hệ số
i
α
của bộ lọc đảo sẽ rất quan trọng trong
việc xác định các đặc tính của tuyến âm, phương pháp thường dùng để tính toán các hệ số
của bộ lọc đảo là phương pháp tiên đoán tuyến tính, phương pháp này sẽ được trình bày
chi tiết ở phần sau.
Hạn chế của mô hình trên là mô hình chỉ tính đối với khoang miệng, không có khoang
mũi, do đó các âm mũi không thể được tạo ra từ mô hình này. Để giải quyết hạn chế này,
người ta thêm vào thành phần đặc trưng cho khoang mũi. Khi đó hàm truyền đạt của hệ
thống sẽ là:
)(

)(
.
)()(
)(
2
2
1
1
zA
zC
zAzA
zT
σ
σσ
=+=

19
A(z)
T
0
Tín hiệu tiếng
nói tại môi
x(n)
u(n)
Trong đó thành phần
)(
1
1
zA
σ

đặc trưng cho khoang miệng còn thành phần
)(
2
2
zA
σ
thì
đặc trưng cho khoang mũi. Với việc thêm vào thành phần đặc trưng cho khoang mũi, hệ
thống không còn là toàn điểm cực (do xuất hiện các điểm không) vì vậy gây khó khăn
cho việc dùng phương pháp tiên đoán tuyến tính (vì phương pháp này chỉ dùng cho mô
hình toàn điểm cực) vì vậy thực tế người ta đã thay 1 điểm không thành hai điểm cực
theo phương pháp giảm bậc gần đúng
1
1
1
221
1
+++
≅−
−−

zz
z
αα
α
1.4 Biểu diễn số tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, do đó khi biểu diễn tín hiệu tiếng nói trong môi
trường tính toán tín hiệu số, việc biểu diễn và lưu trữ sao cho không bị mất mát thông tin
là vấn đề rất quan trọng trong các hệ thống thông tin sử dụng tiếng nói. Việc xem xét các
vấn đề xử lý tín hiệu tiếng nói trong các hệ thống này được dựa trên ba vấn đề chính:

- Biểu diễn tín hiệu tiếng nói dạng số.
- Cài đặt các kỹ thuật xử lý tinh vi.
- Các lớp ứng dụng dựa trên kỹ thuật xử lý số tín hiệu.
Biểu diễn tín hiệu tiếng nói theo dạng số chịu ảnh hưởng quan trọng của lý thuyết lấy
mẫu, theo đó các trạng thái của tín hiệu có dải tần số giới hạn có thể được biểu diễn dưới
dạng các mẫu lấy tuần hoàn theo một chu kì cố định được gọi là chu kì lấy mẫu. Việc lấy
mẫu này sẽ cung cấp cho hệ thống những mẫu tín hiệu với tỉ lệ đủ lớn để xử lý. Tất cả
các quá trình xử lý lấy mẫu được chỉ rõ trong các tài liệu về xử lý tín hiệu số.

20
Hình 1.9 Biểu diễn tín hiệu tiếng nói.
Phương pháp biểu diễn tín hiệu theo dạng sóng, được xem xét đến với việc bảo quản
thông tin theo cách thông thường là giữ nguyên hình dạng sóng của tín hiệu tương ứng
khi đã qua các bước lấy mẫu và lượng tử hoá tín hiệu. Còn phương pháp biểu diễn theo
tham số được xem xét đến trên khía cạnh biểu diễn tín hiệu tiếng nói như là đầu ra của
hệ thống tạo tiếng nói. Để thu được các tham số biểu diễn, bước đầu tiên của phương
pháp này lại thường là biểu diễn tín hiệu tiếng nói theo dạng sóng. Điều này có nghĩa là
tín hiệu tiếng nói được lấy mẫu và lượng tử giống như phương pháp biểu diễn tín hiệu
tiếng nói dạng sóng, sau đó sẽ tiến hành xử lý để thu được các tham số của tín hiệu tiếng
nói của mô hình tạo tiếng nói nêu trên. Các tham số của mô hình tạo tiếng nói này thường
được phân loại thành các tham số kích thích và các tham số của bộ máy phát âm tương
ứng.
Để áp dụng các phương pháp xử lý tín hiệu số cho tín hiệu tiếng nói chúng ta phải biểu
diễn tín hiệu tiếng nói dưới dạng rời rạc. Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm
các bước sau:
- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0.
- Lượng tử hoá các mẫu với bước lượng tử q.
- Mã hoá và nén tín hiệu.

21

Biểu diễn tín hiệu
tiếng nói
Biểu diễn dạng
sóng
Biểu diễn dạng
tham số
Các tham số kích
thích
Các tham số của
bộ máy phát âm
1.4.1 Xác định tần số lấy mẫu tín hiệu tiếng nói.
Khi lấy mẫu một tín hiệu tương tự với tần số lấy mẫu f0, cần đảm bảo rằng việc khôi
phục lại tín hiệu đó từ tín hiệu rời rạc tương ứng phải được thực hiện được. Shanon đã
đưa ra một định lý mà theo đó người ta có thể xác định tần số lấy mẫu đảm bảo yêu cầu
trên. Theo Shanon, điều kiện cần và đủ để khôi phục lại tín hiệu tương tự từ tín hiệu đã
được rời rạc với tần số lấy mẫu f0 là : f0 ≥ F
max
với F
max
là tần số lớn nhất của tín hiệu
tương tự.
Người ta biết rằng phổ của tín hiệu tiếng nói trải rộng trong khoảng 12kHz, do đó theo
định lý Shanon thì tần số lấy mẫu tối thiểu là 24kHz. Với tần số lấy mẫu lớn như thế thì
khối lượng bộ nhớ dành cho việc ghi âm sẽ rất lớn và làm tăng sụ phức tạp trong tính
toán. Nhưng chi phí cho việc xử lý tín hiệu số, bộ lọc, sự truyền và ghi âm có thể giảm đi
nếu chúng ta chấp nhận giới hạn phổ bằng cách cho tín hiệu qua một bộ lọc tần số thích
hợp. Đối với tín hiệu tiếng nói cho điện thoại, người ta thấy rằng tín hiệu tiếng nói vẫn
đạt được chất lượng cần thiết khi để mức độ ngữ nghĩa của thông tin vẫn đảm bảo khi
phổ được giới hạn ở 3400Hz. Khi đó tần số lấy mẫu sẽ là 8000Hz. Trong kỹ thuật phân
tích, tổng hợp hay nhận dạng tiếng nói, tần số lấy mẫu có thể giao động trong khoảng

6000-16000Hz. Đối với tín hiệu âm thanh(bao gồm cả âm nhạc và tiếng nói) tần số lấy
mẫu cần thiết là 48kHz.
1.4.2 Lượng tử hoá.
Việc biểu diễn số tín hiệu đòi hỏi lượng tử hoá mỗi mẫu tín hiệu với một giá trị rời rạc
hữu hạn. Mục tiêu của công việc này là hoặc là để truyền tải hoặc là xử lý có hiệu quả.
Trong trường hợp thứ nhất, mỗi mẫu tín hiệu được lượng tử hóa, mã hoá rồi truyền đi.
Bên thu nhận tín hiệu giải mã và thu được tín hiệu tương tự. Tính thống kê của tín hiệu
được bảo toàn sẽ ảnh hưởng quan trọng đến thuật toán lượng tử hoá. Trong trường hợp
xử lý tín hiệu, luật lượng tử được quy định bởi hệ thống xử lý, nó có thể được biểu diễn
bằng dấu phẩy tĩnh hay dấu phẩy động. Việc xử lý bằng dấu phẩy động cho phép có
một sự mềm dẻo cần thiết đối với tín hiệu mặc dù nó đòi hỏi chi phí cao với các tính
toán. việc xử lý bằng dấu phẩy tĩnh đơn giản hơn nhiều nhưng đòi hỏi các điều kiện chặt
chẽ đối với các thuật toán xử lý.

22
1.4.3 Nén tín hiệu tiếng nói.
Lượng tử hoá tín hiệu gây ra các lỗi thành phần giống nhiễu trắng, như vậy số bước
lượng tử là cố định thì tỷ số này là hàm của biên độ tín hiệu, người ta sử dụng luật
lượng tử logarithm và mỗi mẫu tín hiệu được biểu diễn bằng 8 bit. Đối với tín hiệu âm
thanh kích thước mẫu thường dùng là 16 bit.
Một đặc trưng cần thiết của phép biểu diễn tín hiệu số là tốc độ nhị phân tính bằng bit/s.
Đó là giá trị quan trọng trong khi thực hiện truyền dữ liệu cũng như lưu trữ dữ liệu.
Đường truyền điện thoại có tốc độ 8(kHz)*8(bit)= 64Kb/s. Khi thực hiện truyền và ghi
lại tín hiệu âm thanh, tốc độ cần thiết là 768kb/s.
Ta biết rằng tín hiệu tiếng nói có độ dư thừa rất lớn, do đó có thể giảm tốc độ tín hiệu
tuỳ thuộc vào mục đích xử lý khi xem xét đến mức độ phức tạp của thuật toán cũng như
xem xét đến chất lượng của việc biểu diễn tín hiệu tiếng nói. Có nhiều kỹ thuật đưa ra để
đạt được mục đích trên. Sự lựa chọn một phương pháp biểu diễn số tín hiệu phải thoả
mãn giữa các tiêu chuẩn về chất lượng của phép biểu diễn, tốc độ truyền hay lưu trữ và
cuối cùng là các điều kiện môi trường.

Thông thường số bit có nghĩa dùng để biểu diễn chuỗi lượng tử cần phải làm giảm bớt
vì lý do kỹ thuật. Việc này có thể thực hiệu được bằng cách bỏ đi các bít ít có nghĩa
nhất, nếu lượng tử là tuyến tính, lỗi lượng tử tăng cùng với khoảng cách giá trị của
chuỗi. Nhưng đối với một vài ứng dụng, mức lượng tử ở vùng tần số cao có yêu cầu thấp
hơn so với ở vùng tần số thấp hay ngược lại, trong trường hợp đó cần sử dụng toán tử
tuyến tính để biến đổi tín hiệu.
1.5 Tổng quan về mã hoá tiếng nói
Trong một vài thập kỷ vừa qua, đã có rất nhiều kỹ thuật mã hoá nén tiếng nói được đưa
ra, phân tích và phát triển. Trong phần này tôi sẽ giới thiệu một số kỹ thuật đang được sử
dụng hiện nay, và một số kỹ thuật sẽ được dùng trong tương lai. Thông thường thì mã
hoá tiếng nói được chia làm hai lớp đó là: mã hoá dạng sóng (waveform coder) và mã hoá
nguồn (source coder) (hay còn được gọi là mã hoá thông số). Mã hoá dạng sóng được
thực hiện ở tốc độ bít cao và cho chất lượng mã hoá tiếng nói tốt. Mã hoá nguồn thực

23
hiện ở tốc độ bít thấp, nhưng nó có xu hướng tạo ra tiếng nói có chất lượng nhân tạo.
Hiện nay, một lớp mới của mã hoá tiếng nói được gọi là mã hoá lai (hybrid coder), đây là
kỹ thuật mã hoá tổng hợp của phương pháp mã hoá dạng sóng và mã hoá nguồn, nó cho
chất lượng tiếng nói khá tốt và thực hiện ở tốc độ bít trung bình. Hình 1.10 sẽ đưa ra đồ
thị biểu diễn sự phụ thuộc của chất lượng tiếng nói đối với tốc độ bít của hai lớp chính là
mã hoá dạng sóng và mã hoá nguồn.
Hình 1.10 Chất lượng tiếng nói theo tốc độ bít

24
1.5.1 Mã hóa dạng sóng
Mã hoá dạng sóng nhằm tái tạo lại tín hiệu đầu vào của tiếng nói. Nó thường được chia
thành các tín hiệu độc lập do vậy nó có thể được dùng để mã hoá rất nhiều loại tín hiệu.
Thông thường, đây là phương pháp mã hoá có độ phức tạp thấp tuy nhiên lại cho chất
lượng cao với tốc độ bít cao (lớn hơn khoảng 16kbps). Mã hoá dạng sóng có thể được
thực hiện trên cả miền tần số cũng như trên miền thời gian.

1.5.1.1 Mã hoá trên miền thời gian
Mã hoá trên miền thời gian thực hiện việc mã hóa trên khoảng thời gian lấy mẫu của tín
hiệu. Các phương pháp mã hoá trong miền thời gian thường được dùng gồm có: Điều chế
mã xung (PCM), điều chế mã xung thích ứng (APCM), điều chế mã xung vi phân
(DPCM), điều chế mã xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chế
Delta thích ứng, và mã hoá dự đoán thích ứng (APC). Tiếp theo ta sẽ xem xét một vài
phương pháp mã hoá quan trọng trong miền thời gian.
Mã hoá PCM
Điều chế mã xung là phương pháp đơn giản nhất trong mã hoá dạng sóng. Điểm cốt yếu
của phương pháp này chính là quá trình lượng tử hóa. Bất cứ dạng lượng tử hoá vô
hướng nào cũng có thể được sử dụng trong phương pháp này, nhưng dạng hay được dùng
nhất là lượng tử hoá logarit. Uỷ ban tư vấn điện thoại và điện báo quốc tế đã giới thiệu
G.711 như là phương pháp chuẩn cho việc mã hoá tiếng nói thoại. Chuẩn G.711 xác định
8 bit theo luật μ và luật A của PCM. Mã hoá dùng luật μ có ít lợi thế hơn trong việc thực
hiện vì nó cho tỉ số tín hiệu trên nhiễu bé hơn.
Mã hoá DPCM và ADPCM
PCM không giả định về tính tự nhiên của dạng sóng được mã hóa, do đó nó làm việc tốt
với các tín hiệu mà không phải là tiếng nói. Tuy nhiên, khi mã hoá tiếng nói thì sẽ có sự
tương quan rất lớn giữa các mẫu cạnh nhau. Sự tương quan này có thể được sử dụng để
khôi phục được tốc độ bít của kết quả. Một phương pháp đơn giản để thực hiện việc này
đó là chỉ truyền sự sai khác giữa các mẫu. Tín hiệu khác biệt này sẽ có phạm vi dao động
nhỏ hơn so với tín hiệu tiếng nói ban đầu, do vậy nó có thể lượng tử hoá một cách hiệu

25

×