Tải bản đầy đủ (.pdf) (89 trang)

Nghiên cứu kỹ thuật mã hóa tiếng nói và phương pháp thám

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.29 MB, 89 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ MỸ LỆ

NGHIÊN CỨU KỸ THUẬT MÃ HÓA TIẾNG NÓI
VÀ PHƢƠNG PHÁP THÁM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, NĂM 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ MỸ LỆ

NGHIÊN CỨU KỸ THUẬT MÃ HÓA TIẾNG NÓI
VÀ PHƢƠNG PHÁP THÁM
Chuyên ngành : Khoa học máy tính
Mã số
: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HƢỚNG DẪN KHOA HỌC: TIẾN SỸ HỒ VĂN CANH

THÁI NGUYÊN, NĂM 2015


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

i

LỜI CAM ĐOAN

Tôi xin cam đoan, những nội dung liên quan tới đề tài được trình bày trong
luận văn là do bản thân tự nghiên cứu, tổng hợp dưới sự hướng dẫn khoa học của
TS Hồ Văn Canh. Các nhận xét, kết luận được trích dẫn đầy đủ theo bản gốc.
Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan của mình.

Thái Nguyên, ngày 8 tháng 10 năm 2015
Học viên viên thực hiện

Lê Mỹ Lệ

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LỜI CẢM ƠN

Trên thực tế không có sự thành công nào mà không gắ n liề n với
những nỗ lực củ a bả n thân sự hỗ trợ, giúp đỡ dù ít hay nhiề u, dù trực
tiế p hay gián tiế p củ a ngƣời khác. Trong suố t thời gian từ khi bắ t đầ u họ c
tậ p ở Đạ i họ c Thái Nguyên -Trường Đạ i họ c CNTT & TT đế n nay em đã

nhậ n đƣợc rấ t nhiề u sự quan tâm, giúp đỡ củ a quý thầ y cô, gia đình, bạ n
bè.
Với lòng biế t ơn sâu sắ c nhấ t, em xin gửi tới quý Thầ y/cô thuộ c
Việ n Công nghệ Thông tin-Việ n Hàn lâm Khoa họ c và Công nghệ Việ t
Nam và Thầ y/cô thuộ c ĐH Thái Nguyên - Trƣờng Đạ i họ c Công nghệ
Thông tin và Truyề n thông đã cùng với tri thức và tâm huyế t củ a mình để
truyề n đạ t vố n kiế n thức quý báu cho chúng em trong suố t thời gian họ c
tậ p tạ i trƣờng. Em xin chân thành cả m ơn Ts. Hồ Văn Canh đã hƣớng
dẫ n em trong quá trình làm luậ n văn.
Quá trình thực hiệ n và hoàn thành luậ n văn kiế n thức củ a em con
hạ n chế và nhiề u bỡ ngỡ. Do vậ y, không tránh khỏ i những thiế u sót là
điề u chắ c chắ n, em rấ t mong nhậ n đƣợc những ý kiế n đóng góp quý báu
củ a quý Thầ y Cô và các bạ n họ c cùng lớp để kiế n thức củ a em trong lĩnh
vực này đƣợc hoàn thiệ n hơn.
Sau cùng, em xin kính chúc quý Thầ y Cô và đặ c biệ t là Ts. Hồ Văn
Canh thậ t dồ i dào sức khoẻ , niề m tin để tiế p tụ c thực hiệ n sứ mệ nh cao
đẹ p củ a mình là truyề n đạ t kiế n thức cho thế hệ mai sau.
Trân trọ ng!
Thái Nguyên, ngày 8 tháng 10 năm 2015
Học viên viên thực hiện
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

Lê Mỹ Lệ

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i

LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC .................................................................................................................iii
DANH MỤC TỪ VIẾT TẮT................................................................................... vi
DANH MỤC BẢNG BIỂU, ĐỒ THỊ ..................................................................... vii
MỞ ĐẦU .................................................................................................................... 1
Chƣơng 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI ................ 3
1.1. Mở đầu ............................................................................................................ 3
1.2. Tổng quan bộ máy phát âm ......................................................................... 4
1.2.1. Bộ máy phát âm ....................................................................................... 4
1.2.2. Cơ chế phát âm.......................................................................................... 5
1.3. Biểu diễn tín hiệu tiếng nói ............................................................................ 6
1.3.1. Xác định tần số lấy mẫu ............................................................................ 9
1.3.2. Nén tín hiệu tiếng nói .............................................................................. 10
1.4. Đặc tính của tiếng nói .................................................................................. 11
1.4.1. Âm hữu thanh .......................................................................................... 11
1.4.2. Âm vô thanh ............................................................................................ 11
1.4.3. Âm vị ....................................................................................................... 11
1.4.4. Nguyên âm .............................................................................................. 12
1.4.5. Phụ âm ..................................................................................................... 12
1.4.6. Các đặc tính khác .................................................................................... 12
1.5. Mô hình tạo tiếng nói ................................................................................... 14
1.6. Kỹ thuật xử lý tiếng nói cơ bản ................................................................... 17
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv
1.6.1. Tổng hợp tiếng nói .................................................................................. 18
1.6.2. Nhận dạng tiếng nói ................................................................................ 19
1.6.3. Phương pháp ghép nối............................................................................. 22

1.7. Mã hoá tham số tín hiệu .............................................................................. 25
1.8. Kết luận chƣơng ........................................................................................... 25
Chƣơng 2: TỔNG QUAN CÁC PHƢƠNG PHÁP MÃ HÓA VÀ THÁM MÃ
TIẾNG NÓI ............................................................................................................. 27
2.1. Mã hoá vùng thời gian ................................................................................ 27
2.1.1. Công nghệ PCM ...................................................................................... 27
2.2. Mã hoá vùng tần số (Frequence Domain Coding of speech) .................... 32
2.3. Mã hoá dải nhỏ(Sbc) .................................................................................... 32
2.4. Mã hoá biến đổi thích nghi (ATC) .............................................................. 35
2.5. Mã hoá tham số nguồn (resourd parameters method) ............................. 37
2.5.1. Bộ mã hoá nguồn theo kênh .................................................................... 38
2.5.2. Phương pháp dự đoán tuyến tính LPC .................................................... 39
2.6. Mã hoá theo hệ mật mã khoá đối xứng AES ............................................. 40
2.6.1. Giới thiệu khái quát ................................................................................. 42
2.7. Các phƣơng pháp mã hoá khác .................................................................. 50
2.7.1. Phương pháp mã hoá DPCM ( Điều xung mã vi sai) ............................. 51
2.7.2. Phương pháp DM ( điều chế delta) ......................................................... 52
2.7.3. Phương pháp mã hoá ADPCM ............................................................... 53
2.8. Phép biến đổi Fourier .................................................................................. 53
2.8.1. Sự hội tụ của phép biến đổi Fourier ........................................................ 54
2.8.2. Phép biến đổi Fourier rời rạc (Discriete Fourier Transform - DFT)....... 54
2.8.3. Phép biến đổi fourier nhanh (FFT) ......................................................... 55
2.8.4. Quan hệ giữa biến đổi Z và biến đổi Fourier .......................................... 56
2.8.5. Phép biến đổi Fourier ngược ................................................................... 57
2.8.6. Các tính chất của phép biến đổi Fourier ................................................. 57
2.9. Tổng quát phƣơng pháp thám .................................................................... 58
2.9.1. Tấn công bản mã khi đã có từ giả định .................................................. 58
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


v
2.9.2. Tấn công bản mã khi không có đoạn tiếng nói gốc cho trước (không có
từ giả định) đối với hệ thống phép hoán vị cố định. ......................................... 59
2.9.3. Tấn công vào bản mã khi thay đổi hệ thống phép hoán vị. .................... 62
2.10. Kết luận chƣơng ......................................................................................... 66
Chƣơng 3: ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG NÓI 69
3.1. Các khái niệm và quy ƣớc ........................................................................... 69
3.2. Sơ đồ luồng thực hiện ................................................................................ 70
3.2.1. Chi tiết các bước thực hiện quá trình mã hóa ......................................... 71
3.2.2. Cấu trúc lớp trong chương trình .............................................................. 71
3.3. Phƣơng pháp thám ....................................................................................... 71
3.3.1. Bước 1: Phân loại bản mã ....................................................................... 73
3.3.2. Bước 2 : Xác định mã pháp ..................................................................... 74
3.4. Đề mô chƣơng trình ..................................................................................... 77
KẾT LUẬN .............................................................................................................. 78
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 79

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

DANH MỤC TỪ VIẾT TẮT

ADC

Analog Digital Converter


ADM

Adaptive Delta Modulation

ADPCM

Adaptive Differential Pulse Code Modulation

AES

Advanced Encryption Standard

ARK

AddRoundKey

CSR

Continuous Speech Recognition

DCT

Discrete cosine transform

DFT

Discrete furier transform

DHT


Discrete wash – Had transform

DPCM

Differential PCM

FFT

Fast FT

FIR

Finite Impulse Response

FT

Fourier Transform

IDFT

Inverse Discrete FT

IDTFT

Inverse DTFT

IFT

Inverse FT


IMC

InvMixColumns

ISB

InvSubBytes

ISR

InvShiftRows

MC

MixColumns

PST

Prolate spheroidal transform

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii
SB

SubBytes

SR


ShiftRows

DANH MỤC BẢNG BIỂU, HÌNH VẼ
Danh mục bảng biểu:
Bảng 1.1. Giá trị tần số cơ bản của con người. ........................................................13
Bảng 2.1. Chia dải tần của tiếng nói bằng phương pháp Sbc ...................................33
Bảng 2.2. Bảng thế S-BOX của AES ........................................................................47
Bảng 2.3. Việc tấn công vào bản mã (có từ giả định) ...............................................59
Bảng 2.4. Tỷ lệ % của các thành phần qua 2 phép biến đổi DCT và DFT ...............61
Bả
...................................................................................62
Bảng 2.6. Đo khoảng cánh thể hiện(c/minh) chất lượng tiếng nói ...........................62
Danh mục hình:
Hình 1. 1. Bộ máy phát âm con người. .......................................................................5
Hình 1.2. Biểu diễn tín hiệu tiếng nói. ........................................................................7
Hình 1.3. Thông lượng cho các phương pháp biểu diễn tiếng nói. .............................8
Hình 1.4. Mô hình hoá nguồn âm đối với âm hữu thanh. .........................................14
Hình 1.5. Chuỗi 5 đoạn ống âm học lý tưởng. ..........................................................15
Hình 1.6. Các biểu diễn lý học và toán học. .............................................................16
Hình 1.7. Mô hình số của hệ thống phát âm. ............................................................17
Hình 1.8. Một vài ứng dụng xử lý tiếng nói.............................................................18
Hình 1.9. Cấu trúc cơ bản của một bộ tổng hợp Formant nối tiếp............................21
Hình 1.10.. Cấu trúc cơ bản của một bộ tổng hợp Formant song song.....................22
Hình 1.11. Sự phân tầng bộ mã hoá tiếng nói ...........................................................24
Hình 2.1. Cấu hình cơ bản của phương pháp thông tin PCM. ..................................28
Hình 2.2. Quá trình lấy mẫu ......................................................................................29
Hình 2.3. Tạp âm lượng tử theo biên độ tín hiệu đầu vào ........................................30
Số hóa bởi Trung tâm Học liệu - ĐHTN


/>

viii
Hình 2.4. Đặc tính nén và giãn ..................................................................................31
Hình 2.5. Sơ đồ bộ mã hóa và giải mã dải nhỏ .........................................................35
Hình 2.6. Mô tả State trong thuật toán mã hóa AES được biểu diễn dạng ma trận 4x4 .. 43
.............................................44
Hình 2.8. Lưu đồ thực hiện SB và ISB .....................................................................45
Hình 2.9. Biến đổi SubBytes () đối với mảng trạng thái...........................................46
Hình 2.10. Lưu đồ thực hiện SR ...............................................................................48
Hình 2.11. Quá trình xử lý MixColumns .................................................................48
Hình 2.12. Mô tả bước trong Key scheduling ...........................................................50
Hình 2.13. Sơ đồ mã hóa và giải mã DPCM .............................................................51
Hình 2.14. Sơ đồ mã hóa và giải mã AD .................................................................53
Hình 3.1. Lưu đồ cấu trúc lặp của thuật toán mã hóa AES .......................................69
Hình 3.2. Sơ đồ mã hoá tiếng nói bằng AES - áp dụng FFT ....................................70
Hình 3.3. Quy trình giải mã AES ..............................................................................72

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1
MỞ ĐẦU
Trong cuộ c số ng, tiế ng nói đóng mộ t vai trò rấ t quan trọ ng đố i với
con ngƣời. Cùng với tiế ng nói là sự xuấ t hiệ n củ a rấ t nhiề u các loạ i dị ch
vụ thoạ i nhƣ ngày nay. Tuy nhiên việ c bả o toàn đƣợc tín hiệ u tiế ng nói
trên các dị ch vụ này là điề u vô cùng khó khăn do sự mấ t mát và suy giả m
tín hiệ u và nhấ t là ả nh hƣởng củ a nhiễ u sẽ làm cho tín hiệ u tiế ng nói
không còn nhƣ ban đầ u.

Những nghiên cứu đầ u tiên về nhậ n dạ ng tiế ng nói đã xuấ t hiệ n từ
những năm 1950, với hệ thố ng nhậ n dạ ng các chữ số riêng biệ t cho 1
ngƣời nói củ a Davis, Bidulph, và Balashek tạ i phòng thí nghiệ m Bell. Và
đế n những năm 1980 thì các hệ thố ng nhậ n dạ ng tiế ng nói đã đƣợc hoàn
thiệ n với những thuậ t toán hiệ n đạ i. Những hệ thố ng với vố n từ vựng
lớn, độ chính xác cao, nhậ n dạ ng tiế ng nói liên tụ c, nhậ n dạ ng câu, cũng
đã đƣợc xây dựng thành công. Và đế n ngày nay, ngày càng nhiề u các quố c
gia thành công trong việ c nghiên cứu các hệ thố ng tự độ ng nhậ n dạ ng
tiế ng nói (ASR – Automatique Speech Recognition).
Kể từ khi xuấ t hiệ n, máy tính càng ngày càng chứng tỏ rằ ng đó là
mộ t công cụ vô cùng hữu ích trợ giúp con ngƣời xử lý thông tin. Cùng với
sự phát triể n củ a xã hộ i, khố i lƣợng thông tin mà máy tính cầ n xử lý tăng
rấ t nhanh trong khi thời gian dành cho những công việ c này lạ i giả m đi. Vì
vậ y, việ c tăng tố c độ xử lý thông tin, trong đó có tố c độ trao đổ i thông tin
giữa con ngƣời và máy tính, trở thành mộ t yêu cầ u cấ p thiế t. Hiệ n tạ i,
giao tiế p ngƣời-máy đƣợc thực hiệ n bằ ng các thiế t bị nhƣ bàn phím,
chuộ t, màn hình,... với tố c độ tƣơng đố i chậ m nên cầ n có các phƣơng
pháp trao đổ i thông tin mới giúp con ngƣời làm việ c hiệ u quả hơn với
máy tính. Mộ t trong những hƣớng nghiên cứu này là sử dụ ng tiế ng nói
trong trao đổ i thông tin ngƣời-máy. Những nghiên cứu này liên quan trực
tiế p tới các kế t quả củ a chuyên ngành xử lý tiế ng nói, trong đó có tổ ng


2
hợp tiế ng nói. Tổ ng hợp tiế ng nói là lĩnh vực đang đƣợc nghiên cứu khá
rộ ng rãi trên thế giới và đã cho những kế t quả khá tố t.
Và vì vậ y, cũng giố ng nhƣ các dữ liệ u thông tin khác, tiế ng nói cũng
cầ n đƣợc bả o mậ t, nhấ t là trong mộ t số lĩnh vực. Ta biế t rằ ng phƣơng
pháp bả o mậ t thông tin có hiệ u quả nhấ t chính là phƣơng pháp mã hoá.
Hầ u hế t các nƣớc trên thế giới khi trao đổ i thông tin trên kênh truyề n

thông hoặ c lƣu chúng trong các bộ nhớ máy tính trên mạ ng đề u sử dụ ng
phƣơng thức mã hoá. Có nhiề u loạ i Hệ mậ t mã khác nhau nhƣng chúng
đề u có chung mộ t tính chấ t bả o mậ t thông tin. Trong mỗ i hệ mậ t mã đó có
nhiề u loạ i nhƣ: mã hoá bả n text, mã hoá hình ả nh, mã hoá tiế ng nói, mã
hoá dữ liệ u,… Ở nƣớc ta, Cơ quan chị u trách nhiệ m chính nghiên cứu,
phát triể n và ứng dụ ng các hệ mậ t mã là Ban Cơ yế u Chính phủ . Trƣớc
đây nó là mộ t Ban trực thuộ c Chính phủ nay trực thuộ c Bộ Quố c phòng.
Mấ y năm gầ n đây, do nhu cầ u an toàn - bả o mậ t thông tin ngày càng tăng,
nhiề u trƣờng Đạ i họ c và Họ c việ n đã có mộ t số đề tài nghiên cứu vấ n đề
này, chủ yế u là dùng cho Thƣơng mạ i. Mộ t nộ i dung rấ t quan trọ ng chƣa
đƣợc các trƣờng Đạ i họ c hay Họ c việ n quan tâm nhiề u là mã hoá hình
ả nh hay mã hoá tiế ng nói. Trong lúc đó, mã hoá tiế ng nói đóng mộ t vai trò
quan trọ ng và cầ n thiế t trong lực lƣợng vũ trang củ a chúng ta. Đặ c biệ t là
trong hả i quân và trong các đơn vị chiế n đầ u ở chiế n trƣờng.
Đƣợc sự gợi ý củ a Thầ y hƣớng dẫ n em đã chọ n đề tài: “ Nghiên
cứu kỹ thuậ t mã hoá tiế ng nói và phương pháp thám.” làm đề tài tố t
nghiệ p luậ n văn cao họ c củ a em.
Nộ i dung củ a luậ n văn gồ m: phầ n mở đầ u, ba chƣơng chính, kế t
luậ n và tài liệ u tham khả o, cụ thể :
Phần mở đầu: Trình bày lý do chọn đề tài, mục tiêu, đối tượng và phạm vi
nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu, phương pháp
nghiên cứu.
Chương 1. TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI


3
Chương 2. TỔNG QUAN CÁC PHƢƠNG PHÁP MÃ HÓA VÀ THÁM
MÃ TIẾNG NÓI
Chương 3. ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG
NÓI

Phầ n kế t luậ n: Tóm tắt các kết quả đạt được và đề cập những hạn chế bất
cập của đề tài.

Chƣơng 1
TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
1.1. Mở đầ u
Tiế ng nói là mộ t phƣơng tiệ n trao đổ i thông tin củ a con ngƣời.
Tiế ng nói đƣợc tạ o ra từ tƣ duy củ a con ngƣời: trung khu thầ n kinh điề u
khiể n hệ thố ng phát âm làm việ c tạ o ra âm thanh. Tiế ng nói đƣợc phân
biệ t với các âm thanh khác bởi các đặ c tính âm họ c có nguồ n gố c từ cơ chế
tạ o tiế ng nói.Về bả n chấ t, tiế ng nói là sự dao độ ng củ a không khí có mang
theo thông tin. Các dao độ ng này tạ o thành những áp lực đế n tai, đƣợc tai
phát hiệ n, phân tích và chuyể n kế t quả đế n trung khu thầ n kinh. Lúc này
tạ i trung khu thầ n kinh, thông tin đƣợc tái tạ o lạ i dƣới dạ ng tƣ duy logic
mà con ngƣời có thể hiể u đƣợc.
Tín hiệ u tiế ng nói đƣợc tạ o thành bởi các chuỗ i các âm vị liên tiế p.
Sự sắ p xế p củ a các âm vị đƣợc chi phố i bởi các quy tắ c củ a ngôn ngữ.
Việ c nghiên cứu mộ t cách chi tiế t về những quy tắ c này cũng nhƣ những
khía cạ nh khác bên trong tiế ng nói thuộ c về chuyên ngành ngôn ngữ. Việ c
phân loạ i các âm vị củ a tiế ng nói thuộ c về chuyên ngành ngữ âm họ c. Khi


4
nghiên cứu các mô hình toán họ c củ a cơ chế tạ o tiế ng nói, việ c nghiên cứu
về các âm vị là rấ t cầ n thiế t.
Mỗ i ngƣời bình thƣờng đề u có mộ t hệ thố ng phát ra âm thanh, hay
tiế ng nói. Không khí đƣợc đƣa vào phổ i thông qua cơ chế hít thở thông
thƣờng, sau đó đƣợc đẩ y từ phổ i qua khí quả n và làm rung các dây thanh
quả n. Các dòng khí đƣợc ngắ t thành các dao độ ng tuầ n hoàn khi đi qua
khoang họ ng, khoang miệ ng, và cả khoang mũi. Tuỳ thuộ c vào vị trí khác

nhau củ a các bộ phậ n phát âm (hàm, lƣỡi, môi, miệ ng..) mà các âm thanh
khác nhau đƣợc phát ra.
1.2. Tổ ng quan bộ máy phát âm
1.2.1. Bộ máy phát âm
Bộ máy phát âm bao gồ m các thành phầ n riêng rẽ nhƣ phổ i, khí
quả n, thanh quả n, và các đƣờng dẫ n miệ ng, mũi. Trong đó:
- Thanh quả n chứa hai dây thanh có thể dao độ ng tạ o ra sự cộ ng
hƣởng cầ n thiế t để tạ o ra âm thanh.
- Tuyế n âm là ố ng không đề u bắ t đầ u từ môi, kế t thúc bởi dây
thanh hoặ c thanh quả n.
- Khoang mũi là ố ng không đề u bắ t đầ u từ môi, kế t thúc bởi vòm
miệ ng, có độ dài cố đị nh khoả ng 12cm đố i với ngƣời lớn.
- Vòm miệ ng là các nế p cơ chuyể n độ ng.


5
Hình 1. 1. Bộ máy phát âm con người.
1.2.2. Cơ chế phát âm
Quá trình phát âm củ a con ngƣời đƣợc mô tả nhƣ sau:
Áp lực tạ o ra từ phổ i làm cho các thanh quả n phát ra các rung độ ng.
Lỗ giãn giữa các thanh quả n gọ i là thanh môn, thanh môn giố ng nhƣ mộ t
nút cổ chai, không khí đi qua đây sẽ có áp suấ t thay đổ i độ t ngộ t tạ o thành
xung lực, ả nh hƣởng củ a thanh môn chính là sự phóng các chuỗ i không khí
bị nén đế n các hố c cộ ng hƣởng âm với tầ n số thay đổ i theo sự giãn nở
này (do thầ n kinh điề u khiể n). Luồ ng khí xuyên qua các hố c, phả n xạ lên
các vậ t chắ n (là các bộ phậ n giới hạ n cơ quan phát âm nhƣ các cơ), đi qua
các hố c cộ ng hƣởng cuố i cùng phát ra ở môi và lỗ mũi dƣới dạ ng sóng áp
lực, còn gọ i là sóng áp lực âm thanh tiế ng nói. Thanh quả n có thể bị làm
cứng, hoặ c nới lỏ ng (do thầ n kinh điề u khiể n các cơ) để thay đổ i tố c độ
dãn.

Cơ quan chắ n giữa khoang mũi và khoang miệ ng hoạ t độ ng nhƣ
mộ t cổ ng giữa hố c âm mũi và hố c âm miệ ng, nó có thể đóng để cô lậ p hay
mở để kế t hợp với hố c âm miệ ng mộ t cách hài hoà trong các tình huố ng
khác nhau (ví dụ nhƣ khi hát, khi nói chuyệ n, khi nói thầ m) và trong các
ngôn ngữ khác nhau (ví dụ Tiế ng pháp thƣờng phát ra nhiề u âm mũi hơn
Tiế ng việ t).
Lƣỡi, quai hàm, răng, môi đƣợc thay đổ i vị trí không gian để thay
đổ i hình dạ ng (tức là thay đổ i tầ n số cộ ng hƣởng) củ a hố c âm miệ ng,
sóng áp lực âm thanh phát ra từ miệ ng phụ thuộ c vào sự liên kế t giữa các
âm phát ra và sự suy hao trên các cơ quan phả n xạ .
Sóng áp lực âm thanh tồ n tạ i dƣới dạ ng sự di chuyể n liên tụ c củ a
các luồ ng khí, khi đế n cơ quan thính giác thì đƣợc phả n ánh qua các thông
số : độ rõ, âm sắ c, độ cao, độ lớn củ a âm.
Cơ quan phát âm đƣợc kích thích bởi luồ ng khí từ phổ i, nguồ n kích
thích này có thể tạ o ra âm kêu hoặ c không kêu. âm kêu ứng với quá trình


6
sau: Thanh đới dao độ ng tạ i tầ n số gọ i là “tầ n số căn bả n”, hay còn củ a
âm, có thể trực tiế p kiể m tra bằ ng cách đặ t ngón tay vào cổ họ ng khi nói,
nế u có sự rung độ ng sang tay thì đó là âm kêu.
Còn âm không kêu ứng với quá trình sau: Khi thanh đới không dao
độ ng, tức là bị “làm cứng” bởi các cơ, luồ ng khí hoặ c cũng đƣợc phát ra
cơ quan phát âm hoặ c bị thanh môn chặ n lạ i hiệ u ứng củ a chúng là có sự
hỗ n loạ n củ a các luồ ng khí đi qua các cơ quan.
Bởi vậ y trong thời gian xem xét sóng âm thanh phát ra là sự kế t hợp
củ a âm thanh và âm vô thanh.
1.3. Biể u diễ n tín hiệ u tiế ng nói
Sả n phẩ m củ a các quá trình xử lý tín hiệ u tiế ng nói phả i đƣợc phả n
ánh bởi chính con ngƣời thông qua cơ quan thính giác. Các thông tin củ a

thính giác liên quan đế n vấ n đề mã hoá tín hiệ u là:
Thính giác có tính quán tính: Đáp ứng củ a thính giác với tác độ ng
củ a âm thanh không phả i là ngay tức thì, mà là có tính trễ , các thí nghiệ m đã
cho kế t quả với môi trƣờng truyề n âm bình thƣờng sau khi bắ t đầ u
khoả ng 200-ms thính giác mới xác đị nh âm lƣợng củ a nó khi âm ngừng
cả m nhậ n còn âm kéo dài chừng 150-200-ms thính giác không phân biệ t
đƣợc hai âm giố ng nhau đi liề n nhau khoả ng nhỏ hơn 50-ms, tức là có
hiệ n tƣợng che lấ p củ a âm, phả i qua tác độ ng vài chu kỳ thì tai ngƣời mới
“quen” với cao độ củ a âm (tầ n số cao hay thấ p).
- Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai tai với
hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi tiến hành
kiểm tra hệ thống.
- Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu
không phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âm thanh do
thêm thành phần sóng hài, không gây ra sai lệch cho người nghe bằng do thêm
thành tần số không bội, khi mã hoá phải chú ý đến thành phần tần số không bội.
- Đặc điểm về giới tính, lứa tuổi thậm trí cả yếu tố dân tộc: tức là những yếu


7
tố trên là khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm
thụ về âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trước
khi đưa ra đánh giá.
Tín hiệ u tiế ng nói là tín hiệ u tƣơng tự. Do đó khi biể u diễ n tín hiệ u
tiế ng nói trong môi trƣờng tính toán củ a tín hiệ u số , việ c biể u diễ n và lƣu
trữ sao cho không bị

mấ t mát thông tin là vấ n đề hế t sức quan trọ ng

trong các hệ thố ng thông tin có sử dụ ng tín hiệ u tiế ng nói. Việ c xem xét các

vấ n đề xử lý tín hiệ u tiế ng nói trong các hệ thố ng này dựa trên ba vấ n đề
chính:
- Biể u diễ n tín hiệ u tiế ng nói dạ ng số .
- Cài đặ t các kỹ thuậ t xử lý.
- Các lớp ứng dụ ng dựa trên kỹ thuậ t xử lý tín hiệ u số .
Phầ n này trình bày vấ n đề biể u diễ n tiế ng nói dƣới dạ ng số . Mô
hình tổ ng quát các phƣơng pháp biể u diễ n tín hiệ u tiế ng nói đƣợc trình
bày trên hình 1.1.

Hình 1.2. Biểu diễn tín hiệu tiếng nói.
Trên phƣơng diệ n khác, phƣơng pháp biể u diễ n tín hiệ u theo tham
số đƣợc xem xét đế n trên khía cạ nh biể u diễ n tín hiệ u tiế ng nói nhƣ đầ u
ra củ a hệ thố ng tạ o tiế ng nói. Để thu đƣợc các tham số biể u diễ n, bƣớc
đầ u tiên củ a phƣơng pháp này lạ i thƣờng là biể u diễ n tín hiệ u theo dạ ng
sóng. Điề u này có nghĩa là tín hiệ u tiế ng nói đƣợc lấ y mẫ u và lƣợng tử


8
hoá giố ng nhƣ phƣơng pháp biể u diễ n tín hiệ u tiế ng nói dạ ng sóng, sau
đó tiế n hành xử lý để thu đƣợc các tham số củ a tín hiệ u tiế ng nói củ a mô
hình tạ o tiế ng nói nêu trên. Các tham số củ a mô hình tạ o tiế ng nói này
thƣờng đƣợc phân loạ i thành các tham số tín hiệ u nguồ n (có quan hệ mậ t
thiế t với nguồ n củ a tiế ng nói) và các tham số củ a bộ máy phát âm tƣơng
ứng (có quan hệ mậ t thiế t với giọ ng nói củ a từng ngƣời). Hình 1.3 chỉ ra
những sự khác nhau củ a mộ t số dạ ng biể u diễ n tín hiệ u tiế ng nói theo các
yêu cầ u củ a thông lƣợng (bits/s):

Hình 1.3. Thông lượng cho các phương pháp biểu diễn tiếng nói.
Đƣờng phân cách ở giữa (tƣơng ứng với thông lƣợng 15.000 bits/s)
chia khoả ng dữ liệ u thành hai phầ n riêng biệ t: phầ n thông lƣợng cao dành

cho dạ ng biể u diễ n tín hiệ u dạ ng sóng ở phía trái và phầ n thông lƣợng
thấ p ở bên phả i dành cho biể u diễ n tín hiệ u dạ ng tham số . Hình trên chỉ
ra sự thay đổ i trong khoả ng từ 75 bits/s (xấ p xỉ thông lƣợng khi tổ ng hợp
văn bả n) cho tới thông lƣợng trên 200.000 bits/s cho các dạ ng biể u diễ n
sóng đơn giả n. Điề u này cho phép biể u diễ n từ 1 đế n 3.000 cách cho thông
lƣợng tuỳ thuộ c vào tín hiệ u nói cầ n biể u diễ n. Tấ t nhiên là thông lƣợng
không chỉ phụ thuộ c tín hiệ u cầ n biể u diễ n mà nó còn phụ thuộ c vào các
yế u tố khác nhƣ giá thành, sự mề m dẻ o củ a phƣơng pháp biể u diễ n, chấ t
lƣợng củ a tiế ng nói. Vì tiế ng nói là tín hiệ u liên tụ c nên để áp dụ ng các
phƣơng pháp xử lý tín hiệ u thì tiế ng nói phả i đƣợc biể u diễ n dƣới dạ ng


9
rời rạ c. Quá trình rời rạ c hoá tín hiệ u tiế ng nói bao gồ m các bƣớc sau:
- Lấ y mẫ u tín hiệ u tiế ng nói với tầ n số lấ y mẫ u f0.
- Lƣợng tử hoá các mẫ u vớ i các bƣớc lƣợng tử q.
- Mã hoá và nén tín hiệ u.
1.3.1. Xác đị nh tầ n số lấ y mẫ u
Khi lấ y mẫ u mộ t tín hiệ u tƣơng tự với tầ n số lấ y mẫ u f0 cầ n
đả m bả o rằ ng việ c khôi phụ c lạ i tín hiệ u đó từ tín hiệ u rời rạ c tƣơng
ứng phả i thực hiệ n đƣợc. Shanon đã đƣa ra mộ t đị nh lý mà theo đó
ngƣời ta có thể xác đị nh tầ n số lấ y mẫ u đả m bả o yêu cầ u trên. Theo
Shanon, điề u kiệ n cầ n và đủ để khôi phụ c lạ i tín hiệ u tƣơng tự từ tín
hiệ u đã đƣợc rời rạ c hoá với tầ n số f0 là: f0≥ fMAX với fMAX là tầ n số lớ n
nhấ t củ a tín hiệ u tƣơng tự. Phổ củ a tín hiệ u tiế ng nói trả i rộ ng trong
khoả ng 12kHz, do đó theo đị nh lý Shanon thì tầ n số lấ y mẫ u tố i thiể u
là 24kHz. Vớ i tầ n số lấ y mẫ u lớn nhƣ thế thì khố i lƣợng bộ nhớ dành
cho việ c ghi âm sẽ rấ t lớn và làm tăng sự phức tạ p trong tính toán.
Nhƣng chi phí cho việ c xử lý tín hiệ u số , bộ lọ c, sự truyề n và ghi âm có
thể giả m đi nế u chấ p nhậ n giới hạ n phổ bằ ng cách cho tín hiệ u qua

mộ t bộ lọ c tầ n số thích hợ p. Đố i với tín hiệ u tiế ng nói cho điệ n thoạ i,
ngƣời ta thấ y rằ ng tín hiệ u tiế ng nói đạ t chấ t lƣợng cầ n thiế t để mức
độ ngữ nghĩa củ a thông tin vẫ n bả o đả m khi phổ đƣợ c giớ i hạ n ở
3400Hz. Khi đó tầ n số lấ y mẫ u sẽ là 8000Hz. Trong kỹ thuậ t phân tích,
tổ ng hợp hay nhậ n dạ ng tiế ng nói, tầ n số lấ y mẫ u có thể dao độ ng
trong khoả ng 6.000 - 16.000Hz. Đố i vớ i tín hiệ u âm thanh (bao gồ m cả
tiế ng nói và âm nhạ c) tầ n số lấ y mẫ u cầ n thiế t là 48kHz.
Lƣợng tử hoá: Việ c biể u diễ n số tín hiệ u đòi hỏ i việ c lƣợng tử
hoá mỗ i mẫ u tín hiệ u vớ i mộ t giá trị rời rạ c hữu hạ n. Mụ c tiêu củ a
công việ c này hoặ c là để truyề n tả i hoặ c là xử lý có hiệ u quả . Trong
trƣờng hợp thứ nhấ t mỗ i mẫ u tín hiệ u đƣợc lƣợng tử hoá, mã hoá rồ i
truyề n đi. Bên thu nhậ n tín hiệ u giả i mã và thu đƣợ c tín hiệ u tƣơng tự.
Tính thố ng kê củ a tín hiệ u đƣợc bả o toàn sẽ ả nh hƣởng quan trọ ng


10
đế n thuậ t toán lƣợng tử hoá. Trong trƣờng hợp xử lý tín hiệ u, luậ t
lƣợng tử hoá đƣợc quy đị nh bở i hệ thố ng xử lý, nó có thể đƣợc biể u
diễ n bằ ng dấ u phẩ y tĩnh hay dấ u phẩ y độ ng. Việ c xử lý bằ ng dấ u
phẩ y độ ng cho phép thao tác vớ i tín hiệ u khá mề m dẻ o mặ c dù chi phí
tính toán cao. Việ c xử lý bằ ng dấ u phẩ y tĩnh đơn giả n hơn nhiề u
nhƣng đòi hỏ i các điề u kiệ n chặ t chẽ đố i vớ i các thuậ t toán xử lý.
1.3.2. Nén tín hiệ u tiế ng nói
Lƣợng tử hoá tín hiệ u gây ra các lỗ i có thành phầ n giố ng nhiễ u
trắ ng, nhƣ vậ y số bƣớc lƣợng tử cầ n đƣợc phân bố theo tỷ lệ trên lỗ i
thích hợp. Nế u số bƣớc lƣợng tử là cố đị nh thì tỷ số này là hàm củ a biên
độ tín hiệ u, ngƣời ta sử dụ ng luậ t lƣợng tử logarithm và mỗ i mẫ u tín
hiệ u đƣợc biể u diễ n bằ ng 8 bit. Đố i với tín hiệ u âm thanh kích thƣớc
mẫ u thƣờng là 16 bit. Mộ t đặ c trƣng cầ n thiế t củ a phép biể u diễ n tín
hiệ u số là tố c độ nhị phân tính bằ ng bit/s. Đó là giá trị quan trọ ng trong

khi thực hiệ n truyề n dữ liệ u cũng nhƣ lƣu trữ dữ liệ u.
Đƣờng truyề n điệ n thoạ i có tố c độ là 8(kHz)*8(bit)=64kb/s. Khi
thực hiệ n truyề n và ghi lạ i tín hiệ u âm thanh, tố c độ cầ n thiế t 768 kb/s. Ta
biế t rằ ng tín hiệ u tiế ng nói có độ dƣ thừa rấ t lớn, do đó có thể giả m tố c
độ tín hiệ u tuỳ thuộ c mụ c đích xử lý khi xem xét đế n mức độ phức tạ p
củ a các thuậ t toán cũng nhƣ xem xét đế n chấ t lƣợng củ a việ c biể u diễ n
tín hiệ u tiế ng nói. Có nhiề u kỹ thuậ t đƣa ra để đạ t đƣợc các mụ c đích
trên. Sự lựa chọ n mộ t phƣơng pháp biể u diễ n số tín hiệ u thoả mãn giữa
các tiêu chuẩ n về chấ t lƣợng củ a củ a phép biể u diễ n, tố c độ lƣu truyề n
hay lƣu trữ và cuố i cùng là các điề u kiệ n môi trƣờng (nhƣ nhiễ u,...). Thông
thƣờng số bit có nghĩa dùng để biể u diễ n chuỗ i lƣợng tử cầ n phả i giả m
bớt vì lý do kỹ thuậ t. Việ c này có thể thực hiệ n đƣợc bằ ng cách bỏ đi các
bit ít có nghĩa nhấ t, nế u phép lƣợng tử là tuyế n tính, lỗ i lƣợng tử tăng
cùng với khoả ng giá trị

củ a chuỗ i. Nhƣng đố i với mộ t vài ứng dụ ng,

mức lƣợng tử ở vùng tầ n số cao có yêu cầ u thấ p hơn so với mức lƣợng


11
tử ở vùng tầ n số thấ p hay ngƣợc lạ i, trong trƣờng hợp đó cầ n sử dụ ng
toán tử tuyế n tính để biế n đổ i tín hiệ u. Kỹ thuậ t truyề n tin trong điệ n
thoạ i thƣờng sử dụ ng luậ t nén tín hiệ u theo đƣờng cong logarithm. Có hai
luậ t nén đƣợc sử dụ ng phổ biế n hiệ n nay là luậ t μ và luậ t A.
1.4. Đặ c tính củ a tiế ng nói
1.4.1. Âm hữu thanh
Âm hữu thanh đƣợc tạ o ra từ các dây thanh bị căng đồ ng thời và
chúng rung độ ng ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra
và sau đó thanh môn xẹ p xuố ng do không khí chạ y qua. Do sự cộ ng hƣởng

củ a dây thanh, sóng âm tạ o ra có dạ ng tuầ n hoàn hoặ c gầ n nhƣ tuầ n hoàn.
Phổ củ a âm hữu thanh có nhiề u thành phầ n hài tạ i giá trị bộ i số củ a tầ n
số cộ ng hƣởng, còn gọ i là tầ n số cơ bả n (pitch).
1.4.2. Âm vô thanh
Khi tạ o ra âm vô thanh dây thanh không cộ ng hƣởng. Âm vô thanh có
hai loạ i cơ bả n là âm xát và âm tắ c. Âm xát (ví dụ nhƣ âm s) đƣợc tạ o ra
khi có sự co thắ t tạ i vài điể m trong tuyế n âm. Không khí khi đi qua điể m co
thắ t sẽ chuyể n thành chuyể n độ ng hỗ n loạ n tạ o nên kích thích giố ng nhƣ
nhiễ u ngẫ u nhiên. Thông thƣờng điể m co thắ t xả y ra gầ n miệ ng nên sự
cộ ng hƣởng củ a tuyế n âm ả nh hƣởng rấ t ít đế n đặ c tính củ a âm xát
đƣợc tạ o ra. Âm tắ c (ví dụ nhƣ âm p) đƣợc tạ o ra khi tuyế n âm đóng tạ i
mộ t số điể m làm cho áp suấ t không khí tăng lên và sau đó đƣợc giả i phóng
độ t ngộ t. Sự giả i phóng độ t ngộ t này tạ o ra kích thích nhấ t thời củ a tuyế n
âm. Sự kích thích này có thể xả y ra với sự cộ ng hƣởng hoặ c không cộ ng
hƣởng củ a dây thanh tƣơng ứng với âm tắ c hữu thanh hoặ c vô thanh.
1.4.3. Âm vị
Tín hiệ u tiế ng nói là tín hiệ u tƣơng tự biể u diễ n cho thông tin về
mặ t ngôn ngữ và đƣợc mô tả bởi các âm vị khác nhau. Nhƣ vậ y, âm vị là
đơn vị nhỏ nhấ t củ a ngôn ngữ. Tuỳ theo từng ngôn ngữ cụ thể mà số
lƣợng các âm vị nhiề u hay ít (thông thƣờng số lƣợng các âm vị vào


12
khoả ng 20 – 30). Các âm vị đƣợc chia thành hai loạ i: nguyên âm và phụ âm.
1.4.4. Nguyên âm
Nguyên âm là âm hữu thanh đƣợc tạ o ra bằ ng sự cộ ng hƣởng củ a
dây thanh khi dòng khí đƣợc thanh môn đẩ y lên. Khoang miệ ng đƣợc tạ o
lậ p thành nhiề u hình dạ ng nhấ t đị nh tạ o thành các nguyên âm khác nhau.
Số lƣợng các nguyên âm phụ thuộ c vào từng ngôn ngữ nhấ t đị nh.
1.4.5. Phụ âm

Phụ âm đƣợc tạ o ra bởi các dòng khí hỗ n loạ n đƣợc phát ra gầ n
những điể m co thắ t củ a đƣờng dẫ n âm thanh do cách phát âm tạ o thành.
Phụ âm có đặ c tính hữu thanh hay vô thanh tuỳ thuộ c vào việ c dây thanh có
dao độ ng để tạ o nên cộ ng hƣởng không. Dòng không khí tạ i chỗ đóng củ a
vòm miệ ng tạ o ra phụ âm tắ c. Phụ âm xát đƣợc phát ra từ chỗ co thắ t lớn
nhấ t.
1.4.6. Các đặ c tính khác
1.4.6.1. Tỷ suấ t thờ i gian
Trong khi nói chuyệ n, khoả ng thời gian nói và khoả ng thời gian
nghỉ xen kẽ nhau. Tỷ lệ % thời gian nói trên tổ ng số thời gian nói và nghỉ
đƣợc gọ i là tỷ suấ t thời gian. Giá trị này biế n đổ i tuỳ thuộ c vào tố c độ
nói và từ đó ta có thể phân loạ i thành nói nhanh, nói chậ m hay nói bình
thƣờng.
1.4.6.2. Hàm năng lư ợ ng thờ i gian ngắ n
Hàm năng lƣợng thời gian ngắ n củ a tiế ng nói đƣợc tính bằ ng cách
chia tín hiệ u tiế ng nói thành nhiề u khung, mỗ i khung chứa N mẫ u. Các
khung này đƣợc đƣa qua mộ t cửa sổ có dạ ng hàm nhƣ sau:


13
Thông thƣờng có ba dạ ng cửa sổ đƣợc sử dụ ng đó là cửa sổ
Hamming, cửa sổ Hanning và cửa sổ chữ nhậ t. Hàm năng lƣợng thời gian
ngắ n củ a âm hữu thanh thƣờng lớn hơn so với âm vô thanh.
1.4.6.3. Tầ n số cơ bả n
Dạ ng sóng củ a tiế ng nói gồ m hai phầ n: Phầ n gầ n giố ng nhiễ u
(trong đó biên độ biế n đổ i ngẫ u nhiên) và phầ n có tính chu kỳ (trong đó tín
hiệ u lặ p lạ i gầ n nhƣ tuầ n hoàn). Phầ n tín hiệ u có tính chu kỳ chứa các
thành phầ n tầ n số có dạ ng điề u hòa. Tầ n số thấ p nhấ t chính là tầ n số cơ
bả n và cũng chính là tầ n số dao độ ng củ a dây thanh. Đố i với những ngƣời
nói khác nhau, tầ n số cơ bả n cũng khác nhau. Dƣới đây là mộ t số giá trị

tầ n số cơ bả n tƣơng ứng với giới tính và tuổ i:

Giá trị tần số cơ bản

Ngƣời nói

80 – 200 Hz

Nam giới

150 – 450 Hz

Phụ nữ

200 – 600 Hz

Trẻ em

Bảng 1.1. Giá trị tần số cơ bản của con người.
1.4.6.4. Tầ n số Formant
Với phổ củ a tín hiệ u tiế ng nói, mỗ i đỉ nh có biên độ lớn nhấ t xét
trong mộ t khoả ng nào đó (cực đạ i khu vực) tƣơng ứng với mộ t formant.
Ngoài tầ n số , formant còn đƣợc xác đị nh bởi biên độ và dả i thông. Về
mặ t vậ t lý các formant tƣơng ứng với các tầ n số cộ ng hƣởng củ a tuyế n
âm. Trong xử lý tiế ng nói và nhấ t là trong tổ ng hợp tiế ng nói, để mô
phỏ ng lạ i tuyế n âm ngƣời ta phả i xác đị nh đƣợc các tham số formant đố i
với từng loạ i âm vị , do đó việ c đánh giá, ƣớc lƣợng các formant có ý nghĩa
rấ t quan trọ ng. Tầ n số formant biế n đổ i trong mộ t khoả ng rộ ng phụ
thuộ c vào giới tính củ a ngƣời nói và phụ thuộ c vào các dạ ng âm vị tƣơng
ứng với formant đó. Đồ ng thời, formant còn phụ thuộ c các âm vị trƣớc và

sau đó. Về cấ u trúc tự nhiên, tầ n số formant có liên hệ chặ t chẽ với hình


14
dạ ng và kích thƣớc tuyế n âm. Thông thƣờng phổ củ a tín hiệ u tiế ng nói có
khoả ng 5 formant nhƣng chỉ có 3 formant đầ u tiên ả nh hƣởng quan trọ ng
đế n các đặ c tính củ a các âm vị , các formant còn lạ i cũng có ả nh hƣởng
song rấ t ít. Tầ n số formant đặ c trƣng cho các nguyên âm biế n đổ i tuỳ
thuộ c vào ngƣời nói trong điề u kiệ n phát âm nhấ t đị nh. Mặ c dù phạ m vi
củ a các tầ n số formant tƣơng ứng với mỗ i nguyên âm có thể trùm lên nhau
nhƣng vị trí giữa các formant là không đổ i vì sự xê dị ch củ a các formant là
song song.
1.5. Mô hình tạ o tiế ng nói
Nhằm đơn giản hoá việc phân tích và nghiên cứu bộ máy phát âm, người ta chia
bộ máy phát âm ra làm hai phần cơ bản: nguồn âm và hệ thống đáp ứng.
Hệ thố ng đáp ứng bao gồ m thanh môn, tuyế n âm, môi và mũi. Việ c
mô hình hoá này sử dụ ng hàm truyề n đạ t trong biế n đổ i Z.
Đố i với các âm hữu thanh, nguồ n âm là mộ t dạ ng sóng tuầ n hoàn
đặ c biệ t. Dạ ng sóng này đƣợc mô phỏ ng bởi đáp ứng củ a bộ lọ c thông
thấ p có hai điể m cực thực và tầ n số cắ t vào khoả ng 100 Hz.

Hình 1.4. Mô hình hoá nguồn âm đối với âm hữu thanh.

Đố i với âm vô thanh nguồ n âm là mộ t nhiễ u trắ ng với biên độ biế n
đổ i gầ n nhƣ ngẫ u nhiên. Để tạ o tiế ng nói, ngƣời ta dùng các mô hình khác
nhau để mô phỏ ng bộ máy phát âm. Theo quan điể m giả i phẫ u họ c, ta có
thể giả thiế t rằ ng tuyế n âm đƣợc biể u diễ n bằ ng mộ t chuỗ i M đoạ n
ố ng âm họ c lý tƣởng, là những đoạ n ố ng có độ dài bằ ng nhau, và từng
đoạ n riêng biệ t có thiế t diệ n mặ t cắ t là Am (gọ i tắ t là thiế t diệ n) khác



15
nhau theo chiề u dài đoạ n ố ng. Tổ hợp thiế t diệ n {Am} củ a các đoạ n ố ng
đƣợc chọ n sao cho chúng xấ p xỉ với hàm thiế t diệ n A(x)củ a tuyế n âm.

Hình 1.5. Chuỗi 5 đoạn ống âm học lý tưởng.
Các đoạ n ố ng đƣợc coi là lý tƣởng khi:
- Độ dài mỗ i đoạ n đủ nhỏ so với bƣớc sóng âm truyề n qua nó
đƣợc coi là sóng phẳ ng.
- Các đoạ n đủ

cứng sao cho sự hao tổ n bên trong do dao độ ng

thành ố ng, tính dính và đẫ n nhiệ t không đáng kể .
Ngoài ra ta giả thiế t thêm mô hình tuyế n âm lúc này là tuyế n tính và
không nố i với thanh môn, hiệ u ứng củ a tuyế n mũi đƣợc bỏ qua, ta sẽ có
mô hình tạ o tiế ng nói lý tƣởng và việ c phân tích mô hình ố ng âm họ c trở
nên phức tạ p hơn. Tiế p theo chúng ta có thể thấ y rằ ng mô hình này có
nhiề u tính chấ t chung với mạ ch lọ c số nên nó có thể đƣợc biể u diễ n
bằ ng cấ u trúc mạ ch lọ c số với các tham số thay đổ i phù hợp với sự thay
đổ i tham số củ a ố ng âm họ c. Sự chuyể n độ ng củ a không khí trong mộ t
đoạ n ố ng âm họ c có thể đƣợc mô tả bằ ng áp suấ t âm thanh và thông
lƣợng, đó là những hàm phụ thuộ c độ dài ố ng (x) và thời gian (t). Trong
những đoạ n riêng biệ t đó, các giá trị củ a hai hàm này đƣợc coi là tổ hợp
tuyế n tính các giá trị củ a chúng đố i với sóng thuậ n và sóng ngƣợc (đƣợc
ký hiệ u lầ n lƣợt bằ ng dấ u cộ ng „+‟ và dấ u trừ „-‟). Sóng thuậ n là sóng
truyề n từ thanh môn đế n môi, trong khi sóng ngƣợc lạ i truyề n lừ môi đế n
thanh môn. Nế u đoạ n thứ m chúng ta xét có thiế t diệ n Am thì hàm thông
lƣợng và hàm áp suấ t củ a đoạ n này là:



×