Tải bản đầy đủ (.pdf) (121 trang)

Nhận dạng tiếng nói dùng mô hình markov ẩn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.11 MB, 121 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN THANH PHƯƠNG

ĐỀ TÀI:
NHẬN DẠNG TIẾNG NĨI DÙNG MƠ HÌNH
MARKOV ẨN

LUẬN VĂN CAO HỌC
CHUYÊN NGÀNH: TỰ ĐỘNG HÓA

NĂM 2003


Nhận dạng tiếng nói tiếng Việt

GIỚI THIỆU
Đã từ lâu, con người luôn mơ ước đến một hệ thống điều khiển tự động “thông minh”
mà có thể giao tiếp được với con người một cách thân thiện và gần gũi. Một trong những
phương tiện giao tiếp “thân thiện và gần gũi” nhất đối với con người là tiếng nói vì thông
qua tiếng nói, người và máy có thể hiểu nhau. Khi đó các máy tính sẽ không cần bàn phím,
các hệ thống điều khiển không cần bảng điều khiển, các máy điện thoại không cần đến bàn
phím để quay số, người ta có thể điều khiển hệ thống từ xa bằng cách gọi điện thoại như để
nói chuyện với một người bạn ... Để thực hiện được điều này, người ta phải xây dựng được
cho máy một hệ thống mà có thể hiểu được tiếng nói của con người, đó là hệ thống nhận
dạng tiếng nói.
Ngày nay, cùng với sự phát triển của điện tử và tin học, các máy tính với tóc độ tính
toán rất cao, các Chip xử lý tốc độ cao ra đời là một thuận lợi rất lớn cho việc thực hiện các
hệ thống nhận dạng tiếng nói. Hiện nay trên thế giới đã có rất nhiều nghiên cứu và thử


nghiệm về hệ thống nhận dạng tiếng nói và cũng đã đạt được một số kết quả khả quan như :
Via Voice Millennium (IBM), Via Voice Standard (IBM), Naturally Speaking 5.0 (Dragon),
CSLU (Center of Spoken Language Understanding), những hệ thống này được xây dựng để
nhận dạng tiếng Anh. Ngoài ra còn một số hệ thống nhận dạng của các ngôn ngữ khác như :
tiếng Trung Quốc, Tây ban nha, Ý, Đức,.... cũng đã được thực hiện. Tuy nhiên, đối với tiếng
Việt thì chưa có một hệ thống nhận dạng nào hoàn chỉnh.
Mục đích của luận án này là xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt
dùng mô hình chuỗi Markov ẩn (Hidden Markov Models) HMM.
Hệ thống nhận dạng tiếng nói tổng quát gồm 2 giai đoạn: Giai đoạn huấn luyện và
giai đoạn nhận dạng, được minh họa như hình vẽ 1.
Giai đoạn huấn luyện: Huấn luyện cho hệ thống những mẫu chuẩn tương ứng với
những âm giọng khác nhau.
Giai đoạn nhận dạng : Hệ thống nhận dạng những mẫu tiếng nói ngẫu nhiên dựa vào
mô hình mẫu.
tiếng nói mẫu Giai đoạn huấn
luyện
Mô hình tiếng
nói
tiếng nói cần
nhận dạng

Giai đoạn
nhận dạng

Xuất ra từ
tương ứng

Hình 1: Sơ đồ tổng quát của hệ thống nhận dạng tiếng nói
Để thực hiện được mục tiêu như trên thì tôi đề nghị sơ đồ khối của quá trình nhận dạng
như sau:

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

1


Nhận dạng tiếng nói tiếng Việt
Tín hiệu
Tín hiệu
Chọn Chỉ số
LPC
Tiền xử tiếng
Chuỗi Tính
tiế
n
g
Số hoá
giá của từ
lý tín nói đã Ceptral, quan toán P(O|λ)

i
đã
tiếng
cần
trị
xác
hiệu được xử lượng tử

t
đượ
c

rờ
i
nói
nhận
lớn
hoá
suất
O
rạc hóa tiếng nói lý
nhất dạng
vector
ν*
HMM của
từ mẫu
*
Với υ = arg max[ P(O | λυ )]
1<υ <ν

Hình 2: Sơ đồ khối của hệ thống nhận dạng tiếng nói
Quá trình nhận dạng gồm các bước sau:
- Số hoá tiếng nói cần nhận dạng với tốc độ lấy mẫu thích hợp (Dùng Sound Card).
- Tín hiệu tiếng nói sau khi rời rạc hóa được đưa vào khối tiền xử lý để thực hiện việc
lọc nhiễu, chia tín hiệu tiếng nói thành từng Frame dùng cửa sổ Hamming, preemphasis, tách
tín hiệu tiếng nói của từng từ và.
- Khối LPC Ceptral và lượng tử hóa vector để tính ma trận quan sát O.
- Khối tính xác suất thực hiện việc tính xác suất của quan sát O với mô hình λ.
*
- Chọn giá trị υ = arg max[ P(O | λυ )] : đây chính là chỉ số của từ cần nhận dạng.
1<υ <ν


-

Mô hình chuỗi Markov ẩn được dùng là mô hình Bakis 4 trạng thái với bước nhảy là 2

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

2


Nhận dạng tiếng nói tiếng Việt

CHƯƠNG I

TIẾNG NÓI TỰ NHIÊN
Nội dung của chương này trình bày tóm tắt lịch sử nhận dạng tiếng nói, trình bày cơ chế
tạo lập và nhận thức tiếng nói của con người để làm cơ sở cho việc trích đặc trưng tiếng nói.
Ngoài ra chúng ta cũng phân loại các âm thanh khác nhau như âm hữu thanh, âm vô thanh,
nguyên âm, phụ âm... Hiểu biết rõ ngữ âm tiếng Việt là điều thuận lợi giúp cho quá trình
nhận dạng. Từ đó đưa ra sơ đồ tổng quát của hệ thống nhận dạng tiếng nói.

I.1 TÓM TẮT LỊCH SỬ NHẬN DẠNG TIẾNG NÓI:

Nhận dạng tiếng nói đã được nghiên cứu suốt hơn bốn mươi năm qua. Nỗ lực đầu tiên
sáng chế ra những máy có khả năng tự động nhận dạng tiếng nói được thực hiện từ những
năm 1950, khi các nhà nghiên cứu cố gắng trích ra các dấu hiệu cơ bản của ngữ âm học. Vào
năm 1952, ở Bell Laboratories, Davis, Biddulph, và Balashek đã xây dựng nên hệ nhận dạng
chữ số rời cho một người nói. Hệ này chủ yếu dựa vào việc đo phổ cộng hưởng trong miền
nguyên âm của mỗi số. Một nỗ lực độc lập khác ở RCA Laboratories, Olson và Belar cố
gắng nhận dạng 10 âm tiết có mặt trong 10 từ đơn âm. Hệ này cũng dựa vào việc đo phổ (do
dãy bộ lọc tương tự tạo ra) trong miền nguyên âm. Vào năm 1959, tại University College

nước Anh, Fry và Denes cố gắng xây dựng một hệ nhận dạng có thể nhận dạng được bốn
nguyên âm và chín phụ âm. Họ đã dùng bộ phân tích phổ và đối sánh mẫu để quyết định
nhận dạng. Khía cạnh mới của nghiên cứu này là sử dụng thông tin thống kê về các chuỗi âm
vị hợp lệ trong tiếng Anh (dạng sơ bộ của cú pháp ngôn ngữ) để cải thiện độ chính xác toàn
bộ âm vị của những từ gồm hai hay nhiều âm tiết. Một cố gắng nữa trong thời kỳ này là hệ
nhận dạng nguyên âm của Forgie và Forgie ở MIT Lincoln Laboratories vào năm 1959, dùng
để nhận dạng độc lập người nói 10 nguyên âm có mặt trong những từ dạng /b/ - nguyên âm /t/. Một lần nữa, dãy bộ lọc được dùng để tạo ra thông tin phổ và ước lượng biến thiên theo
thời gian của bộ phận phát âm để xác định nguyên âm nào đã nói.
Những năm 1960, nổi lên một vài ý tưởng cơ bản cho nhận dạng tiếng nói. Thập niên
này bắt đầu với sự tham gia của các phòng thí nghiệm Nhật Bản vào lãnh vực nhận dạng và
họ đã cài đặt những phần cứng chuyên dụng vào hệ nhận dạng của họ. Hệ sớm nhất ở Nhật
Bản được mô tả theo Suzuki và Nakata của Radio Research Lab là hệ nhận dạng nguyên âm
bằng phần cứng. Dãy bộ lọc phân tích phổ công phu cùng với ngõ ra có trọng số của mỗi
kênh được đưa tới mạch quyết định nguyên âm, và một mạch logic làm nhiệm vụ chọn
nguyên âm nào đã nói. Một cố gắng khác về phần cứng của Nhật Bản là thông báo của
Sakai và Doshita ở Kyoto University vào năm 1962 là xây dựng hệ nhận dạng âm vị, sử dụng
bộ phân đoạn tiếng nói bằng phần cứng cùng với việc phân tích chéo zero của những miền
khác nhau của âm vị đã nói ở ngõ vào để nhận dạng âm vị ở ngõ ra. Nỗ lực thứ ba của Nhật
Bản là hệ nhận dạng chữ số cũng bằng phần cứng của Nagata và các cộng sự ở NEC
Laboratories vào năm 1963. Cố gắng ban đầu trong lãnh vực nhận dạng tiếng nói của NEC
đã dẫn tới chương trình nghiên cứu sâu rộng sau này của họ.
Những năm 1960, là thời điểm bắt đầu của ba dự án lớn kéo dài suốt hơn hai mươi năm
nghiên cứu và phát triển nhận dạng tiếng nói. Dự án đầu tiên là nỗ lực của Martin và các
cộng sự ở RCA Laboratories bắt đầu cuối những năm 1960 để giải quyết vấn đề thời gian
3
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương


Nhận dạng tiếng nói tiếng Việt
không bằng nhau của các quan sát tiếng nói. Martin đã phát triển hàng loạt các phương pháp

chuẩn hóa thời gian, dựa vào mức độ phát hiện chính xác điểm bắt đầu và kết thúc tiếng nói,
kết quả là giảm đáng kể sự biến dạng khi so sánh tiếng nói. Cuối cùng Martin đã phát triển
các phương pháp này và sáng lập công ty Threshold Technology, một trong những công ty
đầu tiên đã đưa sản phẩm nhận dạng tiếng nói ra thị trường. Cùng thời gian này ở Liên Xô,
Vintsyuk đã sử dụng lập trình động để nắn thời gian của hai từ. Mặc dầu bản chất của lập
trình động cũng như các thuật toán nhận dạng từ nối đã được Vintsyuk công bố, nhưng phần
lớn chưa được biết đến ở phương Tây cho mãi đến đầu những năm 1980. Trong khoảng thời
gian dài này các phương pháp hình thức hơn cũng được các nhà khoa học khác công bố.
Thành tựu cuối cùng của những năm 1960 là nghiên cứu tiên phong của Reddy về nhận
dạng tiếng nói liên tục bằng chuỗi âm vị động. Những nghiên cứu của Reddy cuối cùng đã
nảy sinh chương trình nghiên cứu toàn diện ở Carnegie Mellon University (CMU) (Reddy đã
đến đây vào cuối những năm 1960), và cho đến ngày nay vẫn là người dẫn đầu trên thế giới
về các hệ nhận dạng tiếng nói liên tục.
Những năm 1970, các nghiên cứu về nhận dạng tiếng nói đã đạt được những tiến bộ
vượt bậc. Đầu tiên là lãnh vực nhận dạng từ rời, các kỹ thuật cơ bản đã được nghiên cứu bởi
Velichko và Zagoruyko ở Nga, Sakoe và Chiba ở Nhật Bản, Itakura ở Mỹ. Nghiên cứu của
Nga giúp nâng cao thuật toán nhận dạng mẫu, của Nhật Bản là lập trình động, của Itakura là
mã hóa dự báo tuyến tính và độ đo dựa trên phổ dự báo tuyến tính để nhận dạng tiếng nói.
Tiến bộ vượt bậc nữa của những năm 1970, là khởi đầu chương trình nghiên cứu rộng
lớn của IBM trong lãnh vực nhận dạng bộ từ vựng lớn kéo dài suốt hơn hai mươi năm với ba
nhiệm vụ phân biệt là ngôn ngữ New Raleigh cho các câu hỏi cơ sở dữ liệu đơn giản, ngôn
ngữ văn bản sáng chế laser để ghi nhận những sáng chế laser, và hệ văn phòng Tangora để
đọc chính tả những ghi nhớ đơn giản.
Sau cùng, các nhà nghiên cứu ở AT&T Bell Labs đã công bố hàng loạt những kinh
nghiệm phong phú trong các hệ nhận dạng tiếng nói độc lập với người nói. Các thuật toán
phân nhóm tinh vi đã được sử dụng để xác định số lượng các mẫu phân biệt cần thiết cho
việc biểu diễn tất cả những biến thiên của các từ khác nhau thông qua một số lượng lớn
người nói khác nhau. Nghiên cứu này đã được cải tiến liên tục suốt hơn một thập niên sao
cho việc nhận dạng độc lập với người nói ngày càng tốt hơn.
Trong lúc nhận dạng từ rời được tập trung nghiên cứu trong những năm 1970, thì những

năm 1980 lại tập trung nghiên cứu nhận dạng từ nối. Mục tiêu ở đây là tạo ra những hệ thống
mạnh có khả năng nhận dạng lời nói trôi chảy căn cứ trên việc đối sánh mẫu tập trung của
các từ riêng biệt. Hàng loạt các thuật toán nhận dạng từ nối đã được tổ chức, bao gồm lập
trình động hai mức của Sakoe ở Nippon Electric Corporation (NEC), thuật toán một lần duyệt
của Bridle và Brown ở Joint Speech Research Unit (JSRU) nước Anh, thuật toán tạo mức của
Myers và Rabiner ở Bell Labs, và thuật toán tạo mức đồng bộ frame (giống thuật toán một
lần duyệt) của Lee và Rabiner ở Bell Labs. Mỗi thuật toán đối sánh này đều có các ưu điểm
riêng và đã được áp dụng rộng rãi.
Nghiên cứu về tiếng nói những năm 1980 đã bước sang một thời kỳ mới, phương pháp
đối sánh mẫu được thay thế bằng mô hình thống kê - đặc biệt là mô hình Markov ẩn. Mặc dù
phương pháp luận về mô hình Markov đã được biết khá sớm, đầu tiên là IBM, Institute for
Defense Analyses, và Dragon Systems, nhưng nó không được công bố rộng rãi cho mãi đến
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

4


Nhận dạng tiếng nói tiếng Việt
giữa thập niên 1980. Ngày nay kỹ thuật này đã được áp dụng hầu hết ở các phòng thí nghiệm
nghiên cứu nhận dạng tiếng nói trên thế giới.
Một kỹ thuật ‘mới’ nữa đã được giới thiệu lại vào cuối những năm 1980 dựa trên ý
tưởng áp dụng mạng neural trong lãnh vực nhận dạng tiếng nói. Mạng neural đã được giới
thiệu đầu tiên vào những năm 1950 nhưng lúc đó có quá nhiều vấn đề thực tế. Tuy nhiên vào
những năm gần đây, người ta đã hiểu sâu hơn về sức mạnh và giới hạn của mạng neural
cũng như các kỹ thuật phân lớp tín hiệu. Một vài hệ đi theo hướng này đã được công bố như
CSLU, Natural Speech 5.0, Via Voice ... .
Cuối cùng, những năm 1980 là thập niên của hệ nhận dạng từ liên tục có bộ từ vựng
lớn. Defense Advanced Research Projects Agency (DARPA) - Mỹ (tạm dịch là Ủy ban Các
dự án nghiên cứu phòng thủ cao cấp) đã đỡ đầu chương trình nghiên cứu rộng lớn tập trung
vào hệ nhận dạng từ có độ chính xác cao khoảng 1000 từ, nhận dạng từ liên tục dùng cho

quản trị cơ sở dữ liệu. Các nỗ lực từ nhiều bên như CMU (với hệ SPHINX nổi tiếng), BBN
với hệ BYBLOS, Lincoln Labs, SRI, MIT, và AT&T Bell Labs. Chương trình DARPA tiếp
tục bước sang những năm 1990, với xử lý ngôn ngữ tự nhiên được hợp nhất vào hệ nhận
dạng. Cùng thời gian này, các kỹ thuật nhận dạng đã tiến bộ không ngừng, và được ứng dụng
trong lãnh vực mạng điện thoại để tự động hóa cũng như nâng cao các thao tác dịch vụ. Có
thể kể ra đây các hệ nhận dạng tiếng nói ngày nay như Naturally Speaking Deluxe cuûa
Dragon Systems, Via Voice cuûa IBM, Kurzweil VoicePro của Lernout & Hauspie.

I.2 NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI :
I.2.1 Tiếng nói ( Speech Sounds):
Ở mức độ ngôn ngữ học, tiếng nói có thể được xem là một chuỗi các âm thanh cơ bản
gọi là âm vị (Phoneme). Như vậy, âm vị là đơn vị cơ bản để tạo ra âm thanh nhưng đô khi
chúng ta không nhận được những âm vị đó từ tín hiệu tiếng nói. Cùng một âm vị có thể biểu
diễn nhiều tiếng nói khác nhau. Hơn nữa, các người nói khác nhau phát âm cùng một chuỗi
tiếng nói thì sẽ chuyển đi cùng một lượng thông tin như nhau, nhưng âm thanh lại không
giống nhau hoàn toàn. Nguyên nhân chính là khác nhau về hình dạng của bộ máy phát âm
của mỗi người và do sự ảnh hưởng của thổ ngữ (Dialect).
Âm thanh phát ra được điều khiển bởi các cơ quan phát âm (Speech Articulatorys), các
âm vị tương ứng trực tiếp với vị trí cũng như sự dịch chuyển của các khớp (Articulatory) trong
bộ máy phát âm còn gọi là động tác khi phát âm (Articulatory gestures). Động tác phát âm
có thể là tónh hoặc động tuỳ thuộc vào sự chuyển động hoặc không chuyển động của các
khớp khi phát âm.
Tiếng nói có các đặc trưng (Các thuộc tính vật lý của nó) như sau:
- Độ cao;
Là mức độ cao thấp của âm, phụ thuộc vào sự chấn động nhanh hay chậm của không
khí trong một khoảng thời gian nhất định, đượcc gọi là tần số dao động.
- Độ mạnh:
Thường được gọi là cường độ, do biên độ dao động quyết định (trong ngôn ngữ, phụ
âm phát ra thường mạnh hơn nguyên âm). Đây chính là một trong những đặc điểm góp phần
nhận diện sự khác biệt giữa phụ âm và nguyên âm trong âm thanh tiếng nói.

- Độ dài:

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

5


Nhận dạng tiếng nói tiếng Việt
Là trường độ của âm, phụ thuộc vào sự chấn động lâu hay mau của các phần tử không
khí.

- Âm sắc:
Là sắc thái riêng của một âm do các cá thể khác nhau tạo ra. Âm sắc là nguyên nhân
gây ra sự khác biệt giữa giọng nói của người này với người khác.
- Tiếng ồn và tiếng thanh;
Tiếng ồn là do sự chuyển động không nhịp nhàng (không có chu kỳ ổn định) của các
phần tử không khí gây ra, còn tiếng thanh là do sự chuyển động nhịp nhàng (có chu kỳ ổn
định) của các phần tử không khí gây ra.
- Âm hữu thanh (voiced sounds):
giống như âm khi chúng ta nói ‘a’ hay ‘e’, được tạo ra khi dây thanh âm căng lên và
rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không
khí đi qua. Những dây thanh âm rung tạo ra dạng sóng của luồng không khí có dạng xấp xỉ
tam giác như minh họa trên Hình 1.2, có chu kỳ hay tựa chu kỳ với phổ tần số có nhiều hài
với tốc độ suy giảm xấp xỉ 12dB/octave. Bộ phận phát âm hoạt động giống như hốc cộng
hưởng, khuếch đại những thành phần hài này và suy giảm những thành phần hài khác để tạo
ra âm hữu thanh. Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và
sức căng của dây thanh âm. Người nói có thể điều khiển hai yếu tố trên để thay đổi chu kỳ
bước sóng (pitch) âm thanh. Chu kỳ bước sóng âm thanh của đàn ông trưởng thành thường từ
50Hz đến 250Hz, giá trị trung bình chừng 120Hz. Đối với phụ nữ trưởng thành, giới hạn trên
cao hơn nhiều, có thể lên đến 500Hz.


Hình 1.2 Dạng sóng của luồng không khí.
Trong ngôn ngữ các nguyên âm về bản chất âm học là những âm hữu thanh.
- Âm vô thanh (unvoiced sounds):
được tạo ra khi dây thanh âm không rung. Có hai loại âm vô thanh cơ bản - âm xát và
âm hơi. Đối với âm xát, ví dụ như khi nói ‘s’ , một số điểm trên bộ phận phát âm bị co lại khi
luồng không khí ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên. Bởi vì những điểm
co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc
tính của âm xát. Đối với âm bật hơi, giống như khi chúng ta nói ‘h’ trong ‘hùng’, hỗn loạn
xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần. Trường hợp này, cộng hưởng
của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên. Hiệu ứng này có thể nghe rõ
khi nói thì thầm. Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh.
6
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương


Nhận dạng tiếng nói tiếng Việt
Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất
nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm. Ví dụ
âm ‘i’ và ‘u’ trong tiếng Việt trong những từ như ‘ai’, ‘âu’.
- Âm bật hơi (Plosive sounds):
ví dụ như âm ‘p’, ‘t’, ‘k’ hay ‘đ’, ‘b’, ‘g’ trong tiếng Việt được tạo ra do loại kích thích
khác. Đối với lớp âm thanh này, bộ phận phát âm đóng lại ở một vài điểm, áp suất không khí
tăng lên và thình lình giảm xuống. Áp suất thình lình giảm xuống tạo ra kích thích ngắn của
bộ phận phát âm. Lúc này dây thanh âm có thể rung để tạo ra âm hữu thanh nổ (‘đ’, ‘b’, ‘g’)
hay không rung để tạo ra âm vô thanh nổ (‘p’, ‘t’, ‘k’). Ngoài ra còn có loại phụ âm thứ ba
có tỷ lệ âm hữu thanh lớn hơn gọi là âm vang như ‘m’, ‘n’, ‘ng’, ‘l’.
I.2.2 Bộ máy phát âm của con người:
Hình 1.1 minh họa cơ quan phát âm của người. Chủ yếu gồm phổi, khí quản, thanh
quản, bộ phận mũi và miệng. Thanh quản có hai nếp gấp gọi là dây thanh âm, dây thanh âm

sẽ rung khi luồng không khí đi qua khe thanh môn là khe giữa hai dây thanh âm. Bộ phận
miệng là một ống âm học không đều, dài xấp xỉ 17cm đối với đàn ông trưởng thành tính từ
môi đến dây thanh âm hay thanh quản. Tiết diện cắt ngang của bộ phận miệng thay đổi từ
zero đến 20cm 2 do phần cơ của bộ phận cấu âm - articulator (môi, lưỡi, hàm và vòm miệng
mềm) điều khiển. Bộ phận mũi cũng là một ống âm học không đều có diện tích và chiều dài
cố định (dài chừng 12cm đối với đàn ông trưởng thành), bắt đầu từ lỗ mũi đến vòm miệng
mềm. Vòm miệng mềm làm nhiệm vụ liên kết âm thanh giữa bộ phận mũi và miệng. Quá
trình tạo ra âm phi mũi như sau: vòm miệng mềm ngăn chặn bộ phận mũi và âm thanh phát
ra thông qua môi. Đối với quá trình tạo ra âm mũi, vòm miệng mềm hạ thấp xuống và bộ
phận mũi liên kết với bộ phận miệng, lúc này phía trước của bộ phận miệng khép lại hoàn
toàn và âm thanh phát ra thông qua mũi. Đối với âm thanh nói giọng mũi, âm thanh phát ra
cả mũi và môi.

Hình 1.1 Cơ quan phát âm của người.

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

7


Nhận dạng tiếng nói tiếng Việt
Khi nói, phổi đầy không khí do giãn nỡ lồng xương sườn và co lại của cơ hoành. Khi
lồng xương sườn co lại, không khí bị đẩy ra và đi dọc theo khí quản, xuyên qua thanh môn.
Luồng không khí này là nguồn năng lượng tạo ra tiếng nói. Có thể điều khiển luồng không
khí theo nhiều cách khác nhau để tạo ra các âm thanh khác nhau.
I.2.3 Mô hình lọc nguồn tạo tiếng nói:
Hình 1.3 minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm ‘eh’ hay
nguyên âm trung tính là một ống đều có chiều dài L, một đầu là nguồn âm thanh (dây thanh
âm) và đầu kia được mở ra (môi). Ống này cộng hưởng ở các tần số lẻ f 0 , 3 f 0 , 5 f 0 ,..., ở đó
f 0 = c / 4 L với c là vận tốc âm thanh trong không khí. Bộ phận phát âm điển hình có chiều

dài L = 17cm , c = 300m / s , coäng hưởng ở các tần số 500Hz, 1500Hz, 2500Hz, ..., những đỉnh
cộng hưởng này được gọi là các formant. Dó nhiên, bộ phận phát âm có thể có nhiều dạng
khác nhau và tạo ra những đỉnh cộng hưởng khác nhau hay các giá trị formant khác nhau nên
âm thanh phát ra khác nhau. Trong tiếng nói, các tần số formant luôn luôn thay đổi từ âm
này sang âm khác.

Hình 1.3 Mô hình ống đều của bộ phận phát âm.
Những trình bày ở trên dẫn đến ý tưởng cho rằng có thể xem quá trình tạo ra tiếng nói
là bộ lọc nguồn, trong đó tín hiệu từ nguồn âm thanh (cũng có thể là có chu kỳ hay nhiễu)
được lọc bằng bộ lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với bộ phận
phát âm. Như vậy có thể thu được phổ tần số của tín hiệu tiếng nói bằng cách nhân phổ của
nguồn âm thanh với đặc tính tần số của bộ lọc. Hình 1.4 minh họa tiếng nói hữu thanh và vô
thanh. Các độ lợi A V và A N xác định cường độ của nguồn tạo âm hữu thanh và vô thanh.

Hình 1.4 Tạo tiếng nói theo mô hình lọc nguồn.
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

8


Nhận dạng tiếng nói tiếng Việt
Mặc dầu bộ phận phát âm có một số hữu hạn các đỉnh cộng hưởng hay formant nhưng
chỉ cần khảo sát ba hay bốn đỉnh cộng hưởng đầu tiên phủ trên băng tần từ 100Hz đến
3.5kHz, bởi vì biên độ của các formant cao hơn của tiếng nói hữu thanh bị suy giảm hầu như
hoàn toàn với độ suy giảm -12dB/octave. Trường hợp tiếng nói vô thanh, phổ tương đối rộng
và bằng phẳng, số lượng các formant như vậy vẫn đủ mặc dầu mô hình đúng cho tiếng nói vô
thanh thường phải mở rộng băng tần lên đến 7-8kHz. Một điểm đáng lưu ý là bộ lọc của mô
hình lọc nguồn trên Hình 1.4 không những đặc tả tính chất phát xạ của bộ phận phát âm mà
còn nêu ra ảnh hưởng bức xạ của miệng. Ảnh hưởng tổng trở bức xạ có thể mô hình hóa
bằng đặc tính của bộ lọc thông cao bậc nhất có độ tăng lên chừng 6dB/octave trong băng tần

từ 0-3kHz.
Mô hình lọc nguồn cho quá trình tạo tiếng nói khá đơn giản. Như đã đề cập ở trên,
không thể lọc được âm xát bằng các đỉnh cộng hưởng của bộ phận phát âm như âm hữu
thanh hay âm bật hơi, vì vậy mô hình lọc nguồn không hoàn toàn chính xác cho âm xát.
Ngoài ra, mô hình lọc nguồn còn giả thiết nguồn phát âm bị tách tuyến tính ra khỏi bộ lọc và
do đó không có sự tương tác nào giữa chúng. Điều giả thiết này không hoàn toàn đúng bởi vì
độ rung của dây thanh âm là do áp suất âm thanh bên trong của bộ phận phát âm, liên kết
với bộ phận phát âm và phổi trong suốt chu kỳ thanh quản mở, vì vậy cần phải biến đổi đặc
tính của bộ lọc ở mỗi chu kỳ kích âm. Tuy nhiên những điều thứ yếu này thường được bỏ qua
và mô hình lọc nguồn là chấp nhận được.
I.2.4 Ngữ âm học:
Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm
vị. Điều quan trọng cần nhận thức rõ âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan
sát trực tiếp trong tín hiệu tiếng nói. Nhiều âm vị kết hợp với nhau theo một cách nào đó để
tạo ra các âm thanh khác nhau. Những người nói khác nhau có thể phát ra cùng một chuỗi
âm vị chứa đựng thông tin như nhau, còn giọng nói khác nhau là do phương ngữ , hình dáng,
độ dài của bộ phận phát âm.
Để mô tả nguyên âm người ta tìm cách xác định hốc cộng hưởng khoang miệng và hốc
cộng hưởng khoang yết hầu - nguồn gốc của các formant nói trên.
Khoang miệng và khoang yết hầu tách biệt nhau do sự nâng cao của lưỡi. Chính vì vậy
sự thay đổi của khoang này đều kéo theo sự thay đổi của khoang kia. Mỗi lần môi, lưỡi thay
đổi tư thế là một lần chúng ta có một hốc cộng hưởng miệng và một hốc cộng hưởng yết hầu
khác nhau. Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng
này, tức khả năng dao động riêng hay khả năng cộng hưởng của chúng chính là mô tả độ mở
của miệng, vị trí của lưỡi và hình dáng của môi.
Độ mở của miệng hay độ nâng của lưỡi cho biết thể tích của hốc cộng hưởng. Căn cứ
vào độ mở (hay độ nâng) khác nhau mà chúng ta có các nguyên âm khác nhau: nguyên âm
rộng (hay cao) như ‘a’, ‘e’, nguyên âm hẹp (hay thấp) như ‘i’, ‘u’.
Vị trí của lưỡi nhích ra phía trước hay lui về phía sau cho biết hình dáng của hốc cộng
hưởng như thế nào. Tùy theo phần trước lưỡi được đưa lên - tức đưa ra phía trước - hay phần

sau lưỡi được nâng cao - tức lui về phía sau - mà chúng ta có các nguyên âm khác nhau:
nguyên âm trước như ‘i’, ‘ê’, ‘e’, nguyên âm sau như ‘u’, ‘ô’, ‘o’, nguyên âm giữa như từ
‘bird’ trong tiếng Anh.
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

9


Nhận dạng tiếng nói tiếng Việt
Hình dáng của môi cho biết đặc điểm của lối thoát không khí của hốc cộng hưởng
miệng. Hai môi có thể chúm tròn và nhô ra phía trước cho chúng ta những nguyên âm với âm
sắc trầm hơn bình thường, đó là những nguyên âm như ‘u’, ‘ô’, ‘o’. Trái lại, nếu hai môi ở tư
thế bình thường hay dẹt ra khi phát âm, chúng ta có những nguyên âm không tròn hay dẹt
như ‘a’, ‘i’, ‘e’.
Trong việc mô tả phụ âm một loạt đặc trưng ngữ âm khác lại được nêu lên. Đặc điểm
cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở , song sự cản trở ấy diễn ra
với những mức độ khác nhau, đúng hơn là những cách khác nhau và ở những bộ phận khác
nhau của bộ phận phát âm.
Về phương pháp cấu âm, người ta phân biệt phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) với phụ
âm xát (như ‘v’, ‘s’, ‘g’ trong tiếng Việt). Đặc trưng của loại phụ âm thứ nhất là một tiếng
nổ, phát sinh do luồng không khí từ phổi đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở ấy
để thoát ra ngoài. Trái lại, đặc trưng của loại phụ âm thứ hai là tiếng cọ xát, phát sinh do
luồng không khí đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở
nhỏ và trong khi thoát ra cọ xát vào thành của bộ phận phát âm.
Người ta còn chia phụ âm tắc ra làm hai loại là phụ âm bật hơi và phụ âm mũi. Cấu
âm của các phụ âm bật hơi như ‘th’ trong tiếng Việt, không khí không những phá vỡ sự cản
trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra cũng gây ra một tiếng cọ xát ở khe
hở của hai mép dây thanh âm. Phụ âm mũi trong tiếng Việt như ‘m’, ‘n’, ‘ng’, ‘nh’ có sắc
thái mũi, phát sinh do luồng không khí từ phổi đi lên qua mũi mà thoát ra chứ không qua
đường miệng, và ở đây âm do dây thanh âm tạo ra nhận được sự cộng hưởng ở khoang mũi.

Trong cấu tạo của phụ âm mũi, lối thoát của không khí bị đóng hoàn toàn ở đằng miệng nên
được coi là phụ âm tắc, nhưng không khí lại thoát ra hoàn toàn tự do ở đằng mũi. Chính do
chỗ phụ âm mũi được cấu tạo do sự rung động của dây thanh âm và không khí ra ngoài
không bị cản trở - nghóa là chúng có những đặc điểm cơ bản của việc cấu tạo nguyên âm nên phụ âm mũi còn được gọi là phụ âm vang.
Đối với các phụ âm xát cần chú ý đến một số phụ âm kiểu như ‘l’ trong tiếng Việt.
Trong cấu âm của phụ âm này, đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí từ phổi
lên buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má để thoát ra ngoài gây
ra một tiếng xát nhẹ. Cách cấu âm này khiến cho người ta gọi những phụ âm kiểu ‘l’ như vậy
là phụ âm bên.
Việc mô tả phụ âm còn một điều quan trọng nữa là xác định vị trí cấu âm của chúng.
Hai âm ‘b’ và ‘đ’ trong tiếng Việt đều được cấu tạo theo phương pháp tắc nhưng phân biệt
nhau ở chỗ một đằng sự cản trở không khí xảy ra giữa hai môi, một đằng do sự tiếp xúc của
đầu lưỡi và lợi.
Trong tiếng Việt, chữ viết có các dấu ‘huyền, sắc, hỏi, ngã, nặng’ được gọi là thanh
điệu. Thanh điệu là sự nâng cao hay hạ thấp ‘giọng nói’ trong một âm tiết. Âm tiết là đơn vị
phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ . Ví dụ phát âm câu thơ sau đây của
Nguyễn Du ‘Rằng tài nên trọng, mà tình nên thương’ có 8 âm tiết.
So sánh cách phát âm hai từ ‘bình’ và chữ ‘bính’ trong tiếng Việt, âm tiết thứ nhất
được phát ra với ‘giọng’ thấp hay có cao độ thấp hơn, còn âm tiết thứ hai có ‘giọng’ cao hơn
hay cao độ cao hơn, do đó người nghe có thể phân biệt được hai từ có nghóa khác hẳn nhau.
Như vậy thanh điệu là sự thay đổi cao độ của ‘giọng nói’, điều đó có nghóa là có sự thay đổi
biên độ của tần số cơ bản trong âm hữu thanh. Dây thanh âm rung tạo ra âm thanh. Biên độ
10
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương


Nhận dạng tiếng nói tiếng Việt
của thành phần tần số cơ bản giữ nguyên trong khi biên độ các thành phần hài thay đổi, do
hiện tượng cộng hưởng toàn bộ âm thanh sẽ thay đổi âm sắc và chúng ta có các nguyên âm
khác nhau với cùng một thanh điệu, chẳng hạn ‘à, ù, ì’. Ngược lại nếu biên độ của thành

phần tần số cơ bản thay đổi trong khi biên độ các thành phần hài không đổi, do đó không có
sự biến đổi gì về cộng hưởng và chúng ta có được một nguyên âm với âm sắc không đổi
nhưng với nhiều thanh điệu khác nhau, chẳng hạn như ‘à, á, ả’. Như vậy thanh điệu được xác
định bằng tần số cơ bản.
Điều nhận xét trên đây gợi ý cho chúng ta trong quá trình nhận dạng là nếu đã phân
lớp được từ cần nhận dạng thuộc về lớp ‘a, á, à, ả, ã, ạ’, chúng ta chỉ cần xét thành phần tần
số cơ bản là xác định được cụ thể từ cần nhận dạng là từ nào.
Qua phân tích ngữ âm học ở phần trên, chúng ta nhận thấy rằng khi phát âm một từ
(tổng quát gồm phụ âm, nguyên âm, và thanh điệu), dây thanh âm rung tạo ra dạng sóng của
luồng không khí như trên Hình 1.2, đến lượt bộ phận cấu âm và mũi biến đổi chậm làm thay
đổi dạng sóng phát ra bên ngoài để tạo ra những từ khác nhau. Như vậy tín hiệu tiếng nói là
do xung bước sóng chập với tín hiệu biến thiên chậm của bộ phận cấu âm. Điều này dẫn tới
việc trích tham số tiếng nói rất hiệu quả là phân tích ceptral, trong phương pháp này người ta
muốn lấy phần tín hiệu có tần số thấp do bộ phận cấu âm tạo ra. Trình bày chi tiết về
cepstral được trình bày ở Chương 3.
I.2.5 Hệ thống tai nghe của người:
Quá trình nghe của người như sau: sóng áp suất âm thanh tác động đến tai người, sóng
này được chuyển thành một chuỗi xung điện, chuỗi này được truyền tới não bộ thông qua hệ
thần kinh, ở não, chuỗi được xử lý và giải mã.
Hình 1.5 là hệ thống nghe của người. Tai được chia thành ba phần: tai ngoài, tai giữa
và tai trong. Tai ngoài gồm vành tai và ống tai dẫn tới màng nhó. Sóng âm di chuyển dọc
theo ống tai và tác động đến màng nhó, làm cho màng nhó rung. Biên độ rung của màng nhó
thường từ vài nanometre (10 −9 m ) và tiếng nói thì thầm làm cho biên độ rung lớn nhất bằng
1 / 10 đường kính của phân tử hydrogen.

Hình 1.5 Hệ thống nghe của người.
Ở tai giữa, một khúc xương nhỏ gọi là xương búa được gắn với màng nhó. Khi màng nhó rung,
xương búa tiếp xúc với một khúc xương khác gọi là xương đe, làm cho xương đe quay. Xương
đe lại được nối với một khúc xương nữa gọi là xương bàn đạp, xương bàn đạp nối với cửa sổ
oval của tai trong. Ba khúc xương búa, đe, và bàn đạp là ba khúc xương nhỏ nhất của tai

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

11


Nhận dạng tiếng nói tiếng Việt
người. Chức năng của ba khúc xương nhỏ này là truyền độ rung của màng nhó đến cửa sổ
oval của tai trong.
Cửa sổ oval là một lỗ mở ở thành xương ốc tai được bao phủ bằng màng. Chia phần
ốc tai chứa đầy dịch theo chiều dọc thành hai màng gọi là màng Reissner và màng đáy. Cửa
sổ oval rung làm sóng áp suất lan truyền qua dịch ốc tai, sóng áp suất này làm màng đáy bị
lệch ở một vài điểm khác nhau. Gắn với màng đáy là cơ quan Corti. Cơ quan dạng nhầy này
chứa 30000 tế bào lông được sắp thành ba hàng ngoài và một hàng trong. Mỗi tế bào lông có
chứa nhiều sợi lông nhỏ nhô ra. Những sợi lông nhỏ này sẽ rung động khi màng đáy chuyển
động, và điều này tạo ra thế năng cho tế bào lông. Tế bào lông tiếp xúc với dây thần kinh
tận của neuron thần kinh thính giác và thế năng này tạo ra chuỗi xung điện truyền tới não
thông qua dây thần kinh thính giác.
Từ những điều đã mô tả ở trên, chúng ta nhận thấy rằng chuyển động của màng đáy
đóng vai trò quan trọng của quá trình nghe. Nhiều đặc tính của cơ chế nghe đã được khám
phá khi nghiên cứu vật lý-thần kinh học. Màng đáy là ống không đều dài chừng 35mm, có
mặt đáy gần cửa sổ oval, hẹp và cứng dần về phía đỉnh, kết quả tạo ra những điểm khác
nhau tương ứng với các tần số âm thanh khác nhau. Khi chúng ta nghe một sóng âm thuần
túy tức âm đơn (sóng sine), những điểm khác nhau trên màng đáy sẽ rung động theo tần số
của âm đơn đi vào tai. Điểm lệch lớn nhất trên màng đáy phụ thuộc vào tần số của âm đơn.
Tần số cao tạo ra điểm lệch lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhất phía
đỉnh. Như vậy màng đáy đóng vai trò là bộ phận phân tích tần số tín hiệu vào phức tạp, bằng
cách tách những thành phần tần số khác nhau ở những điểm khác nhau dọc theo chiều dài
của nó. Mỗi điểm như vậy có thể xem là bộ lọc thông dải có tần số trung tâm và băng thông
xác định. Những đáp ứng tần số của những điểm khác nhau đã được đo bằng thực nghiệm
cho thấy rằng những đáp ứng này đều có hệ số phẩm chất Q gần như không đổi (Q là ‘hệ số

chất lượng’ và đặc trưng cho tính chất nhọn của đáp ứng băng thông; nó là tỉ số của tần số
trung tâm và độ rộng băng tần còn ‘không đổi’ nghóa là mỗi bộ lọc đều có cùng giá trị Q).
Những đáp ứng này không đối xứng quanh tần số trung tâm, vùng tần số cao có tốc độ suy
giảm dốc hơn nhiều so với vùng tần số thấp. Vị trí của độ lệch cực đại dọc theo màng nhày
biến đổi theo quan hệ phi tuyến với tần số. Người ta đã chứng minh rằng mối liên hệ này gần
như theo hàm logarithm, sự gia tăng tuyến tính của độ lệch sẽ tương ứng với sự gia tăng
logarithm của tần số.
Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự hiện
diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung quanh âm đơn
mới tham gia vào hiệu ứng mặt nạ, băng tần này thường gọi là băng tần tới hạn. Giá trị của
băng tần tới hạn phụ thuộc vào tần số của của âm đơn cần thử. Ví dụ âm đơn 100Hz có băng
tần tới hạn xấp xỉ 90Hz; âm đơn 5kHz có băng tần tới hạn xấp xỉ 1000Hz. Hình 1.6 là những
băng tần tới hạn của một dải rộng tần số được xác định theo các thử nghiệm thần kinh-âm
học. Giá trị của những băng tần tới hạn này hẹp hơn nhiều so với những giá trị quan sát được
khi màng đáy rung.

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

12


Nhận dạng tiếng nói tiếng Việt

Hình 1.6 Băng tần tới hạn.
Cuối cùng có thể xem quá trình nghe của hệ thính giác là một dãy các bộ lọc băng
thông, có đáp ứng phủ lấp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với các giá trị
của băng tần tới hạn. Đây là cơ sở để thiết kế dãy bộ lọc cho xử lý tiếng nói.

I.3 TÓM TẮT:
Phần này trình bày về quá trình tạo lập tiếng nói của con người. Cấu âm của âm hữu

thanh, vô thanh, nguyên âm, phụ âm cùng các biến dạng của nó được khảo sát tỉ mỉ. Đặc biệt
tính chất thanh điệu trong ngữ âm tiếng Việt cũng được gợi ý làm cho độ thành công của các
hệ nhận dạng tốt hơn. Quá trình nhận thức tiếng nói của con người rất phức tạp, ngày nay
hãy còn chưa hiểu được hết, vì vậy mô hình dãy bộ lọc trích đặc tính của tiếng nói dựa theo
mô phỏng cơ chế nghe của tai người chỉ là một giả thiết có thể chấp nhận được.
Mục đích của toàn bộ chương này là lý giải hai cách trích đặc tính của tiếng nói. Một
cách là căn cứ vào bộ phận phát âm dẫn tới các hệ số ceptral, cách kia lại căn cứ vào bộ
phận nghe dẫn tới các hệ số bộ lọc. Qua thử nghiệm cả hai cách trích đặc tính này, chúng ta
nhận thấy trích bằng ceptral cho kết quả nhận dạng tốt hơn. Điều này cũng trùng với nhận
xét của [1].

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

13


Nhận dạng tiếng nói tiếng Việt

CHƯƠNG II

CƠ SỞ XỬ LÝ TÍN HIỆU SỐ
Xử lý tín hiệu số - digital signal processing (DSP) bắt đầu bằng tín hiệu lượng tử hóa
rời rạc, và xuất hiện trong máy tính dưới dạng một chuỗi các giá trị số. Hình 2.1 là ví dụ về
phép toán xử lý tín hiệu số. Có chuỗi số vào x (n) , phép toán ϑ{ } và chuỗi số ra y (n) .

Hình 2.1 Phép toán DSP.
Phép toán được phân thành hai loại là tuyến tính và phi tuyến. Hình 2.2 là cấu trúc cây
của các phép toán.

Hình 2.2 Cấu trúc cây của các phép toán.

Các phép toán biến đổi chuỗi số theo các hướng sau đây:
1. Trích tham số hay đặc điểm của chuỗi số.
2. Tạo lập chuỗi số ra tương tự như chuỗi số vào nhưng đẹp hơn.
3. Khôi phục chuỗi số từ các trạng thái trước đó.
4. Mã hóa hay nén chuỗi số.
Một hệ xử lý tín hiệu số đầy đủ có thể gồm nhiều phép toán trên cùng chuỗi số hay là
phép toán trên kết quả của phép toán trước đó. Hình 2.3 là một ví dụ như vậy.

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

14


Nhận dạng tiếng nói tiếng Việt

Hình 2.3 Một hệ DSP.
Chương này được chia thành nhiều phần. Phần II.1 thảo luận về chuỗi số: cách tạo lập,
phổ, liên hệ với tín hiệu liên tục. Phần II.2 thảo luận về đặc tính chung của các phép toán bất
biến theo thời gian thường sử dụng nhất trong DSP. Phần II.3 thảo luận về lớp các phép toán
được gọi là lọc số. Phần II.4 giới thiệu phép biến đổi Fourier rời rạc - discrete Fourier
transform (DFT). Phần II.5 giới thiệu biến đổi STFT. Phần II.6 giới thiệu về biến đổi
wavelets. Phần II.7 bàn về đại số tuyến tính và cuối cùng Phần II.8 thảo luận về lý thuyết
xác suất ứng dụng trong xử lý tín hiệu.

II.1 CHUỖI SỐ :
Muốn cho máy tính xử lý được tín hiệu, phải lấy mẫu tín hiệu tại nhiều thời điểm. Hình
2.4 là lấy mẫu hàm liên tục theo thời gian t, mỗi mẫu cách nhau T giây. Kết quả chúng ta
được tập các số gọi là chuỗi số. Nếu hàm liên tục theo thời gian là x (t ) , thì hàm lấy mẫu là
x (nT ) theo n . Thông thường, chúng ta chuẩn hóa thời gian giữa hai lần lấy mẫu là 1 nên
x (nT ) trở thành x (n) .


II.1.1 Hàm lấy mẫu :

Hình 2.4 Lấy mẫu tín hiệu.

Hàm lấy mẫu là cầu nối giữa hàm thời gian liên tục và hàm thời gian rời rạc. Hàm lấy
mẫu còn có tên khác là hàm delta Dirac. Hàm lấy mẫu có những tính chất sau đây:
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

15


Nhận dạng tiếng nói tiếng Việt
Tính chất 1



∫ f (t )δ(t − τ)dt =

f ( τ)

(2.1)

−∞

Tính chất 2



∫ δ(t − τ)dt = 1


(2.2)

−∞

τ ở hai phương trình trên có thể là giá trị thực.
Để hiểu tại sao hàm này là hàm lấy mẫu lý tưởng, đầu tiên chúng ta khảo sát hàm lấy
mẫu thực tế ∆(t ) như minh họa trên Hình 2.5. Hàm này có độ rộng xung là một đơn vị theo
thời gian và biên độ là một đơn vị theo biên độ. Rõ ràng Tính chất 2 thỏa mãn. Tuy nhiên khi
nhân ∆(t ) với f (t ) thì hàm lấy mẫu ∆(t ) không lấy tại một thời điểm mà lấy trong phạm vi
từ − 21 đến + 21 . Kết quả là Tính chất 1 của hàm lấy mẫu không thỏa mãn. Chúng ta có
τ+



1
2

∫ f (t )δ(t − τ)dt = ∫ f ( τ)dt

−∞

(2.3)

τ − 21

Điều này có thể hiểu là quá trình lấy mẫu bị nhòe trong phạm vi một dãy liên quan
đến độ rộng xung của ∆(t ) . Muốn xấp xỉ hàm lấy mẫu tốt hơn thì hàm ∆(t ) có độ rộng xung
hẹp hơn. Tuy nhiên, khi độ rộng xung hẹp lại thì biên độ phải tăng lên. Về mặt giới hạn,
chúng ta thấy rằng hàm lấy mẫu lý tưởng có độ rộng xung hẹp vô hạn sao cho mẫu được lấy

tại một thời điểm, còn biên độ lớn vô hạn sao cho tín hiệu lấy mẫu có cùng năng lượng hữu
hạn như nhau.

Hình 2.5 Hàm lấy mẫu thực tế.
II.1.2 Sử dụng hàm lấy mẫu:
Hình 2.6 minh họa quá trình lấy mẫu dùng hàm lấy mẫu lý tưởng tại các thời điểm
cách nhau T giây. Kết quả, chúng ta có được dạng sóng theo thời gian
x s (t ) =



∑ x(t )δ(t − nT )

(2.4)

n =−∞

Dạng sóng kết quả của quá trình này là không hiện thực do biên độ vô hạn và độ
rộng zero của hàm lấy mẫu lý tưởng.
Chú ý rằng x s (t ) là tín hiệu liên tục theo thời gian được tạo ra từ một tập vô hạn của
các tín hiệu liên tục theo thời gian x (t )δ (t − nT ) . Do hàm lấy mẫu tạo ra hệ số nhân khác
zero tại những giá trị t = nT , nên có thể viết lại x s (t ) như sau:
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

16


Nhận dạng tiếng nói tiếng Việt



∑ x(nT )δ(t − nT )

x s (t ) =

(2.5)

n =−∞

Trong phương trình sau cùng này, chúng ta thấy xuất hiện chuỗi số x (nT ) . Đây là tập
hợp số và sẽ được thảo luận trong các phần kế.

Hình 2.6 Hàm lấy mẫu lý tưởng.
II.1.3 Phổ của tín hiệu lấy mẫu:
Theo lý thuyết biến đổi Fourier, phổ tần số của dạng sóng liên tục theo thời gian x (t )
được viết như sau:


X( f ) =

∫ x (t )e

− j 2πft

(2.6)

dt

−∞

và dạng sóng theo thời gian biểu diễn theo phổ tần số là



x (t ) =

∫ X ( f )e

j 2πft

(2.7)

df

−∞

Điều này đúng cho mọi hàm liên tục theo thời gian x (t ) , nên cũng đúng cho x s (t )


Xs( f ) =

∫ x (t )e

− j 2πft

s

(2.8)

dt

−∞


Biểu diễn x s (t ) theo dạng lấy mẫu


Xs( f ) =







∫  ∑ x(t )δ(t − nT )e

− j 2 πft

dt

(2.9)

−∞ n =−∞

Thứ tự của phép tổng và tích phân có thể thay đổi, và áp dụng Tính chất 1 của hàm
lấy maãu
Xs( f ) =



∑ x(nT )e


− j 2πfnT

(2.10)

n =−∞

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

17


Nhận dạng tiếng nói tiếng Việt
Phương trình này biểu diễn chính xác chuỗi Fourier của X s ( f ) là hàm có chu kỳ T.
Các hệ số của chuỗi Fourier là x (nT ) được tính từ tích phân sau:
1
2T

∫X

x (nT ) = T

s

(2.11)

( f )e j 2 πfnT dt

1

2T


Hai phương trình sau cùng là cặp chuỗi Fourier cho phép tính tín hiệu theo thời gian
hay phổ tần số tùy theo đối số của cặp chuỗi Fourier. Chú ý rằng tín hiệu x s (t ) đã bị loại bỏ
và thay vào đó là x (nT ) .
II.1.4 Liên hệ giữa phổ của tín hiệu liên tục và tín hiệu rời rạc:
Xét Phương trình (2.7) tại thời điểm t = nT và cho kết quả này bằng vế phải của
Phương trình 2.11, chúng ta thu được mối liên hệ giữa hai phổ như sau:


x (nT ) =

∫ X ( f )e

j 2 πfnT

df =T

1
2T

∫X

s

( f )e j 2 πfnT df

(2.12)

1


2T

−∞

Vế phải của Phương trình (2.7) có thể biễu diễn là tổng vô hạn của một tập các tích phân có
giới hạn hữu hạn
x (nT ) =



2 m +1
2T

∑ ∫ X ( f )e

j 2 πfnT

(2.13)

df

m=−∞ 2 m −1
2T

Đổi biến λ = f −

m
m
(thay f = λ + vaø df = dλ )
T

T

x (nT ) =



1
2T

∑ ∫

m=−∞

1

2T

m

X (λ +

m j 2 πλnT j 2 π T nT
)e
e

T

(2.14)

Di chuyển phép tổng vào trong tích phân, chú ý e j 2 πmn = 1 với mọi m, n nguyên, và thành

phần bên trong tích phân tương tự với thành phần bên trong tích phân của Phương trình
(2.11), nên chúng ta có mối liên hệ sau:
m
1 ∞
(2.15)
Xs( f ) = ∑ X( f + )
T m=−∞
T
Phương trình (2.15) nói lên rằng phổ tần số của tín hiệu lấy mẫu là tổng vô hạn phổ tần số
1
của tín hiệu liên tục, ở đó khoảng cách giữa hai phổ tần số của tín hiệu liên tục là . Chúng
T
ta hãy khảo sát trường hợp phổ tần số của tín hiệu liên tục bằng với phổ tần số của tín hiệu
lấy mẫu, ít nhất là trong một phạm vi tần số nào đó. Nếu không có thành phần phổ nào của
1
1
đến
thì hai phổ sẽ bằng nhau trong phạm vi tần số từ f = −
tín hiệu liên tục lớn hơn
2T
2T

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

18


Nhận dạng tiếng nói tiếng Việt
1
. Dó nhiên là phổ của tín hiệu lấy mẫu sẽ lặp lại trên suốt thang tần số, còn phổ của

2T
tín hiệu liên tục sẽ bằng zero trên suốt thang tần số ngoại trừ phạm vi tần số đã nói ở trên.
Tiêu chuẩn lấy mẫu Nyquist căn cứ trên những điều vừa thảo luận và khẳng định rằng nếu
tần số lấy mẫu lớn hơn hai lần tần số lớn nhất của tín hiệu liên tục thì có thể khôi phục hoàn
toàn tín hiệu liên tục từ tín hiệu lấy mẫu. Ngược lại, nếu tần số lấy mẫu nhỏ hơn hai lần tần
số lớn nhất của tín hiệu liên tục thì xảy ra hiện tượng trùm phổ. Tín hiệu liên tục được khôi
phục lại sẽ bị méo và độ méo phụ thuộc vào độ trùm phổ.
II.1.5 Chuỗi xung đơn vị:
f =+

Có một chuỗi số quan trọng là chuỗi xung đơn vị và ký hiệu là u0 (n) . Chuỗi xung đơn
vị gồm vô hạn mẫu có giá trị zero với mọi n ≠ 0 và bằng 1 tại n = 0 . Hình 2.9 minh họa
chuỗi u0 (n) và u0 (n − m) .
Tính chất của chuỗi xung đơn vị cũng giống như tính chất của hàm lấy mẫu
Tính chất 1
Tính chất 2



∑ x (n)u (n − m) = x(m)

(2.16)

∑ u (n − m) = 1

(2.17)

0

n =−∞



0

n =−∞

Chuỗi xung đơn vị và tính chất của nó sẽ được dùng khi thảo luận đến các phép toán bất biến
tuyến tính.

Hình 2.9 Dời chuỗi xung đơn vị.

II.2 CÁC PHÉP TOÁN TUYẾN TÍNH BẤT BIẾN:
Các phép toán được sử dụng rộng rãi nhất trong DSP là tuyến tính và
thời gian - linear time invariant (LTI).
Tính chất tuyến tính được phát biểu như sau:
Cho x (n) là chuỗi hữu hạn và O{ } là phép toán trong không gian n-chiều, đặt
y (n) = O{x(n)}
Nếu
x (n) = ax1 (n) + bx 2 (n)
ở đó a và b là hằng số tương ứng với n, nếu O{ } là phép toán tuyến tính
y (n) = aO{x1 (n)} + bO{x 2 (n)}
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

bất biến theo

(2.18)
(2.19)
(2.20)
19



Nhận dạng tiếng nói tiếng Việt
Tính chất bất biến theo thời gian nghóa là nếu
y (n) = O{x(n)}
thì khi dời sẽ cho đáp ứng giống nhau
y (n − m) = O{x(n − m)}
Cách khác để phát biểu tính chất này là nếu x (n) có chu kỳ là N
x ( n + N ) = x ( n)
thì phép toán O{ } bất biến theo thời gian trong không gian n-chiều là
O{x(n)} = O{x(n + N )}
Bởi vì
1, n = m
u0 (n − m) = 
0, otherwise

(2.21)

(2.22)

nên chúng ta có thể viết x (n) như sau:
x ( n) =



∑ x(m)u (n − m)
0

(2.23)

m =−∞


Thay x (n) vào Phương trình (2.18)


y (n) = O{ ∑ x(m)u 0 (n − m)}

(2.24)

m = −∞

Nhắc lại O{ } là hàm theo theo n và sử dụng tính chất tuyến tính
y ( n) =



∑ x(m)O{u

m = −∞

0

(n − m)}

(2.25)

Chúng ta gọi
h(n) = O{u 0 (n)}
là đáp ứng của chuỗi xung đơn vị. Do tính chất bất biến theo thời gian nên
h(n − m) = O{u 0 (n − m)}


(2.26)
(2.27)

do đó
y ( n) =



∑ x(m)h(n − m)

(2.28)

m =−∞

Phương trình (2.28) phát biểu rằng y (n) là tổng chập x (n) với đáp ứng xung h(n) . Thay
m = n − p vào Phương trình (2.28), chúng ta có dạng tương đương
y ( n) =



∑ h( p) x ( n − p)

(2.29)

p =−∞

Nhớ rằng m và p chỉ là biến giả sử dụng cho tổng chập mà thôi.
II.2.1 Tính nhân quả:
Cho đến bây giờ các mô tả toán học của chuỗi số và phép toán đều giả thiết là đáp
ứng xung của phép toán vẫn có giá trị ngay cả trước thời điểm tác động của chuỗi số vào.

Đây là dạng tổng quát của phương trình và phù hợp cho phát triển lý thuyết. Tuy nhiên,
không có một hệ vật lý nào có thể tạo ra chuỗi số ra khi chưa có chuỗi số vào tác động. Bởi

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

20


Nhận dạng tiếng nói tiếng Việt
vì các phép toán và chuỗi số DSP có tính vật lý nên chúng ta chỉ thảo luận các phép toán và
chuỗi số có thể tồn tại trong thực tế.
Bước đầu tiên khi biểu diễn chuỗi số thực tế là chuỗi số phải bắt đầu tại một thời điểm cụ
thể nào đó. Như vậy có thể giả thiết rằng các thành phần của chuỗi số sẽ có giá trị zero tại
những chỉ số thời gian nhỏ hơn zero, đồng thời sau thời điểm zero giá trị của chuỗi có thể là
zero hay khác zero. Thuộc tính này của chuỗi số và phép toán được gọi là nhân quả hay nói
cách khác chuỗi số ra của hệ DSP tại thời điểm n (tức là y (n) ) chỉ phụ thuộc vào chuỗi số
vào tại thời điểm hiện tại và quá khứ (tức là x (n), x (n − 1), x (n − 2)... ) chứ không phụ thuộc
vào chuỗi số tương lai (tức là x (n + 1), x (n + 2)... ).
Bây giờ tổng chập của phép toán nhân quả có thể viết


y (n) = ∑ h(m) x (n − m)

(2.30)

m= 0

nghóa là đáp ứng không có giá trị với mọi m nhỏ hơn zero.
II.2.2 Phương trình sai phân:
Về mặt lý thuyết các phép toán bất biến theo thời gian, nhân quả, tuyến tính, rời rạc

theo thời gian có thể mô tả bằng phương trình sai phân bậc N
N −1

∑a

m y ( n − m) =

m= 0

N −1

∑b

p

x ( n − p)

(2.31)

p=0

Một cách tổng quát phương trình không thay đổi nếu tất cả hệ số được chuẩn hóa theo a o .
N −1

y (n) + ∑ a m y (n − m) =
m =1

N −1

∑b


x ( n − p)

(2.32)

x (n − p) − ∑ a m y (n − m)

(2.33)

p

p=0

hay
y ( n) =

N −1

∑b
p=0

N −1

p

m =1

hay

y (n) = b0 x (n) + b1 x (n − 1) + b2 x (n − 2) +...

+b N −1 x (n − N + 1) − a1 y (n − 1) − a 2 y (n − 2)
−...−a N −1 y (n − N + 1)
(2.34)
Trong Phương trình (2.32) và (2.33) thành phần y (n − m) và x (n − p) cũng là hàm y (n) và
x (n) nhưng đã được dời đi hay làm trễ tương ứng. Chẳng hạn, trên Hình 2.10 minh họa chuỗi
x (n) và x (n − 3) là x (n) nhưng dời đi ba mẫu.
Sử dụng tính chất trễ và Phương trình (2.34), chúng ta có thể xây dựng cấu trúc tổng quát của
phép toán LTI. Trên Hình 2.11, mỗi hộp là một phần tử trễ có độ lợi là một. Các hệ số được
ghi trên chân của đồ thị. Vòng tròn là phép tổng các phần tử.

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

21


Nhận dạng tiếng nói tiếng Việt

Hình 2.10 Dời chuỗi số.

Hình 2.11 Đồ thị của phép toán tuyến tính.
II.2.3 Biến đổi z của phép toán LTI:
Có phép biến đổi tuyến tính rất hiệu quả để phân tích tín hiệu rời rạc theo thời gian,
giống như phép biến đổi Laplace để phân tích tín hiệu liên tục theo thời gian. Phép biến đổi
này là biến đổi z và được định nghóa như sau:


L{x(n)} = ∑ x(n) z − n

(2.35)


n=0

ở đó ký hiệu L{ } gọi là ‘biến đổi z của’ và z trong phương trình trên là số phức. Một trong
những tính chất quan trọng của biến đổi z là mối liên hệ với chuỗi số trễ theo thời gian. Để
chứng minh điều này, chúng ta hãy lấy biến đổi z của chuoãi x (n) .


L{x(n)} = X ( z ) = ∑ x(n) z − n

(2.36)

n =0

Biến đổi z của chuỗi trễ x (n − p) là


L{x(n − p )} = ∑ x(n − p ) z − n

(2.37)

n =0

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

22


Nhận dạng tiếng nói tiếng Việt
Bởi vì p luôn luôn dương và x (n) = 0 với mọi n < 0 , neân



∑ x(n − p ) z

L{x(n − p )} =

(2.38)

−n

n − p =0

Bây giờ chúng ta đổi biến m = n − p , hay n = m + p , neân


L{x(n − p )} = ∑ x(m) z −( m+ p )

(2.39)

m=0



= z − p ∑ x ( m) z − m

(2.40)

m= 0

So sánh phép tổng trong phương trình cuối cùng này và Phương trình (2.35) là phép biến đổi
z của x (n) , chúng ta có

(2.41)
L{x(n − p )} = z − p L{x(n)} = z − p X ( z )
Áp dụng tính chất này của biến đổi z vào phương trình tổng quát của phép toán tuyến tính bất
biến theo thời gian như sau:



∞

(2.42)
L  y (n) + ∑ a p y (n − p ) = z − p L∑ bq x(n − q )
p =1


 q =0

Bởi vì biến đổi z là phép biến đổi tuyến tính có tính phân phối và tính kết hợp nên chúng ta
viết lại phương trình trên nhö sau:




p =1

q =0

L{ y (n)} + ∑ a p L{ y (n − p )} = ∑ bq L{x(n − q )}

(2.43)


Sử dụng tính chất dời của biến đổi z ở Phương trình (2.41)




p =1

q =0

Y ( z ) + ∑ a p z − pY ( z ) = ∑ bq z − q X ( z )

(2.44)




∞

(2.45)
Y ( z ) 1 + ∑ a p z − p  = X ( z ) ∑ bq z − q 
 p =1

 q =0

Cuối cùng chúng ta sắp xếp lại Phương trình (2.45) để có được hàm truyền trong miền biến
đổi z


Y ( z)
=

H ( z) =
X ( z)

∑b z

−q

q

q =0



1+ ∑apz

(2.46)
−p

p =1

Hình 2.12 là vẽ lại Hình 2.11 trong miền biến đổi z nhưng dựa trên Phương trình (2.44). Đồ
thị là như nhau nếu chúng ta coi hệ số nhân z −1 trong miền biến đổi z tương đương với trễ
một đơn vị thời gian trong miền thời gian.

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

23


Nhận dạng tiếng nói tiếng Việt


Hình 2.12 Đồ thị biến đổi z của phép toán LTI.
II.2.4 Hàm truyền trong miền tần số của phép toán LTI:
Lấy biến đổi Fourier hai vế của Phương trình (2.30), chúng ta có


F{ y (n)} = ∑ h(m)F{x(n − m)}

(2.47)

m=0

Dùng một trong những tính chất của phép biến đổi Fourier là
T{x(n − m)} = e − j 2πfm T{x(n)}
Phương trình (2.47) trở thành


Y ( f ) = ∑ h( m)e − j 2 πfm X ( f )

(2.48)
(2.49)

m= 0

Chia hai veá cho X ( f ) , chúng ta có

Y( f )
= ∑ h( m)e − j 2 πfm
(2.50)
X ( f ) m= 0

Dễ thấy rằng vế phải là biến đổi Fourier của chuỗi h( m) , neân
Y( f )
= H ( f ) = T{h(m)}
(2.51)
X(f )
Hình 2.13 là sơ đồ khối của Phương trình (2.51) theo miền thời gian và Hình 2.14 là sơ đồ
khối của Phương trình (2.51) theo miền tần số (biến đổi Fourier). Phép toán H ( f ) gồm biên
1
độ và góc pha của hàm theo biến f (thường được gọi là tần số lấy mẫu ).
T

Hình 2.13 Miền thời gian của phép toán LTI.

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương

24


×