Tải bản đầy đủ (.pdf) (54 trang)

Nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 54 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
*****

PHẠM ANH TÚ

NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG NHẬN
DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC TRÊN BỘ
TỪ VỰNG NHỎ VÀ TRUNG BÌNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
*****

PHẠM ANH TÚ

NGHIÊN CỨU VÀ PHÁT TRIỂN HỆ THỐNG NHẬN
DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC TRÊN BỘ
TỪ VỰNG NHỎ VÀ TRUNG BÌNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. Lƣơng Chi Mai



HÀ NỘI - 2017


1

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu và phát triển hệ thống nhận dạng
tiếng Việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình” là do tôi tìm
hiểu, nghiên cứu và thực hiện dƣới sự hƣớng dẫn của PGS.TS. Lƣơng Chi Mai.
Trong toàn bộ nội dung nghiên cứu của luận văn, các vấn đề đƣợc trình bày là
những tìm hiểu và nghiên cứu của cá nhân tôi hoặc đƣợc trích dẫn từ nhiều
nguồn tài liệu hợp phápđƣợc nêu ở mục Tài liệu tham khảo.
Tôi xin chịu trách nhiệm về những thông tin nêu trên và chịu mọi hình thức
kỷ luật cho lời cam đoan này.

Hà Nội, tháng 9 năm 2017

Phạm Anh Tú


2

LỜI CẢM ƠN
Trƣớc tiên, với lòng kính trọng và biết ơn sâu sắc, tôi xin chân thành gửi
lời cảm ơn đến PGS.TS.Lƣơng Chi Mai đã tận tình hƣớng dẫn, chỉ bảo và giúp
đỡ tôi trong suốt thờigian nghiên cứu để hoàn thành luận vănnày.
Tôi cũng xin gửi lời cảmơn tới các thầy cô trong TrƣờngĐại học Công
nghệ - Đại học Quốc gia Hà Nộiđãtận tình hƣớng dẫn, giảng dạy, cung cấp cho
tôi những kiến thức quý báu trong suốt thời gian học tập và nghiên cứu tại

trƣờng.
Tôi cũng xin gửi lời cảmơn của mình tới gia đình, bạn bè nhữngngƣời
luôn sát cánh, động viện và tạo mọi điều kiện tốt nhất để tôi có thể hoàn thành
tốt luận văn này.


3

MỤC LỤC
LỜI CAM ĐOAN.................................................................................................. 1
LỜI CẢM ƠN ....................................................................................................... 2
MỤC LỤC ............................................................................................................. 3
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................... 6
MỞ ĐẦU ............................................................................................................... 7
CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC VẤN ĐỀ CƠ
BẢN CỦA NHẬN DẠNG TIẾNG NÓI............................................................... 9
1.1

Tổng quan về nhận dạng tiếng nói ........................................................... 9

1.1.1

Giới thiệu ............................................................................................ 9

1.1.2

Ứng dụng .......................................................................................... 10

1.1.3


Các vấn đề trong nhận dạng tiếng nói .............................................. 11

1.2

Giới thiệu hệ thống nhận dạng tiếng nói ................................................ 12

1.2.1

Các thành phần chính trong hệ thống nhận dạng tiếng nói .............. 12

1.2.2

Đặc trƣng của tiếng nói .................................................................... 13

1.2.3

Mô hình âm học................................................................................ 13

1.2.4

Mô hình ngôn ngữ ............................................................................ 14

1.3

Tình hình nghiên cứu trong và ngoài nƣớc ............................................ 14

CHƢƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC ................. 17
2.1


Tổng quan về tiếng Việt ......................................................................... 17

2.1.1

Âm tiết và đặc điểm của âm tiết ....................................................... 17

2.1.2

Âm vị tiếng Việt ............................................................................... 18

2.2

Mô hình Markov ẩn ................................................................................ 20

2.2.1

Mô hình Markov............................................................................... 20

2.2.2

Mô hình Markov ẩn .......................................................................... 22

2.2.3

Ba bài toán cơ bản của mô hình Markov ẩn và giải pháp ................ 23

2.3

Các phƣơng pháp trích chọn đặc trƣng và xử lý tiếng nói ..................... 27


2.3.1

Mel Frequency Cepstral Coefficients (MFCC) ................................ 28

2.3.2

Perceptual Linear Prediction (PLP) ................................................. 29


4

CHƢƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN
TỤC SỬ DỤNG HTK ......................................................................................... 31
3.1

Giới thiệu về HTK .................................................................................. 31

3.2

Huấn luyện .............................................................................................. 31

3.2.1

Chuẩn bị dữ liệu ............................................................................... 31

3.2.2

Huấn luyện âm đơn .......................................................................... 34

3.2.3


Huấn luyện âm buộc ......................................................................... 40

3.3

Nhận dạng ............................................................................................... 43

3.3.1

Tạo mạng từ nhận dạng .................................................................... 43

3.3.2

Mô hình ngôn ngữ bigram ................................................................ 44

3.3.3

Giải mã ............................................................................................. 45

3.3.4

Đánh giá kết quả nhận dạng ............................................................. 46

3.4

Chƣơng trình nhận dạng mƣời chữ số tiếng Việt phát âm liên tục ........ 47

KẾT LUẬN ......................................................................................................... 49
TÀI LIỆU THAM KHẢO ................................................................................... 50



5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Từ viết tắt

Diễn giải

ASR

Automatic Speech Recognition

ANN

Artificial Neural Network

CMS

Cepstral Mean Subtraction

DFT

Discrete Fourier Transform

DTW

Dynamic Time Warping

EM


Expectation Maximization

FFT

Fast Fourier Transform

HMM

Hidden Markov Model

F0

Formant 0 (Tần số formant cơ bản)

F1, F2, F3

Formant 1, Formant 2, Formant 3

LPC

Linear Predictive Coding

MFCC

Mel Scale Frequency Cepstral Coefficients (Các hệ số
cepstral với thang tần số Mel)

HTK

Hidden Markov Model Toolkit



6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Các thành phần trong hệ thống nhận dạng tiếng nói............................ 13
Hình 2.1 Cấu trúc âm tiết tiếng Việt ................................................................... 17
Hình 2.2 Cấu trúc hai bậc của âm tiết tiếng Việt ................................................ 18
Hình 2.3 Các thanh điệu tiếng việt ...................................................................... 18
Hình 2.4 Mô hình trạng thái thời tiết .................................................................. 20
Hình 2.5: Hai mô hình HMM với ba trạng thái cho âm A và B ......................... 23
Hình 2.6 Quá trình trích xuất đặc trƣng tiếng nói ............................................... 28
Hình 3.1 Ngữ pháp cho việc nhận dạng chuỗi chữ số tiếng Việt ....................... 32
Hình 3.2 Thuật toán của hàm HInit..................................................................... 36
Hình 3.3 Mô hình hoạt động của HInit ............................................................... 37
Hình 3.4 Mô hình hoạt động của HCompV ........................................................ 38
Hình 3.5 Mô hình hoạt động của HRest.............................................................. 38
Hình 3.6 Hoạt động của HERest ......................................................................... 39
Hình 3.7 Dùng HHed chuyển âm đơn sang âm ba.............................................. 41
Hình 3.8 Quá trình buộc các âm ba bằng HHed ................................................. 42
Hình 3.9 Sơ đồ ngữ pháp của hệ thống nhận dạng mƣời chữ số liên tục ........... 44
Hình 3.10 Cấu trúc ba lớp của mạng từ nhận dạng............................................. 46


7

MỞ ĐẦU
Khoa học công nghệ ngày nay nhất là về công nghệ thông tin đã có những
bƣớc tiến vƣợt bậc, đƣa con ngƣời và máy móc ngày càng hiểu nhau hơn. Và để
giúp cho việc trao đổi giữa con ngƣời và máy móc thuận tiện hơn thì việc nghiên

cứu để giúp máy móc nhận thức và hiểu đƣợc tiếng con ngƣời nói qua đó thực
hiện các nhiệm vụ đƣợc yêu cầuđang đƣợc các nhà khoa học trên thế giới tập
trung nghiên cứu. Trong các công đoạn để giúp máy móc hiểu đƣợc tiếng con
ngƣời thì nhận dạng tiếng nói là một trong những công đoạn quan trọng. Trên
thế giới, các nhà khoa họcđã theo đuổi các nghiên cứuvà công nghệ này hàng
chục năm qua và hiệnđã xây dựng đƣợc một số hệ thống nhận dạng tiếng nói cỡ
lớn có độ chính xác tƣơng đối cao. Các hệ thống này chủ yếuđƣợc phát triển trên
nền công nghệ hiệnđại với những máy tính lớn, những vi mạch đƣợc thiết kế
riêng để chuyên xử lý tiếng nói và sử dụng cơ sở dữ liệu tiếng nói khá hoàn
chỉnh nhƣng phần lớn vẫn là xử lý cho tiếng Anh.
Ở Việt Nam, đối với tiếng Việt, việc tìm hiểu, nghiên cứu và phát triển các
hệ thống nhận dạng tiếng nói còn chƣa có nhiều nghiên cứu và kết quả. Do đặc
thù của tiếng Việt là một ngôn ngữđơn âm có thanh điệu nên việc lựa chọn
phƣơng pháp tiếp cận bài toán nhận dạng phù hợp là một vấn đề tƣơng đối khó
khăn. Qua đó có thể thấy việc nghiên cứu nhận dạng tiếng nói tiếng Việt là cần
thiết. Các thành quả nghiên cứu nhận dạng tiếng nói của các ngôn ngữ nƣớc
ngooài cần đƣợc kế thừa và nghiên cứu đểáp dụng vào trong tiếng Việt.
Vì những lý do trên, tôi xin lựa chọn đề tài: “Nghiên cứu và phát triển hệ
thống nhận dạng tiếng Việt phátâm liên tục trên bộ từ vựng nhỏ và trung bình”,
nhằm nghiên cứu các vấn đề nhận dạng tiếng nói vàáp dụng chúng trong nhận
dạng tiếng nói tiếng Việt.
1. Mục đích nghiên cứu
 Mục tiêu của đề tài
- Nắm rõ các khái niệm, phƣơng pháp liên quan đến nhận dạng
tiếng nói.
- Nắm vững kiến thức vềđặc trƣng tiếng nói, mô hìnhâm học, mô
hình ngôn ngữ thích hợp cho tiếng Việt.
- Làm chủ công cụ xây dựng hệ nhận dạng tiếng nói.
- Xây dựng chƣơng trình mô phỏng, thực nghiệm, đƣa ra nhận xét
và kết luận.

 Kết quả cần đạt được


8

Hiểu và cài đặt đƣợc chƣơng trình nhận dạng bằng giọng nói tiếng
Việt, qua đóđƣa ra đánh giá, nhận xét và kết luận về mức độ sẵn sàng
và khả thi của chƣơng trình.
2. Đối tƣợng và phạm vi nghiên cứu
- Giải quyết bài toán nhận dạng chuỗi phátâm liên tục, độc lập ngƣời
nói.
- Nội dung của bộ huấn luyện xoay quanh chuỗi phát âm liên tục.
3. Phƣơng pháp nghiên cứu
- Áp dụng lý thuyết về mô hình Markov ẩn – HMM (Hidden Markov
Model), bao gồm khái niệm, các thuật toán liên quan vàý nghĩa của
HMM trong hệ nhận dạng tiếng nói.
- Áp dụng cácđặc trƣng tiếng nói nhƣ MFCC (Mel-Frequency Cepstral
Coefficients), PLP (Peceptual Linear Prodiction) cho nhận dạng tiếng
nói.
4. Nội dung của luận văn
Bên cạnh phần mở đầu và kết thúc, luận văn đƣợc chia làm ba chƣơng:
- Chƣơng 1: Tổng quan vấn đề nghiên cứu và các vấn đề cơ bản của
nhận dạng tiếng nói
- Chƣơng 2:Nhận dạng giọng nói tiếng Việt phát âm liên tục
- Chƣơng 3: Xây dựng hệ thống nhận dạng tiếng Việt liên tục sử dụng
HTK


9


CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC
VẤN ĐỀ CƠ BẢN CỦA NHẬN DẠNG TIẾNG NÓI
1.1 Tổng quan về nhận dạng tiếng nói
1.1.1 Giới thiệu
Nhận dạng tiếng nói là một lĩnh vực liên ngành của ngôn ngữ học tính
toán nhằm phát triển các phƣơng pháp và công nghệ cho phép nhận dạng và
chuyển lời nói thành văn bản bằng máy tính. Nó còn đƣợc gọi là “Nhận dạng
tiếng nói tự động” (Automatic Speech Recognition), “Nhận dạng tiếng nói băng
máy tính” (Computer Speech Recognition) hay chỉ là “Tiếng nói thành văn bản”
(Speech To Text). Nó kết hợp kiễn thức và nghiên cứu giữa các lĩnh vực ngôn
ngữ học, khoa học máy tính và kỹ thuậtđiện.
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là
phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự
các mẫu đã đƣợc học trƣớc đó và lƣu trữ trong bộ nhớ. Các mẫu là các đơn vị
nhận dạng, chúng có thể là các từ, hoặc các âm vị. Tuy nhiên khó khăn cơ bản
của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự
khác biệt lớn giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ
cảnh và môi trƣờng âm học khác nhau. Xác định những thông tin biến thiên nào
của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng
tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với
các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ
các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng
nói.
Một số hệ thống nhận dạng tiếng nói đòi hỏi phảiđƣợc “huấn luyện” bằng
cách một ngƣời sẽđọc cácđoạn văn bản hoặc các từ vựng đơn lẻ và nhập vào hệ
thống. Hệ thống sẽ phân tích tiếng nói của ngƣờiđó và sử dụng những dữ liệu
phân tích đƣợc cho việc nhận dạng tiếng nói của ngƣờiđó, dẫn đến độ chính xác
sẽ cao hơn. Các hệ thống không sử dụng việc “huấn luyện” này đƣợc gọi là các
hệ thống “độc lập ngƣời nói”. Còn các hệ thống sử dụng việc “huấn luyện” đƣợc
gọi là “phụ thuộc ngƣời nói”.

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [7]:
- Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các giá trị phổ trong một
khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể


10

trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng
các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
- Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các
ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi chúng
ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
- Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa
(semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng
tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.
1.1.2 Ứng dụng
Trong thờiđại công nghệ ngày càng phát triển nhƣ hiện nay thì nhận dạng
tiếng nói ngày càng có nhiềuứng dụng vào thực tế. Trong đó, có thể liệt kệ một
sốứng dụng nổi bật sau:
- Các hệ thống trong xe hơi: Giờ đây, thay vì việc phải thao tác bằng tay để
thực hiện một số chức năng nhƣ gọi điện, dẫn đƣờng, nghe nhạc,…thì
nhận dạng tiếng nói đã đƣợc áp dụng vào để thực hiện các lệnh bằng tiếng
nói giúp cho ngƣời lái xe có thể tập trung hơn, đảm bảo an toàn hơn.
- Trong lĩnh vực chăm sóc sức khỏe: Nhận dạng tiếng nói có thể đƣợc áp
dụng ở phần đầu hoặc cuối của quá trình tạo hồ sơ y tế bằng cách ghi lại
lời nói của bệnh nhân và chuyển thành văn bản lƣu vào bệnh lý chữa trị
của ngƣời bệnh. Hay nhƣ có làm đơn giản hóa việc tƣơng tác giữa ngƣời
bệnh với các hệ thống chuẩn đoán bênh tự động để đƣa ra những giải đáp
cơ bản cho ngƣời bệnh một cách thân thiện và trực quan hơn.
- Trong quân đội: Một số nƣớc nhƣ Mỹ, Pháp, Anh đã áp dụng nhận dạng

tiếng nói trong việc điều khiển các máy bay chiến đấu, giúp cho phi công
giảm bớt các thao tác điều khiển nhƣ: cài đặt tần số vô tuyến, điều khiển
hệ thống lái tự động, cài đặt các tọa độ, các thông số cho việc sử dụng các
vũ khí trên máy bay.
- Trong viễn thông và các lĩnh vực giải trí: Hiện nay, tự động nhận dạng
tiếng nói rất phổ biến trong lĩnh vực viễn thông và đang lan rộng sang các
lĩnh vực khác nhƣ mô phỏng và trò chơi máy tính, nhằm làm cho tƣơng
tác mô phỏng cũng nhƣ trò chơi trở nên sinh động và thật hơn. Ngoài ra,
sự chạy đua về cấu hình của điện thoại đã giúp cho các điện thoại trở nên
mạnh và thông minh hơn và các trợ lý ảo sử dụng nhận dạng tiếng nói đã
ra đời nhƣ Siri của Apple, Google Now, Cortana,… để giúp ngƣời sử
dụng tƣơng tác với thiết bị thuận tiện hơn.


11

- Trong lĩnh vực giáo dục: Nhƣ đối với việc học ngôn ngữ, nhận dạng tiếng
nói có thể có ích cho việc học ngôn ngữ nƣớc ngoài. Nó có thể dạy và
kiểm tra cách phát âm cũng nhƣ giúp ngƣời học phát triển thành thạo hơn
kỹ năng nói của họ.
- Đối với người khuyết tật: Nhận dạng tiếng nói có thể giúp cho những
ngƣời bị điếc hoặc khiếm thính có thể hiểu đƣợc các cuộc trò chuyện nhƣ
thảo luận trong phòng họp, các bài giảng trên lớp, hay giao tiếp với ngƣời
khác. Nó cũng giúp cho những ngƣời gặp khó khăn trong việc sử dụng tay
của họ để soạn thảo hay điều khiển các thiết bị điện tử.
Và còn rất nhiều ứng dụng hữuích khác mà nó mang lại nhƣ: Nhà thông
minh, robot, tự động tạo phụ đề,…
1.1.3 Các vấn đề trong nhận dạng tiếng nói
1.1.3.1


Sự phụ thuộc người nói

Lời nói đƣợc nói ra có thể theo phong cách khác nhau theo từng ngƣời.
Nócòn phụ thuộc vào độ tuổi, giới tính của ngƣời nói. Hay mỗi vùng miền sẽ có
tiếng nói, cách phátâm khác nhau. Nhận dạng tiếng nói thƣờng đƣợc xây dựng
để chỉ nhận làm việc với một hoặc một số ngƣời nhấtđịnh, những hệ thống nhƣ
vậy gọi là phụ thuộc ngƣời nói. Còn một loại là độc lập ngƣời nói, tức là hệ
thống có thể nhận dạng cho bất cứ ngƣời nói nào, tuy nhiên tỷ lệ lỗi sẽ cao hơn.
1.1.3.2

Kích thước bộ từ điển

Kích thƣớc của bộ từđiển là lƣợng tự vựng mà nó chứa để phục vụ khả
năng nhận dạng của hệ thống. Kích thƣớc này càng lớn thì việc tính toán để
nhận dạng càng phức tạp và tỷ lệ lỗi cũng sẽ tăng lên.
1.1.3.3

Tốc độ nói và hiện tượng đồng phát âm

Ngƣời nói có thể nói với tốc độ khác nhau ở những thời điểm, hoàn cảnh
khác nhau. Nếu ngƣời nói căng thẳng, lời nói sẽ đƣợc đẩy nhanh hơn, còn ngƣời
nói nếu mệt mỏi, tốc độ sẽ có xu hƣớng giảmđi. Hay hiện tƣợng đồngâm là để
chỉ những từ có cùngâm nhƣng cách viết lại khác nhau vàý nghĩa cũng khác
nhau. Có thể thấy rất khó để nhận dạng đƣợc những từ nhƣ vậy và nhất là khi
chúng đƣợc nói trong một ngữ cảnh rộng.
1.1.3.4

Sự biến đổi trong lời nói



12

Ngoài ra, nó còn do tiếngồn xung quanh thay đổi theo thời gian, và có thể
từ các vị trí đặt micro khác nhau dẫn đếnảnh hƣởng tớiâm thanh của ngƣời nói,
hiện tƣợng này đƣợc gọi là sự thay đổi kênh.
1.1.3.5

Điều kiện môi trường (nhiễu)

Tiếng nói bị lẫn trọng môi trƣờng có nhiềuâm thanh khác nhƣ tiếng đồng
hồ, tiếngồn từ máy tính, đang mởđài hoặc tiếng của những ngƣời khác, v.v…
Chúng thƣờng đƣợc gọi là nhiễu, những tính hiệuâm thanh không mong muốn.
Trong nhận dạng tiếng nói, chúng ta phải xácđịnh và lọc bỏ những tạpâm này ra
khỏi tính hiệu tiếng nói.Một loại tiếng nhiễu khác là hiệu ứng tiếng vang, đó là
tín hiệu tiếng nói bị vang vọng xung quanh, và đến microphone vài mili giây sau
đó. Nếu ở mộtvị trí mà trong khi nói âm thanh đƣợc tạo ra vang lên rõ rệt, thì nó
gọi là hiện tƣợng hồi âm và có thể kéo dài tới vài giây.
1.1.3.6

Giới hạn về ngôn ngữ

Các hệ thốngnhận dạng có thể làm việc tốt với các câu có ngữ pháp, phátâm
rõ ràng trong các chƣơng trình cụ thể, tuy nhiên mỗi ngôn ngữ có những đặc
điểm riêng làm cho việc phátâm khác nhau hay cách sử dụng ngữ pháp tự do sẽ
khiến cho việc nhận dạng trở nên khó khăn hơn.

1.2 Giới thiệuhệ thống nhận dạng tiếng nói
1.2.1 Các thành phần chính trong hệ thống nhận dạng tiếng nói
Hình 1.1đƣa ra một cấu trúc cơ bản của hệ thống nhận dạng tiếng nói.
Đầu tiên, tiến trình trích chọn đặc trƣng sẽ chuyển tín hiệu tiếng nói dạng sóng

thành các vector đặc trƣng. Vector đặc trƣng nàyđại diện cho thông tin âm
thanh, nó là đầu vào quan trọng của hệ thống nhận dạng. Các vector đặc trƣng
này đƣợc chia làm hai nhóm, một nhóm dùng để huấn luyện mô hìnhâm học và
nhóm còn lại dùng cho việcnhận dạng. Sau đó, mô hình ngôn ngữ dựa trên
HMM và từ điển ngữâm là tập danh sách các từ xuất hiện trong dữ liệu huấn
luyện và phiên âm tƣơng ứng của nó sẽ đƣợc kết hợp để giải mã ra văn bản của
tiếng nói ban đầu.


13

Hình 1.1 Các thành phần trong hệ thống nhận dạng tiếng nói
1.2.2 Đặc trƣng của tiếng nói
Đặc trƣng tiếng nói là các vectortham sốđại diện cho thông tin củaâm
thanh đƣợc chuyển từ tín hiệu tiếng nói trƣớc khi đƣợcđƣa tới công cụ nhận
dạng. Vector đặc trƣng này lƣu lại các thông tin riêng biệt trong các lớp của tín
hiệu tiếng nói bất kể trong môi trƣờng có nhiều loại tiếngồn hay mức độ
nhiễuâm khác nhau. Để tạo ra đặc trƣng, tín hiệu tiếng nói đƣợc chia thành các
khung thƣờng có độ dài từ 20ms đến 40ms để mã hóa thành các thông tin nhằm
giảm lƣợng dữ liệu cao của tín hiệu tiếng nói gốc[8].
Có hai loại vector đặc trƣng tiếng nói phổ biến đƣợc sử dụng cho nhận
dạng tiếng nói hiện nay, một là dựa trên phƣơng pháp trích xuất đặc trƣng
MFCC (Mel Frequency Cepstral Coefficients) và hai là PLP (Perceptual Linear
Prediction).
1.2.3 Mô hình âm học
Mô hìnhâm học thƣờng đƣợc dùng trong nhận dạng tiếng nói để mô hình
hóa mối quan hệ giữa tín hiệuâm thanh vàđơn vị ngữâm trong ngôn ngữ biểu
diễn cho tiếng nói. Các mô hìnhâm học này là các mô hình thống kê xác suấtcho
cácâm vị đƣợc nói ra trong mộtđoạnâm thanh đƣợc ghi lại. Các mô hình này
đƣợc huấn luyện trƣớc khi đƣợc sử dụng để nhận dạng, độ chính xác của nó phụ

thuộc vào dữ liệu huấn luyện. Hiện tại, các hệ thống nhận dạng tiếng nói sử
dụng tập từ vựng lớn thƣờng dùng mô hìnhâm học để mô hình hóa cho cácâm vị


14

nhằm làm giảm kích thƣớc của hệ thống cũng nhƣ tăng khả năng nhận diện mẫu
do các từ vựng đều cấu tạo từ sốâm vị này. Ví dụ, nếu coi một từ là mộtđơn vị
nhận dạng thì với hệ thống có 50.000 từ vựng sẽ phải có 50.000 mô hình cho số
từ vựng này. Trong khi đó, nếu số lƣợng từ vựng trên đƣợc cấu tạo từ 52 âm vị
thì sẽ chỉ cần xây dựng 52 mô hình cho cácâm vị này. Do đó, hệ thống có thể
nhận dạng đƣợc tất cả các từ mà không cần xây dựng thêm mô hình. Mô hình
ngôn ngữ đƣợc xây dựng bằng một số phƣơng pháp nhƣ dùng mạng nơron sâu
(DNN), mô hình Markov ẩn (HMM) trong đó mô hình Markov ẩn đƣợc sử dụng
phổ biến cho mô hìnhâm học.
1.2.4 Mô hình ngôn ngữ
Ngoài mô hìnhâm học, mô hình ngôn ngữ cũngđóng một vai trò rất quan
trọng trong bất kỳ hệ thống nhận dạng tiếng nói. Nó là một tập xác suất phân bố
của các từ trong một tập văn bản. Mô hình ngôn ngữ giúp cho ta có thể xácđịnh
đƣợc chính xác từ mà mô hìnhâm họcđƣa ra dựa trên xác suất của cả câu. Về lý
thuyết thì chúng ta cần ƣớc lƣợng xác suất𝑃 𝑊 cho tất cả các từ.
𝐿

𝑃 𝑊 =

𝑃(𝑤𝑙 𝑤𝑙−1 , … 𝑤1 )
𝑙=1

Số lƣợng xác suất phải ƣớc lƣợng tăng lên theo số lƣợng các từ đƣợc bổ
sung. Để giảm số lƣợng xác suất cần ƣớc lƣợng có nhiều phƣơng pháp trong đó

phổ biến nhất là sử dụng mô hình N-gram bằng cách giả sử một từ trong câu chỉ
phụ thuộc vào(𝑁 − 1) từ đứng trƣớc nó, ta sẽ có
𝐿

𝑃 𝑊 =

𝑃(𝑤𝑙 𝑤𝑙−1 , … 𝑤𝑙−𝑁+1 )
𝑙=1

Giá trị của N thƣờng là 2, 3 hoặc 4 tƣơng ứng với bi-gram, tri-gram hoặc
four-gram. Thƣờng thì ƣớc lƣợng của mô hình ngôn ngữ dùng N-gram chỉđƣợc
tính toán cho một tập văn bản đầu vào xácđịnh.Vàvới bộ từđiển có V từ thì theo
mô hình N-gram phải có VN bộ từ.Do đó dẫn tới với một số bộ từ không xuất
hiệnhoặc một số bộ từ có xuất hiệnrấtít thì giá trị xác suất của nó có thể bằng
không. Có một số phƣơng pháp làm mịn cho mô hình N-gram đƣợc đề xuất nhƣ
phƣơng pháp Add-One, Good-Turing, mô hình Back-off hoặc mô hình nội suy
Interpolation.

1.3 Tình hình nghiên cứu trong và ngoài nƣớc


15

Trên thế giới, nhận dạng tiếng nói đã đƣợc nghiên cứu từ rất lâu, trải qua
nhiều thập kỷ cùng với sự phát triển vƣợt bậc của khoa học kỹ thuật nhất là công
nghệ máy tính những nghiên cứu về nhận dạng tiếng nói đã đạt đƣợc nhiều
thành tựu nổi bật. Trong đó nhiều phần mềm thƣơng mại đã đƣợc cung cấp cho
ngƣời dùng phổ thông nhƣ IBM Voice, Dragon Dictation, … cùng với đó là sự
phát triển mạnh mẽ của trí tuệ nhân tạo giúp các hãng phần mềm lớn trên thế
giới đƣa ra các trợ lý ảo nhƣ Siri, Google Now, Cortana, Bixby,… dùng nhận

dạng tiến nói để phục vụ giao tiếp giữa ngƣời và máy. Tuy nhiên các hệ thống
nhận dạng này chỉ hoạt động tốt với một số ngôn ngữ của các nƣớc phát triển đã
đầu tƣ nghiên cứu trong lĩnh vực này từ lâu nhƣ Anh, Pháp, Đức, Trung và
chúng có độ chính xác cao hơn so với các ngôn ngữ khác. Các nghiên cứu gần
đây của các nhà khoa học trên thế giới chủ yếu tập trung vào việc nâng cao chất
lƣợng nhận dạng tiếng nói thông qua việc phân tích và nghiên cứu về các đặc
trƣng tiếng nói, xây dựng mô hình âm học, mô hình ngôn ngữ và các bộ giải mã.
Các nghiên cứu này thƣờng đƣa ra các kỹ thuật mới hoặc cải tiến từ những kỹ
thuật đã có nhƣ:
- Sử dụng mạng nơ-ron và học máy sâu (Deep learning) để trích chọn đặc
trƣng làm tăng sự khác biệt giữa các mẫu khác nhau.
- Nghiên cứu các hệ thống lai kết hợp giữa mô hình Markov ẩn với mô hình
mạng nơ-ron nhận tạo (ANN) hay kết hợp giữa HMM với mô hình
Gaussian (HMM-GMM) để tối ƣu hóa các tham số cho mô hình trên tập
huấn luyện.
- Nghiên cứu các phƣơng pháp mới cho việc xây dựng mô hình ngôn ngữ
ngoài phƣơng pháp sử dụng mô hình n-gram đã phổ biến từ lâu nhƣ áp
dụng mô hình mạng nơ-ron hay mạng học sâu (Deep learning).
- Ngoài giải thuật Viterbi đƣợc áp dụng phổ biến trong các hệ thống nhận
dạng hiện nay thì các nghiên cứu mới cũng chỉ đề xuất các kỹ thuật làm
tăng tốc tìm kiếm và giảm dung lƣợng bộ nhớ nhƣ áp dụng mô hình FST
(Finite-State Transducer) để tìm đƣờng đi tốt nhất mà không phải tính
toán lại dữ liệu trên mô hình ngôn ngữ và mô hình âm học.
Hầu hết các hƣớng nghiên cứu mới này đều mang lại những kết quả tốt nhƣ
tăng độ chính xác trong nhận dạng, giảm thời gian giải mã cho hệ thống nhận
dạng, giảm đƣợc dung lƣợng của tập dữ liệu đã huấn luyện.
Tình hình nghiên cứu trong nƣớc:


16


Các nghiên cứu về nhận dạng tiếng nói ở nƣớc ta mới chỉ đƣơc thực hiện
trong hai thập kỷ gần đây, tuy nhiên các nghiên cứu trong thời gian đầu này
còn nhiều hạn chế do lĩnh vực này còn chƣa đƣợc quan tâm cũng nhƣ chƣa
có nhiều ngƣời nghiên cứu. Khi trên thế giới, nhận dạng tiếng nói phát triển
mạnh thì trong nƣớc lĩnh vực này mới đƣợc quan tâm và đã có nhiều nghiên
cứu mới trong nƣớc đƣợc thực hiện. Tuy nhiên, các nghiên cứu về nhận dạng
tiếng nói tiếng còn rất hạn chế do tiếng Việt là một ngôn ngữ khó vì nó có cả
thanh điệu không nhƣ một số ngôn ngữ đã đƣợc nghiên cứu phổ biến trên thế
giới. Do đó có thể thấy lĩnh vực nghiên cứu về nhận dạng tiếng nói tiếng Việt
là hết sức cấp thiết và cần đầu tƣ nhiều nguồn lực vào. Hiện tại, lĩnh vực
nghiên cứu này cũng đã có những bƣớc đi ban đầu nhƣ các nghiên cứu để
tổng hợp và nhận dạng tiếng Việt nhằm giải quyết các ứng dụng điều khiển
bằng giọng nói do Phòng Nhận dạng và Công nghệ Tri thức - Viện Công
nghệ thông tin thực hiện. Các nghiên cứu về trích chọn đặc trƣng cho tiếng
Việt cũng đƣợc đẩy mạnh nghiên cứu nhƣ nghiên cứu các đặc trƣng âm vị,
đặc trƣng âm học, thanh điệu từ đó giúp cải thiện khả năng nhận dạng từ
trong tiếng Việt. Ngoài ra còn có những nghiên cứu liên quan đến việc gán
nhãn cho dữ liệu tiếng Việt, nhận dạng tiếng Việt với bộ từ vựng lớn,… Có
thể thấy nghiên cứu về nhận dạng tiếng Việt còn chƣa nhiều, do đó nó vẫn sẽ
là một lĩnh vực nghiên cứu cần đƣợc khai thác trong thời gian tới.


17

CHƢƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC
2.1 Tổng quan về tiếng Việt
2.1.1 Âm tiết và đặc điểm của âm tiết
Lời nói đƣợc con ngƣời phát ra gồm nhiều đoạn dài ngắn khác nhau trong
đó đơn vị đƣợc phát âm ngắn nhất gọi là âm tiết. Âm tiết có tính chất toàn vẹn,

không thể phân chia đƣợc vì nó đƣợc tạo ra bởi một đợt chùng – căng – chùng
của bộ máy phát âm, nghe thành tiếng.Âm tiết trong tiếng Việt có các đặcđiểm
sau[32]:
Tính độc lập cao
Âm tiết tiếng Việtluôn thể hiện khá đầyđủ, rõ ràng, đƣợc tách và ngắt
thành từng khúcđoạn riêng biệt trong từng lời nói. Và mỗi âm tiết tiếng việt đều
mang một thanh điệu nhấtđịnh. Do đƣợc thể hiện rõ ràng nhƣ vậy nên việc tách
bạch giữa cácâm tiết trong tiếng việt trở nên rất dễ dàng.
Khả năng biểu hiện ý nghĩa
Trong tiếng Việt, hầu hết cácâm tiết đều cóý nghĩa. Có thể nói hầu hết
cácâm tiết tiếng Việt đều tƣơng đƣơng nhƣ từ. Do đó, nó không chỉđơn thuần là
mộtđơn vị ngữâm mà còn là một đơn vị từ vựng và ngữ pháp. Tức là nghĩa
củaâm vàâm tiết có mối quan hệ chặt chẽ, có thể coi nó là một đặc trƣng của
tiếng Việt.
Có cấu trúc chặt chẽ
Mô hìnhâm tiết tiếng Việt là một cấu trúc màở dạng đầyđủ nhất của nó
gồm có 5 phần nhƣ Hình 2.1.
Thanh điệu
Âm đầu

Vần
Âm đệm

Âm chính

Âm cuối

Hình 2.1 Cấu trúcâm tiết tiếng Việt
Cấu trúc tổng quát của mộtâm tiết tiếng Việt là(𝐶1)(𝑤)𝑉(𝐶2), trong đó
C1 là phụâm đầu, (w) làâm đệm, V làâm chính và C2 làâm cuối. Cấu trúc củaâm

tiết tiếng Việt là một cấu trúc hai bậc. Trongđóâm đầu luôn giữ một trƣờng độ
riêng, còn các bộ phận còn lại thì nếu nguyên âm dài thì phụâm cuối ngắn, còn
nguyên âm ngắn thì phụâm cuối dài, điều này giúp cho trƣờng độ trong âm tiết
đƣợc cốđịnh. Thêm vàođó, số lƣợng những đƣờng ranh giớiđi qua thanh điệu
vàâm đầu là khác nhau so với những đƣờng phân chia ranh giới trong cácbộ


18

phận còn lại củaâm tiết. Nhƣ vậy, có thể thấy tính độc lập củaâm đầu cao hơn so
với các bộ phận còn lại phía sau củaâm tiết.
ÂM TIẾT
I …………Âm đầu
II ……Âm đệm

Vần

Thanh điều

Âm chính

Âm cuối

Hình 2.2 Cấu trúc hai bậc củaâm tiết tiếng Việt
2.1.2 Âm vị tiếng Việt
Âm vị làđơn vị ngữâm nhỏ nhất có chức năng phân biệt nghĩa giữa các từ.
Vì dƣớiâm vị ta không thể chia nhỏ đƣợc nữa, do đónó là nguyên nhân cho sự
khác biệt về nghĩa giữa hai từ. Âm vị là một cấu trúc ngôn ngữ học bao gồm
những nét riêng biệt và ngôn ngữ học gọiâm vị là một tập hợp các nét riêng biệt.
2.1.2.1


Thanh điệu

Thanh điệu đứngở vị trí thứ năm trong cấu trúcâm tiết. Thanh điệu là
loạiâm vị đặc biệt và không thể chia cắt đƣợc, nó bao trùm lên toàn bộâm tiết và
là thuộc tính củaâm tiết. Trong tiếng Việt có sáu thanh điệu. Thanh điệu đƣợc
miêu tả theo hai tiêu chí, đó làcao độ(âm vực) và đƣờng nét(âm điệu).

Hình 2.3 Các thanh điệu tiếng việt [32]


19

Trong đó, theo cao độ thì thanh điệu đƣợc chia thành nhóm cóâm vực cao
gồm các thanh ngang, ngã, sắc và nhóm cóâm vực thấp gồm các thanh huyền,
hỏi, nặng. Còn nếu theo đƣờng nét, thì thanh điệu đƣợc chia thành nhóm đƣờng
nét bằng phẳng (thanh bằng) gồm các thanh ngang và huyền và nhóm đƣờng nét
không bằng phẳng (thanh trắc) gồm các thanh ngã, hỏi, sắc và nặng.
2.1.2.2

Âm đầu

Trong tiếng Việt có 21 âm vị làâm đầu, đây là quan điểm giúp cho việc
giảng dạy tiếng Việt có lợi hơn do có sự thống nhất giữa ngữâm và chữ viết. Tuy
nhiên, cũng có quan điểm cho rằng tiếng Việt có 22 âm đầu bằng việcđƣa thêm
âm /p/ vào nhƣng điều này cần đƣợc nghiên cứu thêm vì nó chỉ xuất hiện rấtít
trong các phiên âm của thuật ngữ khoa học hoặc tên của các dân tộcít ngƣời, ví
dụ: pô pơ lin, pe ni xi lin, Pắc Bó, Sa Pa,…
Để nhận biết cácâm đầu, ngƣời ta dựa trên tiêu chí về cấu âm và tiêu chí
vềâm học. Trong đó, các phụâm môi không kết hợp vớiâm đầu vần (trừ một số

trƣờng hợp hãn hữu), giá trịâm học của các phụâm và nhóm phụâm đƣợc cụ thể
hóa theo đặc trƣng về tắc, xát, rung. Âm đầu có tác dụng làm tách biệt cácâm
tiết.
2.1.2.3

Âm đệm

Âm đệm có chức năng biến đổi âm sắc củaâm tiết sau lúc mở đầu và làm
trầm hóaâm sắc củaâm tiết. Không nhƣâm chính giữ vai trò hạt nhân củaâm tiết
và đứngởđỉnh củaâm tiết trong sơ đồ phátâm, âm đệm nằmở sƣờn đƣờng cong đi
lên củaâm tiết. Âm đệm có cấu tạo gần giống nguyên âm /u/ thuộc nhóm nguyên
âm hàng sau hẹp, tròn môi, thấp nhƣng đƣợc phát âm lƣớt. Âm đệm không kết
hợp vớicác phụâm môi đứng trƣớc nó cũng nhƣ các nguyên âm tròn môiđứng
sau nó vì cácâm này cũng mang âm sắc trầm giống nó mà chỉ xuất hiện trƣớc
các nguyên âm hàng trƣớc. Trong lời nói, độ mở củaâm đệm phụ thuộc vào độ
mở của các nguyên âm.
2.1.2.4

Âm chính

Âm chính mang màu sắc chủđạo củaâm tiết và là hạt nhân củaâm tiết. Nó
cũng mang đƣờng nét cơ bản của thanh điệu Trong tiếng Việt có 11 nguyên âm
đơn và 3 nguyên âm đôi làmâm chính.Âm chính có thể nhận diện đặcđiểm theo
một số tiêu chí sau:


20

Theo vị trí lƣỡi, có hai loại nguyên âm là nguyên âm hàng trƣớc và
nguyên âm hàng sau.

Theo độ há của miệng, có bốn loại nguyên âm là nguyên âm hẹp, nguyên
âm hơi hẹp, nguyên âm hơi rộng và nguyên âm rộng
Theo hình dáng môi, có hai loại nguyên âm là nguyên âm tròn môi và
nguyên âm không tròn môi.
2.1.2.5

Âm cuối

Âm cuối có chức năng kết thúcâm tiết với nhiều cách khác nhau, làm thay
đổiâm sắc củaâm tiết và do đó có thể phân biệtâm tiết này vớiâm tiết khác tuy
nhiên âm cuối có thể khuyết. Dựa vào sự xuất hiện hay không xuất hiện củaâm
cuối, ngƣời ta phân âm tiết tiếng Việt thànhâm tiết mở, âm tiết hơi mở, âm tiết
hơi đóng vàâm tiếtđóng. Vị tríâm cuối trong cấu trúcâm tiết tiếng Việt do các
phụâm và bán nguyên âm đảm nhiệm. Số lƣợngâm cuối gồm 10 âm vị, trong đó
có 8 phụâm và 2 bánâm cuối.

2.2 Mô hình Markov ẩn
2.2.1 Mô hình Markov

Hình 2.4 Mô hình trạng thái thời tiết


21

Một mô hình Markov bao gồm một tập𝑁 các trạng thái riêng biêt. Trong
ví dụhình 2.4, thời tiết có các trạng thái nắng, mƣa, bão. Thời tiết thay đổi các
trạng thái trong những khoảng thời gian đều đặn theo xác xuất liên kết với mỗi
trạng thái. Các thờiđiểm mà thời tiết thay đổi trạng thái đƣợc đặt là𝑡 = 1,2,3 …
Trạng thái thời tiết hiện tại đƣợc ký hiệu là𝑅𝑡 . Sau khoảng thời gian 1 ngày, thời
tiết sẽ thay đổi trạng thái. Mô tả xác suất hoàn chỉnh của thời tiết sẽ cần phải biết

trạng thái hiện tại và tất cả các trạng thái trƣớc dẫn tới trạng thái hiện tại. Trong
trƣờng hợp đầu tiên của chuỗi Markov giả định rằng trạng thái hiện tại chỉ phụ
thuộc vào một trạng thái trƣớc đó.
𝑃 𝑟𝑡 = 𝑗 𝑟𝑡−1 = 𝑖, 𝑟𝑡−2 = 𝑘, … = 𝑃[𝑟𝑡 = 𝑗 𝑟𝑡 − 1 = 𝑖] (2.1)
Do đó, chỉ có xác suất chuyển đổi trạng thái 𝐴𝑖𝑗 liên quan đến hai trạng
thái cần đƣợc xác định nhƣ sau
𝑎𝑖𝑗 = 𝑃 𝑟𝑡 = 𝑗 𝑟𝑡−1 = 𝑖 ,

1 ≤ 𝑖, 𝑗 ≤ 𝑁

(2.2)

với điều kiện
𝑎𝑖𝑗 ≥ 0
𝑁
𝑗 =1 𝑎𝑖𝑗

∀𝑖, 𝑗

(2.3)

= 1 ∀𝑖

(2.4)

Xác suất chuyển đổi trạng thái thời tiết đƣợc biểu thị trên mỗi mũi tên.Và
xác suất ban đầu cho trạng thái đầu tiên đƣợc xác định nhƣ sau
𝜋𝑖 ≥ 0

1≤𝑖≤𝑁

𝑁
𝑖=1 𝜋𝑖 = 1

(2.5)
(2.6)

Kết quả của một mô hình Markov có thể quan sát đƣợc là các trạng thái
đã xảy ra trong khoảng thời gian trƣớc. Các trạng thái tƣơng ứng với các sự kiện
quan sát đƣợc. Một câu hỏi có thể đƣợc đặt ra cho mô hình này là: “Tính xác
suất dự báo thời tiết của tuần này (nắng – mƣa – mƣa – bão –mƣa) theo mô hình
trên”
Gọi chuỗi quan sát là O, đƣợc định nghĩa theo dự báo tuần này nhƣ sau:
O = ( nắng, mƣa, mƣa, bão, mƣa)
= (𝑆1 , 𝑆2 , 𝑆2 , 𝑆3 , 𝑆2 )
t =( 1 , 2 , 3 , 4 , 5 )


22

Xác suất 𝑃(𝑂|𝑀ô 𝑕ì𝑛𝑕) đƣợc tính là xác suất 𝜋𝑆1 đang ở trạng thái 𝑆1 tại
thời điểm 1 nhân với xác suất chuyển từ trạng thái 𝑆1 sang trạng thái 𝑆2 và cứ
nhƣ vậy. Do 𝑡 = 1 chính là ngày hôm nay nên 𝜋𝑆1 = 1.
𝑃 𝑂 𝑀ô 𝑕ì𝑛𝑕 = 𝑃 𝑆1 , 𝑆2 , 𝑆2 , 𝑆3 , 𝑆2 𝑀ô 𝑕ì𝑛𝑕

(2.7)

= 𝑃 𝑆1 𝑃 𝑆2 𝑆1 𝑃 𝑆2 𝑆2 𝑃 𝑆3 𝑆2 𝑃 𝑆2 𝑆3
= 𝜋𝑆1 𝑎12 𝑎22 𝑎23 𝑎32
= 1.0 0.1 0.3 0.3 0.2
= 0.0018

2.2.2 Mô hình Markov ẩn
Sự kết hợp giữa các sự kiện và các trạng thái trong mô hình Markov là tất
định. Mô hình Markov ẩn là sự mở rộng mô hình Markov trong đó các quan sát
hay tín hiệu tiếng nói là một hàm xác suất của trạng thái. Kết quả là một quá
trình ngẫu nhiên kép mà sự chuyển trạng thái không thể quan sát đƣợc trực tiếp,
nhƣng thông qua một quá trình ngẫu nhiên khác sinh ra đƣợc chuỗi quan sát.
Mô hình Markov ẩn gồm các thành phần sau:
- 𝑁 là số lƣợng trạng thái trong mô hình Markov
- Phân phối xác suất chuyển trạng thái𝑨 = {𝒂𝒊𝒋 } trong mô hình Markov
- Số ký hiệu quan sát M và tập con 𝑽 = {𝒗𝟏 , 𝒗𝟐 , … 𝒗𝑴 }cho mỗi trạng thái
- Phân phối xác suất phát xạ quan sát trong mỗi trạng thái𝑩 = {𝒃𝒋 (𝒌)} trong đó
𝒃𝒋 𝒌 = 𝑷 𝒐𝒕 = 𝒗𝒌 𝒓𝒕 = 𝒋 , 𝟏 ≤ 𝒌 ≤ 𝑴

(2.8)

tại trạng thái j, j = 1,2,…N
- Phân phối trạng thái ban đầu𝚷 = {𝝅𝒊 } trong đó
𝝅𝒊 = 𝑷 𝒓𝟏 = 𝒊 , 𝟏 ≤ 𝒊 ≤ 𝑵

(2.9)

Ký hiệu rút gọn cho mô hình Markov ẩn: 𝝀 = (𝑨, 𝑩, 𝚷). Áp dụng công thức trên
cho nhận dạng tiếng nói liên tục, một mô hình HMM tƣơng ứng với một đơn vị
đặc trƣng (Ví dụ: âm tiết, từ hoặc câu).
1. Các trạng thái đại diện cho chuỗi âm thanh


23

2. Phân phối xác suất chuyển trạng thái định nghĩa một đồ thị mà HMM có thể

đƣợc truyền qua
𝒂𝒊𝒋 = 𝟎∀𝒊 > 𝑗, 𝑗,
𝒂𝒊𝒋 > 0 ∀𝑖 ≤ 𝑗 + 1,

(2.10)

𝟏 ≤ 𝒊, 𝒋 ≤ 𝑵
Đồ thị chuyển tiếp giữa các trạng thái đƣợc trình bày ở Hình 2.5

HMM: A
a11

a22

a12

HMM: B
a33

a11

a23

a22

a12

a13

S1


a33

a23
a13

S2

S3

S1

S2

S3

Hình 2.5: Hai mô hình HMM với ba trạng thái cho âm A và B
Ma trận chuyển tƣơng ứng cho âm A là:
S1

S2

S3

S1

a11

a12


a13

S2

0

a22

a23

S3

0

0

a33

Trong suốt quá trình huấn luyện và nhận dạng liên tục, các mô hình HMM cho
các âm đƣợc kết nối ở điểm đầu và cuối của trạng thái.
2.2.3 Ba bài toán cơ bản của mô hình Markov ẩn và giải pháp
Mô hình Markov ẩn đã giới thiệu ba vấn đề cơ bản:
- Tính xác suất của chuỗi quan sát.
- Tìm đƣợc chuỗi trạng thái tốiƣu nhất.
- Tính các tham số của mô hình sao cho xác suất quan sát là lớn nhất.


×