Tải bản đầy đủ (.pdf) (69 trang)

Nghiên cứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.39 MB, 69 trang )

PHẠM QUANG DUY

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------

PHẠM QUANG DUY

KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG
NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG DANH
BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG

LUẬN VĂN THẠC SỸ KHOA HỌC
KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

CLC2017A

Hà Nội – 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------

PHẠM QUANG DUY

NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG
NHẬN DẠNG TIẾNG VIỆT CHO ỨNG DỤNG
DANH BẠ TRÊN ĐIỆN THOẠI DI ĐỘNG



LUẬN VĂN THẠC SỸ KHOA HỌC
KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Mạc Đăng Khoa

Hà Nội – 2018


Luận văn thạc sỹ 2018

LỜI CẢM ƠN
Đ u ti n t i xin
c g i lời c m n ch n thành tới Viện nghi n cứu qu c t
MICA n i tạo i u kiện cho t i th c hiện luận văn này Ti p n t i xin c m n
trung t m kh ng gi n mạng VIETTEL n i t i làm việc

tạo i u kiện và gi p

t i trong việc hoàn thành hệ th ng mà t i tr nh ày trong luận văn thạc sỹ này T i
xin ch n thành c m n TS Mạc Đăng Kho , ng ời th y ng ời h ớng ẫn gi p
t i trong su t thời gi n qu
Th m n

t i c th hoàn thành luận văn này.

t i xin ch n thành c m th y Nguyễn Việt S n c ng toàn th c c ộ

viện nghi n cứu qu c t MICA


gi p

t i trong qu tr nh làm luận văn tại viện

nghi n cứu qu c t MICA T i xin g i lời c m n tr n tr ng

n nh Nguyễn Qu c

o c ng tập th thành vi n nh m Voic trung t m kh ng gi n mạng VIETTEL
n gi m c trung t m c ng toàn th nh ch m trong trung t m gi p
h tr
t i trong qu tr nh t i hoàn thành luận văn thạc sỹ này
Cu i c ng t i xin g i lời c m n tới c Tr n Th Thanh H i ng ời
h ớng
ẫn t i t khi c n là sinh vi n ại h c và h tr gi p
t i n khi t i hoàn thành
luận văn này
Phạm Quang Duy

Phạm Quang Duy

iii


Luận văn thạc sỹ 2018

DANH MỤC HÌNH ẢNH
H nh 1 1: S


ồ v cấu tạo bộ phận phát âm ở ng ời(Huang et al., 2001a) ...............5

H nh 1 2: Bi u ồ dạng sóng của s khởi

u của lời n i ―It’s tim ‖ ........................6

H nh 1 3: Phổ của lời n i ―It’s tim ‖(Hu ng t l 2001 ) ........................................7
H nh 1 4: Cấu trúc của một hệ nhận dạng ti ng nói(Jurafsky and Martin, 2000) .....11
H nh 1 5: Ví dụ mơ hình Markov (B.H. Juang, Lawrence R. Rabiner, 2005) ..........13
H nh 1 6 : Mơ hình HMM t ―six‖ (Jurafsky and Martin, 2000) .............................16
H nh 1 7 : Mơ hình Markov ẩn cho bộ t v ng là các s (Jurafsky and Martin, 2000)
...................................................................................................................................17
H nh 1 8 : Quá trình nhận dạng chu i văn

n t tín hiệu ti ng nói(Jurafsky and

Martin, 2000).............................................................................................................17
H nh 1 9: Mơ hình phi tuy n của một mạng Neuron ................................................18
H nh 2 1: Hình nh ứng dụng Google Assistant .......................................................23
H nh 2 2: Hình nh ứng dụng Siri .............................................................................24
H nh 2 3: Ứng dụng Alice ........................................................................................25
H nh 2 4: Ứng dụng ig y tr n iện thoại Samsung ................................................25
H nh 2 5: Ứng dụng cotana ......................................................................................26
H nh 2 6: Ứng dụng danh bạ của Google Contact. ...................................................29
H nh 3 1: Ki n trúc Sphin4 (Huang et al., 1993) ......................................................32
H nh 3 2:VD Search Graph (Huang et al., 1993) ......................................................32
H nh 3 3: Phân b d liệu ti ng n i th o ộ dài câu .................................................34
H nh 3 4 : Màn h nh ăng nhập và ăng ký tài kho n ứng dụng voicetrans.............35
H nh 3 5: Màn hình hoạt ộng ứng dụng Voicetrans ................................................35
H nh 3 6: Quy trình thu thập d liệu .........................................................................37

H nh 3 7: S



ờng i t m ki m quá trình nhận dạng .........................................39

H nh 4 1: Bi u ồ use case v chức năng ph n m m Voice Contact ........................41
H nh 4 2:S

ồ trình t (Sequence Diagram) ứng dụng Voice Contact ...................43

H nh 4 3: S

ồ quy trình ph n m m Voice Contact ................................................44

H nh 4 4 : Hình nh hoạt ộng của ứng dụng Voice Contact ...................................45
H nh 4 5: Màn hình chi ti t danh bạ..........................................................................46
H nh 0 1: S

ồ q trình tạo mơ hình ngơn ng bằng cơng cụ CMUclmk .............55

Phạm Quang Duy

iv


Luận văn thạc sỹ 2018

DANH MỤC BẢNG
B ng 1.1:Cấu tạo âm ti t của ti ng Việt (Bùi Tất T

B ng 3.1: C c c u văn

n

m 1997) .................................8

c lấy t báo với thời gi n t

ng ứng .......................34

B ng 3.2: B ng phân b ng ời nghi âm theo vùng mi n..........................................36
B ng 3.3: Th nghiệm và k t qu với s l
B ng 3.4: K t qu

nh gi

ng thời gian training khác nhau ..........38

ộ nhận dạng ................................................................40

B ng 4.1: Tỷ lệ ra lệnh thành công ...........................................................................47

Phạm Quang Duy

v


Luận văn thạc sỹ 2018

DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ

HMM

:

GMM

:

DNN

:

Deep Neural Network

CMU

:

Carnegie Mellon University.

CME

:

Minimum Classification Erro

DTW

:


Dynamic Time Warping

ASR

:

Automatic Speech Recognition

MMI

:

Maximum Mutual Information

MLLR

:

Maximum Likelihood Linear Regression

PMC

:

Parallel Model Combination

ATIS

:


Air Travel Information Service

Phạm Quang Duy

Hidden Markov Model
Gaussian Mixture Model

vi


Luận văn thạc sỹ 2018

MỤC LỤC
LỜI CẢM ƠN .......................................................................................................... iii
DANH MỤC HÌNH ẢNH ....................................................................................... iv
DANH MỤC BẢNG ..................................................................................................v
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ ................................................. vi
MỤC LỤC ............................................................................................................... vii
MỞ ĐẦU ....................................................................................................................1
Chƣơng 1.

TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI VÀ NHẬN DẠNG

TIẾNG NĨI .............................................................................................................5
1.1. Ti ng nói và bi u diễn ti ng nói ....................................................................5
1.2. Ti ng Việt và ng âm ti ng Việt ...................................................................7
1.3. Nhận dạng ti ng nói .....................................................................................10
1.3.1. Mơ hình chung hệ th ng nhận dạng ti ng nói ......................................10
1.3.2. C c ph


ng ph p c

n ......................................................................12

1.3.2.1. Gaussian Mixture Model – Hidden Markov Model (GMM-HMM) .
1.3.2.2. Deep Neural Network (DNN) ..........................................................18
1.3.2.3. L a ch n mơ hình phù h p cho bài tốn..........................................19
1.3.3. Giới thiệu cơng cụframework sẵn có cho nhận dạng ti ng nói ............20
1.4. Nhận dạng ti ng nói cho ti ng Việt .............................................................20
1.5. K t luận........................................................................................................21
Chƣơng 2.

NHẬN DẠNG TIẾNG NÓI TRÊN THIẾT BỊ DI ĐỘNG VÀ

ỨNG DỤNG CHO DANH BẠ ...............................................................................23
2.1. Ứng dụng nhận dạng ti ng nói cho danh bạ iện thoại ...............................23
2.1.1. Mục tiêu ứng dụng ................................................................................23
2.1.2. Một s s n phẩm t

ng t

c tr n th giới ......................................23

2.1.3. Tổng k t ...............................................................................................26
Phạm Quang Duy

vii


Luận văn thạc sỹ 2018


2.2. Ph n tích và

xuất gi i pháp .....................................................................27

2.2.1. Các vấn

c n ph i gi i quy t .............................................................27

2.2.2. Đ xuất gi i pháp ..................................................................................28
Chƣơng 3.

XÂY DỰNG MƠ HÌNH NHẬN DẠNG TIẾNG VIỆT CHO

ỨNG DỤNG DANH BẠ .........................................................................................30
3.1. Công cụ CMU SphinX ................................................................................30
3.2. Xây d ng c sở d liệu huấn luyện .............................................................33
3.2.1. Xây d ng d liệu t xt văn

n ..............................................................33

3.2.2. Xây d ng ph n m m thu âm d liệu ti ng n i tr n iện thoại .............34
3.3. Xây d ng mô hình âm h c ..........................................................................38
3.4. Thích nghi t
Chƣơng 4.

i n nhận dạng cho ứng dụng danh bạ .................................39

XÂY DỰNG ỨNG DỤNG DANH BẠ ĐIỆN THOẠI TƢƠNG


TÁC BẰNG TIẾNG NÓI TIẾNG VIỆT...............................................................41
4.1. Phân tích ......................................................................................................41
4.2. Thi t k ........................................................................................................42
4.3. Tri n khai .....................................................................................................45
4.4. Th nghiệm
Chƣơng 5.

nh giá ...................................................................................47

KẾT LUẬN ......................................................................................49

TÀI LIỆU THAM KHẢO ......................................................................................51
PHỤ LỤC .................................................................................................................53

Phạm Quang Duy

viii


Luận văn thạc sỹ 2018

MỞ ĐẦU
Nhận dạng ti ng nói hiện n y
c nghiên cứu và phát tri n ở nhi u công
ty cũng nh nhi u trung tâm nghiên cứu khác nhau. Hiện nay công nghệ nhận dạng
ti ng n i

c nh ng thành t u

ng k . Ví dụ nh trong s kiện Google I/O 20181,


ph n m m Google assitant
tr nh iễn kh năng giao ti p với nhân viên hoặc
khách hàng hoàn toàn t ộng bằng ti ng nói. Đ làm
c i u
thì cơng nghệ
nhận dạng ti ng nói của Google có th nói
ạt
c mức chất l ng t ng
ng với ộ hi u lời nói củ con ng ời. Ngoài Googl ch ng t cũng c th tìm
thấy rất nhi u các hệ th ng nhận dạng ti ng n i kh c

c giới thiệu và ứng dụng

trong nhi u lĩnh v c nh IBM Watson Speech to Text2,Nuance Dragon3,.
Ngồi ti ng Anh, cơng nghệ nhận dạng ti ng n i cũng
c nghiên cứu và
phát tri n mạnh mẽ với các ngôn ng phổ bi n nh Nhật, Hàn , Trung, Pháp. Công
nghệ nhận dạng ti ng việt
c bắt u nghiên cứu và phát tri n t nh ng năm
2000 với nhi u nghiên cứu t c c n v khác nhau nh Viện CNTT, viện Hàn lâm
KH&CN Việt Nam, AILab ại h c KHTN ĐHQG thành ph HCM, Viện NCQT
MICA Đại h c Bách Khoa Hà Nội. G n y c thêm s tham gia nghiên cứu phát
tri n s n phẩm của các tập oàn c ng ty c ng nghệ lớn trong n ớc nh Vi tt l
FPT. Tiêu bi u là s n phẩm củ ội ngũ FPT AI4
c th ng mại h và
c
nh gi kh c o
Thời buổi hiện n y iện thoại th ng minh trở thành vật không th thi u với
m i chúng ta.Trong một vài năm g n y việc ứng dụng công nghệ nhận dạng ti ng

nói trên các thi t b i ộng ngày càng trở nên phổ bi n, với nhi u s n phẩm
c
phát tri n bới các hang công nghệ lớn nh Google Voice search, Google Assistant5,
Apple Siri6 , Samsung Bixby 7.
Tuy nhiên, cơng nghệ nhận dạng ti ng nói khi ứng dụng trên thi t b i ộng
h y h t là theo ki n trúc Client-Server.Rất ít hệ th ng hoạt ồng hoàn toàn trên thi t
b i ộng, bởi các hệ th ng nhận dạng th ờng khá nặng và chi m tài nguyên. Tuy
nhiên hệ th ng nhận dạng nh vậy lại c nh c i m lớn là luôn ph i k t n i mạng
1

/> />3
/>4
/>5
/>6
/>7
/>2

Phạm Qu ng Duy

1


Luận văn thạc sỹ 2018

trên thi t b

i ộng

ặc biệt ở Việt N m c ớc phí 3G khá cao, nên với nh ng tác


vụ th ờng xun thì khơng th s dụng 3G liên tục
v s rv r cũng g y r c c vấn

b o mật và tính ri ng t

Với b i c nh trên, luận văn này
 Tri n kh i
trên thi t b

c. Việc luôn ph i g i d liệu
i với ng ời dùng.

c th c hiện với hai mục tiêu chính:

c hệ th ng nhận dạng ti ng Việt vận hành hoàn toàn
i ộng (chạy offline không c n k t n i internet)

 Ứng dụng tích h p nhận dạng ti ng nói cho ứng dụng danh bạ trên
iện thoại
i ộng g i iện luôn là tác vụ c n thi t và s dụng th ờng xuyên,

Với thi t b

tác gi
tập trung phát tri n hệ th ng nhận dạng danh bạ bằng ti ng nói
y là
một ứng dụng rất phù h p cho bài toán nhận dạng offline bởi n u nhận dạng online
thì rất t n tài nguyên mạng khi ứng dụng hoạt ộng liên tục.Vấn
c
n c n gi i

quy t của bài toán là (1) hiệu năng chạy tr n iện thoại i ộng với tài nguyên hạn
ch và ộ chính xác c n thi t củ ch ng tr nh; (2) vấn
v nhận dạng danh bạ,
với danh bạ m i ng ời m i kh c nh u ng ời l u ài ng ời l u ngắn, tên riêng, vi t
tắt rất phức tạp làm th nào
hệ th ng chạy ổn nh và ạt chính xác nhất. Ngoài
ra một vấn
lớn khác, hệ th ng ph i hoạt ộng với nhi u gi ng nói khác nhau và
nhi u vùng mi n khác nhau.

Luận văn tập trung ph n tích c c ph
nhận ạng t

l

ng ph p nhận ạng ph n tích m h nh

ch n m h nh nhận ạng G ussi n Mixtur Mo l – Hidden

Markov Model (GMM-HMM) cho việc ph t tri n hệ th ng nhận ạng
T c gi tập trung ph n tích m h nh nhận ạng t
i n thích nghi
s c nh n

s

nh ạ (t n ài t n ngắn kh c nh u) t c gi
n này

th c hiện nhận ạng tr n tr ờng


Đ ph t tri n hệ th ng nhận ạng
thập

liệu với kho ng 20 ng ời h tr

v ng mi n kh c nh u và k t qu
Phạm Qu ng Duy

ng ph p t

n ng c o ộ chính x c củ k t qu nhận ạng Với c c vấn
ph t tri n ứng ụng

ạ ri ng và ổ sung th m tr ờng g i iện và y u c u ng ời
tr ờng văn

ụng ph

v
nh

ng nhập chính x c

liệu

ạng v ng mi n t c gi

th c hiện thu


c th thu thập c c gi ng kh c nh u c c

thu thập
2

c kho ng 105 giờ

liệu ti ng n i


Luận văn thạc sỹ 2018

phục vụ c ng việc tr ining
suy th m nhiễu tăng gi m m

liệu v s u T c gi
c th m

c hệ th ng nhận ạng ph h p D ng ph
x c ổn

nh và c

c

s

liệu t

ụng ph


ti n hành tr ining

ng ph p th c nghiệm

ộ chi m ụng tài nguy n ộ nhớ nhỏ nhất

ng ph p nội

c

u r chính

thích h p tr n iện

thoại i ộng
Cu i c ng ph t tri n ứng ụng Voic Cont ct với tiện ích nhận ạng t kh
và nhận ạng

nh ạ

Luận văn này

nhập t n t tr ớc
c th c hiện trong quá trình th c tập tại phịng Giao ti p ti ng

nói, Viện MICA, cùng với s h tr của phòng nghiên cứu ti ng nói trung tâm
khơng gian mạng Viettel 8. V cấu trúc, luận văn gồm các ph n nh s u:
.Chƣơng 1.Tổng quan về xử lý tiếng nói và nhận dạng tiếng nói.
Ch

c c ph

ng này tập trung n i v c sở lý thuy t ti ng n i và nhận ạng ti ng n i
ng ph p nhận ạng ti ng n i t

ti ng n i ti ng Việt

l

vào y u c u ài to n nhận ạng

ch n m h nh ph h p.

Chƣơng 2.Nhận dạng tiếng nói trên thiết bị di động và ứng dụng cho
danh bạ.
Ch
cho D
ph

ng này tập trung ph n tích và

xất gi i ph p cho ài to n nhận ạng

tr n c c s n phẩm sẵn c tr n th tr ờng tập trung ph n tích

l

ch n

ng ph p nhận ạng ph h p nhất với ài to n ặt r

Chƣơng 3.Xây dựng mơ hình nhận dạng tiếng Việt cho ứng dụng danh

bạ.
Ch ng này tập trung x y ng m h nh và x y ng c sở
liệu cho ộ
huấn luyện C sở
liệu huấn luyện ph i ủ lớn
u r c ộ chính x c c o
ngồi r c cở
liệu ph i phong ph v ng mi n
u r ph h p t ng ứng.
Chƣơng 4.Xây dựng ứng dụng danh bạ điện thoại tƣơng tác bằng tiếng nói
tiếng Việt.

Ch

ng này tập trung ph t tri n ph n m m Voic Cont ct ph h p với c c

chức năng c c y u c u ài to n ặt r

Tập trung ph t tri n ứng ụng s o cho ứng

8

/>
Phạm Qu ng Duy

3



Luận văn thạc sỹ 2018

ụng ph h p với nhi u ng ời

ng nhất ph h p với nhi u loại iện thoại nhất c

th
Chƣơng 5. Kết luận
Ch

ng này n u lại nh ng i u luận văn

luận văn và h ớng ti p cận t
gi

x y

làm

c nh ng hạn ch củ

ng l i Tuy c nhi u hạn ch củ luận văn nh ng t c

ng thành c ng hệ th ng nhận ạng ti ng Việt offlin tr n iện thoại i

ộng và tích h p vào s n phẩm Voic Cont ct S n phẩm hoàn thiện c
x c c o và ph h p với y u c u ặt ra.

Phạm Qu ng Duy


4

ộ chính


Luận văn thạc sỹ 2018

Chƣơng 1.

TỔNG QUAN VỀ XỬ LÝ TIẾNG NĨI VÀ NHẬN
DẠNG TIẾNG NĨI

1.1. Tiếng nói và biểu diễn tiếng nói
M i ng ời ch ng t

u có một hệ th ng phát ra âm thanh hay còn g i là

ti ng n i C ch c
n của ti ng n i là kh ng khí
c
vào phổi thơng qua hít
thở thơng th ờng s u
c ẩy t phổi qua khí qu n và làm rung các dây thanh
qu n C c ng khí này
c ngắt thành c c
khoang h ng, khoang miệng, và c kho ng mũi

o ộng tu n hoàn s u

i qu


Âm thanh (hay ti ng nói) m i ng ời sẽ khác nhau bở khác nhau v các bộ
phận phát am (miệng m i hàm l i, ... ).

nh 1.1:Sơ đồ về cấu tạo bộ phận phát âm ở người(Huang et al., 2001a)
Với kho ng thời gian ngắn (t 5 n 100ms) tín hiệu ti ng nói có th coi là
bi n ổi chậm theo thời gi n c c ặc i m tính chất của nó khá ổn nh.
Tuy nhiên với nh ng kho ng thời gian xét lớn h n (tr n 200mss) c c ặc i m
của tín hiệu có s th y ổi ph n ánh s khác nhau của các t
c nói.
Các s kiện chính khi một t
theo một c ch n gi n là:

c phát ra có th



Yên lặng (S – silence): khi kh ng c



Không âm (U – unvoice): Khi dây thanh qu n không rung

Phạm Qu ng Duy

5

m nào

c phân loại (dán nhãn)


c phát ra


Luận văn thạc sỹ 2018


Âm (V – voice): Khi dây thanh qu n rung và tạo các tín hiệu âm thanh
gi tu n hồn (ti ng nói)
Một cách bi u diễn khác của tín hiệu âm thanh là thơng qua phổ t n s .

nh 1.2: Biểu đồ dạng sóng của sự khởi đầu của lời nói “It’s time”
(Huang et al., 2001b)

Phạm Qu ng Duy

6


Luận văn thạc sỹ 2018

nh 1.3:Phổ của lời nói “It’s time”( uang et al., 2001b)
1.2.

Tiếng Việt và ngữ âm tiếng Việt

Ti ng Việt là ngôn ng
n m ti t(Bùi Tất T m 1997), tức là các t khi
vi t ra chỉ c lên thành một ti ng, khơng có t nào (thu n Việt) phát âm t 2 ti ng
trở lên.

Một t th ờng có cấu tạo gồm 2 ph n : Nguyên âm V (vowel) và phụ âm C
(conson nt) và
c k t h p th o 3 c ch tạo nên t ti ng Việt:
- C+V (phụ âm + nguyên âm). Ví dụ: bố, mẹ, ca.
- C+V+C (phụ âm + ngun âm + phụ âm). Ví dụ: tơi , bạn , mãi.
- V+C (nguyên âm + phụ âm). Ví dụ: ơm, ấp , ép.
Trong ti ng Việt, ngồi 2 thành ph n chính là nguyên âm, phụ âm, chúng ta
cịn có các thành ph n khác giúp cho Việt phân loại trong âm ti t trở nên rõ ràng
nh nh h p âm, tam h p âm, phụ m n phụ âm kép.
Với ti ng Việt, t việc h c chúng ta ph i nắm v ng các nguyên âm, phụ âm,
nh h p âm, tam h p âm, phụ m n phụ âm kép, ta có quy tắc ghép n i các thành
Phạm Qu ng Duy

7


Luận văn thạc sỹ 2018

ph n

tạo thành âm ti t hoặc một t

ta sẽ kèm th o c c

c của t

khi

với một t ti ng Việt


c Việt ra,

ằng quy tắc k t h p trên. Với một t vi t ra mà

không theo quy tắc k h p
c nh sẵn trong ti ng Việt, thì ta khơng th
và cũng kh ng c nghĩ c n một t trong ti ng Việt chỉ có một c ch

c
c
c (tr

tr ờng h p ti ng vùng mi n
ph ng) kh c với ti ng Anh (VD: present có 2
c ch c), khơng có quy tắc x c nh trong việc tạo ra một t , một t chỉ tồn tại khi
nó xuất hiện trong t
thì mới có th
c

i n khi
c.

ph i kèm th o c ch

c của t

(pronuci tion)

B ng ch cái ti ng Việt ta có 29 ch cái (Đồn Thiện Thuật, 1977)theo thứ t
l nl


t sau:
[a, ă, â, b, c, d, đ, e, ê, g, h, i, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ƣ, v, x, y]

chia làm hai ph n: Nguyên âm (Mẫu t chính) và phụ âm (mẫu t phụ )
- Nguyên âm: Trong ti ng Việt ngoài nguy n m n t c n c nguy n m
i ( i i ) nguy n m
(o i) T c m i liên hệ phức tạp gi a nguyên âm và
cách phát âm của chúng. Với một nguyên âm có nhi u cách phát âm khác nhau, tùy
theo nó nằm trong nguy n m n
i h y ; và nhi u khi các cách vi t nguyên
m kh c nh u t ng tr ng cho c ng một cách phát âm.
- Phụ âm: ti ng Việt có 17 phụ m n trong tập trên gồm:
[b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, x]
Và ta có 11 phụ âm ghép:
[gi, gh, qu, ch, kh, ng, ngh, nh, ph, th, tr]
Đặc biệt chỉ có 8 phụ âm có th nằm ở cu i t :
[c, m, n, p, t, ng, nh, ch]
Trong ti ng Việt, các âm ti t có cấu trúc rất chặt chẽ, m i âm v có một v trí
nhất nh trong âm ti t. Theo một s nhà nghiên cứu âm v h c trong ti ng Việt, âm
ti t ti ng Việt có cấu tạo nh s u:
Bảng 1.1:Cấu tạo âm tiết của tiếng Việt(Bùi Tất Tươm, 1997)
Th nh iệu
Âm

u

V n
Âm ệm


Âm chính

Âm đầu:
Phạm Qu ng Duy

8

Âm cu i


Luận văn thạc sỹ 2018

Tại v trí thứ nhất trong âm ti t

m

Nh ng âm ti t mà chính t kh ng ghi m

u này có chức năng mở
u nh

n im, em

c mở

u âm ti t.
u bằng

ộng t c khép kín kh th nh s u
mở r ột ngột, gây nên một ti ng bật Động

tác mở u ấy có giá tr nh một phụ âm và ta g i là âm tắc thanh h u (kí hiệu: /?/).
Nh vậy, âm ti t trong ti ng Việt ln ln có mặt m u (phụ m u). Với
nh ng âm ti t mang âm tắc thanh h u nh v a nêu trên thì trên ch vi t kh ng
c
ghi lại và nh vậy v trí xuất hiện của nó trong âm ti t là zero, trên ch vi t nó th
hiện bằng s vắng mặt của ch vi t.
Âm đệm
Âm ệm là y u t thứ hai trong âm ti t n th ờng nằm trong các âm ti t
tạo nên s khác nhau gi
m tr n m i (nh ―toàn‖) và m kh ng tr n m i (nh
―tàn‖) Âm ệm trong ti ng Việt
c miệu t gồm 2 dạng: âm v bán nguyên âm
/u/ (trong ―toàn‖) và m v tr ng (trong ―tàn‖) Tr n ch vi t m ệm tr ng th hiện
bằng s vắng mặt của ch vi t m ệm /u/ th hiện bằng ch ―u‖ (nh ―tuấn‖) và
ch ―o‖ (nh ―lo n‖)
C c n v ti ng trong ti ng Việt chỉ giới hạn t 6000-8000 t , tuy nhiên với
các t trong ti ng Việt sẽ
c bi u diễn âm bao gồm:
 Phụ m

ugồm 22 ph n t :/b, m, f, v, t, t’, d, n, z, ʐ, s, ş, c, ʈ, ɲ, l, k, χ,

ŋ, ɣ,h, ʔ/
 Ân ệm : /w/
 Âm chính gồm 16 ph n t : /i, e, ε, ɤ, ɤˇ, a, ɯ, ă, u, o, ɔ, ɔˇ, εˇ, ie, ɯɤ,
uo/
 Âm cu i gồm 6 phụ âm: /m, n, ŋ, p, t, k/, 2 bán nguyên âm/-w, -j/.
 Th nh iệu
Th nh iệu nh h ởng rất nhi u n ti ng o
c th chia các nguyên âm ra các

tr ờng h p kh c nh u (th nh iệu i c ng nguyên âm) ta sẽ m i nguyên âm sẽ có 6
m t ng ứng với 6 th nh iệu . T
t c s âm c n huấn luyện sẽ kho ng 137
âm. Việc huấn luyện ở y sẽ là huấn luyện theo âm v (137 âm v ) t
sẽ gi m
nhi u so với huấn luyện 6000-8000 t khác nhau.

Phạm Qu ng Duy

9


Luận văn thạc sỹ 2018

1.3. Nhận dạng tiếng nói
1.3.1. Mơ hình chung hệ thống nhận dạng tiếng nói
Nhận dạng ti ng nói là một hệ th ng tạo kh năng chuy n ti ng n i thành văn
b n. V b n chất y là qu tr nh i n ổi tín hiệu m th nh thu
c củ ng ời nói
qu Micro
ờng y iện thoại hoặc các thi t b khác thành một chu i các t . K t
qu của q trình nhận dạng có th
c ứng dụng trong i u khi n thi t b , nhập
d liệu, soạn th o văn n bằng lời, quay s
quá trình x lý ngôn ng ở mức c o h n

iện thoại t

ộng hoặc


tới một

Một cách tổng qu n c 3 h ớng ti p cận một hệ th ng nhận dạng ti ng nói :
-

Ng âm- âm h c (Acoustic-Phonetic)
Nhận dạng mẫu (Pattern-recognition)

-

S dụng trí tuệ nhân tạo (Artifical Intelligence)


Ph ng ph p ng âm - âm h c(Acoustic-Phonetic) d a trên nh ng lý
thuy t v âm h c và ng âm cho rằng có h u hạn c c n v âm h c riêng biệt trong
một ngôn ng và do vậy có th
c ặc tr ng ởi một tập các thuộc tính bi u hiện
trong tín hiệu ti ng nói hoặc bi u diễn phổ củ n
ớc u tiên củ ph ng ph p
này là ph n oạn tín hiệu ti ng n i thành c c v ng c ặc tính âm h c ặc tr ng cho
một n v ng âm và gán cho m i vùng một nhãn ng m
ớc thứ 2 là x c nh
một t c nghĩ t các chu i nhãn ng m
Mặc dù vậy ph ng ph p này gặp
ph i khá nhi u kh khăn khi tri n khai th c t nh :
S
i hỏi một v n ki n thức khá lớn v c c ặc di m âm h c của các
n v ng âm.
S l a ch n c c ặc tr ng
c th c hiện một cách khơng chắc chắn.

Khơng có một thuật tốn hay thủ tục nào ủ mạnh th c hiện dán nhãn
các tín hiệu huấn luyện ủ mạnh cho nhi u khu v c kh c nh u và
c chấp nhận
bởi ng o các nhà chuyên gia v ngôn ng h c.

Ph ng ph p nhận dạng mẫu (Pattern-recognition)s dụng tr c ti p các
mẫu thành ph n của ti ng nói mà không quan tâm nhi u n c c ặc tính v mặt
ng âm. Trong h u h t các thuật toán nhận dạng mẫu c 2
luyện và nhận dạng.

ớc chính là huấn


Ph ng ph p s dụng trí tuệ nhân tạo (Artifical Intelligence) là ph ng
pháp mới nhất, tuy nhiên các thông tin v ph ng ph p này kh hạn ch , vẫn còn
ng
c nghiên cứu và phát tri n.
Phạm Qu ng Duy

10


Luận văn thạc sỹ 2018

C c ―ki n thức‖ của hệ

c xây d ng qua thủ tục huấn luyện. Hệ ghi nhận

c c ặc tính của các tín hiệu ti ng n i
Tín hiệu c n

nhất.

c nhận dạng sẽ

c ―h c‖ th ng qu c c th m s

c tính to n

ặc tr ng

r k t qu có xác suất g n

nh 1.4: Cấu trúc của một hệ nhận dạng tiếng nói(Jurafsky and Martin, 2000)
Tính hiệu ti ng n i u ti n
c ti n x lý và r t trích ặc tr ng K t qu thu
c s u qu tr nh này là tập c c ặc tr ng m h c ( coustic f tur s)
c tạo
ng thành 1 h y nhi u véct
c g i là v ctor ặc tr ng
Đ c th th c hiện việc so s nh tr ớc h t hệ th ng ph i
(tr ining) và x y
th m s

u vào

ng c c ặc tr ng s u

mới c th

ng


c huấn luyện
so s nh với c c

nhận ạng

Trong qu tr nh huấn luyện hệ th ng ng c c v ctor ặc tr ng
c
vào
ớc l ng tính to n c c th m s cho c c mẫu (
c g i là mẫu th m kh o) Một
mẫu th m kh o chính là n mẫu ng so s nh và nhận ạng c c mẫu th m kh o
này m phỏng cho một t một m ti t hoặc thậm chí một m v
Hình 1.4 là cấu trúc của một hệ nhận dạng ti ng nói,hệ th ng này gồm 2 thành
ph n Representation và Search. Tính hiệu ti ng n i u ti n
c ti n x lý và rút
trích ặc tr ng Representation là bộ phận chuy n ổi các tín hiệu ti ng nói thành
c c ặc tr ng K t qu thu
c sau quá trình này là tập c c ặc tr ng m h c
( coustic f tur s)
c tạo d ng thành 1 hay nhi u véct
c g i là v ctor ặc
tr ng, bi u diễn ặc tr ng ti ng nói phổ bi n nhất th ờng
dạng ti ng n i là c c véc t MFCCs.

c áp dụng trong nhận

Search là bộ phận tìm ra chu i văn n t ng ứng với c c ặc tr ng i u diễn
tín hiệu ti ng n i
c trích ra bởi bộ Representation. . Bộ S rch

c xây d ng
d a trên ba mơ hình là mơ hình âm h c (Acoustic Model), mơ hình t v ng
Phạm Qu ng Duy

11


Luận văn thạc sỹ 2018

(Lexical model) và mơ hình ngơn ng (Language Model).Đ có th th c hiện việc
so s nh tr ớc h t hệ th ng ph i
tr ng s u

mới có th

ng

c huấn luyện (training) và xây d ng c c ặc

so sánh với các tham s

Trong quá trình huấn luyện, hệ th ng

u vào

nhận dạng.

ng c c v ctor ặc tr ng

c


vào

ớc l ng, tính tốn các tham s cho các mẫu (
c g i là mẫu tham kh o). Một
mẫu tham kh o chính là b n mẫu ng so sánh và nhận dạng, các mẫu tham kh o
này mô phỏng cho một t , một âm ti t, hoặc thậm chí một âm v .
Trong quá trình nhận dạng y c c v ctor ặc tr ng
c m so s nh với các
mẫu tham kh o (
c xây d ng ở tr n) S u
hệ th ng tính to n ộ t ng ồng
(likelihood) củ
y v ctor ặc tr ng và mẫu tham kh o. Việc tính to n ộ t ng
ồng
c
c th c hiện bằng cách áp dụng các thuật to n
c chứng minh
hiệu qu nh thuật toán Vitertbi (trong Hidden Markov Model). Mẫu c
ồng cao nhất
c cho là k t qu của quá trình nhận dạng.

ột

ng

1.3.2. Các phƣơng pháp cơ bản
Nhận dạng ti ng nói t ộng (Automatic Speech Recognition –ASR)
tr i
qu h n 70 năm ph t tri n Ch ng t c ng i m qua các hệ th ng ng ch ý và c c

thành t u nổi bật :
1952: Hệ th ng nhận dạng ký s rời rạc của Bell-lab
1958: Bộ nhận dạng 13 âm v củ tr ờng ại h c College–Anh (B.H. Juang,
Lawrence R. Rabiner, 2005)
1960: Ph ng pháp nhận dạng ti ng nói d a trên qui hoạch ộng theo thời
gian của tác gi ng ời Nga Vintsyuk (Dynamic Time Warping –DTW)(B.H. Juang,
Lawrence R. Rabiner, 2005) Tuy nhi n n nh ng năm 1980 c ng tr nh này mới
c th giới bi t n.
Cu i năm 1960 Nhận dạng ti ng nói liên tục bằng kĩ thuật nh ấu ờng i
và truy v t lùi tìm k t qu của tác gi Reddy ở tr ờng ại h c CMU (Mỹ)(Sadaoki
Furui, 2005).
Đ n nh ng năm 70 h i nhà kho h c ng ời Nga và Nhật ,Velichko và
Zagoruyko (ở Nga) là nh ng ng ời i ti n phong trong việc áp dụng ý t ởng v
phân lớp mẫu cho ASR C ng tr nh ng ch ý gi i oạn này là Harpy và HearsayII củ tr ờng ại h c CMU-Mỹ, hệ th ng HWIM của BBN... (Sadaoki Furui, 2005)

Phạm Qu ng Duy

12


Luận văn thạc sỹ 2018

Đ n thập kỷ 80, chuy n t cách ti p cận

i sánh mẫu sang cách ti p cận s

dụng mơ hình th ng kê. H u h t các hệ th ng ASR

u d a trên mơ hình th ng kê


c phát tri n ở thập kỉ này, cùng với nhi u c i ti n ở thập kỉ 90. Tuy nghiên cơng
trình q tr ng nhất gi i oạn này là mơ hình Markov ẩn (Hidden Markov Model –
HMM). Các hệ th ng ASR r ời trong thời gian này có th k
n: hệ th ng
Sphinx củ tr ờng ại h c CMU, Byblos của công ty BBN, Decipher của viện SRI,
và các hệ th ng khác của Lincoln Labs, MIT và AT&T Bell Labs.
Thập niên 90 phát tri n lĩnh v c phân lớp mẫu , t
n y sinh một s kĩ thuật
nh ph ng ph p huấn luyện riêng biệt (Discriminative Training). Với hai dạng
i n hình của phép huấn luyện này là: CME (Minimum Classification Error) và
MMI (Maximum Mutual Information). K t h p vái các kỹ thuật nhận dạng d liệu
nhiễu MLLR (MaximumLikelihood Linear Regression), PMC (Parallel Model
Combination)...(Sadaoki Furui, 2005). Các s n phẩm nổi bật gi i oạn này là : hệ
th ng tr lời thông tin t ộng cho các chuy n bay (Air Travel Information Service –
ATIS), hệ th ng ghi lại các b n tin phát than (Broadcast News Transcription
System).
Đ n nh ng năm u th kỷ 21, các cơng trình tập trung nghiên cứu vào việc
nâng cao k t qu nhận dạng ti ng nói. Với c ng tr nh nh gi EARS (Eff ctiv
Affordable Reusable Speech-to-Text) (Sadaoki Furui, 2005).
Cho n hiện nay, các hệ th ng nhận dạng ti ng nói chủ y u
c phát tri n
với hai kỹ thuật chính là : Gaussian Mixture Model – Hidden Markov Model
(GMM-HMM) vàDeep Neural Network (DNN).
Gaussian Mixture Model – Hidden Markov Model (GMM-HMM)

1.3.2.1.

nh 1.5: Ví dụ mơ hình Markov(B.H. Juang, Lawrence R. Rabiner, 2005)
Trong


:

- x — Các trạng thái trong mơ hình Markov

Phạm Qu ng Duy

13


Luận văn thạc sỹ 2018

- a — Các xác suất chuy n ti p
- b — Các xác suất

u ra

- y — Các d liệu quan sát
Các thành phần của HMM
1.

N: s trạng thái

Tập các trạng thái S = (S1, S2 … SN)
c tại thời i m t là qt.

Trạng th i qu n s t
2.

M: S hiện t


c trong t ng trạng th i và cũng là

ng quan sát

output của hệ.
V = {V1, V2 … VM}
3.

Xác suất chuy n trạng thái A = {aij}

Trong


n

Sj có th

c t m i Si.



aij = 0 với một s (i,j) một s trạng thái không th li n sau nhau.

4.

Xác suất qu n s t

c hiện t

ng tại trạng thái j


B = {bj(k)}

5.

Trạng thái khởi tạo
với

6.

Chu i k t qu quan sát

Ot : 1 hiện t

O = O1O2…OT

ng của V

T : S trạng thái quan sát.
Một m h nh HMM
Phạm Qu ng Duy

c kí hiệu

.
14


Luận văn thạc sỹ 2018


Vấn đề của HMM
1. (Computing likelihood): Cho chu i quan sát O = O1O2…OT , và mơ hình 
= (A,B,), làm sao ta có th tính một cách hiệu qu xác suất P(O|)?
2. (Decoding): Cho chu i quan sát O = O1O2…OT , và mơ hình  làm s o
ch n

c chu i Q = q1q2…qT t i u th o nghĩ x c suất.
th y ổi các tham s của  = (A,B,)

3. (Learning): Làm s o

xác suất

P(O|) ạt c c ại ?
Mơ hình ngơn ngữ N-gram
Mơ hình ngơn ng N-gram là một mơ hình xác suất có kh năng
xuất hiện t tr ớc

hiện của một t d a trên N-1 t

o n s xuất

T xét một chu i các t

w1,w2,..,wn hay vi t g n là wn và xác suất xuất hiện của chu i t
P(w1,w2,..,wn) hay P(wn).
xác xuất P(wn) khi

này là


là chu i n t xuất phát t w1. Bài toán của ta là tính

i t n-1 t tr ớc

T c :

n

P( X 1... X n )   P( X k | X 1n1 )

(1.3.2.1)

k 1

Áp dụng cho chu i các t t

c:
n

P(w n )  P(w1n )   P(w k | w1k 1 )

(1.3.2.2)

k 1

Với mơ hình N-gram ta tính xác suất xuất hiện của t thứ k d a trên N t
hiện tr ớc

Do


:
P(w k | w1k 1 )  P(w k | w kk 1N 1 )

T

ớc l

xuất

(1.3.2.3)

ng xác suất ở bi u thức (1 3 3) nh s u:
P(w k | w kk 1N 1 ) 

C (w kk 1N 1w k )
C (w kk 1N 1 )

(1.3.2.4)

Trong bi u thức trên có C (w kk 1N 1w k ) là s l n chu i các t w k  N 1 ,,, w k xuất hiện và
C (w kk 1N 1 ) là s l n chu i các t

này d a trên d liệu
Phạm Qu ng Duy

c

w k  N 1 ,,, w k 1 xuất hiện. Ta sẽ

vào


m s l n xuất hiện

huấn luyện mơ hình ngơn ng .
15


Luận văn thạc sỹ 2018

Cu i cùng thay k t qu của (1.3.2.4) vào (1.3.2.2) ta sẽ tính

c xác suất xuất hiện

của chu i các t w1,,,wn.
Áp dụng mơ hình Markov ẩn cho nhận dạng tiếng nói
Trong mơ hình chung của nhận dạng ti ng n i m h nh M rkov

c s dụng

mơ hình hóa t ng âm. Có nhi u cách tri n khai áp dụng mơ hình Markov ẩn khác
nhau, ở

y t i xin tr nh

y c ch

n gi n nhất là m i âm v

c mô hình bởi một


mơ hình Markov ẩn ba trạng thái,m i trạng thái chỉ có th chuy n sang trạng thái k
ti p hoặc ở lại là chính nó. Một t
một t sẽ

c phiên âm là một chu i các âm v Do

c mơ hình hóa bằng cách ghép n i các mơ hình Markov ba trạng thái

của các âm v cấu thành nên t

nh 1.6 :Mơ hình HMM từ “six” (Jurafsky and Martin, 2000)
Hình 1.6 mơ t mơ hình Markov ẩn áp dụng cho t six với phiên âm của t ―six‖ là
/s ih k s/. Một âm v
âm v /s/

c mơ hình hóa bởi mơ hình Markov ẩn ba trạng thái, ví dụ

c mơ hình hóa bởi mơ hình Markov ẩn với ba trạng thái là sb ,s m ,st .

Hình 1.6 mơ t một mơ hình t v ng

c xây d ng trên mơ hình Markov ẩn, với
u

các chu i trạng thái tính t trạng thái bắt
trong t

i n.

Phạm Qu ng Duy


16

n trạng thái k t thúc mô t một t


Luận văn thạc sỹ 2018

nh 1.7 :Mơ hình Markov ẩn cho bộ từ vựng là các số(Jurafsky and Martin, 2000)
S u khi

m h nh hóa bộ t v ng bằng mơ hình Markov ẩn, mơ hình ngơn ng

bằng mơ hình N-gram và mơ hình âm h c bằng mơ hình Markov-Gaussian nhi u
chi u t c

c một hệ th ng có th coi hồn chỉnh của một bộ ASR. Hình 1.8 cho

ta thấy qu tr nh

nhận ra một chu i văn

n t tín hiệu ti ng n i

u vào.

nh 1.8 :Q trình nhận dạng chuỗi văn bản từ tín hiệu tiếng nói(Jurafsky and
Martin, 2000)
Phạm Qu ng Duy


17


×