Mô hình markov ẩn và ứng dụng vào tổng hợp tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.74 MB, 98 trang )

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

LỜI CAM ĐOAN
T i i
hƣ

g

ih

hầy giáo PGS.TS.Tri h Vă L

ghiệ

ố iệ

hƣ

g ƣợ
C

hố g

ế

ả r h

i iệ

h

hả
h

ảy r
r h hiệ

i
rƣ

g ế

ă

h

.

g

ă

ƣợ

ồ gý r

iếp

ƣợ

h

g ú g hƣ h

Việ

Nh rƣờ g.

g ời

ƣ i

ả ghi

h

r g h

g r h
ụ g r

hả ) h ặ

i

. Nh

y r g

g ố r g
i iệ

Nế
h

i ghi

g ồ ( ó ả g
giả.
r

i i

Hà Nội, ngày 26 tháng 08 năm 2013
Tác giả
Nguyễn Quang Sức

1

hị

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

LỜI CẢM ƠN
Để hoàn thành khóa luận này, tôi xin tỏ lòng biết ơn sâu sắc đến thầy
PGS.TS Trịnh Văn Loan đã tận tình hướng dẫn tôi trong suốt quá trình viết khóa
luận tốt nghiệp.
Tôi cũng xin chân thành cảm ơn quý Thầy, Cô Viện Công nghệ Thông tin &
Truyền thông, Trường Đại học Bách khoa Hà Nội đã tận tình truyền đạt kiến thức
trong thời gian học tập và nghiên cứu tại đây. Với vốn kiến thức được tiếp thu trong

quá trình học tập và nghiên cứu không chỉ là nền tảng cho quá trình nghiên cứu
khóa luận mà còn là hành trang quí báu để tôi bước vào đời một cách vững chắc và
tự tin.
Tôi cũng thầm biết ơn sự ủng hộ của đồng nghiệp, gia đình và bạn bè – những
người thân yêu luôn là chỗ dựa vững chắc cho tôi.
Cuối cùng, tôi xin kính chúc Quý Thầy cô, Đồng nghiệp, Gia đình dồi dào sức
khỏe và thành công trong sự nghiệp cao quý.

Xin trân trọng cảm ơn!
Học viên

Nguyễn Quang Sức

2

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT ................................................... 5
DANH MỤC CÁC HÌNH VẼ ........................................................... 6
LỜI NÓI ĐẦU................................................................................... 7
CHƢƠNG 1 TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI......................... 8
1.1. Mở ầu ..............................................................................................................8
1.2. Bộ máy phát âm ................................................................................................8
1.2.1. Bộ máy phát âm ..........................................................................................8
1.2.2. Cơ chế phát âm...........................................................................................9
1.3. Đặc tính âm học c a tiếng nói ..........................................................................9
1.3.1. Âm hữu thanh và âm vô thanh ....................................................................9
1.3.2. Âm vị .........................................................................................................10

1.3.3. Các đặc tính khác .....................................................................................11
1.4. Mô hình tạo tiếng nói ......................................................................................12
1.5. Phân tích tiếng nói ..........................................................................................17
1.5.1. Mô hình phân tích tiếng nói .....................................................................17
1.5.2. Phân tích tiếng nói ngắn hạn ...................................................................18
1.6. Phân tích Mel-Cepstral ...................................................................................19
1.6.1. Tạo tiếng nói từ mô hình thời gian rời rạc...............................................19
1.6.2. Phân tích Mel-Cepstral ............................................................................20
1.6.3. Bộ lọc MLSA (Mel Log Spectral Approximation) ....................................22

CHƢƠNG 2 TỔNG HỢP TIẾNG NÓI........................................... 27
2.1. Gi i thiệu chung .............................................................................................27
2.2. C

phƣơ g ph p ổ g hợp iế g ói ..............................................................28

2.2.1. Tổng hợp theo cấu trúc âm.......................................................................28
2.2.2. Tổng hợp formant theo quy luật ...............................................................31
2.2.3. Tổng hợp ghép nối ....................................................................................33

3

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

CHƢƠNG 3 MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TỔNG
HỢP TIẾNG NÓI ............................................................................ 46
3.1. Tổng quan hệ thống tổng hợp tiếng nói d a trên mô hình Markov ẩn ...........46
3.2. Tổng quan mô hình Markov ...........................................................................48
3.2.1. Quá trình Markov .....................................................................................48

3.2.2. Mô hình Markov ẩn ..................................................................................49
3.3. B

i

ơ ản c a mô hình Markov ẩn ...................................................52

3.4. Tổng hợp tiếng nói d a trên mô hình Markov ẩn ...........................................63
3.4.1. Tạo thông số tiếng nói từ HMM ...............................................................63
3.4.2. Ví dụ tạo các chuỗi tham số .....................................................................67
3.4.3. Hệ thống tổng hợp văn bản thành tiếng nói dựa trên HMM....................72
3.5. Mô hình hóa và tạo tần số ơ ản bằng cách s dụng phân bố xác su
không gian..............................................................................................................74
3.5.1. Phân bố xác suất đa không gian ..............................................................74
3.5.2. HMM dựa trên xác suất phân bố đa không gian......................................76
3.5.3. Phân cụm ngữ cảnh dựa trên cây quyết định ..........................................84
3.5.4. Mô hình hóa tân số F0 sử dụng MSD-HMM ...........................................88
3.6. Chƣơ g r h h nghiệm................................................................................89
3.6.1. Mô hình thử nghiệm .................................................................................89
3.6.2. Phân tích mô hình.....................................................................................89
3.6.3. Festival và ứng dụng tổng hợp tiếng nói ..................................................93

KẾT LUẬT ..................................................................................... 97
TÀI LIỆU THAM KHẢO ............................................................... 98

4

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

DANH MỤC CÁC TỪ VIẾT TẮT
FFT

Fast Fourier Transform

FIR

Finite Impluse Response

FT

Fourier Transform

HMM

Hidden Markov Model

LPC

Linear Predictive Coding

MFCC

Mel frequency cepstral coefficient

PDFs

Probability density functions

MSD-HMM

Multi-space probability distribution HMM

MLSA

Mel log spectral approximation

EM

Expectation-maximzation

TTS

Text to speech

5

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

DANH MỤC CÁC HÌNH VẼ
Hình 1.2: Bộ máy phát âm c

gƣời

10
14
14
16
16

16
20
21
25
29
29
47
46
50
51

Hình 1.4: Mô hình hóa nguồ â
ối v i âm h u thanh
H h 1.5: Ch ỗi ạ ố g â họ ý ƣở g
Hình 1.5a: M h h ý họ gi
ạ ố g
+1
Hình 1.5b: M h h
họ
ộ gố g h
Hình 1.6c: Mô h h
hệ hố g ph â
Hình 1.6: Phâ í h í hiệ r
h g
hù
h
H h 1.6.1: Tạ iế g ói
h h hời gi rời rạ
H h 1.6.3: Th
hi h

r y
ạ ũ
D(z)
h h 2.2 : C
H h 2.2 : C

rú ơ ả
rú ơ ả

ộ ộ ổ g hợp f r
ộ ộ ổ g hợp f r

Hình 3.1:Hệ hố g ổ g hợp iế g ói
Hình 3.2: Ví ụ ộ
h hM r
ẩ

r
i

ối iếp
g
g

HMM
rạ g h i

Hình3.3.1: Mi

ả

ãy phép

ƣợ h

hiệ

ể í h iế t (i)

Hình3.3.2: Mi

ả

ãy phép

ƣợ h

hiệ

ể í h iế t(i)

Hình 3.3.3: Mi ả
phép í h ầ hiế ể í h t(i, j)
Hình 3.4: Tổ g hợp h ả g hời gi
Hình 3.5: Phổ iế g ói ƣợ ạ
HMM
Hình 3.6: Mô hình hò
F0 r 2 h g gi
Hình 3.7: Phâ ố
h g gi

Hình 3.8: Mộ HMM
r phâ ố
h g gi
Hình 3.9: M F0 mô hình hóa trên không gian 2 chiêu
Hình 3.10: Mộ í ụ ây yế ị h
Hình 3.11: Phâ hó
ú
ây yế ị h
H h 3.12: Xây
g ây yế ị h
r MDL
Hình 3.13: Vector quan sát
H h 3.14: Hệ hố g ổ g hợp iế g ói
r
h h HMM
Hình 3.15: HMM 3 rạ g h i
r i
phải i h yể ổi
họ
H h 3.16: Phâ hó
h h riph e ƣơ g g i
h
â “”

6

h

54
66

70
74
77
78
84
85
88
89
90
91
92
93

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

LỜI NÓI ĐẦU
Tổng hợp tiếng nói là ĩ h

ƣợc r t nhi
hƣ

nó có r t nhi u ng dụng trong th c tế
g ă
trong viễ

gƣời nghiên c u quan tâm, vì

hệ thống trả lời t

ộ g

ọc nội

ản, máy phiên dịch, các hệ thống trợ giúp gƣời tàn t t, các ng dụng
h g…Tuy nhiên việc ng dụng và nghiên c u ở Việ N

ò

ƣơ g

ối m i và r t hạn chế.
Tổng hợp tiếng nói có thể th c hiện theo nhi

phƣơ g ph p hƣ: Tổng hợp

theo c u âm, tổng hợp formant theo quy lu t, tổng hợp bằng cách ghép âm. Tuy
hi

phƣơ g ph p

u có nh ng ƣ

hƣợ

iểm, vì v y việc tìm ra một

phƣơ g ph p ổng hợp khác là cần thiết. Do v y tôi chọ phƣơ g ph p ổng hợp
theo mô hình Markov ẩ
Trong lu

ă

hƣ ng nghiên c u.
y

i r h ầy các v

ơ ản v mô hình Markov ẩn,

các giải pháp ng dụng mô hình Markov ẩn vào tổng hợp tiế g ói. Để th c hiện
ƣợc công việc trên tôi th c hiện các nhiệm vụ sau:
 Tìm hiểu nguyên lý, mô hình tạo ra tiếng nói.
 Nghiên c u lý thuyết x lý tiếng nói và mô hình Markov và các ng dụng
 Tìm hiểu toolkit HTS và hệ thống mã nguồn mở fe i

ể ng dụng vào

tổng hợp tiếng nói.
Lu

ă

ƣợ

hi h h 3 hƣơ g

i các nội dung chính sau:

 Chƣơ g 1: Tiếng nói và x lý tiếng nói.Chƣơ g

bản v tiế g ói

y r h ầy các v

ơ hế tạo tiế g ói ũ g hƣ

ơ

hình tạo tiêng nói,

và các kỹ thu t phân tích tiếng nói.
 Chƣơ g 2: Tổng hợp tiếng nói. Chƣơ g
tổng hợp tiế g ói ã

y r h bầy một số phƣơ g ph p

g ƣợc s dụng trên thế gi i.

 Chƣơ g 3: Mô hình Markov ẩn và ng dụng tổng hợp tiếng nói. Chƣơ g

y

trình bầy lý thuyết v mô hình Markov ẩn, ng dụng trong tổng hợp tiếng nói
và ng dụng tổng hợp trên hệ thống mã nguồn mở Festival.

7

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

CHƢƠNG 1
TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
1.1. Mở đầu
Tiếng nói là mộ phƣơ g iệ
ƣợc tạo ra t

ƣ

y

r

ổi thông tin c

gƣời. Tiếng nói

gƣời: trung tâm thần i h i u khiển hệ thông phát

âm làm việc tạo ra âm thanh.
Tiế g ói ƣợc phân biệt v i hệ thống âm thanh khác bởi
học có nguồn gốc t
h

g hí ó

ặc tính âm

ơ hế tạo tiếng nói. V bản ch t, tiếng nói là s

g he

h g i .C

ộng này tạo thành áp l

ộng c a
ến tai và

ƣợc tai phát hiện, phân tích và chuyển kết quả ến trung khu thần kinh. Tại ây
h

g i

ƣợc tái tạo lại ƣ i dạ g h

g i

gi

gƣời có thể hiể

ƣợc.

Tín hiệu tiế g ói ƣợc tạo thành bởi các chuỗi âm vị liên tiếp,s sắp xếp
c a các âm vị ƣợc chi phối bởi quy tắc c a ngôn ng . Việc nghiên c u một cách
chi tiết v quy tắc này thuộc v chuyên ngành ngôn ng . Việc phân loại các âm vị
c a tiếng nói thuộc v chuyên ngành ng âm học. Khi nghiên c u các mô hình toán
học c

ơ hế tạo tiếng nói, việc nghiên c u v các âm vị là r t cần thiết.

1.2. Bộ máy phát âm
1.2.1. Bộ máy phát âm
Bộ máy phát âm bao gồm các thành phần riêng rẽ hƣ phổi, khí quản, thanh
ƣờng d

quả

ũi

iệ g. Tr g ó:

-

Thanh quản ch a 2 dây thanh có thể

-

Tuyến âm là ố g h g

-

Kh

g

ũi

ố g h g

dài cố ịnh khoảng 12
-

u bắ

ộng tạo ra âm thanh.

ầu t thanh môn và kết thúc tại môi.
ầu t môi, kết thúc bởi vòm miệ g ó ộ

u bắ

ối v i gƣời l n.

Vòm miệng là các nếp ơ h yể

ộng.

8

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

gƣời

Hình 1.2: Bộ máy phát âm c
1.2.2. Cơ chế phát âm
â

Trong quá trình tạo âm thanh không phải

ũi ó g ại, dòng khí sẽ chỉ i
th p và dòng khí sẽ chỉ i

h

h

g

g

ũi

ũi.Khi ph

ò

iệng mở, khoang

â

ũi

ò

iệng hạ

ũi.

Tuyến âm sẽ ƣợc kích thích bởi nguồ

Tiế g ói ƣợc tạo ra do tín hiệu nguồn t

ă g ƣợng chính tại thanh môn.

h h

ph

r

ẩy không khí có

trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm. Hai
ây h h
tuyế â

ộng sẽ tạo ra cộ g hƣởng,
hi i

h

g

ũi

ộng âm sẽ ƣợc lan truy n theo
i ẽ tạo ra tiếng nói.

1.3. Đặc tính âm học của tiếng nói
1.3.1. Âm hữu thanh và âm vô thanh

a. Âm hữu thanh
Âm h u h h ƣợc tao ra t các dây thanh bị ă g ồng thời và chúng rung
ộng ở chế ộ dãn khi không hí ă g

h h

môn xẹp xuống do không khí chạy qua.

9

ở ra

ó h h

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Do s cộ g hƣởng c a dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần
hƣ

ần hoàn. Phổ c a âm h u thanh có nhi u thành phần hài tại giá trị bội số c a

tần số cộ g hƣởng, còn gọi là tần số ơ ản.
b. Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộ g hƣởng. Âm vô thanh có 2 loại
ơ ản là âm xát và âm tắc.
Âm xát (ví dụ hƣ â

): ƣợc tạo ra khi có s co thắt tại

i iểm trong

iểm co thắt sẽ chuyển thành chuyể

ộng hỗn loạn

tuyế â . Kh g hí hi i

tạo nên kích thích giố g hƣ hiễu ng u nhiên. Th

g hƣờ g iểm co thắt xẩy ra ở

gần miệng nên s cộ g hƣởng c a tuyến âm ả h hƣởng r

í

ế

ặc tính c a âm

ƣợc tạo ra.
Âm tắc (ví dụ hƣ â

p): ƣợc tạo ra khi tuyế â

cho áp xu t không khí tă g

ó g ại một số iểm làm

ó ƣợc giải phó g ột ngột, s giải phóng

ột ngột này tạo ra kích thích nh t thời c a tuyến âm. S kích thích này có thể xẩy
ra v i s cộ g hƣởng hoặc không cộ g hƣởng c a dây thanh ƣơ g ng v i âm tắc
h u thanh hoặc vô thanh.
1.3.2. Âm vị
Tín hiệu tiếng nói là tín hiệ

ƣơ g

ƣợc mô tả bởi các âm vị h

ng

biểu diễn cho thông tin v mặt ngôn

h . Nhƣ

y, âm vị

ơ

ị nhỏ nh t c a

ngôn ng , tùy theo t ng loại ngôn ng cụ thể mà số ƣợng âm vị nhi u hay ít
( hƣờng vào khoảng t 20 dến 30 âm vị). Các âm vị ƣợc chia làm hai loại, nguyên
âm và phụ âm.
a. Nguyên âm
Nguyên âm là âm h

h h ƣợc tạo ra bằng s cộ g hƣởng c a dây thanh

hi ò g hí ƣợc thanh môn ẩy lên, khoang miệ g ƣợc tạo l p thành nhi u hình
dạng nh

ịnh tạo thành các nguyên âm khác nhau. Số ƣợng các nguyên âm phụ

thuộc vào t ng loại ngôn ng nh

ịnh.

10

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

b. Phụ âm
Phụ â

ƣợc tạo ra bởi các dòng khí hỗn loạ

ƣợc phát ra gầ

ƣờng d n âm thanh do cách phát âm tạo ra. Phụ â

c

vô thanh tùy thuộc vào việc dây thanh ó
không. Dòng không khí tại chỗ ó g

iểm co thắt

ó ặc tính h u thanh hay

ộ g ể tạo nên cộ g hƣởng hay

a vòm miệng tạo ra phụ âm tắc, phụ âm xát

ƣợc tạo ra t chỗ co thắt l n nh t.
1.3.3. Các đặc tính khác
a. Tỷ suất thời gian
Trong khi nói, khoảng thời gian nói và nghỉ xen kẽ l n nhau. Tỷ lệ % thời
gian nói trên tổng số thời gian nói và nghỉ ƣợc gọi là tỷ su t thời gian. Giá trị này
biế
ói

ổi tùy thuộc vào tố

ộ nói, t

ó

ó thể phân thành nói nhanh, nói ch m,

h hƣờng.

b. Hàm năng lượng thời gian ngắn
H

ă g ƣợng thời gian ngắn c a tiế g ói ƣợc tính bằng cách chia tín

hiệu nói thành nhi u khung mỗi khung gồm N m u. C
một c a sổ có dạ g hƣ

g

y ƣợ

ƣ

:
( )

H

h

2

( )

ă g ƣợng ngắn tại m u th m ƣợc tính theo công th c sau:
∑* (

)

( )+

Th g hƣờng có 3 loại c a sổ thông dụng là: c a sổ hình ch nh t, c a sổ
Hamming, c a sổ H
hƣờng l n hơ â

i g. H

ă g ƣợng thời gian ngắn c a âm h u thanh

h h.

c. Tần số cơ bản
Dạng sóng c a tiếng nói gồm hai thành phần: phần gần giống nhiễ ( r
biên ộ biế

ổi ng u nhiên) và phần có tính chu kỳ ( r g ó í hiệu gần hƣ

g ó
ần

hoàn). Phần tín hiệu có tính chu kỳ ch a các thành phần tần số có dạ g i u hòa.
Tần số th p nh t chính là tần số ơ ả

ũ g chính là tần số

thanh.
11

ộng c a dây

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Đối v i nh

g gƣời nói khác nhau, tần số ơ ả

ũ g h

h .

Bảng 1.3.3: Giá trị tần số ơ ản c

gƣời

d. Formant
V i phổ c a tín hiệu tiếng nói, mỗi ỉnh ó i
ạ

ộ l n nh t xét trong một

ó ƣơ g ng v i một formant. Ngoài tần số f r

bởi i

ò

ƣợ

ịnh

ộ và dải thông, v mặt v t lý các tần số cộ g hƣởng c a tuyến âm ƣơ g

ng v i các tần số cộ g hƣởng c a tuyến âm. Trong x lý tiếng nói và tổng hợp

tiế g ói
f r

ể mô phỏng lại tuyế â
ối v i t ng loại âm vị

gƣời ta phải
ó iệ

ị h ƣợc các tham số

h gi

ƣ

ƣợng các formant r t

quan trọng.
Tần số formant biế
tính c

ổi trong một khoảng thời gian rộng phụ thuộc vào gi i

gƣời nói và phụ thuộc vào dạng âm vị ƣơ g ng v i formant ó. Formant

còn phụ thuộc vào các âm vị rƣ c và sau nó. V c u trúc t nhiên, tần số formant
có liên hệ chặt chẽ v i hình dạ g

í h hƣ c tuyế â . Th

tiếng hiệu tiếng nói có khoả g 5 f r
hƣởng quan trọng ế

g hƣờng phổ c a

hƣ g hỉ ó 3 f r

ầu tiên ảnh

ặc tính c a các âm vị, các formant còn lại ũ g ó ảnh

hƣở g hƣ g r t ít.
Tần số f r

ặ

rƣ g h

ói r g i u kiện phát âm nh

g y

â

iế

ổi tùy thuộ

gƣời

ịnh. Mặc dù phạm vi c a các tần số formant

ƣơ g ng v i mỗi nguyên âm có thể rù

h

hƣ g ị trí gi a các formant

h g ổi vì s dịch chuyển c a các formant là song song.
1.4. Mô hình tạo tiếng nói
Để ơ giản hóa việc phân tích và nghiên c u bộ
bộ máy phát âm thành hai thành phầ

y ph â

ơ ản: nguồn âm và hệ h g

12

gƣời ta chia
p ng.

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

-

Hệ thố g

p ng bao gồm thanh môn, tuyế â

ạt trong biế

hóa này s dụng hàm truy
-

i

ũi. Việc mô hình

ổi Z.

Đối v i các âm h u thanh, nguồn âm là một dạng sóng tuầ h
dạ g ó g

y ƣợc mô phỏng bởi

ặc biêt,

p ng c a bộ lọc thông th p ó 2 iểm

c c th c và t n số cắt vào khoảng 100Hz.

G(z)
Hình 1.4: Mô hình hóa nguồ â
( )

ối v i âm h u thanh

(

)(
)
Tr g ó α, β là nh ng hằng số ặ rƣ g h g ồn âm v i α<1, β<1.
Đối v i âm vô thanh nguồn âm là một nhiễu trắng v i i

ộ biế

ổi gần

hƣ g u nhiên.
Để tạo ra tiế g ói gƣời ta tạ r
máy phát âm. The
biểu diễn bằng mộ
dài bằng nhau và t
i

chi

h h h

h

iểm giải ph u học ta có thể giả thiết rằng tuyế â
ạn chuỗi M
g

ạn ố g â

ý ƣởng, là nh

g

ƣợc

ạn ố g ó ộ

ạn riêng biệt có thiết diện mặt cắt là Am khác nhau theo

ạn ống. Tổ hợp thiết diện {Am} c

ạn ố g ƣợc chọn sao cho

chúng x p xỉ v i hàm thiết diện A(x) c a tuyến âm.

C

ể mô phỏng bộ

Hình 1.5: Chuỗi ạn ống âm họ ý ƣởng
ạn ố g ƣợ
i ý ƣởng khi:

13

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Độ dài mỗi

-

ạ

nhỏ so v i ƣ c sóng âm truy n

ó ƣợc coi là sóng

phẳng.
C

-

ạ

r g

c ng sao cho s hao tổ

dính và d n nhiệ

h g

ộng thành ống, tính

g ể.

Ngoài ra, giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không nối
ũi ƣợc bỏ qua, ta sẽ có mô hình tạo tiếng nói

v i thanh môn, hiệu ng c a tuyế

ý ƣởng. Chúng ta th y rằng mô hình này có nhi u tính ch t chung v i mạch lọc số
nên nó có thể ƣợc biểu diễn bằng c u trúc mạch lọc số v i các tham số h y ổi
h y ổi tham số c a ống âm học.

phù hợp v i s
S chuyể
su

â

h h

ổi c a không khí trong mộ
h g ƣợng
g

thời gian (t). Trong nh

ó

ạn ống có thể ƣợc mô tả bằng áp

h ng hàm phụ thuộ

ạn riêng biệ

ó

gi rị c

h h

h h

. Xé

ế

i r

h

y ƣợc coi là tổ

ó g gƣợc. Sóng thu n là

hợp tuyến tính các giá trị c a chúng v i sóng thu
sóng truy n t

ộ dài ống (x) và

g hi ó g gƣợc là sóng truy n t

ạn th m có tiết diện Am h h

h

i ến

g ƣợng và hàm áp su t c a

hàm này là:
(
(
ở ây
c là tố
ρ là m

)
)

0

/
.

.
/

/
.

/1

ó g gƣợc

là sóng thu
ộ âm thanh
ộ h g hí r g

x=0 vị trí trung tâm c

ạn

ạn.

mối quan hệ gi a sóng thu n
áp su

.

ó g gƣợc trong nh

g

ạn kế tiếp phải ảm bảo

h g ƣợng liên tục v không gian và thời gian tại mọi iểm trong hệ

thố g hƣ h h.

14

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

ạn ống m và m+1

Hình 1.5.a: Mô hình lý học gi

Hình 1.5.b: Mô hình toán học c

Tuyế â

oạn ống th m

Hình 1.5c: Mô hình c a hệ thống phát âm
ƣợ
i hƣ ột chuỗi liên tiếp các ống âm họ

hóa bởi một chuỗi gồm K bộ cộ g hƣở g. Khi ó h

r y

ƣợc mô hình

ạt c a tuyến âm có

dạng:
( )

∏

(

)

Mỗi bộ cộ g hƣởng sẽ tạo ra một bộ f r
tính theo công th c sau:

15

ƣợ

ặ rƣ g ởi tần số trung tâm,

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

√
V i fe là tần số l y m u c a tín hiệu
Cuối ù g â
c

h h ƣợc phát ra ở

i

ơi ƣợ

i ƣợc biểu diễn bởi hàm truy

ạt:

( )

(

i hƣ

ột tải âm học. S tán xạ

)

ạt c a hệ thống có dạng:

Hàm truy

( )
Nếu giả thiết mộ r

( )

( )

( )

g 2 iểm c c c a thanh môn gần bằ g 1(β=-1) ta có:
( )

( )

V i
( )

) ∏(

(

)

Hay
( )
Là hàm truy

ạt c a bộ lọ

c c. Các hệ số αi c a bộ lọ
yế

í h ể

∑

ảo. T(z) là hàm truy

ạt c

h h

iểm

ảo là các tham số quan trọ g r g phƣơ g ph p

ịnh các formant c a tuyến âm.

Hạn chế c a mô hình này là không thể tạo ra các âm xát h u thanh và âm
ũi. Đối v i
ặ

rƣ g h

â

ũi

h h r

ƣợc cải tiến bằng cách thêm vào phần t

ũi ặt song song v i mô hình, lú

óh

r y

ạt c a hệ thống

là:
( )

( )
( )

( )

Hệ thống trên không còn là hệ thố g
iểm không trên mặt phẳng Z. Việc xu t hiệ
h phƣơ g ph p i

yế

í h

( )
( )
iểm c c mà nó xu t hiện các
iểm không này sẽ gây hó hă

phƣơ g ph p p ụng cho hệ thống toàn

16

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

iểm c c. Ta áp dụ g phƣơ g ph p giảm b c gầ

ú g ể thay mộ

iểm không

bằ g 2 iểm c c, ta có:

Tín hiệu âm không phải là tín hiệu d

g

ó

h

ố c a mô hình phải

biến thiên theo thời gian. S biến thiên này r t ch m nên các tham số có thể
h

g ổi trong khoảng thời gian mà tín hiệ

i hƣ

ƣợc coi là d ng: 20ms.

1.5. Phân tích tiếng nói
tìm ra các dạng th c tối ƣ

Phân tích tiếng nói th c hiện giải quyết v
biểu diễ

ƣợc tiếng nói một cách hiệu quả. Nó

ơ ở cho việc phát triển các kỹ

thu t, công nghệ tổng hợp, nh n dạng và nâng cao ch

ƣợng tiếng nói. Phân tích

tiế g ói hƣờng th c hiện việc trích chọn hoặc chuyể

ổi tín hiệu tiếng nói sang

một dạng th c biểu diễn khác sao cho có thể biểu diễn thông tin tiế g ói
phƣơ g ph p phâ

theo cách chúng ta cần. Hầu hế

hơ

í h í hiệu tiếng nói t p

trung vào một trong ba v

chính. Tìm cách loại bỏ ả h hƣởng c a pha, thành

h g ó g

rọng trong việc truy n tải thông tin tiếng nói. Th

phầ

i rò

hai, th c hiện việc chia tách nguồn âm và mạch lọc sao cho chúng ta có thể nghiên
c u biên ộ phổ c a tín hiệu mộ

h ộc l p. Thƣ

là, chuyể

ổi tín hiệu hoặc

biên ộ phổ tín hiệu sang một dạng khác hiệu quả hơ .
1.5.1. Mô hình phân tích tiếng nói
Mô hình tổng quát cho việc phân tích tiế g ói hƣ h h 1.5.1.Tín hiệu tiếng
ói ƣợc ti n x lý bằng cách cho qua một bộ lọc thông th p v i tần số cắt khoảng
8 kHz. Tín hiệ

h

ƣợ

ó ƣợc biế

ổi sang dạng tín hiệu số thông qua biến

ổi ADC. Thƣờng tần số l y m u bằng 16 kHz, số í ƣợng t hóa là 16bit.
Tín hiệu tiếng nói dạng sóng ƣợc phân khung v i chi u dài khung khoảng
30ms và khoảng lệch c a các khung vào khoảng 10ms. Khung phân tích tín hiệu sau
ó
H

ƣợc chỉnh biên bằng cách l y c a sổ v i các hàm c a sổ phổ biế
i g H

v i
ƣợ

i g… Tín hiệ

phƣơ g ph p phâ

ƣ

h

ƣợc sau khi l y c a sổ ƣợ

ƣ

phâ

hƣ
í h

í h phổ. Hoặc sau khi phân tích phổ ơ ản, tiếp tục

ến các khối ể trích lọ

ặ rƣ g.
17

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Hình 1.5.1: Mô hình phân tích tiếng nói
1.5.2. Phân tích tiếng nói ngắn hạn
V mặt nguyên lý, chúng ta có thể áp dụng các kỹ thu

phâ

í h ã iết

vào phân tích tín hiệu trong ngắn hạn. Tuy nhiên vì tín hiệu tiếng nói là một qua
r h

g h g i

ộng nên chúng ta không thể chỉ ơ

ngắn hạn trong một khung thời gi

ơ

Tín hiệu tiếng nói là một tín hiệ
ơ ả

hƣ g ồ

í h hí h ƣờ g ộ

h ần xem xét phân tích

ẻ.
h y ổi theo thời gi . Nó ó
i

ặ rƣ g

ộ, …Các tham số h y ổi theo thời

gian c a tiế g ói hƣ: ần số ơ ản, loại âm, các tần số cộ g hƣởng chính, hàm

diện tích c a tuyế â

…

Việc th c hiện phân tích ngắn hạn t c là xem xét tín hiệu trong một khoảng
thời gian nhỏ xung quanh thời iể
hƣờng vào khoảng 10-30
thời gi

ó

g é n

ó. Khoảng thời gian này

i u này cho phép chúng ta giả s rằng trong khoảng

í h h t c a dạng sóng tín hiệu tiế g ói

Khoảng nhỏ tín hiệ

ù g ể phâ

ƣơ g ối ổ

ịnh.

í h hƣờng gọi là một khung(frame), hay một

ạn (segment). Một khung c a tính hiệ

ƣợ

dịch w(n) và dãy tín hiệu s(n):
Sn(m) = s(m)w(n-m)
18

ịnh là tích c a một hàm c a sổ

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Một khung tín hiệu có thể ƣợc hiể

hƣ

ộ

ạn tín hiệ

ƣợc cắt bởi một

hàm c a sổ ể tạo thành một dãy m i mà các giá trị c a nó bằng 0 bên ngoài
khoảng n[m-n+1,m]. T công th c trên ta th y rằng khung tín hiệu này phụ thuộc
vào khoảng thời gian kết thúc m. Trong khung tín hiệu nhỏ v
th y rằng các phép x

ý gă hạ

ũ g ó ý ghĩ

Việc phân tích tiếng nói không chỉ ơ gi
ơ

hƣ

phép

ƣợ

ị h ghĩ

lý dài hạn.

hỉ ă g iệc x lý một khung

ẻ, mà phải bằng cách phân tích tín hiệu c a các khung liên tiếp. Th c tế

tránh m t thông tin, các khung tín hiệ

ễ

ể

hƣờng ƣợc l y bao trùm nhau. Giống trên

hình minh họa:

Hình 1.6: Phân tích tín hiệu trên các khung bao trùm nhau.
Mộ phép phâ í h gă hạn tổng quát có thể biểu diễn là:

( )

∑

* ( ) (

)+

Tr g ó: Xn biểu diễn tham số tích phân, toán t T{} ị h ghĩ

ột hàm phân tích

ngắn hạn.
1.6. Phân tích Mel-Cepstral
1.6.1. Tạo tiếng nói từ mô hình thời gian rời rạc
Xét dạng toán học c a sóng tiếng nói, một mô hình thời gian rời rạ

hƣờng

ƣợc s dụ g ể mô tả việc l y m u c a các tín hiệu tiế g ói

hƣ h h 1.6.1.Hàm

ạt H(z) mô hình cho c u trúc c a ống âm. Các nguồ

í h hí h ƣợc l a

truy

19

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

bởi một switch, nó i u khiển các âm vô thanh hoặc h u thanh c a tiếng nói. Để tạo
ra tín hiệu tiếng nói x(n), các thông số c a mô hình sẽ ƣợ h y ổi theo thời gian.
Đối v i nhi u dọng nói, ta có thể giả s tính ch t chung c a thanh âm và mi n kích
thích là cố ịnh trong khoảng 5-10ms. Theo giả ị h hƣ
ƣợc lọc bởi một hệ thống lọc tuyến tính thời gi

y nguồn kích thích e(n)

h y ổi ch m H(z) ể tao ra

tiếng nói x(n). Tiếng nói x(n) có thể ƣợc tính toán t kích thích e(n)

p ng

xung h(n):
x(n) = h(n)*e(n)

(1.6.1)

Bƣ c chu kỳ
Các tham số
tuyến âm

Bộ lọc số thời
gian biến thiên

Chuyển âm h u
thanh / âm vô thanh

Bộ tạo dãy xung
Bộ tạo nhiễu
ng u nhiên

Tiế g ói ầu ra

Hệ số khuếch
ại

Hình 1.6.1: Tạo tiếng nói t mô hình thời gian rời rạc
1.6.2. Phân tích Mel-Cepstral
a. Mô hình quang phổ
ạt c a thanh quản H(z)

Trong phân tích mel-cepstral, hàm truy

ợc mô

hình hoá bởi hệ số mel-cepstral gồm M phân t c=[c(0), c(1),…,c(M)]T ( r g ó
chỉ số T là thể hiện ma tr n chuyển vị):
( )
̃

(1.6.2)

∑ ( ) ̃
ở ây ̃

,
̃

̃

(

)

(

)

- .
̃

̃
̃
20

| |

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Đ p ng pha:
(

( )

(

)

(

)

Đ p ng pha β(ω) cho một giá trị x p xỉ tốt nh

)

ối v i tần số thính giác v i một

giá trị x p xỉ chọn c a α.
b. Tiêu chuẩn phổ
Tr g ƣ

í h ối x ng c a logarit quang phổ, nó chỉ ra công su t phổ ƣ c

tính |H(ej)|2, sẽ h

ƣợc thông qua tiêu chuân E là nhỏ nh t:
∫*

( )

( )

+

(

)

ở ây:
R() = logIN() – log|H(ej)|2
|∑

( )

( ) ( )
∑
( )

|

(1.6.8)
(

)

Tr g ó w(n) là c a sổ v i ộ dài N. Đi u kiện c a công th c (1.6.7) giố g hƣ
r h ƣ c tính một tiến trình AR d ng h
Khi i u kiện công th

g hƣờng.

(1.6.7) ƣợc suy ra không cần các giả ịnh c a b t

kỳ một mô hình phổ cụ thể, nó có thể ƣợc áp dụng cho mô hình phổ c a công th c
(1.6.3). Bây giờ l y hệ số khế h ại K t H(z) trong công th c (1.6.3)
H(z) = K.D(z)

(1.6.10)

ở ây
(1.6.11)
∑

( )

( )

(1.6.12)

̃
(∑

(1.6.13)
( ) ̃

(1.6.14)

Và  = [1, (-),(-)2, …, (-)M]T

(1.6.15)

c1 = [c1(0), c1(1), …, c1(M)]T.

(1.6.16)

mỗi quan hệ gi a các hệ số c và c1 cho bởi

21

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

( )

( )
( )

(

)

Nếu hệ thống H(z) ƣợc coi là một bộ lọc tổng hợp c a tiếng nói, D(z) phải ổ

ịnh.

D

{

ó giả s rằng D(z) là hệ thống pha tối thiểu và có quan hệ:
| (

∫

)|

(

)

(

)

(

)

S dụng biểu th c trên, tiêu chuẩn phổ c a công th c (1.6.7) trở thành
( )

∫

⁄
ở ây
∫
D

( )
| (
)|

ó ó hể bỏ qua các hằng số, tối thiểu hóa c a E ối v i c d

ến tối thiểu hóa

 ối v i c1 và tối thiểu hóa E ối v i K. Bằng cách l y ạo hàm c a E theo K và
ƣ

ết quả v 0. K h

ƣợ

hƣ

:
(

√

)

ở ây min là giá trị nhỏ nh t c a .
1.6.3. Bộ lọc MLSA (Mel Log Spectral Approximation)
Để tổng hợp tiếng nói t các hệ số Mel-cepstral, nó cần th c hiện hàm truy n
ạ

ũ D(z). Mặt dù hàm truy

MLSA có thể x p xỉ D(z) v i
H

ạt D(z) không phải là một hàm h u tỷ. Bộ lọc
ộ chính xác.

ũ ph c expw có thể ƣợc s p xỉ bởi 1 hàm h u tỷ
∑

( )

∑

(

D(z) ƣợc s p xỉ bởi:
( )

( )

( ( ))

ở ây
( )
̃

∑

22

( ) ̃

)

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Lƣ ý rằng AL,l( =1 2 … L) ó ã ƣợc cố ịnh các giá trị c1(m) là biến.
Để loại bỏ trễ t do vòng l p t F(z), công th c trên có thể ƣợc s a lại là:
( )
̃

̃

∑ ( )

( )

ở ây

Ve r Ф h

ƣợc bởi
̃
,

( )

(

)

( )

( )-

ở ây:
( )
Các hệ số b có thể h

̃

(

)

ƣợc t c1 bằng cách s dụng biế

ổi

b= ATc1
=[0, b(1), b(2) … b(M)]T
Các phần t c a ma tr n có thể ƣợc thay thế v i công th
( )

{

( )

( )
(
23

)

ệ quy:

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

ầu tiên c a b bằng 0 do

Vì phần t

αTc1 = 0;
giá trị c

p ng xung c a F(z) bằng 0 ở thời iểm 0, v y F(z) không có phần trễ.

Hình 1.6.3 thể hiện khối c a lọc MLSA RL (F(z)) s p xỉ D(z) hi ó h
truy

ạt F(z) không có phần trễ t do, RL(F(z)) không có các vòng lặp trễ, và

RL(F(z)) có thể ƣợc th c hiện.
Nếu b(1), b(2) … b(M) bị chặn, |F(ejω)| ũ g ị chặ

hi ó ẽ tồn tại 1 giá trị h u

hạn r thỏa mãn:
| (
Các hệ số AL,l có thể ƣợc tối ƣ hó
| |

(a) Lọ

ơ ản F(z) (M=3).

24

g ƣợt quá 0.24dB khi

Luận văn thạc sỹ kỹ thuật máy tính và truyền thông

Hình 1.6.3: Th c thi hàm truy

rú he

Hình 1.6.4: C
Khi F(z) ƣợc biểu diễ

ạ

ũ

gi i

a D(z)

ạn

ƣ i dạng:

F(z) = F1(z) + F2(z),

Hàm truy

ạ

ũ ƣợc x p xỉ trong một dạng tầng:
D(z) = exp(F(z))
= expF1(z).expF2(z)
≈ RL(F1(z)).RL(F2(z))

Bảng 1.6: Các hệ số
Nhƣ r

iƣ

a RL(w) cho L =5, r =6.0 và L = 4, r = 4.5

h h ếu
| (

)|

|

(

25

)|

| (

)|

Mô hình markov ẩn và ứng dụng vào tổng hợp tiếng nói

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về