Proceedings VCM 2012 75 thiết kế hệ thống nhận dạng khẩu lệnh tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (477.43 KB, 9 trang )

550 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh
VCM2012
Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt
điều khiển thiết bị tự hành trên nền các vi hệ thống
với phép chuẩn hóa VTLN – MFCC
Design of a Vietnamese voice control system
for navigating devices based on system-on-chip with VTLN-MFCC
Ngô Hoàng Huy
1
, Phạm Thượng Cát
1
, Nguyễn Trịnh Nguyên
2
,
Nguyễn Tu Trung
1
, Ngô Trần Anh
1

(1)
Viện Công nghệ Thông tin,Viện Khoa học và Công nghệ Việt Nam,
(2)
Đại học Nông lâm Tp. Hồ Chí Minh
e-Mail: {nhhuy, ptcat, nttrung, trananh}@ioit.ac.vn,
Tóm tắt
Bài báo này trình bày thiết kế và thử nghiệm hệ thống nhận dạng khẩu lệnh tiếng Việt để điều khiển thiết bị
tự hành. Hệ thống nhận dạng tích hợp hoàn toàn trong một chip vi hệ thống điện năng thấp như họ PSoC5 lõi
ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash hoặc họ OMAP3 lõi ARM7,128MB RAM, được phát triển
dựa trên mô hình nhận dạng Markov ẩn kết hợp, mạng nơ ron dự báo. Ngoài ra hệ thống đã cải thiện được chất
lượng nhận dạng với giọng nói chưa được huấn luyện khi kết hợp với phép chuẩn hóa đặc trưng MFCC theo
độ dài bộ phận cấu âm (VTLN, vocal tract length normalisation), rất thích hợp với một ngôn ngữ có thanh điệu

như tiếng Việt. Các kết quả thử nghiệm trong bài báo đã được áp dụng cho thực tế điều khiển robot hút bụi và
xe lăn điện, chứng tỏ rằng hệ nhận dạng khẩu lệnh tiếng Việt đã đáp ứng được yêu cầu nhúng hoàn toàn trong
một vi hệ thống với tài nguyên bộ nhớ và năng lực tính toán rất hạn chế cho xử lý tiếng nói, chuẩn hóa tốt biến
thiên tần số của người nói mới và cho kết quả nhận dạng và thời gian đáp ứng so sánh được với cùng hệ thống
chạy trên PC.
Abstract
In this study, results of a Vietnamese continuous speech recognition system controlling navigating devices
were exprimented and presented. The speech recognition which is fully integrated in a mini system-on-chip
such as PSoC5 with ARM9 M3 Cortex chip, 64KB RAM, 256KB Flash, OMAP3530 with ARM7 chip 128MB
RAM, is developed based on Hidden Markov Model and Predictive Neural Network. These results also show
that the performance in recognizing new speakers in combinating with normalization VTLN is actually
improved, which are quite compatible with tonal languages such as Vietnamese. These results are also applied
in sucessfully controlling vacuum robots and electric wheel chairs. It is this shows that the Vietnamese
continuous speech recognition system actually supply the requirements of fully embedded in a mini system
with very limited memory resources and calculating for speech processing, and well normalize frequency
variation of new speakers, providing likely results and time comparable with the same running in personal
computer.

Chữ viết tắt
VTLN
PSoC
vocal tract length normal
Programmable System on Chip
MFCC Đặc trưng MFCC

1. Phần mở đầu
Nghiên cứu, thiết kế các hệ thống nhận dạng khẩu
lệnh để điều khiển thiết bị đã được phát triển và
ứng dụng rộng rãi. Một số hệ thống nhận dạng
khẩu lệnh kết hợp với hiểu đối thoại hữu dụng như

Siri đã trở nên quen thuộc với người sử dụng. Tuy
nhiên hầu hết các hệ thống này đều chạy trên môi
trường PC hoặc di động có lõi vi xử lý với tài
nguyên bộ nhớ và năng lực tính toán mạnh. Hệ
thống nhận dạng khẩu lệnh trên chip tiêu thụ điện
năng thấp và tài nguyên hạn chế, đặc biệt là trên
các chip vi hệ thống vẫn là vấn đề phức tạp, cần
đầu tư nghiên cứu. PSoC một họ chip vi hệ thống
nổi tiếng với tính năng tái cấu hình, được ứng
dụng rộng rãi trong thiết kế các hệ thống đo và
điều khiển, nhưng chưa có một giải pháp tích hợp
hệ thống nhận dạng khẩu lệnh trên nó được công
bố trên thế giới.
Một số nghiên cứu gần đây đã khảo sát đường
thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng
thanh điệu và cải tiến kết quả nhận dạng từ và câu
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 551
Mã bài: 128
tiếng Việt [7,8,10,12] với tiếp cận ghép trực tiếp
đặc trưng thanh điệu vào các kiểu đặc trưng tiếng
nói như MFCC [10,12] hoặc sử dụng các đặc trưng
F0, các tần số formant và VTLN để hiệu chỉnh lại
các đặc trưng MFCC dẫn đến kiểu đặc trưng
không phụ thuộc người nói trong cả quá trình huấn
luyện và nhận dạng, qua đó kết quả nhận dạng của
các hệ thống không phụ thuộc người nói được cải
thiện đáng kế [5, 8, 9,10].
Các hệ thống nhận dạng tiếng nói hiện nay hầu hết
đều sử mô hình Markov ẩn HMM (Hidden Markov
Model), khi ứng dụng thuật toán nhận dạng HMM

trên cho việc nhận dạng tiếng nói liên tục không
phụ thuộc người nói, hệ thống thường suy giảm độ
chính xác với những người nói có có đặc trưng
giọng nói không phù hợp với những mẫu giọng
được sử dụng để huấn luyện mô hình HMM.
Bài báo này trình bày phương pháp thiết kế hệ
nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị
di động như robot hút bui, xe lăn điện dựa trên
chip vi hệ thống họ PSoC5 và OMAP3, các đặc
trưng MFCC đã được hiệu chỉnh theo VTLN và
các tính toán đặc trưng và quá trình giải mã HMM
được tăng tốc nhờ các phép tính toán chấm tĩnh độ
chính xác cao cho hiệu năng và chất lượng nhận
dạng so sánh được với cùng hệ thống trên PC.

2. Quy trình nhận dạng tiếng nói
Để thiết kế một robot hút bụi có khả năng hội thoại
bằng tiếng Việt (nhận biết khẩu lệnh và thực hiện
cũng như hồi đáp bằng tiếng Việt) chúng ta cần
nghiên cứu tích hợp các công nghệ điều khiển
robot, nhận dạng và tổng hợp tiếng Việt trên một
chip (system-on-chip), với tín hiệu thu nhận được
là có nhiễu của môi trường văn phòng, nhà ở và độ
ồn của chính robot hút bụi (âm lượng khoảng
80dB).

H. 1 Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị

Khó khăn cơ bản của nhận dạng tiếng nói đó là

tiếng nói luôn biến thiên theo thời gian và có sự
khác biệt lớn giữa tiếng nói của những người nói
khác nhau, tốc độ nói, ngữ cảnh và môi trường âm
học khác nhau. Đây là một nhiệm vụ rất khó khăn
mà ngay cả với các kỹ thuật xác suất thống kê
mạnh nhất cũng bị hạn chế trong việc tổng quát
hoá từ các mẫu tiếng nói những biến thiên quan
trọng cần thiết trong nhận dạng tiếng nói.
Trong quy trình nhận dạng tiếng nói, Tiền xử lý
(thu nhận tiếng nói, khử nhiễu và tìm kiếm điểm
đầu cuối tiếng nói), Trích chọn đặc trưng kết hợp
với phép hiệu chỉnh biến thiên tần số của người
nói mới là các khâu rất quan trọng để nâng cao độ
552 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh
VCM2012
chính xác nhận dạng khẩu lệnh tiếng Việt trong
khi các thiết bị đang hoạt động.

3. Thu nhận tiếng nói và lọc nhiễu trên họ
PSOC
Việc thu nhận mẫu tiếng nói thường được thực
hiện thông qua một bộ ADC (Analog-Digital
Converter). Các thông số quan trọng bao gồm số
bit cho một mẫu (thông thường là từ 8 đến 16 bit),
tần số lấy mẫu (thông thường từ 8Khz-16Khz).
Những thông số này liên quan nhiều tới hiệu năng,
độ phức tạp thiết kế cũng như kết quả nhận dạng
của hệ thống nhúng. Với họ chip PSOC và
OMAP3, vấn đề khó khăn chung khi thực hiện
việc thu nhận tiếng nói vẫn là sự hạn chế về tài

nguyên khi phải đảm bảo yêu câu về bộ nhớ và tốc
độ thu lớn.

H. 2 Mạch 2 mic thu nhận tiếng nói

H. 3 Thu nhận tiếng nói dùng DMA trên PSoC5

Tiếng nói thu nhận trong môi trường tự nhiên
(ngoại cảnh, trong văn phòng v.v ) và công nghiệp
nơi thiết bị hoạt động thường chứa nhiều tạp âm.
Không dễ gì có thể lọc được mọi thứ nhiễu do tính
ngẫu nhiên của nhiễu và môi trường và đường
truyền dẫn âm học như hiện tượng dội lại, mà ta
chỉ tìm cách tối thiểu hoá chúng để có thể nâng
cao chất lượng của hệ thống nhận dạng.
Sử dụng tính năng mạnh hỗ trợ bộ lọc tương tự
của PSoC5, trong quá trình thu nhận tiếng nói, hệ
thống được xử lý nhiễu qua 2 pha: pha 1 là lọc
tương tự, pha 2 là lọc số (như bộ lọc RASTA).
Bảng 1: Bảng cấu hình GAIN kết hợp bộ lọc thông
thấp.
PGA
Gain
T
ỉ lệ
C1/C2
LPF
Gain

(dB)
Đi
ện
áp LPF
GAIN
H
ệ số
GAIN
cuối
24

3

8

3.16

75.84

24

4

12

3.9
8

95.52

24

5

14

5.01

120.24

24

6

15

5.62

134.95

Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 553
Mã bài: 128

H. 4 Tham số bộ lọc tín hiệu khi cấu hình cho PSoC

H. 5 Phổ tín hiệu có nhiễu động cơ hút bụi và tín
hiệu sạch

4. Phép chuẩn hóa VTLN cho các hệ số

MFCC
Các hệ nhận dạng tiếng nói thường trích chọn đặc
trưng của mỗi khung tiếng nói (độ dài 10ms-25ms)

theo kiểu MFCC ở thang tần số mel dựa trên đặc
điểm cảm thụ tần số âm của tai người, tuy vậy các
hệ số MFCC không thể hiện được các biến thể bên
trong của mỗi người nói như VTL (vocal tract
length, độ dài bộ cấu âm), dẫn đến việc suy giảm
chất lượng nhận dạng trong các hệ thống nhận
dạng độc lập người nói.
VTLN là phép chuẩn hóa tín hiệu tiếng nói để
VTL đạt được mức trung bình nhờ các tham số
hiệu chỉnh tần số cho mỗi người nói hoặc một phát
âm. Có hai tiếp cận chính cho VTLN, một là ước
lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm
âm học của người nói như các tần số formant, hai
là cách duyệt trên lưới của tham số hiệu chỉnh để
tối ưu hóa hàm mục tiêu của mô hình nhận dạng.

H. 6 Hiệu chỉnh tần số VTL và trích chọn đặc trưng MFCC

Phép hiệu chỉnh VTL hoạt động như sau:
554 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh
VCM2012
Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t)
trong miền tần số bằng biến đổi FFT: X()=
H()S() + N(), ở đó H() là biến dạng kênh và

N() nhiễu cộng của tín hiệu. Sử dụng M bộ lọc
tam giác với khoảng cách giữa các vị trí 
k
trong
thang tần số mel:
1
1
1
1
1
1
, [ , ]
( )
, [ , ]
k
k k
k k
k
k
k k
k k
B
 
  
 

 
  
 






















1 1
2
[ , ]
( ) ( ) ( )
k k
k
Y m B X
  
 
 




, 0mM-1 (*)
MFCC(n) =
1
0
1
2
os log ( )
M
m
n m
c Y m
M



 

 
 

, 0nN-
1
Khi đó với phép hiệu chỉnh tần số có dạng ’=


() thì công thức (*) trở thành:
1 1

2
[ , ]
( ) ( ) ( ( ))
k k
k
Y m B X

  
  
 




Bảng dưới đây cho ta một số dạng biến đổi tuyến
tính và phi tuyến của hàm 

(), sử dụng hàm:
( ) 1127 ln 1
2 .700
s
f
z mel



 
   
 
 

, [0,] và
f
s
là tần số lấy mẫu và
1
1
1 1
1
2
,
1
2 2
( ) , ,
1 1
2
,
1
l
l u
u
a b
c d


 

 
    
 


 



 


 




 
 

 
 
 


 




Để giải quyết vấn đề hạn chế về tài nguyên tính
toán và tài nguyên bộ nhớ, khi tích hợp hệ thống
nhận dạng tiếng nói trên các vi hệ thống, việc tính
toán các hệ số MFCC được xử lý hiệu quả với các
phép tính chẫm tĩnh (fixed point) [15].

Thuật toán nhận dạng tiếng nói dựa trên HMM với
đặc trưng MFCC gồm hai phần: Huấn luyện và
nhận dạng.
4.1. Huấn luyện với HMM
Đầu vào gồm T frame các đặc trưng MFCC.
Bước 1: Xác định dãy trạng thái tối ưu bằng thuật
toán Viterbi:
1
1
({ } ) arg max log ( , )
T
T
t t t
t
S s p O W



 


Bước 2: Hiệu chỉnh lại tham số mô hình HMM:
*
1
arg max log ( , , )
T
t t
t
p O s W
 





Bước 3: Đặt =
*
, lặp lại tới khi mô hình hội tụ.

4.2. Nhân dạng với HMM
Đầu vào gồm T frame các đặc trưng MFCC.
Giải mã theo Viterbi để xác định tập nhãn, và dãy
trạng thái tối ưu ứng với bộ tham số mô hình
HMM đã cho:
1
1
( , { } ) argmax log ( , )
T
T
t t t t
t
W S s p O s



 


Sử dụng chính hàm mục tiêu của các mô hình
HMM (, ), tham số hiệu chỉnh tần số  [
min

,

max
] có thể ước lượng trên từng phát âm tiếng nói
đầu vào [2,3,10s] theo công thức sau:
min ax
1
1
[ , ]
1
( , { } ) argmax log ( , )
argmax log ( , ), ( )
m
T
T
t t t t
t
T
t t t t
t
W S s p O s
p O s O O
 
   

  






 




 





5. HMM với chuẩn hóa VTLN
Để chuẩn hóa biến thiên tần số của người nói mới
phép chuẩn hóa VTLN để được tích hợp trong mô
hình nhận dạng HMM như sau:
5.1. Huấn luyện với HMM:
Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T
frame.
Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái
tối ưu bằng thuật toán Viterbi:
1
1
({ } ) argmax log ( , ), ( )
T
T
t t t t t
t
S s p O W O O
 


 


  

Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị
của tham số :
min ax
*
[ , ]
1
argmax log ( , ), ( )
m
T
t t t t
t
p O s O O
 
   
  


 

Bước 3: Thực hiện phân đoạn cưỡng bức (forced
alignment) dựa trên bộ nhãn W và tham số hiệu
chỉnh * và hiệu chỉnh lại tham số mô hình
HMM:
* *

*
*
1
argmax log ( , , ), ( )
T
t t t t
t
p O s W O O
 

  

 

Bước 4: Đặt =*, và =
*
, lặp lại tới khi mô
hình hội tụ.

5.2. Nhận dạng với HMM
Với một phát âm đầu vào gồm T frame
Bước 1: Giải mã theo Viterbi để xác định tập
nhãn, và dãy trạng thái tối ưu ứng với bộ tham số
mô hình HMM đã cho:
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 555
Mã bài: 128
1
1
( , { } ) argmax log ( , )
T

T
t t t t
t
W S s p O s



 


Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị
của tham số :
min ax
*
[ , ]
1
argmax log ( , ), ( )
m
T
t t t t
t
p O s O O
 
   
  


 


Bước 3: Giải mã Viterbi lần nữa với tham số 
*
để
xác định tập nhãn đầu ra:
*
*
1
arg max log ( , )
T
t t
t
W p O s






Độ phức tạp của thuật toán HMM có kết hợp với
VTLN là O(KVN
2
T), trong đó K là số giá trị rời
rạc hóa trên lưới giá trị của tham số  [
min
,

max
] (ở đây 
min
= 0.85, 

max
= 1.15, mức rời rạc
hóa theo bước 0.0001), N là số trạng thái của mô
hình HMM (N = 5 trong thử nghiệm này), V số
phần tử từ vựng (V = 117 trong thử nghiệm này, là
số âm vị với các nguyên âm mang thanh điệu) ,T
là số frame đầu vào [8].
Ngoài ra, để tích hợp hệ thống nhận dạng tiếng nói
trên các vi hệ thống (SoC) với tài nguyên bộ nhớ
hạn chế như PSoC chúng tôi cài đặt thêm phương
pháp nhận dạng theo mô hình mạng Nơron dự báo
tựa HMM như sau:
 Ứng với tập mẫu huấn luyện của một lệnh, ta
xây dựng một mạng Nơron 3 tầng, một tầng ra,
một tầng vào và một tầng ẩn như sau:
 Giả sử ta xây dựng mạng nơron NR
x
ứng
với người nói x với tập M mẫu giọng T = (T
1
,
T
2
, …, T
M
).
 Với mỗi file dữ liệu T
j
(j = 1, 2,…, M) ta
tiến hành trích chọn đặc trưng bằng MFCC.

Chúng ta có một tập M vector 12 chiều đầu
vào.
 Với mỗi đoạn, tại frame thứ i ta có vector đặc
trưng P
i
), ,,(
1110
iii
aaa , frame thứ i + 1 ta có
vector đặc trưng P
i+1
), ,,(
1
11
1
1
1
0
 iii
aaa . Mạng
Nơron sẽ có đầu vào và đầu ra như sau:
 Input: { ), ,,(
1110
iii
aaa , ), ,,(
1
11
1
1
1

0
 iii
aaa }
 Output: { ), ,,(
2
11
2
1
2
0
 iii
bbb }
 Đầu ra của mạng Nơron dự báo sẽ là vector
P’
i+2
), ,,(
2'
11
2
1
2
0
 iii
bbb tương ứng với frame
thứ i + 2.
 Vector đặc trưng của frame thứ i + 2:
P
i+2
), ,,(
2

11
2
1
2
0
 iii
aaa
 Trọng số mạng được hiệu chỉnh dựa trên sai số
||e|| , với ||e||
2
= ½(e
2
2
+ e
3
2
+…+e
11
2
) với e
j
=
||
22 

i
j
i
j
ba ||; j = 2, 3, …,11, và thuật toán lan

truyền ngược.
 Sai số của mạng Nơron là:

e
2
1
2




P
e
P
j
j
, ở
đây e
j
là sai số dự báo của frame j.
 Lần lượt tính sai số của đoạn âm thanh
kiểm tra trong mỗi mạng Nơron. Sai số nhỏ
nhất ứng với mạng Nơron phù hợp nhất.

6. Điều khiển thiết bị tự hành bằng tiếng nói
Để điều khiển xe lăn điện di chuyển, người điều
khiển ngồi trên xe lăn và đọc vào một trong 14
lệnh như ở bảng 2 dưới đây. Để kiểm soát độ an
toàn cho người điều khiển xe, hệ thống khẩu lệnh
chỉ kích hoạt hành động khi người điều khiển đọc

đúng câu lệnh khởi động “Kích hoạt hệ thống”,
ngược lại khi người dùng ra lệnh nhanh “Tắt”, hệ
thống sẽ không nhận dạng mệnh lệnh đưa vào tiếp
sau đó. Một khó khăn có thể gây ra nhận dạng
nhầm khẩu lệnh “Tắt”, là do các xe lăn khi kích
hoạt từ mệnh lệnh nhận dạng được có thể phát ra
tiếng “cạch” có thể nhận dạng nhầm với khẩu lệnh
“Tắt”. Chúng tôi đã tích hợp một thuật toán phân
lớp hiệu quả đạt 100% độ chính xác dựa trên mạng
nơron dự báo để phân biệt, và hệ thống đã phân
biệt đúng các tín hiệu gây ồn của thiết bị với khẩu
lệnh “Tắt”. Ngoài ra khẩu lệnh “Kích hoạt hệ
thống” được chọn để đảm bảo hệ thống không
nhận dạng nhầm khẩu lệnh khởi động này.

Bảng 2: Khẩu lệnh điều khiển xe lăn.
Tên khẩu lệnh Công dụng/Tên lệnh
“Kích hoạt hệ thống”

Yêu cầu hệ thống
nhận dạng khẩu lệnh
làm việc
“Tắt” Vô hiệu hóa hệ thống
nhận dạng khẩu lệnh
“Dừng” | “Dừng lại” Dừng xe
“Tiếp tục” Tiếp tục chạy theo
khẩu lệnh đã có
“Tăng tốc” | “Tăng
tốc độ”
Tăng tốc độ

“Giảm tốc” | “Giảm
tốc độ”
Giảm tốc độ
“Tiến” | “Đi” Đi về phía trước
“Lùi” | “Lùi lại” Lùi về sau
“Sang trái” | ”Đi
sang trái”
Về phía trước theo
hướng trái
“Sang phải” | “Đi
sang phải”
Về phía trước theo
hướng phải
556 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh
VCM2012
“Lùi trái” |”Lùi sang
trái”
Về phía sau theo
hướng trái
“Lùi phải”|”Lùi sang
phải”
Về phía sau theo
hướng phải
“Quay trái” |”Xoay
trái”
Quay trái
“Quay phải” |”Xoay
phải”
Quay phải

H. 5 Điều khiển xe lăn điện bằng tiếng nói của
nhóm tác giả [19]

Bảng 3: Khẩu lệnh điều khiển Robot hút bụi.
Tên khẩu lệnh Công dụng/Tên
lệnh
“Bật khẩu lệnh” Yêu cầu hệ thống
nhận dạng khẩu lệnh
làm việc
“Tắt khẩu lệnh” Vô hiệu hóa hệ
thống nhận dạng
khẩu lệnh
“Tiến” | “Đi thẳng” Đi về phía trước
“Lùi” | “Lùi lại” Lùi về sau
“Quay trái” |”Xoay
trái”
Quay trái
“Quay phải” |”Xoay
phải”
Quay phải
“Bám tường” Đi men theo tường.
Đi rích rắc Đi theo sơ đồ rích
rắc
Đi ngẫu nhiên Đi thẳng tới khi gặp
vật cản, quay một
góc ngẫu nhiên và đi
tiếp
Dừng | dừng lại Dừng lại
Về trạm sạc Quay về trạm sạc

Một thử nghiệm tương tự cũng đang được nhóm
tác giả tiến hành cho robot hút bụi hoạt động trong
môi trường trong nhà, văn phòng. Hệ thống nhận
dạng tiếng nói được thiết kế cho họ PSoC5, luôn
kiểm tra trạng thái hiện thời của robot hút bụi và
tính tương thích của khẩu lệnh đưa vào để điều
khiển robot hoạt động thay cho việc sử dụng các
bảng điều khiển từ xa. Bảng 3 nêu trên là một số
khẩu lệnh để điều khiển robot hút bụi di chuyển,
phủ diện tích căn phòng và hút bụi. Bước đầu
robot hút bụi được lập trình di chuyển theo chế độ
đi ngẫu nhiên (đi thẳng, gặp vật cản thì xoay và
bám tường v.v…)

H. 7 Robot hút bụi được thiết kế bởi nhóm tác giả

7. Thử nghiệm
Dữ liệu huấn luyện nhanh các mô hình HMM của
các âm vị tiếng Việt là các bài đọc truyện và tin
tức của 2 phát thanh viên (một nam, một nữ giọng
Hà Nội) của đài tiếng nói Việt Nam, dung lượng
dữ liệu hơn 1GB, và chưa được gán nhãn ngữ âm.
Dữ liệu huấn luyện thích ứng được ghi bởi giọng
đọc của 12 nam, 10 nữ sinh viên, môi trường tín
hiệu trong lớp học trên giảng đường, mỗi sinh viên
đọc 30 lệnh đúng một lượt. Tín hiệu thu có tần số
lấy mẫu 16000Hz, đơn kênh 16 bit và có nhiễu.
Dữ liệu kiểm tra hệ thống nhận dạng là giọng đọc

của 3 nam, 6 nữ sinh viên và một giọng nữ tiếng
miền Nam, được thu trong cùng môi trường tín
hiệu như với dữ liệu huấn luyện thích ứng.
Khi tiến hành thử nghiệm, chúng tôi sử dụng phiên
bản HTK 3.4 để huấn luyện, kiểm thử và trích
chọn đặc trưng MFCC thông thường. Để tich hợp
cho các vi hệ thống như OMAP3, nhân của HTK
3.4 đã được sửa đổi ở các thuật toán trích chọn đặc
trưng MFCC có hỗ trợ các phép toán fixed point
và thuật toán dò tìm tiếng nói (End point
detection) hiệu quả riêng của nhóm tác giả.
Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao
gồm các phụ âm đầu, âm đệm, nguyên âm chính
với thanh điệu và âm cuối tương ứng với 52 mô
hình HMM cần được huấn luyện.
Tuyển tập công trình Hội nghị Cơ điện tử toàn quốc lần thứ 6 557
Mã bài: 128
Giá trị đường F0 và các vector đặc trưng MFCC
được trích chọn với các frame độ dài 25 mili giây,
phần trùng nhau giữa 2 frame liên tiếp là 15 mili
giây. Các vector đặc trưng gồm 12 hệ số MFCC và
1 hệ số năng lượng và các sai phân bậc 1 và bậc 2
của 13 hệ số này. Các HMM có hàm mật độ xác
suất liên tục. Việc hiệu chỉnh các vector MFCC và
ghép giá trị F0 sử dụng phương pháp đã trình bày
ở trên.

Bảng 4: Bảng kết quả thực nghiệm kiểm tra trên
tập 10 người nói.
Người

đọc
Đặc trưng
chuẩn
MFCC
Đặc trưng
MFCC +
F0
VTLN-
MFCC +
F0
mức
từ
mức
câu
mức
từ
mức
câu
mức
từ
mức
câu
Nu1 98,3 96,5 99,5 96,0 98,7 96,8
Nu2 99,0 97,0 99,0 96,4 99,0 96,7
Nu3 98,5 96,8 98,4 96,0 98,4 97,0
Nu4 99,4 98,4 98,8 96,5 98,9 98,2
Nu5 98,5 96,1 98,9 96,5 99,2 97,5
Nu6 95,7 94,7 97,1 96,9 98,8 97,2
Nu7 98,7 96,6 98,6 97,5 99,1 97,5
Nam1 99,5 98,5 99,5 98,0 99,5 98,3

Nam2 98,3 96,0 98,5 96,4 98,7 97,7
Nam3 99,1 97,8 99,0 97,9 99,3 98,2
Trung
bình
98,5 96,8
4
98,7
3
96,8
1
98,9
6
97,5
1

Quan sát bảng thực nghiệm 2, kết quả nhận dạng
của “Nu6” thấp do đây là một giọng nói tiếng
miền Nam, thanh điệu và các tham số VTL hoàn
toàn khác so với các giọng đọc trong tập huấn
luyện (chỉ có giọng miền Bắc).

8. Kết luận và hướng phát triển
Theo nội dung đã trình bày ở trên, các giá trị của
đường F0 và độ dài bộ phận cấu âm của mỗi giọng
nói đã ảnh hưởng đến kết quả nhận dạng khẩu lệnh
tiếng Việt. Để tích hợp các giá trị này vào hệ thống
nhận dạng, đầu tiên áp dụng phép chuẩn hóa kiểu
VTLN cho tiếng nói đầu vào để hiệu chỉnh lại tần
số trước khi tính các hệ số MFCC như thông
thường, và chuyển tới bộ huấn luyện hoặc giải mã

của các HMM. Phép chuẩn hóa cho phép một giọng
nói mới được thích ứng nhanh với hệ thống nhận
dạng tiếng nói mà không cần phải huấn luyện lại,
thích hợp với thực tế sử dụng tiếng nói nhúng trong
các vi hệ thống để điều khiển thiết bị tự hành.
Ngoài ra chúng tôi cũng đã sử dụng được các đặc
điểm mạnh về lọc nhiễu tín hiệu tương tự, tính năng
DMA của họ PSoC để nâng cao chất lượng tín hiệu
tiếng nói và tối ưu tốc độ xử lý. Hệ điều khiển tiếng
nói đã có một quy trình sử dụng hợp lý để đảm bảo
an toàn khi hoạt động, giảm thiểu ảnh hưởng của
nhiễu môi trường dẫn đến nhận dạng nhầm, không
cho phép điều thiết bị tự hành hoạt động nằm ngoài
mong muốn. Ngoài ra
Kết quả thực nghiệm được áp dụng vào vấn đề nhận
dạng khẩu tiếng Việt đã chứng tỏ phương pháp đề
xuất cải tiến được đáng kể kết quả nhận dạng của hệ
thống nhận dạng khẩu lệnh tiếng Việt độc lập người
nói.

Tài liệu tham khảo
[1] V. RODELLAR-BIARGE, C. GONZALEZ-
CONCEJERO, E: MARTINEZ DE ICAYA, A.
ALVAREZ-MARQUINA, and P. GÓMEZ-
VILDA, Hardware Reusable Design of Feature
Extraction for Distributed Speech Recognition,
Proceedings of the 6th WSEAS International
Conference on Applications of Electrical
Engineering, Istanbul, Turkey, May 27-29, 2007.
[2] Ravi Coote, Development of a Voice Control

Interface for Navigating Robots and Evaluation
in Outdoor Environments, Proceedings of the
International Multiconference on Computer
Science and Information Technology pp. 381–
388, ISBN 978-83-60810-27-9, ISSN 1896-
7094.
[3] Daniel Elenius, Mats Blomberg, Dynamic vocal
tract length normalization in speech recognition,
Proceedings from Fonetik 2010 Lund, 2010,
ISSN 0280-526X, 29-34.
[4] Tadashi Emori, Koichi Shinoda, Rapid vocal tract
length normalization using maximum likelihood
estimation, EUROSPEECH 2001 – Scandinavia,
Aalborg, Denmark, 2001.
[5] Yuet-Ming Lam, Man-Wai Mak, Philip Heng-
Wai Leong, FIXED-POINT
IMPLEMENTATIONS OF SPEECH
RECOGNITION SYSTEMS.
[6] Chin-Hui Lee, Haizhou Li, Lin-shan Lee, Ren-
Hua Wang, Qiang Huo, Advances In Chinese
Spoken Language Processing, World Scientific
Publishing Co.Pte.Ltd, 2007, ISBN-13 978-981-
256-904-2, (25-31).
[7] Li Lee, Richard C. Rose. Speaker normalization
using efficient frequency warping procedures.
ICASSP 1996, Atlanta, Georgia, USA, 1996.
[8] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN
cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin
học và Điều khiển học, trang 273 – 282, Tập 27,
số 3, 2011.

[9] Sankaran Panchapagesan *, Abeer Alwan,
Frequency warping for VTLN and speaker
558 Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh
VCM2012
adaptation by linear transformation of standard
MFCC. Computer Speech and Language 23
(2009) , 42–64.
[10] William R. Rodr´ıguez, Oscar Saz, Antonio
Miguel and Eduardo Lleida On line vocal tract
length estimation for speaker normalization in
speech recognition, VI Jornadas en Tecnología
del Habla and II Iberian SLTech Workshop,
FALA 2010, Vigo, Spain, 2010.
[11]Juhani Saastamoinen, Evgeny Karpov, Ville
Hautamäki, Pasi Fränti, Automatic Speaker
Recognition for Series 60 Mobile Devices.
SPECOM’2004: 9th Conference Speech and
Computer St. Petersburg, Russia September 20-
22, 2004.
[12]Engling Yeo, Automated Low-Power ASIC
Design For Speech Processing.
[13]Puming Zhan and Alex Waibel, “Vocal tract
length normalization for large vocabulary
continuous speech recognition”, Technical
report, CMU-LTI-97-150, 1997.
[14]Puming Zhan, Martin Westphal, Speaker
normalization based on frequency warping,
ICASSP 1997, Munich , Bavaria, Germany,
1997.
[15] Jia-Ching Wang, Jhing-Fa Wang*, Yu-Sheng

Weng, Chip design of MFCC extraction for
speech recognition, INTEGRATION, the VLSI
journal 32 (2002) 111–131.
[16]Shizhen Wang, Yi-Hui Lee, Abeer Alwan, Bark-
shift based nonlinear speaker normalization
using the second subglottal resonance,
INTERSPEECH 2009, Brighton UK,2009,
(1619-1622).
[17]Tài liệu kỹ thuật : PSoC® 5: CY8C55 Family
Datasheet. Cypress.
[18]Tài liệu kỹ thuật OMAP3530,

[19]Đề tài cấp Bộ Thông tin và truyền thông 2011,
Nghiên cứu thiết kế và chế tạo hệ thống điều
khiển bằng hội thoại tiếng nói tiếng Việt hai
chiều tích hợp cho xe lăn điện thông minh.

Proceedings VCM 2012 75 thiết kế hệ thống nhận dạng khẩu lệnh tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về