Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (273.45 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG NÓI
SỬ DỤNG KỸ THUẬT RNN
LANGUAGE MODEL RESCORING
Đỗ Văn Hải
Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email:

1. GIỚI THIỆU CHUNG

Hiện nay chúng ta đang sử dụng mơ hình
ngơn ngữ n-gram để phục vụ cho bài tốn
nhận dạng tiếng nói. Mơ hình n-gram được
xây dựng bằng việc dự đốn xác suất của từ
tiếp theo dựa trên (n-1) từ phía trước nó.
Điều này được thực hiện bằng việc thống kê
các mẫu từ liền nhau trong tập văn bản huấn
luyện. Mơ hình n-gram có kiến trúc đơn giản,
dễ dàng tích hợp vào hệ thống nhận dạng dựa
trên framework FST như Kaldi [1]. Tuy
nhiên n-gram có nhược điểm là mơ hình hóa
về ngơn ngữ khơng mạnh, ví dụ:
 Do n nhỏ thường là 3, 4, 5 do đó ta
khơng thể lưu trữ được những long
history của một từ, mà trong thực tế, đôi
khi một từ phụ thuộc cả vào những từ
trước xa nó.
 N-gram được ước lượng thuần túy dựa
vào việc đếm tần suất các cặp từ trong tập
văn bản huấn luyện. Trong đó, các từ là
các thực thể độc lập khơng có mối liên hệ

về ngữ nghĩa.
Để khắc phục nhược điểm đó, đã có nhiều
nghiên cứu khác nhau nhằm xây dựng mơ
hình ngơn ngữ tốt hơn, trong đó phổ biến
nhất là RNN-LM (Recurrent Neural Network
Language Model) [2]. Mơ hình này dựa trên
mạng học sâu nhằm giải quyết những nhược
điểm của mơ hình n-gram. Tuy nhiên bởi vì
RNNLM có thể lưu trữ một lịch sử vơ hạn
các từ phía trước nên nó khơng thể trực tiếp
kết hợp với mơ hình âm học và từ điển phát
âm thành một static decoding graph. Do vậy

để tận dụng được ưu điểm của RNNLM ta
thực hiện theo cách như sau:
 Bước 1: Dùng n-gram LM để nhận
dạng. Tuy nhiên trong trường hợp này
ta không chỉ đưa ra 1 kết quả nhận
dạng tốt nhất (1-best) mà ta đưa ra một
khơng gian các kết quả có thể có
(decoding lattice).
 Bước 2: Sử dụng mơ hình RNN-LM để
thay đổi trọng số (rescore) của decoding
lattice và từ đó tìm ra kết quả tốt nhất
đưa cho người dùng.
2. HỆ THỐNG NHẬN DẠNG TIẾNG NĨI
SỬ DỤNG KỸ THUẬT RNN-LM
RESCORING

Hình 1 mơ tả sơ đồ hệ thống nhận dạng sử

dụng kỹ thuật RNN-LM rescoring.
Quá trình huấn luyện: n-gram LM và
RNN-LM được huấn luyện sử dụng tập text
từ nguồn web như sfive kết hợp với transcript
từ Youtube. Về nguyên tắc ta có thể sử dụng
các nguồn text khác nhau để huấn luyện 2
LM này. Cũng lưu ý rằng thời gian huấn
luyện của RNN-LM lâu hơn rất nhiều lần mơ
hình n-gram (lên đến khoảng 2 tuần với 3GB
dữ liệu text).
Quá trình triển khai (decode): Ta sử dụng
mơ hình nhận dạng thơng thường với mơ
hình ngơn ngữ n-gram để sinh ra lattices. Sau
đó ta sử dụng RNN-LM để rescore lattice để
tạo ra lattice mới. Cuối cùng ta tìm kết quả
nhận dạng bằng cách tìm đường đi tốt nhất
trên lattice mới.

96

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

Hình 1. Sơ đồ hệ thống nhận dạng sử dụng kỹ thuật RNN-LM rescoring
Bộ test

Hệ thống
1hkehet

bmhh

fpt

vcson

vivos

vlsp2019

vlsp2018

voicenote

Mơ hình gốc

8.62

14.58

17.08

13.21

6.16

21.23

4.24

21.39

+RNNLM
rescoring

7.11

12.25

16.38

11.72

6.01

19.79

3.80

19.29

Relative
Improvement

17.5%

16.0%

4.1%

11.3%

2.4%

6.8%

10.4%

9.8%

Bảng 1. Word Error Rate (%) cho bởi hệ thống nhận dạng gốc và sau khi sử dụng RNNLM
rescoring với các tập test khác nhau

Về nguyên tắc giải pháp này sử dụng cho
nhận dạng offline. Có nghĩa là khi bước 1 ta
nhận dạng hết 1 câu để sinh ra lattice sau đó
ta mới áp dụng lattice rescoring trên lattice
đó. Tuy nhiên, ta có thể tăng tốc q trình đó
bằng cách kết hợp cả code nhận dạng và code
rescoring trên cùng 1 code để ta khơng phải
ghi lattice xuống ổ cứng.
3. THÍ NGHIỆM

3.1. Thiết lập thí nghiệm

Ta sử dụng 3000 giờ dữ liệu Youtube kết
hợp với kỹ thuật data augmentation để huấn
luyện mô hình âm học (acoustic model).
Mơ hình n-gram được huấn luyện từ
webtext (2.3GB) được lấy từ sfive kết hợp
với 210 MB text từ transcript của Youtube.

Trong khi RNN-LM được huấn luyện chỉ với
210MB từ dữ liệu Youtube (do thời gian hạn
chế). Mơ hình RNN-LM train với tồn bộ dữ
liệu đang được thực hiện hi vọng sẽ cho kết
quả tốt hơn.
Test set

Rescoring
weight

1hkehet

bmhh

FPT

vcson

vivos

vlsp2019

vlsp2018

voicenote

0 (no-rescoring)
baseline

8.62

14.58

17.08

13.21

6.16

21.23

4.24

21.39

0.30

7.65

13.10

15.77

12.15

5.63

19.89

3.81

20.03

0.40

7.48

12.78

15.62

11.94

5.63

19.76

3.78

19.77

0.50

7.29

12.59

15.70

11.86

5.74

19.60

3.75

19.7

0.60

7.21

12.42

15.83

11.78

5.79

19.60

3.77

19.55

97

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

0.70

7.12

12.26

16.01

11.78

5.94

19.66

3.79

19.34

0.80

7.11

12.25

16.38

11.72

6.01

19.79

3.80

19.29

0.90

7.14

12.28

16.67

11.76

6.24

19.93

3.79

19.33

0.99

7.14

12.36

16.86

11.88

6.50

20.14

3.86

19.33

1.00

7.14

12.38

16.83

11.87

6.49

20.15

3.86

19.33

Bảng 2. Ảnh hưởng của rescoring weight đến sai số nhận dạng (WER) trên bộ test khác
nhau (các giá trị được gạchchân là điểm mơ hình đạt kết quả tốt nhất)

gần với dữ liệu huấn luyện của RNNLM
(Youtube transcript) như 1hkehet, bmhh,
vcson thì rescoring weight tối ưu thường cao
~ 0.8 tức với những tập test đó ảnh hưởng
của mơ hình.

3.2. Kết quả thí nghiệm với các tập test
khác nhau
Kết quả thử nghiệm kỹ thuật RNNLM
rescoring trên các tập test khác nhau rất khả
quan. Sai số được giảm rất đáng kể trên đa
số các tập, đặc biệt các tập test có phong
cách nói chuyện đối thoại như Youtube như
1hkehet (1 giờ kể hết), bmhh (bạn muốn
hẹn hò), vcson (vợ chồng son), tập thời sự
như VLSP 2018, và thậm chí tập dữ liệu
thực tế voicenote. Sau đây ta sẽ cùng xem
xét ảnh hưởng của các tham số đến quá
trình rescoring.

4. KẾT LUẬN

Trong nghiên cứu này ta đã thành công
trong việc sử dụng kỹ thuật sử dụng mơ hình
ngơn ngữ trên mạng nơ ron hồi quy (RNNLM) để nâng cao chất lượng nhận dạng. Thử

nghiệm trên các tập test khác nhau cho kết
quả rất khả quan, sai số giảm đi rõ rệt. Trong
thời gian tới ta sẽ nghiên cứu cách thức để tối
ưu thời gian xử lý trong khi vẫn giữ được
chất lượng của kỹ thuật LMRNN rescoring.

3.3. Ảnh hưởng của rescoring weight
đến chất lượng nhận dạng
Cách thức hoạt động của RNNLM
rescoring đó là thay thế một phần hoặc hồn
tồn điểm số cho bởi n-gram LM trong
lattice thông qua một tham số rescoring
weight. Khi tham số này bằng 0 có nghĩa là
chúng ta không sử dụng rescoring và khi
bằng 1 tức chúng ta thay thế hồn tồn ngram bằng RNNLM.
Bảng 2 mơ tả chi tiết sự ảnh hưởng của
rescoring weight đến các bộ test khác nhau,
ta có thể thấy rằng với các bộ test khác nhau
giá trị tối ưu của rescoring weight sẽ khác
nhau. Đó là do đặc tính ngơn ngữ của các bộ
test khác nhau. Ta có thể thấy với các tập test

5. TÀI LIỆU THAM KHẢO
[1] Povey, Daniel, et al. "The Kaldi speech
recognition toolkit." IEEE 2011 workshop
on automatic speech recognition and
understanding. No. CONF. IEEE Signal
Processing Society, 2011.
[2] Tomas Mikolov, Stefan Kombrink, Anoop
Deoras, Lukar Burget, and Jan Cernocky,

“Rnnlm-recurrent neural network language
modeling toolkit,” in Proc. of the 2011
ASRU Workshop, 2011, pp. 196-201.

98

Nâng cao chất lượng nhận dạng tiếng nói sử dụng kỹ thuật RNN Language Model Rescoring

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về