Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (206.29 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

ĐÁNH GIÁ TỔNG THỂ CÁC MƠ HÌNH
NHẬN DẠNG TIẾNG NĨI VỚI CÁC YẾU TỐ KHÁC NHAU
Đỗ Văn Hải
Khoa Cơng nghệ Thông tin, Trường Đại học Thủy lợi, email:

1. GIỚI THIỆU CHUNG

Để huấn luyện mơ hình nhận dạng tiếng
nói, yếu tố quan trọng nhất đó là dữ liệu huấn
luyện [1,2]. Với các hệ thống nhận dạng
thương mại cần ít nhất hàng nghìn đến hàng
chục nghìn giờ dữ liệu audio huấn luyện. Có
rất nhiều nguồn tiếng nói khác nhau như:
 Từ Internet như Youtube (tần số lấy
mẫu 16kHz).
 Thuê người đọc văn bản có sẵn và thu
âm (tần số lấy mẫu 16kHz).
 Từ các kênh thoại như tổng đài chăm
sóc khách hàng (tần số lấy mẫu 8kHz).
Ngoài ra chúng ta cần chuẩn bị dữ liệu văn
bản (text) để huấn luyện mơ hình ngơn ngữ.
Ta có thể lấy văn bản trực tiếp từ transcript
trong dữ liệu audio. Tuy nhiên lượng dữ liệu
này thường khá ít. Một cách thơng dụng khác
thường được dùng đó là crawl văn bản từ
những trang tin tức, từ Wikipedia.
Mục đích bài báo này nhằm trả lời 2 câu
hỏi sau:
Kênh truyền điện thoại (mã hóa, nén,

đường truyền) có ảnh hưởng gì nhiều đến
chất lượng tiếng nói khơng? Nếu khơng hoặc
ít ảnh hưởng ta có thể dùng dữ liệu thu âm
trực tiếp để xây dựng mơ hình nhận dạng cho
các cuộc gọi qua điện thoại. Từ đó ta có thể
chủ động được nguồn dữ liệu, như lấy từ
YouTube, thu âm trực tiếp và có thể xây
dựng mơ hình cho trợ lý ảo cũng như
downsample xuống 8kHz cho bài toán nhận
dạng tiếng nói cuộc điện thoại.
Giọng đọc (thu âm) và giọng nói (nói tự
nhiên) có tương tự nhau khơng? Dùng mơ

hình được huấn luyện với giọng đọc có thể
nhận dạng tốt với giọng nói khơng và
ngược lại.
Trả lời được 2 câu hỏi trên sẽ giúp chúng
ta có thể xây dựng được nguồn dữ liệu huấn
luyện phù hợp với các bài tốn thực tế với
chi phí và thời gian nhỏ nhất.
2. ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA
KÊNH TRUYỀN ĐIỆN THOẠI ĐẾN
CHẤT LƯỢNG NHẬN DẠNG

Hiện nay chúng ta hầu hết sử dụng điện
thoại di động để gọi lên tổng đài có thể
qua giao thức 2G hoặc 3G. Trong q trình
này, tiếng nói được downsample xuống
8kHz sau đó mã hóa và nén với các chuẩn
khác nhau, rồi được truyền qua kênh

truyền trước khi đến tổng đài và được giải
mã. Q trình này có thể dẫn đến suy giảm
chất lượng do thuật toán nén lossy, mất gói
tin trên đường truyền, v.v. Để định lượng
sự suy giảm đó, chúng ta thiết lập một thử
nghiệm như sau.
2.1. Thiết lập thử nghiệm
Dùng máy tính phát các file audio ghi
âm sẵn, dùng jack audio 3.5mm với 2 đầu
male, một đầu cắm vào cổng speaker của
máy tính, đầu cịn lại cắm vào đầu vào
microphone của 1 bộ chia từ cổng 3.5, 4
chân (tích hợp cả mic và loa vào một) sang
2 cổng 3.5, 3 chân. Với thiết lập này tín
hiệu audio phát ra từ máy tính sẽ được thu
trực tiếp vào đầu vào mic của điện thoại và
truyền đi.

102

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

Bảng 1. Kết quả thử nghiệm sự ảnh hưởng của kênh truyền (Sai số từ - WER%).
#

Testset

Model
VTR16k

VTR8k

IPCC

1

News_16k

3.09

-

-

2

News_8k

-

3.15

7.29

3

News_phone2phone

-

3.30-3.92

8.53-8.70

4

News_8k_upsample16k

5.01

-

-

Sau đó tiến hành cuộc gọi từ điện thoại đó
đến một điện thoại khác, trong quá trình này
điều chỉnh âm lượng trên máy tính sao cho
âm thanh ko bị cắt do to quá (clipping) để an
toàn ta giảm volume thêm 50% so với
ngưỡng bị clipping.
Trong thử nghiệm này ta dùng tập dữ liệu
news được thu âm giọng người đọc phát triển
bởi SpeechOcean (tập News Corpus). Sau
cùng ta có 4 tập dữ liệu kiểm thử (testset) để
so sánh như sau.
 News_16k: Dữ liệu audio gốc 16k trong
News corpus.
 News_8k: Dữ liệu audio gốc trong
News corpus nhưng được downsample

xuống 8kHz.
 News_phone2phone: Dữ liệu audio
được truyền từ điện thoại đến điện thoại
hoặc từ điện thoại đến tổng đài.
 News_8k_upsample16k: Dữ liệu 8k
được upsample lên 16k để test với
model 16k.
2.2 Kết quả thử nghiệm
Kết quả thử nghiệm được trình bày trên
Bảng 1 dưới các con số là sai số từ (word error
rate %). Ba model nhận dạng tiếng nói được sử
dụng trong thử nghiệm này bao gồm:
 Model IPCC được huấn luyện với dữ
liệu thoại chăm sóc khách hàng.
 Model VTR16k được huấn luyện với dữ
liệu ghi âm.
 Model VTR8k được huấn luyện với dữ
liệu ghi âm nhưng được downsample
xuống 8kHz.

Từ Bảng 1 ta có thể thấy rằng, với model
VTR16k ta cho kết quả 3.09% WER và ta
chỉ suy giảm 1 chút xuống 3.15% khi dùng
model VTR8k.
Bây giờ ta quan sát dòng thứ 2 và thứ 3
để đánh giá chất lượng audio thu âm trực
tiếp và qua kênh điện thoại. Ta thấy rằng với
cả hệ thống VTR8k và IPCC đều bị suy
giảm đôi chút, nhưng không nhiều. Chú ý
rằng trên dòng 3 chúng ta chạy rất nhiều thí

nghiệm với các điện thoại khác nhau cũng
như các lần gọi khác nhau và kết quả nằm
trong dải như trên. Điều đặc biệt là ngay cả
với hệ thống IPCC được coi là phù hợp
(match) với dữ liệu qua kênh điện thoại
cũng bị suy giảm chất lượng. Điều này
chứng tỏ truyền audio qua kênh điện thoại
không làm sai lệch (mismatch) với audio thu
âm trực tiếp, điều mà ta lo ngại nhất (như bị
méo, phổ bị cắt,...). Còn về sự suy giảm chất
lượng nhận dạng (WER tăng đơi chút) thì có
thể do mất mát trong quá trình biến đổi từ
file sang speech và từ speech sang file các
jack nối, rồi cả kênh truyền bị mất gói tin.
Do đó chúng ta hồn tồn có thể dùng dữ
liệu từ nguồn khác để dùng cho bài tốn
nhận dạng qua kênh điện thoại và hầu như
khơng có mismatch gì giữa audio thu âm
trực tiếp và qua kênh điện thoại.
Trên dòng thứ 4 của Bảng 1, ta upsample
audio thu âm trực tiếp bộ test từ 8k lên 16k ta
thấy rằng kết quả nhận dạng rất tệ không
bằng dùng VTR8k nhận dạng 8k. WER tăng
từ 3.09% lên đến 5.01% hứng tỏ sự sai khác
(mismatch) rất lớn giữa tín hiệu và mơ hình.

103

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

3. ĐÁNH GIÁ SỰ ẢNH HƯỞNG CÁCH
NÓI ĐẾN HỆ THỐNG NHẬN DẠNG

Trong phần này ta sẽ nghiên cứu cách nói
(đọc và nói) ảnh hưởng như thế nào đến hệ
thống nhận dạng. Để trả lời câu hỏi đó, ta thử
nghiệm với 2 bộ dữ liệu. Trong cả 2 bộ dữ
liệu test này chỉ có giọng của một người
nhưng nói trong 2 hoàn cảnh khác nhau.
 Testset1: Giọng đọc tại diễn văn.
 Testset2: Giọng nói trong một cuộc trị
chuyện.
Bảng 2. Kết quả thử nghiệm sự ảnh hưởng
của cách nói (WER%).
#

Model

Testset

VTR8k

IPCC

1

Testset1

22.82

32.41

2

Testset2

40.27

27.60

Ta dùng 2 model là VTR8k (huấn luyện
bằng giọng đọc) và IPCC (huấn luyện bằng
dữ liệu thoại). Kết quả WER được biểu
diễn trên Bảng 2. Ta thấy rằng ở dòng 1, là
giọng đọc, VTR model cho kết quả tốt hơn
rõ rệt IPCC. Tuy nhiên ở bộ dữ liệu thứ 2
có kết quả ngược lại hồn tồn. Mơ hình
VTR cho kết quả rất kém với giọng nói
chuyện tự nhiên. Trong khi đó mơ hình
IPCC thậm chí lại cho kết quả tốt hơn tập
testset1, cái được coi là tập test dễ hơn.
Điều này chứng tỏ rằng, khơng phải kênh
truyền mà chính là giọng đọc, cách đọc mới
là yếu tố ảnh hưởng chính đến chất lượng
hệ thống nhận dạng. Do đó để xây dựng
được hệ thống nhận dạng đủ tốt ta cần có
dữ liệu huấn luyện có nhiều giọng nói khác
nhau đặc biệt là giọng tự nhiên. Cũng chú ý
rằng nếu dữ liệu có giọng nói tự nhiên thì

thường cũng có một phần giọng đọc trong
đó. Ví dụ giọng phát thanh viên, giọng điện

thoại viên được coi là khá chuẩn mực và
giọng khá đều khá giống với giọng đọc.
4. KẾT LUẬN

Trong bài báo này chúng tôi đã phần nào
trả lời được 2 câu hỏi quan trọng và có
những kết luận như sau:
 Kênh truyền điện thoại khơng ảnh
hưởng nhiều đến chất lượng của tiếng
nói. Hầu như khơng có sự mismatch
giữa tiếng nói thu trực tiếp và qua kênh
điện thoại. Việc downsample từ 16kHz
xuống 8kHz chỉ làm giảm vài % sai số
tương đối (relative word error rate).
 Giọng đọc và giọng nói rất khác nhau đối
với một hệ thống nhận dạng tiếng nói.
Từ những kết luận trên ta có thể đưa ra
giải pháp nhằm tăng cường chất lượng nhận
dạng như
 Tăng cường thu thập thêm dữ liệu học là
giọng nói (giọng tự nhiên) từ các nguồn
như YouTube, VTV, VOV, tổng đài.
 Các dữ liệu trên có thể dùng lẫn cho
nhau cho các ứng dụng khác nhau do ít
bị ảnh hưởng bởi yếu tố kênh truyền
điện thoại như đã phân tích trong
nghiên cứu này.

5. TÀI LIỆU THAM KHẢO
[1] Hinton, Geoffrey, et al. "Deep neural
networks for acoustic modeling in speech
recognition: The shared views of four
research groups." IEEE Signal processing
magazine 29.6, pp. 82-97, 2012.
[2] Nguyen Quoc Bao, Mai Van Tuan, Le
Quang Trung, Dam Ba Quyen, and Do Van
Hai "Development of a Vietnamese Large
Vocabulary
Continuous
Speech
Recognition
System
under
Noisy
Conditions." in Proceedings of the Ninth
International Symposium on Information
and Communication Technology, pp. 222226. ACM, 2018.

104

Đánh giá tổng thể các mô hình nhận dạng tiếng nói với các yếu tố khác nhau

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về