Tải bản đầy đủ (.pdf) (3 trang)

Xây dựng phương pháp giảm tỷ lệ bỏ qua trên Voicetrans

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (323 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

XÂY DỰNG PHƯƠNG PHÁP GIẢM TỶ LỆ BỎ QUA
TRÊN VOICETRANS
Đỗ Văn Hải
Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email:

suy giảm đáng kể chất lượng của tiếng nói.
Dẫn đến người transcriber khó khăn hơn
trong việc nghe chính xác văn bản cần gõ.
Bảng 1 thể hiện kết quả làm voicetrans với
dữ liệu thoại. Tổng số 224.839 segment được
đưa lên voicetrans, các transcriber đã bỏ qua
194.723 segment tương đương với 87%.

1. GIỚI THIỆU CHUNG

Để huấn luyện mơ hình nhận dạng tiếng
nói, yếu tố tiên quyết đó là dữ liệu huấn
luyện [1]. Với các hệ thống nhận dạng
thương mại cần ít nhất hàng nghìn giờ dữ
liệu huấn luyện. Tại Viettel, chúng tơi thu
thập rất nhiều nguồn tiếng nói khác nhau từ
Internet như Youtube hoặc từ các tổng đài
chăm sóc khách hàng. Những dữ liệu thơ sau
đó sẽ được cắt thành các đoạn (segment) nhỏ
vài giây nhờ bộ VAD (voice activity
detector). Những segment này sẽ được đưa
cho người nghe (transcriber) để gõ văn bản
tương ứng với segment đó. Bài tốn này gọi
là bài tốn voicetrans.


Tuy nhiên trong q trình thực tế làm
voicetrans, chúng tơi nhận thấy có rất nhiều
trường hợp transcriber khơng nghe rõ được
đoạn audio có thể do nhiễu, nhiều người
nói lẫn, hoặc câu đó quá khó nghe,… Do
vậy, transcriber khơng thể gõ được chính
xác văn bản tương ứng. Với những segment
này, transcriber được phép bỏ qua. Với việc
áp dụng cơ chế bỏ qua này đã giúp cho việc
thống nhất giữa người transcriber và người
reviewer trở nên dễ dàng hơn, tránh việc
không thống nhất, dẫn đến review đi,
review lại vừa tốn thời gian, vừa gây ức chế
cho người làm.
Trong q trình làm voicetrans, chúng tơi
nhận thấy dữ liệu từ các nguồn như cuộc gọi
thoại chăm sóc khách hàng thì tỉ lệ bỏ qua
lớn hơn rất nhiều so với những nguồn như từ
Youtube. Điều này có thể được giải thích là
chất lượng đường truyền điện thoại với tần
số lấy mẫu 8kHz và các chuẩn nén thoại làm

Bảng 1. Thống kê kết quả làm với dữ liệu
thoại theo số segment
Tổng

Đã làm

Bỏ qua


224839

30116

194723

13%

87%

Tỷ lệ bỏ qua cao như vậy dẫn đến năng
suất bị giảm, người transcriber phải nghe
trung bình 100 segment mà chỉ lấy được 13
segment để gõ văn bản trong khi vẫn mất
thời gian nghe 87 câu bỏ qua. Vấn đề đặt ra ở
đây là làm sao giảm được tỷ lệ bỏ qua xuống
mà vẫn giữ được chất lượng dữ liệu.
2. PHƯƠNG PHÁP ĐỀ XUẤT

Nhiệm vụ của chúng ta là xây dựng thuật
tốn để có thể lọc được những câu có khả
năng bỏ qua trước khi đẩy lên hệ thống
voicetrans. Để làm được điều đó, ta cần phân
tích các đặc điểm của các câu bỏ qua, so với
các câu thông thường từ đó xem các đặc tính
khác biệt để làm tiêu chí nhận diện.
Trong nghiên cứu ban đầu này, giá trị trị
số tin cậy - confidence score (CS) được sử
dụng để làm tiêu chí đánh giá. Với mỗi một
câu khi đưa vào hệ thống nhận dạng tiếng nói

CS được tính bằng tỷ số giữa xác suất của
99


Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

giả thuyết nhận dạng tốt nhất chia cho tổng
xác suất của tất cả top-N giả thuyết có thể có
[2]. Ví dụ khi CS tiệm cận đến 1 tức xác suất
của giả thiết nhận dạng tốt nhất lớn hơn rất
nhiều các giả thuyết cịn lại. Do đó ta có thể
dùng chỉ số này để đánh giá độ “dễ” hay
“khó” của một đoạn tiếng nói đối với một hệ
thống nhận dạng.

3. KẾT QUẢ THỬ NGHIỆM

Trong nghiên cứu này, ta tìm hiểu nếu ta
dùng CS để làm tiêu chí nhận diện thì ta sẽ
lọc được bao nhiêu % các câu có khả năng bị
bỏ qua.
Trong bộ cơ sở dữ liệu của chúng ta có
224.839 câu nếu ta chọn ngưỡng như câu có
CS > 0,7 mới được đưa vào hệ thống
voicetrans.
Bảng 2. Thống kê kết quả trước và sau khi
dùng CS để lọc dữ liệu.

Hình 1. Biểu đồ biễu diễn phân bố của
confidence score với các câu đã làm và bỏ qua

Hình 1 biễu diễn phân bố của CS với các
câu đã làm và bỏ qua với 1000 câu đã làm và
1000 câu ngẫu nhiên được lấy từ tập đã làm
và bỏ qua, trục tung là CS. Ta có thể thấy
rằng, trung bình thì CS của các câu đã làm
cao hơn những câu bỏ qua.
Từ những phân tích ở trên, chúng tơi đề
xuất một thuật toán đơn giản để giảm tỷ lệ bỏ
qua như sau:
Bước 1: Nhận dạng những câu trong cơ sở
dữ liệu.
Bước 2: Tính tính confidence score của
mỗi câu.
Bước 3: Lựa chọn những câu có
confidence score >  để đưa lên hệ thống
voicetrans cho transcriber làm. Trong đó α là
giá trị định nghĩa trước trong dải (0, 1).

Lọc

Tổng

Đã làm

Bỏ qua

Không

224.839
(100%)


30.116
(13%)

194.723
(87%)

CS>0,7

198.637
(100%)

29.423
(15%)

169.214
(85%)

Từ bảng 2 ta có thể thấy nếu ta dùng CS >
0,7 là tiêu chí lọc tổng số câu sẽ giảm từ
224.839 xuống 198.637. Trong đó, số câu bỏ
qua giảm từ 194.723 xuống 169.214 và tỷ lệ
bỏ qua (skip-rate) giảm từ 87% xuống 85%.
Tuy nhiên số câu đã làm cũng bị lọc bớt đi
một số. Tỷ lệ giữ lại những câu đã làm
(retain-rate) = 29.423/30.116 = 98%.
Hình 2 biểu diễn mối quan hệ giữa skiprate và retain-rate theo các giá trị CS khác
nhau. Ta có thể thấy rằng khi CS = 0 tức ta
lọc, tỷ lệ bỏ qua là 87% và ta giữ được 100%
số câu có thể gõ text. Ta tăng ngưỡng lên ta

có thể giảm tỷ lệ bỏ qua, tuy nhiên ta cũng
loại bỏ những câu có thể gõ text (thể hiện
qua đường retain giảm), điều này tức là ta
cần nhiều dữ liệu thơ hơn để làm. Ví dụ với
ngưỡng CS = 0.9 tỷ lệ bỏ qua giảm còn 73%
trong khi ta chỉ giữ lại được 45% những câu
có thể gõ text. Tức với cùng 1 lượng câu
hoàn thiện ta cần sử dụng nhiều hơn gấp
đôi dữ liệu thô đầu vào. Từ hình 2 ta có thể
chọn ngưỡng sao cho tỷ lệ bỏ qua giảm
nhanh trong khi tỷ lệ retain khơng giảm q,
ví dụ tại điểm CS = 0.94.

100


Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8

4. NHẬN XÉT

Ta có thể thấy rằng, dùng CS ta có thể làm
tiêu chí lọc để giảm tỷ lệ bỏ qua từ 87%
xuống còn 61% tương đương với việc nghe
100 câu thì có thể làm được 39 câu thay vì 13
câu. Tuy nhiên khi đó tỉ lệ dữ liệu giữ lại so
với dữ liệu gốc chỉ trên 10% tức để làm cùng
một khối dữ liệu thành phẩm, ta cần tăng
khối lượng dữ liệu thô lên gần 10 lần. Do đó
phương pháp này có thể được áp dụng với
những trường hợp ta có nhiều dữ liệu thơ.


Ngồi CS là đặc trưng mức cao (highlevel feature), ta có thể phân tích sự tương
quan, ảnh hưởng của các đặc trưng mức thấp
(low-level feature) như zero-crossing rate,
average energy, SNR, RMS,… đến các câu
bỏ qua. Và tiến tới ta có thể nghiên cứu xây
dựng mơ hình học máy để phát hiện những
câu mà người dùng có xu hướng bỏ qua.
5. KẾT LUẬN

Trong nghiên cứu này, ta đã nghiên cứu sử
dụng đặc trưng confidence score trong nhận
dạng tiếng nói làm tiêu chí lọc nhằm loại bỏ
những câu mà người làm dữ liệu tiếng nói
thường bỏ qua. Trong tương lai ta cần nghiên
cứu bổ sung thêm các đặc trưng khác giúp
việc lọc trở nên hiệu quả hơn.
6. TÀI LIỆU THAM KHẢO
[1] Hinton, Geoffrey, et al. "Deep neural
networks for acoustic modeling in speech
recognition: The shared views of four
research groups." IEEE Signal processing
magazine 29.6 (2012): 82-97.
[2] Jiang, Hui. "Confidence measures for
speech recognition: A survey." Speech
communication 45.4 (2005): 455-470.

Hình 2. Tỷ lệ % bỏ qua và % dữ liệu có thể
làm được giữ lại (retain) theo CS


101



×