Tải bản đầy đủ (.pdf) (3 trang)

Phương pháp phân tách, nhận dạng tiếng nói trong tổng đài chăm sóc khách hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (175.47 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

PHƯƠNG PHÁP PHÂN TÁCH, NHẬN DẠNG TIẾNG NÓI
TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG
Đỗ Văn Hải
Trường Đại học Thủy lợi, email:

1. MỞ ĐẦU

Ngày nay, số lượng các cuộc gọi chăm sóc
khách hàng tăng lên nhanh chóng trong rất
nhiều lĩnh vực như viễn thơng, tài chính, điện
lực, bán lẻ,… Do đó, làm sao để biết được
mong muốn, băn khoăn của khách hàng cũng
như các điện thoại viên của mình có tư vấn
chính xác, đúng mực hay khơng là một nhu
cầu cấp thiết đối với người quản lý. Việc này
có thể thực hiện thủ công bằng cách sử dụng
người giám sát nghe ngẫu nhiên một số cuộc
gọi. Tuy nhiên phương pháp này tốn kém về
nhân lực, chậm trễ về mặt thời gian trong khi
thông tin thu được lại phụ thuộc vào chủ
quan của người giám sát.
Trong nghiên cứu trước đây [1], chúng tôi đã
sử dụng công nghệ nhận dạng tiếng nói để
chuyển đổi tồn bộ các cuộc gọi chăm sóc
khách hàng thành văn bản. Sau đó áp dụng
cơng nghệ xử lý ngơn ngữ tự nhiên để phân tích
nội dung, sắc thái trong văn bản từ đó biết được
nội dung cũng như cảm xúc của khách hàng.
Để làm điều này, chúng ta cần thực hiện


nhận dạng giọng nói riêng biệt cho phía
khách hàng và phía điện thoại viên. Tuy
nhiên, tại nhiều tổng đài tại Việt Nam, luồng
tín hiệu âm thanh của điện thoại viên và
khách hàng bị trộn lẫn với nhau do nhiều
nguyên nhân như tiết kiệm dung lượng phần
cứng, lưu trữ. Điều này dẫn đến hệ thống
giám sát [1] hoạt động khơng chính xác vì ta
khơng thể biết đoạn âm thanh nào do điện
thoại viên hay khách hàng nói. Lý do là, cùng
một câu nói nếu được nói bởi người điện
thoại viên có thể có ý nghĩa rất khác với lời
nói của khách hàng. Do đó, để giám sát các

tổng đài như vậy, điều quan trọng là phải
phân tách được đoạn nào là khách hàng, đoạn
nào là do điện thoại viên nói.
Trong bài báo này, chúng tơi đã đề xuất một
phương pháp để xác định lời nói của điện thoại
viên và khách hàng trong một cuộc điện thoại
có hai kênh trộn lẫn vào nhau. Đầu tiên, ta
phân cụm các phân đoạn giọng nói trong cuộc
hội thoại kênh hỗn hợp thành hai cụm bằng
cách sử dụng thông tin đặc trưng về người nói
trong tiếng nói. Sau đó, kỹ thuật mơ hình hóa
ngơn ngữ hoạt động cùng với hệ thống nhận
dạng tiếng nói (ASR) để xác định nhãn điện
thoại viên / khách hàng cho mỗi phân đoạn.
Kết quả thực nghiệm cho thấy độ chính xác
của phương pháp đề xuất là hơn 95%.

2. PHƯƠNG PHÁP ĐỀ XUẤT

Phương pháp đề xuất bao gồm các bước
sau đây.
Bước 1: thu thập dữ liệu tiếng nói các cuộc
gọi tổng đài để phân tách, gán nhãn văn bản thủ
công. Bước này được thực hiện bằng các
phương thức khác nhau như lấy tệp tiếng nói
trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng, băng
từ,… hoặc thông qua các kết nối mạng dữ liệu,
mỗi một tệp ứng với một cuộc gọi tổng đài.
Bước 2: phân tách và gán nhãn văn bản
cho các tệp tiếng nói. Tại bước này, đưa các
tệp tiếng nói ở bước 1 lên hệ thống gán nhãn
để người gán nhãn nghe, phân tách và gán
nhãn văn bản cho phần nói của điện thoại
viên và khách hàng. Đầu ra của bước này là
các tập tiếng nói đã được phân loại và gán
nhãn riêng biệt thành tập tiếng nói của điện
thoại viên và tập tiếng nói của khách hàng.

104


Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

Bước 3: tạo tập huấn luyện và kiểm thử.
Theo đó, khi dữ liệu tiếng nói được gán
nhãn trong tệp của điện thoại viên và tệp
của khách hàng ở bước 2 đều ≥ Hlabel_min giờ

dữ liệu, trong đó Hlabel_min ≥ 10 giờ nhằm
đảm bảo tập dữ liệu đủ lớn. Người quản trị
quyết định lựa chọn một số tệp tiếng nói đã
được gán nhãn ở bước 2 để tạo tập huấn
luyện, các tệp còn lại được sử dụng để tạo
tập kiểm thử với yêu cầu kích thước tập
kiểm thử cần lớn hơn Htest_min giờ dữ liệu,
trong đó Htest_min ≥ 2 giờ nhằm đảm bảo tập
kiểm thử đủ lớn và tin cậy.
Bước 4: xây dựng hai mơ hình ngơn ngữ,
LMa cho điện thoại viên và LMb cho khách
hàng dựa trên tập dữ liệu huấn luyện được
tạo ở bước 3 nhằm lưu trữ những đặc điểm về
ngơn ngữ nói như các cụm từ thường xuyên
nói của điện thoại viên và khách hàng từ đó
để phân biệt được câu nói của điện thoại viên
hay khách hàng ở các bước sau. Trong
nghiên cứu này, các mơ hình ngơn ngữ được
xây dựng là 4-gram.
Bước 5: thu thập dữ liệu tiếng nói các cuộc
gọi tổng đài cần phân tách, nhận dạng tự
động. Bước này được thực hiện bằng các
phương thức khác nhau như lấy tệp tiếng nói
trực tiếp từ thiết bị lưu trữ như ổ đĩa cứng,
băng từ,… hoặc thông qua các kết nối mạng
dữ liệu, mỗi một tệp ứng với một cuộc gọi
tổng đài.
Bước 6: tự động cắt tệp tiếng nói thành các
đoạn nhỏ. Với mỗi tệp tiếng nói thu được ở
bước 5, tiếng nói được tự động cắt thành các

đoạn dựa theo các đặc tính về tín hiệu. Trong
nghiên cứu này, chúng tơi dựa vào một mơ
hình học máy đã được huấn luyện trước để
phân biệt phần nào là tiếng nói, phần nào
khơng phải tiếng nói của con người.
Bước 7: trích chọn các véc tơ đặc trưng
người nói. Tất cả các các đoạn tiếng nói thu
được ở bước 6 được trích chọn véc tơ đặc
trưng người nói bằng cách sử dụng một mạng
trích chọn đặc trưng được huấn luyện trước
như mạng nơ rơn học sâu (DNN) [2]. Với
mỗi đoạn tiếng nói sẽ thu được một véc tơ
đặc trưng người nói tương ứng.

Bước 8: phân cụm các đoạn tiếng nói. Với
mỗi tệp tiếng nói, phân cụm các đoạn tiếng
nói ở bước 6 thành 2 cụm C1 và C2 dựa trên
các véc tơ đặc trưng người nói được trích
xuất ở bước 7.
Bước 9: chuyển đổi tiếng nói sang văn
bản. Tất cả các đoạn tiếng nói ở bước 6 được
chuyển sang văn bản bằng cách sử dụng hệ
thống nhận dạng tiếng nói. Với mỗi đoạn
tiếng nói thu được một văn bản tương ứng và
một chỉ số độ tin cậy nhận dạng DTC có giá
trị từ 0 đến 1.
Bước 10: lựa chọn đoạn tiếng nói thỏa
mãn điều kiện làm căn cứ phân loại. Với mỗi
một tệp tiếng nói, lựa chọn đoạn tiếng nói
trong bước 9 thỏa mãn điều kiện: có độ tin

cậy DTC ≥ α, trong đó 0,5 ≤ α ≤ 0,95 nhằm
loại bỏ những đoạn tiếng nói có độ tin cậy
quá thấp thường là những đoạn tiếng nói có
chất lượng q kém hoặc mơi trường q
nhiễu ảnh hưởng đến chất lượng hệ thống
phân loại. Nếu không lựa chọn được đoạn
tiếng nói nào thỏa mãn, bỏ qua tệp này và
chuyển sang tệp tiếng nói mới.
Bước 11: phân loại các đoạn tiếng nói của
điện thoại viên và khách hàng. Với các đoạn
tiếng nói được lựa chọn ở bước 10 được chia
thành hai cụm ở bước 8, tính:

trong đó PPLa1, PPLa2, PPLb1, PPLb2 là chỉ
số độ hỗn loạn (perplexity) được cho bởi các
mơ hình ngơn ngữ LMa, LMb ở bước 4 tính
với tập dữ liệu văn bản của các đoạn tiếng
nói được lựa chọn ở bước 10. PPLa1, PPLb1
được tính ứng với các đoạn trong cụm C1.
PPLa2, PPLb2 ứng với các đoạn trong cụm C2.
Ta có thể thấy rằng, nếu cụm C1 là tiếng
nói của điện thoại viên, C2 là tiếng nói của
khách hàng thì mơ hình ngơn ngữ của điện
thoại viên LMa sẽ cho giá trị PPLa1 thấp,
PPLa2 cao. Trong khi ngược lại mơ hình ngơn
ngữ của khách hàng, LMb sẽ cho giá trị
PPLb1 cao và PPLb2 thấp. Điều này dẫn đến w
ở cơng thức trên sẽ có giá trị nhỏ.
Thuật tốn phân tách như sau: nếu w ≤ θ,
tồn bộ các đoạn tiếng nói trong cụm C1


105


Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0

được xác định là điện thoại viên, toàn bộ các
đoạn tiếng nói trong cụm C2 được xác định là
khách hàng và ngược lại nếu w > θ, toàn bộ
các đoạn tiếng nói trong cụm C2 được xác
định là điện thoại viên, tồn bộ các đoạn
tiếng nói trong cụm C1 được xác định là
khách hàng. Trong nghiên cứu này ngưỡng θ
được đơn giản gán bằng 1.
3. THỬ NGHIỆM

Chúng tôi sử dụng dữ liệu được sử dụng
để đào tạo (ở bước 3) với tổng số giờ là 316,3
giờ. Các dữ liệu đào tạo này được sử dụng để
đào tạo hệ thống nhận dạng tiếng nói, trích
xuất véc tơ đặc trưng người nói và hai mơ
hình ngơn ngữ LMa, LMb. Tập kiểm thử bao
gồm 561 cuộc hội thoại được ghi lại từ các
tổng đài Viettel. Từ 561 cuộc này được phân
tách thành 29.508 đoạn trong đó 15.308 đoạn
dành cho điện thoại viên và 14.200 đoạn
dành cho khách hàng.
Chúng tôi sử dụng bộ cơng cụ nhận dạng
giọng nói Kaldi [3] được sử dụng để xây
dựng mơ-đun nhận dạng giọng nói, trích xuất

i-vector. Đặc trưng đầu vào được sử dụng là
MFCC có 40 chiều kết hợp với đặc trưng tần
số cơ bản để tăng độ chính xác với ngơn ngữ
có thanh điệu cho tiếng Việt [1]. Mơ hình âm
học được sử dụng để mơ hình hóa sự phân bố
đặc điểm giữa các âm vị khác nhau. Chúng
tôi sử dụng mạng nơron trễ thời gian
(TDNN) và bộ nhớ dài ngắn hai chiều
(BLSTM) [4] làm mô hình âm thanh. Các
thiết lập khác tương tự như [1]. Mơ hình
ngơn ngữ được sử dụng là 4-gram với tính
năng làm mịn Kneser-Ney.
Bảng 1. Kết quả phân loại điện thoại viên/
khách hàng
Thực tế
Điện thoại
Khách
viên
hàng
Nhận
dạng

Điện thoại
viên

14.566
(95,15%)

662
(4,66%)


Khách
hàng

742
(4,85%)

13.538
(95,34%)

Bảng 1 biểu diễn kết quả phân loại điện
thoại viên / khách hàng. Có thể thấy rằng đối
với cả điện thoại viên và khách hàng, độ
chính xác đạt trên 95%. Chỉ 4,66% câu nói
của khách hàng được nhận là điện thoại viên
trong khi 4,85% câu nói của điện thoại viên
được dự đoán là khách hàng.
4. KẾT LUẬN

Bài báo này đã trình bày một phương pháp
để phân tách và nhận dạng lời nói của điện
thoại và khách hàng trong một cuộc trị
chuyện qua tổng đài chăm sóc khách hàng.
Thơng tin về tiếng nói được sử dụng để phân
cụm các đoạn giọng nói thành hai cụm. Sau
đó, chúng tôi sử dụng các đặc trưng về ngôn
ngữ để gán nhãn được câu nói của điện thoại
viên hay khách hàng dựa vào giả thuyết, cách
nói của mỗi người sẽ rất khác nhau trong một
cuộc điện thoại. Kết quả thực nghiệm cho

thấy phương pháp đề xuất đạt độ chính xác
cao (trên 95%). Một số cơng việc có thể được
tiến hành trong tương lai:
 Cải thiện độ chính xác của phương pháp phân
cụm trong trường hợp dữ liệu mất cân bằng
nặng, tức là cuộc trị chuyện chủ yếu được nói
bởi điện thoại viên hoặc khách hàng.
 Sử dụng phương pháp dựa trên mạng nơron
để phân loại văn bản thay vì phương pháp
mơ hình ngơn ngữ n-gram đơn giản.
5. TÀI LIỆU THAM KHẢO
[1] Quoc Bao Nguyen, Ba Quyen Dam, Van
Hai Do and Minh Hung Le. "Development
of a Vietnamese speech recognition system
for Viettel call center." In O-COCOSDA.
IEEE, 2017.
[2] Kanagasundaram, Ahilan, et al. "I-vector
based speaker recognition on short
utterances." In INTERSPEECH, 2011.
[3] Povey, Daniel, et al. "The Kaldi speech
recognition toolkit." IEEE 2011 workshop
on automatic speech recognition and
understanding. IEEE Signal Processing
Society, 2011.
[4] Povey, D., Hadian, H., Ghahremani, P., Li,
K., & Khudanpur, S. “A time-restricted
self-attention layer for ASR”. In ICASSP,
pp. 5874-5878, 2018.

106




×