Tải bản đầy đủ (.pdf) (64 trang)

Nghiên Ứu Xây Dựng Hệ Thống Nhận Dạng Tiếng Nói Tiếng Việt Ứng Dụng Ho Phần Mềm Ghi Biên Bản Họp.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.1 MB, 64 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ
Nghiên cứu xây dựng hệ thống nhận dạng
tiếng nói tiếng Việt ứng dụng cho phần
mềm ghi biên bản họp
MAI VĂN TUẤN



Ngành Kỹ thuật Điều khiển và Tự động hóa

Giảng viên hướng dẫn:

PGS. TS. Nguyễn Quốc Cường

Viện:

Điện

Chữ ký của GVHD

HÀ NỘI, 10/2020

Tai ngay!!! Ban co the xoa dong chu nay!!! 17061132018041000000


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ


Họ và tên tác giả luận văn : Mai Văn Tuấn
Đề tài luận văn: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng
Việt ứng dụng cho phần mềm ghi biên bản họp
Chuyên ngành: Kỹ thuật Điều khiển và Tự động hóa
Mã số SV: CAC19008
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng
ngày 31/10/2020 với các nội dung sau:
- Sửa các lỗi chính tả trong luận văn.
- Thêm các trích dẫn nguồn từ các hình vẽ.
- Việt hóa các thuật ngữ tiếng anh.
- Chuẩn hóa lại các công thức và các tham chiếu đến công thức.
- Cân đối lại độ dài của các chương.
Hà Nội, Ngày tháng năm 2020
Giáo viên hướng dẫn

Tác giả luận văn

CHỦ TỊCH HỘI ĐỒNG


Kính gửi : Viện Điện
PHIẾU ĐĂNG KÝ HƯỚNG DẪN ĐỀ TÀI(*)
1. Họ và tên người hướng dẫn chính: Nguyễn Quốc Cường

Học hàm: PGS

Học vị: Tiến

2. Cơ quan: Bộ môn Kỹ thuật đo và Tin học Công nghiệp - Viện Điện - Trường

Đại học Bách khoa Hà Nội
3. Email:
38696233 NR :

DĐ: 0912 265 621

CQ : 04

4. Nội dung:
Chuyên ngành: Đo lường và các hệ thống điều khiển
a. Tên đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng
dụng cho phần mềm ghi biên bản họp
Tên tiếng Anh : Automatic speech recognition for meeting note software
b. Mục tiêu chính của đề tài:
 Xây dựng mơ hình nhận dạng tiếng nói tiếng Việt ứng dụng được vào sản
phẩm bóc băng cuộc họp
c. Nội dung của đề tài, các vấn đề cần được giải quyết:
 Xây dựng bộ dữ liệu lớn tiếng nói tiếng Việt.
 Nghiên cứu các phương pháp nâng cao chất lượng mơ hình âm học trong
điều kiện chạy thực tế
 Nghiên cứu các phương pháp xây dựng mơ hình ngơn ngữ phù hợp trong
bài tốn nhận dạng giọng hội thoại tự nhiên
 Viết bài báo khoa học

Hà Nội, Ngày tháng năm 2020
Người hướng dẫn


Lời cảm ơn
Lời đầu tiên tôi xin cảm ơn PGS.TS Nguyễn Quốc Cường, người thầy đã

tận tình hướng dẫn tơi ngay từ những ngày đầu chọn đề tài và thực hiện luận văn
này.
Tôi xin chân thành cảm ơn anh Đỗ Văn Hải, anh Lê Nhật Minh cùng những
người đồng nghiệp tại nhóm nghiên cứu xử lý tiếng nói - Trung tâm Không Gian
Mạng Viettel đã giúp đỡ, tạo điều kiện cho tơi rất nhiều trong q trình thực hiện
luận văn.
Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình, bạn bè những người luôn
ở bên và ủng hộ tôi để tơi có thể hồn thành được luận văn này.


TÓM TẮT LUẬN VĂN THẠC SĨ
Đề tài: Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng
cho phần mềm ghi biên bản họp.
Tác giả luận văn: Mai Văn Tuấn

Khóa: 2019A

Người hướng dẫn: PGS.TS Nguyễn Quốc Cường
Từ khóa (Keyword): Automatic Speech Recognition, Noise robustness acoustic
model, Coversational Language Model
Nội dung tóm tắt:
a) Lý do chọn đề tài
Vấn đề thực tế: việc ghi chép, tóm tắt lại văn bản sau mỗi cuộc họp,
cuộc phỏng vấn rất mất thời gian và công sức. Trong bối cảnh hiện nay,
cùng với sự phổ biến của trí tuệ nhân tạo, cơng nghệ nhận dạng tiếng
nói - chuyển từ tiếng nói sang văn bản đã ghi nhận những bước tiến vượt
bậc và đã đạt đến độ chín để có thể tích hợp vào các sản phẩm trợ giúp
phần ghi chép của con người. Trên thế giới, đã có nhiều doanh nghiệp
cơng nghệ lớn, đưa cơng nghệ nhận dạng tiếng nói vào trong các sản
phẩm ghi chép, ghi chú giọng nói nhưng phần lớn chỉ hỗ trợ tiếng Anh.

Tại Việt Nam, từ năm 2018 cũng đã có những sản phẩm bóc băng tiếng
Việt được đưa ra thị trường và được triển khai ở các bộ ban ngành, các
doanh nghiệp đem lại những phản hồi rất tích cực từ phía người dùng.
Vì vậy tơi đã lựa chọn đề tài “Nghiên cứu xây dựng hệ thống nhận
dạng tiếng nói tiếng Việt ứng dụng cho phần mềm ghi biên bản họp” để
nghiên cứu, đề xuất các giải pháp nâng cao chất lượng của công nghệ
chuyển đổi từ giọng nói sang chữ viết trong phần mềm ghi biên bản họp.
b) Mục đích nghiên cứu của luận văn, đối tượng và phạm vi nghiên cứu
Mơ hình nhận dạng tiếng nói được xây dựng trong luận văn cần phải
đảm bảo về chất lượng, hoạt động ổn định trong các điều kiện thực tế.
Đồng thời mơ hình cũng cần phải đáp ứng được các yêu cầu về hiệu
năng, tốc độ tối ưu của sản phẩm.


c) Tóm tắt những đóng góp mới của tác giả
-

Quy trình thu thập dữ liệu cho hệ thống nhận dạng tiếng nói dữ
liệu lớn.
Các phương pháp xây dựng mơ hình âm học ổn định với nhiễu
thực tế.
Các phương pháp xây dựng mơ hình ngơn ngữ hội thoại thích
hợp với bài toán ghi âm trong cuộc họp .

d) Bố cục của luận văn
Luận văn này bao gồm 4 chương có nội dung như sau
-

-


-

-

CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP
VÀ KHẢO SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NĨI:
Chương này mơ tả kiến trúc hệ thống của một phần mềm bóc băng
cơ bản, và nhũng khảo sát về việc ứng dụng công nghệ nhận dạng
hiện nay.
CHƯƠNG 2: TỔNG QUAN CƠNG NGHỆ NHẬN DẠNG TIẾNG
NĨI: Chương này chủ yếu nói về lý thuyết cơng nghệ nhận dạngtiếng
nói.
CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN
DẠNG TIÊNG NÓI: Chương này mơ tả các phương pháp đề xuất,
thí nghiệm của tác giả trong huấn luyện mơ hình nhận dạng.
CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM:Chương
này đề cập đến sự tích hợp của mơ hình nhận dạng tiếng nói đã xây
dựng ở chương trước vào trong sản phẩm thực tế.

Học viên thực hiện


MỤC LỤC
CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO
SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI ........................................... 1
1.1. Tổng quan phần mềm .................................................................................. 1
1.1.1. Tính năng của phần mềm ...................................................................... 1
1.2.2. Kiến trúc của phần mềm ........................................................................ 1
1.2. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói ........... 3
1.2.1. Các sản phẩm trên thế giới .................................................................... 3

1.1.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước .................... 5
1.3. Tổng kết ....................................................................................................... 5
CHƯƠNG 2: TỔNG QUAN CÔNG NGHỆ NHẬN DẠNG TIẾNG NĨI ........... 6
2.1. Giới thiệu cơng nghệ nhận dạng ................................................................. 6
2.1.1. Lý thuyết ................................................................................................ 6
2.1.2. Phương diện toán học ............................................................................ 7
2.2. Trích xuất đặc trưng ..................................................................................... 8
2.2.1. Đặc trưng MFCC ................................................................................... 9
2.2.2. Đặc trưng Pitch .................................................................................... 13
2.3. Mơ hình âm học ......................................................................................... 13
2.3.1. Mơ hình HMM-GMM ......................................................................... 13
2.3.2. Mơ hình lai ghép HMM-DNN ............................................................ 16
2. 4. Mơ hình ngơn ngữ..................................................................................... 23
2.5. Tổng kết ..................................................................................................... 25
CHƯƠNG 3: XÂY DỰNG VÀ CẢI THIỆN HỆ THỐNG NHẬN DẠNG
TIẾNG NÓI .......................................................................................................... 26
3.1. Lựa chọn công cụ ....................................................................................... 27
3.2. Chuẩn bị cơ sở dữ liệu ............................................................................... 29
3.2.1. Đặt vấn đề ............................................................................................ 29
3.2.2. Phương pháp đề xuất ........................................................................... 29
3.3.3. Thực hiện ............................................................................................. 31
3.3. Huấn luyện mô hình âm học ...................................................................... 32
3.3.1. Đặt vấn đề ............................................................................................ 32
3.3.2. Phương pháp đề xuất ........................................................................... 33
3.3.3. Thực nghiệm ........................................................................................ 35


3.4. Huấn luyện mơ hình ngơn ngữ .................................................................. 41
3.4.1. Đặt vấn đề ............................................................................................ 41
3.4.2. Phương pháp đề xuất ........................................................................... 41

3.4.3. Thực nghiệm ........................................................................................ 42
3.5. Tổng kết ..................................................................................................... 44
CHƯƠNG 4: KẾT QUẢ TÍCH HỢP VÀO SẢN PHẨM ................................... 45
4.1. Giao diện sản phẩm ................................................................................... 45
4.2. Đánh giá chất lượng ................................................................................... 46
4.3. Đánh giá hiệu năng .................................................................................... 46
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................... 49
TÀI LIỆU THAM KHẢO .................................................................................... 50


DANH MỤC HÌNH ẢNH
Hình 1-1 Kiến trúc cơ bản của phần mềm bóc băng .............................................. 2
Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói ............................... 6
Hình 2-2 Kiến trúc ASR trên phương diện toán học [4] ........................................ 7
Hình 2-3 Các bước trích xuất đặc trưng MFCC ..................................................... 9
Hình 2-4 Ảnh hưởng của tiền xử lý đến tín hiệu âm thanh .................................. 10
Hình 2-10 Sơ đồ kiến trúc HMM-DNN[4] .......................................................... 17
Hình 2-11 Kiến trúc mạng TDNN [4] ................................................................. 19
Hình 2-12 Mạng RNN điển hình .......................................................................... 20
Hình 2-13 Mạng RNN rút gọn ............................................................................. 21
Hình 2-14 Một đơn vị nhớ của mạng LSTM [4] .................................................. 22
Hình3-1 Quy trình huấn luyện đề xuất..................................................................27
Hình 3- 2 Pipline cơ bản trong Kaldi ................................................................... 28
Hình 3-3 Các tầng thư viện trong kaldi ................................................................ 28
Hình 3-4 Quy trình chuẩn bị cơ sở dữ liệu đề xuất .............................................. 30
Hình 3-5 Phân bố theo độ dài trong tập dữ liệu ................................................... 32
Hình 3-6 Phổ của tín hiệu nhiễu ........................................................................... 34
Hình 3-7 Phổ của tín hiệu có tiếng nói và nhiễu .................................................. 34
Hình 3-8 Phân bố theo số lượng của các loại noise trong tập dữ liệu .................. 36
Hình 3-9 Phân bố SNR thu được ......................................................................... 39

Hình 3-10 Phương pháp xây dựng mơ hình ngơn ngữ đề xuất ............................ 41
Hình 3-11 PPL của các mơ hình ngơn ngữ trên tập dev ...................................... 43
Hình 4-1 Giao diện ghi âm trực tiếp.....................................................................45
Hình 4-2 Giao diện giải mã file offline ................................................................ 45
Hình 4-3 Thời gian đáp ứng streaming theo độ dài audio ................................... 47
Hình 4-4 Dung lượng Ram dùng theo worker ..................................................... 47
Hình 4-5 Thời gian trả về theo số lượng thread ................................................... 48


DANH MỤC BẢNG
Bảng 3-1 Ví dụ cách thay đổi nhãn ...................................................................... 35
Bảng 3-2 Thơng số trích xuất đặc trưng............................................................... 37
Bảng 3-3 Thông tin các tập test............................................................................ 37
Bảng 3-4 Kết quả đo SNR tại các phòng họp khác nhau ..................................... 38
Bảng 3-5 Tỷ lệ lỗi WER (%) trên các tập test .................................................... 40
Bảng 3- 6 Kích thước của các tập dữ liệu và PPL tương ứng .............................. 42
Bảng 3-7 Tỷ lệ lỗi WER (%) theo các phương pháp thử nghiệm ........................ 43


DANH MỤC CÁC TỪ VIÊT TẮT VÀ THUẬT NGỮ
STT
AM
LM
VAD
ASR
WER
DFT

HMM
GMM


TÊN ĐẦY ĐỦ
Acoustic Model
Language Model
Voice Activity Detection
Automatic Speech Recognition
Word Error Rate
Discrete Fourier Transform
Inverse Discrete Fourier Transform
Mel-Frequency Cepstral
Coefficients
Hidden Markov Model
Gaussian Mixture Models

GHMM

Gaussian Hidden Markov Model

MGHMM

Mixture Gaussian Hidden Markov
Model

IDFT
MFCC

CD
DNN
LSTM
RNN

TDNN

MAP

Context Dependent
Deep Nerual Networks
Long Short Term Memory
Reccurrent Neural Network
Time Delay Neural Network
Feature space Maximum Likelihood Regression
Maximum A Posterior

VTLN

Vocal Track Length Normalisation

PLP

Perceptual Linear Prediction

CE

Cross Entropy

SGD

Stochastic Gradient Descent

RIR


Room Impulse Response

fMLLR

Ý NGHĨA
Mơ hình âm học
Mơ hình ngơn ngữ
Phát hiện tiếng nói
Nhận dạng tiếng nói tự động
Tỷ lệ lỗi theo mức từ
Biến đổi Fourier rời rạc
Biến đổi Fourier ngược
Kỹ thuật trích trọn đặc trưng dùng
bộ lọc Mel
Mơ hình Markov ẩn
Mơ hình hợp Gauss
Mơ hình HMM trong đó hàm mật
độ trong mỗi trạng thái là một hàm
Gauss
Mơ hình HMM trong đó hàm mật
độ trong mỗi trạng thái là tổ hợp
các hàm Gauss
Phụ thuộc ngữ cảnh
Mạng nơ ron học sâu
Mạng nơ ron LSTM
Mạng nơ ron truy hồi
Mạng nơ ron TDNN
Phương pháp biến đổi đặc trưng
Cực đại hóa xác suất
Phép chuẩn hóa độ dài của bộ máy

phát âm
Mã nhận thức tuyến tính
Hàm số dùng để tính loss trong
mạng nơ ron
Thuật tốn tối ưu hóa giảm dần
gradient
Đáp ứng xung trong phịng


CHƯƠNG 1: TỔNG QUAN PHẦN MỀM GHI BIÊN BẢN HỌP VÀ KHẢO
SÁT CÁC SẢN PHẨM NHẬN DẠNG TIẾNG NÓI
1.1. Tổng quan phần mềm
1.1.1. Tính năng của phần mềm
Phần mềm ghi biên bản họp đúng như tên gọi là phần mềm hỗ trợ ghi âm
cuộc họp, cuộc nói chuyện và tự động chuyển các cuộc họp đó thành văn bản. Một
số tính năng chính của phần mềm như sau:
● Hỗ trợ chuyển tiếng nói thành văn bản trực tuyến giảm thiểu thời g ian ghi
chép và đánh máy.
● Hỗ trợ chuyển tiếng nói thành văn bản từ các dữ liệu audio và video sẵn có.
● Có khả năng chỉnh sửa nội dung một cách nhanh chóng và trích xuất thơng
tin chính xác phục vụ xuất biên bản họp hoặc tra cứu tức thì.
● Tự động chuẩn hóa văn bản trước khi xuất biên bản.
● Lưu trữ và đối sánh toàn bộ nội dung họp (audio và biên bản tương ứng)
một cách nhanh chóng và an tồn.
● Hỗ trợ tìm kiếm nội dung nhanh chóng (nhất là các cuộc họp đã diễn ra
nhiều năm trước).
● Có khả năng tạo mơi trường làm việc nhóm, hỗ trợ nhiều người cùng tác
nghiệp cùng một lúc.
● Phát luồng stream cuộc họp trực tuyến tới những máy có cài phần mềm.
1.2.2. Kiến trúc của phần mềm

Phần mềm bóc băng gồm có 2 phần chính đó là phần backend – phần lõi xử
lý phía bên trong, phần giao diện – phần dùng để tương tác với người dùng. Cấu
tạo của phần mềm được mơ tả bởi hình dưới đây.

1


Hình 1-1 Kiến trúc cơ bản của phần mềm bóc băng

Giải thích các khối trong phần mềm ghi âm cuộc họp
a) Khối điều khiển
- Là phần giao diện tương tác với người dùng. Trên giao diện sẽ có một số chức
năng chính như sau:
● Đăng nhập, cấu hình tài khoản và phân quyền.
● Nghe hoặc xem lại các cuộc họp cùng với văn bản đã được giải mã.
● Chỉnh sửa các bản ghi và xuất báo cáo.
● Tạo cuộc họp mới và up các audio và video tương ứng.
● Tạo luồng stream giải mã các cuộc họp trực tuyến.
b. Khối nhân xử lý
 Module cắt câu VAD
Là module cắt audio thành các đoạn tín hiệu nhỏ hơn dựa vào các khoảng lặng
các khoảng ngắt nghỉ của người nói. Đây là khâu rất quan trọng, có nhiều lý do để
phải cắt nhỏ file âm thanh đầu vào ra có thể kể đến là:
 Các file của cuộc họp thường rất dài cỡ 2-3 tiếng. Nếu để cả file để giải
mã thì có thể sẽ gây ra hiện tượng tràn bộ nhớ, hoặc hiệu năng bị giảm
đáng kể do không thực hiện song song được. Mặt khác, mơ hình nhận
dạng tiếng nói dưới huấn luyện dựa trên câu ngắn nên sẽ không thích
hợp nếu để giải mã một file âm thanh dài.
 Hệ thống phân tách người nói yêu cầu đầu vào là các câu đã được cắt
nhỏ, để tính tốn chính xác vector đặc trưng của từng người nói.

 Phân tách người nói
Nhận đầu vào là đầu ra của module VAD. Module này sẽ tính tốn trên các
đoạn tiếng nói được phát hiện xem là từng người nói ở những thời điểm nào
2


Phương pháp chính sử dụng trong này là phương pháp trích xuất vector đặc
tính người nói trên từng segment và thực hiện phân cụm để xác phân tách.
 Nhận dạng tiếng nói
Đây có thể coi là phần lõi chính cơng nghệ của phần mềm. Module này nhận
đầu vào là các đoạn segment đã được phân người nói ở bước trước và giải mã sang
văn bản tương ứng với từng câu.
 Chuẩn hóa văn bản
Văn bản đầu ra của hệ thống nhận dạng là văn bản khơng có dấu câu chỉ bao
gồm các từ viết liền nhau. Vì vậy cần phải có một bộ chuẩn hóa, để thêm dấu câu,
ngắt nghỉ và xuống dịng để người dùng có thể theo dõi được. Module này sử dụng
các kỹ thuật trong xử lý ngơn ngữ tự nhiên tiếng Việt với một số tính năng chính
như sau:
 Tự động thêm các dấu câu.
 Viết hoa các danh từ riêng, tên người, tên địa điểm.
 Chuyển về các định dạng số tương ứng như địa chỉ, ngày tháng, số tiền..
 Ngắt giữa các câu, các đoạn với nhau theo ngữ nghĩa.
Như chúng ta có thể thấy, để tạo thành một sản phẩm phần mềm bóc băng
hồn chỉnh cần phải có sự kết hợp của nhiều cơng nghệ khác nhau: xây dựng web,
nhận dạng tiếng nói, phân tách người nói, chuẩn hóa văn bản. Trong khn khổ
luận văn này, tác giả tập trung vào xây dựng, cải tiến 1 module chính, quan trọng
nhất trong phần mềm là module nhận dạng tiếng nói. Phần 1.2, tiếp theo sẽ trình
bày một số khảo sát về các nghiên cứu và sản phẩm trong lĩnh vực nhận dạng tiếng
nói trong nước và ngồi nước.
1.2. Tình hình nghiên cứu phát triển các sản phẩm nhận dạng tiếng nói

1.2.1. Các sản phẩm trên thế giới
Công nghệ truyền thông đang thúc đẩy các nghiên cứu chuyển tiếng nói
thành văn bản (nhận dạng tiếng) hay văn bản thành tiếng nói (tổng hợp tiếng) vào
các sản phẩm truyền thơng. Các hệ thống dịch tiếng nói đa ngôn ngữ ngày được
phát triển và đưa vào ứng dụng, cài đặt trên các hệ thống smartphones. Các hãng
công nghệ lớn như Goggle, Microsoft đều ra các sản phẩm hỗ trợ nhận dạng và
dịch tiếng nói, và điều này đã trở thành khá phổ biến cho công chúng.
Một số thông tin cụ thể:
a. Speech-to-text của Google 1
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Việt với độ chính xác 80 - 90%.
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%.
1

/>
3


● Bền vững với nhiễu và tiếng vọng
● Nhận dạng đa người nói, nhận dạng đa kênh
Một số hạn chế của sản phẩm
● Độ chính xác nhận dạng thấp với một số phương ngữ
● Khơng có tính bảo mật do sử dụng máy chủ đặt tại nước ngồi
● Khơng hỗ trợ chức năng ghi và sửa biên bản cuộc họp
b. Amazon transcribe 2
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%.
● Nhận dạng đa người nói
● Bền vững với nhiễu và tiếng vọng.
● Nhận dạng đa người nói, nhận dạng đa kênh

Một số hạn chế của sản phẩm
● Khơng có tính bảo mật do sử dụng máy chủ đặt tại nước ngồi
● Khơng hỗ trợ tiếng Việt
● Khơng hỗ trợ chức năng ghi và sửa biên bản cuộc họp
c) Speechnotes 3
Các đặc trưng của sản phẩm
● Nhận dạng giọng nói tiếng Anh với độ chính xác 90 - 95%
● Xuất văn bản nhận dạng.
● Bền vững với nhiễu và tiếng vọng.
Một số hạn chế của sản phẩm
● Khơng có tính bảo mật do sử dụng máy chủ đặt tại nước ngồi
● Khơng hỗ trợ tiếng Việt
● Khơng hỗ trợ nhận dạng được các file audio/video
● Không hỗ trợ chức năng ghi và sửa biên bản cuộc họp
Đối với các ứng dụng đặc thù liên quan đến phần mềm chép biên bản họp,
nhu cầu nhận dạng tiếng nói để hỗ trợ biên bản cuộc họp là rất lớn và nhận diện
tiếng nói là một phần quan trọng trong hệ thống nhận diện tiếng nói trong cuộc
họp. Với sự phát triển vượt bậc của công nghệ học sâu, chất lượng của hệ thống
nhận dạng tiếng nói gần tiệm cận với khả năng nghe của con người . Mặc dù mơ
hình end-to-end được đề xuất và đạt được những thành tựu nhất định, mơ hình lai
giữa học sâu và mơ hình Markov ẩn hiện tại cho kết quả tốt nhất trong các nghiên
cứu gần đây [1] . Để biết được các thông tin như ai nói gì vào lúc nào trong một
cuộc họp, một số hãng công nghệ lớn như NTT Nhật bản, Tencent Trung Quốc đã
và đang đi đầu trong phát triển công nghệ đặc biệt tiên tiến phục vụ cho việc ghi
và gán nhãn cuộc họp. Một số cơng trình nghiên cứu đã được công bố gần đây [2],
[3]

2
3


/> />
4


1.1.2. Tình hình các sản phẩm nhận dạng tiếng nói trong nước
Trong vịng 2-3 năm trở lại đây, những cơng ty cơng nghệ lớn cũng đã tích
cực đầu tư vào nghiên cứu và phát triển sản phẩm trong lĩnh vực tiếng nói này
như: Cơng ty phần mềm FSoft, Viện nghiên cứu cơng nghệ thuộc tập đồn FPT,
tập đồn Viettel với các nghiên cứu và ứng dụng về nhận dạng, tổng hợp tiếng
Việt cho tương tác thông minh, phục vụ cho các ứng dụng của tập đoàn. Đặc biệt
từ giữa năm 2018, với sự hình thành của Viện AI Research và Viện BigData đã
thu hút nhiều nhân lực trong lĩnh vực khoa học máy tính, trí tuệ nhân tạo và học
máy, trong đó có những mảng nghiên cứu và ứng dụng về nhận dạng và tổng hợp
tiếng Việt, thúc đẩy các nghiên cứu trong lĩnh vực này và cho các phát triển ứng
dụng của tập đoàn như VinFAST và VinSMART. Các doanh nghiệp khởi nghiệp
như VAIS, VBEE, InfoRe cũng tham gia tích cực vào thị trường khi cung cấp
các sản phẩm nhận dạng tiếng nói và tổng hợp tiếng nói cho rất nhiều cơ quan từ
Trung ương đến địa phương, từ các tập đoàn đến các tổ chức cá nhân sử dụng.
Các sản phẩm về nhận dạng tiếng nói tiếng Việt mới trong giai đoạn hình
thành. Vì vậy vẫn cịn nhiều vấn đề về chất lượng cần được giải quyết như:
 Khả năng xử lý nhiễu, thích nghi với các mơi trường thực tế còn
kém. Điều này dẫn đến chất lượng của hệ thống nhận dạng giảm
đáng kể khi gặp trường hợp thực tế có mơi trường nhiều nhiễu, ồn.
 Chất lượng nhận dạng của mơ hình khơng ổn định đối với các
phương ngữ khác nhau, có thể đa phần hệ thống sẽ nhận dạng tiếng
miền Trung kém hơn so với giọng 2 miền còn lại.

1.3. Tổng kết
Tổng kết chương 1, chúng ta đã biết được về chức năng, kiến trúc và cơng
nghệ sử dụng bên trong phần mềm bóc băng biên bản họp và tình hình nghiên cứu,

ứng dụng các sản phẩm nhận dạng tiếng nói trong nước và trên thế giới. Những
chương tiếp theo sẽ tập trung vào làm rõ cơng nghệ nhận dạng tiếng nói và cách
để xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt tích hợp trong phần mềm
ghi biên bản họp.

5


CHƯƠNG 2: TỔNG QUAN CƠNG NGHỆ NHẬN DẠNG TIẾNG NĨI
Có rất nhiều cách tiếp cận để giải quyết bài toán nhận dạng tiếng nói như là
so sánh mẫu, xây dựng mơ hình học thống kê, sử dụng mơ hình mạng nơ ron học
sâu end-to-end. Ở chương 2 này, tác giả tập trung trình bày phương pháp nhận xây
dựng mơ hình nhận dạng tiếng nói bằng cách xây dựng mơ hình thống kê.
2.1. Giới thiệu công nghệ nhận dạng
2.1.1. Lý thuyết
Nhận dạng tiếng nói bắt đầu xuất hiện từ năm 1960 và đến nay đã đạt được
rất nhiều thành tựu. Chính sự thành công này đã dẫn đến sự ra đời của hàng loạt
ứng dụng thực tế như giao tiếp người-máy qua lời nói, tự động ghi chép lời nói, hệ
thống học ngơn ngữ
Mục tiêu của hệ thống ASR là tìm ra chuỗi văn bản đại diện cho một chuỗi âm
thanh đầu vào. Sơ đồ hệ thống nhận dạng tiếng nói điển hình được biểu diễn bằng
hình 2-1.

Hình 2-1 Kiến trúc cơ bản của hệ thống nhận dạng tiếng nói

Như hình 2-1, một hệ thống nhận dạng tiếng nói gồm 5 phần chính. Chúng ta sẽ
tìm hiểu chức năng và ý nghĩa của từng thành phần ngay sau đây:
 Trích chọn đặc trưng (Feature Extraction): trích xuất ra những thơng tin có
ích và loại bỏ những thơng tin dư thừa. Do tín hiệu tiếng nói liên tục các
đặc trưng thường được trích xuất dưới dạng các frame. Với mỗi một frame,

ta sẽ chọn ra một vector đặc trưng.
 Mơ hình âm học (Acoustic Model): hoạt động như tai người, đầu vào là đặc
trưng của tiếng nói X, đầu ra là xác suất có điều kiện của tử hay âm vị
P(X|W). Các tham số của mơ hình âm học được xác định thơng qua q
trình huấn luyện trên tập mẫu có trước.
6


 Mơ hình ngơn ngữ (Language Model): lưu trữ thơng tin, kiến thức về từ ngữ
ngữ pháp. Những kiến thức này thường được thay đổi theo thời gian do vậy
mô hình ngơn ngữ cũng cần phải cập nhật thường xun.
 Từ điển phát âm (Lexicon): Mơ hình âm học thường dùng để mơ hình hóa
những thành phần nhỏ nhất của tiếng nói, gọi là âm vị. Trong khi đó mơ
hình ngơn ngữ lại dùng từ để mơ hình hóa. Vì vậy cần có cầu nối giữa 2 mơ
hình này gọi là từ điển. Từ điển mô tả cách phát âm của một từ bằng cách
biểu diễn từ đó dưới dạng một chuỗi các âm vị.
 Bộ giải mã: Mỗi tín hiệu X đầu vào, mơ hình âm học sẽ đưa ra xác suất
P(X|W) cho mỗi giả thuyết khác nhau về chuỗi text có thể đúng. Mơ hình
ngơn ngữ cũng đưa ra giả thuyết của mình cho chuỗi text W là P(W). Bộ
giải mã sẽ tìm tất cả các chuỗi text có thể có W, lấy P(X|W) từ mơ hình âm
học, P(W) từ mơ hình ngơn ngữ để chọn ra chuỗi W có xác suất P(W|X) lớn
nhất để làm kết quả nhận dạng.
2.1.2. Phương diện toán học
Dưới phương diện toán học thống kê, ASR tìm ra chuỗi từ W  (w1,...., wn ) , dự đoán
từ model đã học sẵn với đầu vào là một chuỗi vector quan sát.
Các thành phần chính của một hệ thống ASR theo phương pháp thống kê được
miêu tả ở hình 2-2

Hình 2-2 Kiến trúc ASR trên phương diện tốn học [4]


Đầu tiên một tín hiệu tiếng nói được biến đổi thành một chuỗi các vector có độ dài
cố định gọi là các vector âm học O  [o1 , o 2 ...., ot ] , sau bước trích xuất đặc trưng.
7


Sau đó, bộ giải mã (decoder) tìm ra chuỗi từ gần nhất (W* ) tương ứng với chuỗi
vector đầu vào sao cho W * 

arg max
P(O | W ) P(W )
w

(2.1)

Tuy nhiên P(W|O) rất khó để mơ hình hóa trực tiếp, do đó theo cơng thức Bayes
ta có P (W | O ) 
Do đó W * 

P(O | W ) P(W )
P (O | W
P(O)

(2.2)

arg max
P(O | W ) P(W )
w

(2.3)


Likelihood P(O|W) được xác định bởi mơ hình âm học và hệ số P(W) được xác
định bởi mơ hình ngơn ngữ .
Như đã thấy trong hình 2-2, mỗi một từ Wn được đại diện cho một chuỗi các đơn
vị âm học gọi là phoneme. Khi tính đến trường hợp một từ có nhiều cách đọc,
(2.4)
P(O|W) có thể được tính theo công thức P(O | W )   P(O | Q) P(Q | W )
Q

Trong đó Q  (Q1, Q2, ..., Qn ) là chuỗi các các phát âm cho chuỗi từ W, và mỗi một
cách phát âm của một từ là một chuỗi các phone Qn  ( q1( n), q2( n),....)
P(Qn | wn ) là xác suất từ Wn được phát âm theo chuỗi phone Qn . DO đó P(Q|W)

tương ứng với mơ hình phát âm và là xác suất của một chuỗi phone đối với một
chuỗi từ cho trước. Mơ hình phát âm này được gọi là từ điển phát âm. Khi tính
đến cả ba yếu tố (âm học, từ điển, ngôn ngữ ), công thức 3.3 có thể được viết là:
W* 

arg max
Q P(O | Q)P(Q | W ) P(W )
w

(2.5)

2.2. Trích xuất đặc trưng
Tín hiệu âm thanh ngồi đời thực là tín hiệu liên tục, hay tính hiệu tương tự
trước khi thực hiện bất cứ bước xử lý nào, tín hiệu âm thanh cần được số hóa. Việc
này được thực hiện tự động bởi các thiết bị thu âm, bằng cách lấy mẫu tín hiệu đầu
vào. Như vậy, một tín hiệu âm thanh bất kỳ khi đã được đưa vào máy tính, là một
tập các mẫu liên tiếp nhau, mỗi mẫu là giá trị biên độ của tín hiệu tại một thời điểm
nhất định. Một tham số quan trọng trong việc lấy mẫu tín hiệu âm thanh là tần số

lấy mẫu, Fs, tức là số mẫu được lấy trong một giây. Để có thể đo lường chính xác,
cần phải lấy ít nhất 2 mẫu trong một chu kỳ của tín hiệu tương tự đầu vào. Như
vậy, tần số lấy mẫu phải lớn hơn 2 lần tần số cao nhất của tín hiệu âm thanh đầu
vào.
Trích chọn đặc trưng đối với nhận dạng tiếng nói là việc tham số hóa chuỗi
tín hiệu âm thanh dạng sống đầu vào, biến đổi tín hiệu âm thanh thành một chuỗi
các vector đặc trưng n chiều, mỗi chiều là một giá trị thực. Hiện nay, có rất nhiều
phương pháp trích chọn đặc trưng như: LPC (Linear predictive coding – Dự đốn
tuyến tính), AMDF (Average magnitude different function – hàm biên độ trung
bình), MFCC (Mel-frequency cepstral coefficients).
8


2.2.1. Đặc trưng MFCC
Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương
pháp phổ biến nhất. MFCC là viết tắt của Mel-frequency cepstral coefficients. Kỹ
thuật này dựa trên việc thực hiện biến đổi để chuyển dữ liệu âm thanh đầu vào (đã
được biến đổi Fourier cho phổ) về thang đo tần số Mel, một thang đo diễn tả tốt
hơn sự nhạy cảm của tai người đổi với âm thanh. Kỹ thuật trích chọn đặc trưng
này gồm các bước biến đổi liên tiếp, trong đó đầu ra của bước biến đổi trước sẽ là
đầu vào của bước biến đổi sau. Đầu vào của quá trình đặc trưng này sẽ là một đoạn
tín hiệu tiếng nói. Vì tín hiệu âm thanh sau khi được đưa vào máy tính đã được rời
rạc hóa nên đoạn tín hiệu tiếng nói này bao gồm các mẫu liên tiếp nhau, mỗi mẫu
là một giá trị thực, thể hiện giá trị biên độ của âm thanh tại 1 thời điểm. Các bước
của quá trình trích xuất đặc trưng MFCC được thể hiện ở hình 2-3

Hình 2-3 Các bước trích xuất đặc trưng MFCC
a) Tiền xử lý

Tín hiệu âm thanh thường được thu ở mơi trường đời thường, tiếng nói bình

thường của một người cũng khơng được to, trừ khi nói to có chủ định, do đó nhiễu
của mơi trường (tần số thấp) nhiều khi có cường độ lớn bằng một phần đáng kể
(nghe có thể dễ dàng nhận ra) của tiếng nói khi thu âm, bước đầu tiên của q trình
trích chọn đặc trưng MFCC sẽ xử lý vấn đề này, bằng việc thực hiện tăng cường
độ của những tần số cao lên nhằm làm tăng năng lượng ở vùng có tần số cao –
vùng tần số của tiếng nói, một cách dễ hiểu là làm tiếng nói lớn hơn lên để ảnh
hưởng của các âm thanh môi trường và nhiễu trở thành không đáng kể. Việc tăng
cường độ của vùng tần số cao lên đồng thời làm cho thông tin rõ ràng hơn đối với
mẫu tiếng nói. Hình 2-4 mơ tả trước và sau q trình Pre-emphasis của một đoạn
tín hiệu âm thanh:

9



×