Tải bản đầy đủ (.pdf) (59 trang)

Cải tiến trong đoán định văn bản của mô hình nhận diện tiếng nói trực tiếp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (525.82 KB, 59 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

NGHIÊM NGUYỄN VIỆT DŨNG

CẢI TIẾN TRONG ĐOÁN ĐỊNH VĂN BẢN CỦA MƠ HÌNH
NHẬN DIỆN TIẾNG NĨI TRỰC TIẾP

LUẬN VĂN THẠC SĨ KHOA HỌC
KHOA HỌC MÁY TÍNH

Hà Nội – Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

NGHIÊM NGUYỄN VIỆT DŨNG

CẢI TIẾN TRONG ĐOÁN ĐỊNH VĂN BẢN CỦA MƠ HÌNH
NHẬN DIỆN TIẾNG NĨI TRỰC TIẾP

Chun ngành: KHOA HỌC MÁY TÍNH

LUẬN VĂN THẠC SĨ KHOA HỌC
KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. ĐỖ PHAN THUẬN



Hà Nội – Năm 2018


Đại học Bách Khoa Hà Nội
Luận văn thạc sỹ khoa học máy tính

Cải tiến trong đốn định văn
bản của mơ hình nhận diện
tiếng nói trực tiếp

Học viên:
Nghiêm Nguyễn Việt Dũng

Giảng viên hướng dẫn:
PGS. Ts. Đỗ Phan Thuận

Ngày 21 tháng 8 năm 2018


HV: NGHIÊM NGUYỄN VIỆT DŨNG

Lời cam đoan

1

KHMT-2016B


HV: NGHIÊM NGUYỄN VIỆT DŨNG


KHMT-2016B

Lời cảm ơn
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Đỗ Phan Thuận,
người đã tận tình hướng đẫn và tạo mọi điều kiện cho em hoàn thành tốt
luận văn tốt nghiệp này.
Em cũng xin cảm ơn sự dạy dỗ và chỉ bảo tận tình của tất cả q thầy cơ
ở trường Đại học Bách Khoa Hà Nội. Tất cả các kiến thức mà em thu được
sẽ là hành trang quý giá trên con đường học tập, làm việc và nghiên cứu sau
này.
Xin trân trọng cảm ơn!
Hà Nội, tháng 7 năm 2018
Học viên

Nghiêm Nguyễn Việt Dũng

2


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Mục lục
Từ điển chú giải

5

Danh sách hình vẽ


6

Danh sách bảng

7

Mở đầu

8

1 Tổng quan
1.1 Hệ thống nhận dạng tiếng nói . . .
1.2 Các hướng tiếp cận . . . . . . . . .
1.3 Mô hình ngơn ngữ trong nhận dạng
1.4 Các thách thức . . . . . . . . . . .

. . .
. . .
tiếng
. . .

2 Mơ hình nhận dạng tiếng nói trực tiếp
2.1 Tổng quan . . . . . . . . . . . . . . . . .
2.1.1 Mơ hình CTC . . . . . . . . . . .
2.1.2 Mơ hình RNN-Transducer . . . .
2.1.3 Mơ hình Attention . . . . . . . .
2.1.4 Nhận xét và đánh giá . . . . . . .
2.2 Mơ hình nhận dạng tiếng nói trực tiếp sử
2.2.1 Kiến trúc mơ hình . . . . . . . .

2.2.2 Hàm CTC loss . . . . . . . . . .
2.2.3 Khối đoán định văn bản . . . . .
2.3 Tiềm năng ứng dụng đối với Tiếng Việt .

. . .
. . .
nói
. . .

.
.
.
.

.
.
.
.

.
.
.
.

. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
dụng CTC

. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .

3 Thuật toán và kỹ thuật đề xuất
3.1 Thuật toán Prefix Beam Search . . . . . .
3.2 Chuẩn hóa k và phương thức tính tốn . .
3.3 Kỹ thuật cắt nhánh . . . . . . . . . . . . .
3.4 Mơ hình ngơn ngữ n-gram kết hợp tiền tố

3

.
.
.
.

.
.
.
.

.
.
.
.

.
.

.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.

11
12
15
16
17

.
.
.
.
.
.
.

.
.
.

20
20
21
23
24
26
28
28
30
31
32

.
.
.
.

33
33
36
39
40


HV: NGHIÊM NGUYỄN VIỆT DŨNG
4 Kết

4.1
4.2
4.3
4.4

quả thực nghiệm
Thiết lập thí nghiệm . . . . . . . . . . . . . . . .
Độ chính xác của thuật toán Prefix Beam Search
Kết quả cải tiến bước cắt nhánh . . . . . . . . .
Kết quả cải tiến mơ hình ngơn ngữ . . . . . . . .

KHMT-2016B

.
.
.
.

.
.
.
.

.
.
.
.

.
.

.
.

.
.
.
.

.
.
.
.

.
.
.
.

43
43
44
45
48

Kết luận và hướng phát triển

50

Tài liệu tham khảo


52

4


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Từ điển chú giải
Ký hiệu

Thuật ngữ

Tạm dịch

ASR

Automatic Speech Recognition

Nhận dạng tiếng nói tự động

DTW

Dynamic Time Warping

Nắn chỉnh thời gian động

LVCSR


Large Vocabulary Continuous
Speech Recognition

PBS

Prefix Beam Search Algorithm

Thuật tốn tìm kiếm tiền tố beam

WER

Word Error Rate

Tỷ lệ lỗi nhận dạng từ

Bài tốn nhận dạng tiếng nói
liên tục với bộ từ vựng lớn

Trong luận văn này, một số thuật ngữ dù có tạm dịch tiếng Việt nhưng
vẫn sẽ được dùng bằng tiếng Anh bởi tính chính xác và quốc tế của nó.

5


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Danh sách hình vẽ
1.1


Các thành phần cơ bản của hệ thống ASR . . . . . . . . . . . 13

2.1
2.2
2.3
2.4

Mơ hình CTC . . . . . . . . . . . .
Mơ hình RNN-Transducer . . . . .
Mơ hình Attention . . . . . . . . .
Kiến trúc mơ hình được thử nghiệm

3.1

Cây biểu diễn mơ hình ngôn ngữ tiền tố . . . . . . . . . . . . 41

4.1
4.2
4.3
4.4

Biểu
Biểu
Biểu
Biểu

đồ
đồ
đồ

đồ

hiệu
hiệu
hiệu
hiệu

quả
quả
quả
quả

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

tính tốn của các phương pháp cắt nhánh .
tìm kiếm của các phương pháp cắt nhánh . .
khơng gian tìm kiếm khi kết hợp hai cải tiến

thời gian tính khi kết hợp hai cải tiến . . . .

6

22
24
25
29

46
47
49
49


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Danh sách bảng
2.1

So sánh các mô hình huấn luyện trực tiếp và mơ hình dựa trên
HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.1
4.2
4.3
4.4


Sai số của thuật toán Prefix Beam Search với k bé . . . . . .
Kết quả giải thuật PBS . . . . . . . . . . . . . . . . . . . . .
Kết quả giải thuật PBS chuẩn hóa k . . . . . . . . . . . . .
Kết quả tỷ lệ từ lỗi đối với mơ hình ngơn ngữ và mơ hình ngơn
ngữ kết hợp tiền tố . . . . . . . . . . . . . . . . . . . . . . .

7

. 44
. 45
. 45
. 48


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Mở đầu
1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp căn bản và phổ biến nhất
của lồi người, nó được hình thành và phát triển xun suốt q
trình tiến hố của nhân loại. Do vậy từ cuối thập niên 40 của
thế kỷ trước, các nghiên cứu và ứng dụng của bài toán nhận
dạng tiếng nói đã được phát triển với nhiều cách tiếp cận khác
nhau. Những năm gần đây, các hệ thống nhận dạng tiếng nói
trực tiếp đã có những bước phát triển nhất định trong nghiên
cứu và có những kết quả thực nghiệm đầy hứa hẹn [1, 2, 3].
Tuy nhiên, các nghiên cứu về mơ hình nói trên chưa tập trung
nhiều khả năng tích hợp với mơ hình ngơn ngữ[4]. Việc sử dụng

mơ hình ngơn ngữ đã giúp khơng nhỏ vào việc nâng cao độ chính
xác trong đốn định văn bản ở các mơ hình truyền thống. Thế
nên, nâng cao việc tích hợp mơ hình ngơn ngữ cũng như cải tiến
bước đốn định văn bản sẽ đóng góp nhiều vào phát triển mơ
hình nhận dạng tiếng nói trực tiếp.
Vì ý nghĩa của nó và được sự đồng ý của Thầy PGS.TS Đỗ
Phan Thuận, tơi đã chọn đề tài "Cải tiến trong đốn định văn
bản của mơ hình nhận dạng tiếng nói trực tiếp" thực hiện với
mong muốn đóng góp giải pháp cho lĩnh vực nhận dạng tiếng
nói.
2. Mục tiêu nghiên cứu của đề tài
Qua phần giới thiệu trên, ta thấy nhận dạng tiếng nói là một
lĩnh vực phức tạp nhưng đầy hứa hẹn về tiềm năng ứng dụng.
Nghiên cứu này đưa ra cái nhìn chung về bài tốn, tập trung vào
8


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

những bước phát triển gần đây theo hướng mơ hình học trực
tiếp. Sau đó, luận văn trình bày chi tiết q trình đốn định văn
bản (một bài toán con) cũng như thể hiện mối quan hệ, tính ảnh
hưởng của nó tới bài tốn chính. Cuối cùng, tác giả có nêu một
số phương pháp cải tiến và phân tích các kết quả thực nghiệm
kèm theo.
3. Đối tượng và phạm vi nghiên cứu
Đề tài tập trung vào các mơ hình nhận dạng giọng nói trực
tiếp đi sâu vào q trình đốn định văn bản (decoding) của

mạng nơ-ron hồi quy sử dụng khối CTC. Cụ thể, luận văn đưa
ra một số đề xuất cải tiến giúp tăng độ chính xác và giảm thời
gian tính tốn của q trình trên.
4. Phương pháp nghiên cứu
Kết hợp giữa phương pháp phân tích - tổng hợp lý thuyết,
phương pháp mơ hình hóa và phương pháp thực nghiệm khoa
học.
5. Ý nghĩa khoa học của luận văn
Trên cơ sở nghiên cứu và hệ thống hoá bài đốn định văn
bản, luận văn chúng tơi đề xuất thuật tốn mới với những điểm
chính sau:
- Thuật tốn đã chuẩn hóa tham số độ rộng beam tương
đương với các thuật tốn tìm kiếm beam khác.
- Thuật tốn giúp nâng cao hiệu quả tìm kiếm trong trường
hợp năng lực tính tốn bị giới hạn.
- Thuật tốn giảm được khơng gian tìm kiếm bằng việc sử
dụng mơ hình ngơn ngữ kết hợp tiền tố.
6. Cấu trúc của luận văn
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo,
nội dung của đề tài bao gồm 4 chương:
- Chương 1: Giới thiệu tổng quan về bài tốn nhận dạng
tiếng nói nói chung cũng như q trình đốn định văn bản
và mơ hình ngơn ngữ nói riêng.
9


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B


- Chương 2: Trình bày khái quát các hệ thống nhận dạng
tiếng nói trực tiếp đang được sử dụng và tập trung vào mơ
hình sử dụng CTC, chỉ ra các ưu nhược điểm của chúng và
khả năng ứng dụng trong tiếng Việt.
- Chương 3: Nêu thuật toán Prefix Beam Search và đề xuất
các kỹ thuật cải tiến.
- Chương 4: Đưa ra cách thức tiến hành thí nghiệm và phân
tích đánh giá kết quả thí nghiệm

10


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Chương 1
Tổng quan
Trước cả khi máy tính được tạo ra, con người đã có mong
muốn trao đổi với các công cụ qua phương thức tự nhiên nhất
- tiếng nói. Hơn một nửa thế kỷ, bài tốn nhận dạng tiếng nói
đã được nghiên cứu để góp phần hồn thành sứ mệnh trên. Dù
bài tốn rất phức tạp và có những câu hỏi khó chưa được giải
đáp nhưng những thành tựu gần đây trong xử lý tín hiệu, xử lý
ngơn ngữ tự nhiên và đặc biệt là trí tuệ nhân tạo giúp chúng ta
có thể tiến gần tới mục tiêu này hơn.
Với mục đích là giới thiệu về nhận dạng tiếng nói, chương
được chia thành bốn phần. Phần đầu nêu ra những thành phần
chính và cách phân loại các hệ thống nhận dạng tiếng nói. Trong
phần tiếp theo, các hướng tiếp cận phổ biến được giới thiệu.

Phần thứ ba trình bày rõ hơn về mơ hình ngơn ngữ bởi đây là
thành phần quan trọng trong nhận dạng tiếng nói cũng là phần
tập trung chủ yếu của luận văn. Ở phần cuối, các thách thức
còn tồn tại sẽ được đưa ra.

11


HV: NGHIÊM NGUYỄN VIỆT DŨNG

1.1

KHMT-2016B

Hệ thống nhận dạng tiếng nói

Các thành phần cơ bản của hệ thống nhận dạng tiếng nói

Một hệ thống nhận dạng tiếng nói tự động gồm có các thành
phần sau:
• Bộ trích rút đặc trưng tiếng nói
Mục tiêu của thành phần này là biến đổi tín hiệu âm thanh
thành chuỗi các vector đặc trưng. Trích rút đặc trưng cũng
có vai trị loại bỏ nhiễu.
• Mơ hình âm thanh
Là nguồn tri thức quan trong trong hệ thống ASR với khả
năng nhận diện các thành phần ngữ âm căn bản (âm vị,
chữ cái hoặc một từ hoàn chỉnh) của ngơn ngữ. Với các mơ
hình nhận dạng âm vị, hệ thống ASR cần phải có thêm một
thành phần nữa là từ điển ngữ âm (phonetic dictionary) để

từ chuỗi âm vị có được từ mơ hình âm thanh có thể suy ra
được các từ riêng lẻ.
• Mơ hình ngơn ngữ
Mục tiêu của mơ hình ngơn ngữ là giới hạn việc tìm kiếm.
Mơ hình thường dựa trên thống kê hoặc quy tắc ngữ pháp
mà nó có thể chỉ ra đâu là các từ hợp lệ hay đâu là chuỗi
có thể xuất hiện trong một ngữ cảnh nào đó.
• Bộ giải mã
Nhiệm vụ của bộ giải mã là tìm ra chuỗi từ phù hợp nhất
cho dựa trên việc tổng hợp kết quả của mơ hình âm thanh
và mơ hình ngơn ngữ.

12


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Hình 1.1: Các thành phần cơ bản của hệ thống ASR
Phân loại các hệ thống nhận dạng tiếng nói

Dựa vào chế độ nói, người nói, kích cỡ từ vựng mà ta có thể
chia bài tốn phức tạp này thành các bài tốn con với các tính
chất khác nhau. Trong số các đặc điểm trên thì chế độ nói là
đặc điểm quan trọng nhất và góp phần quan trọng trong việc
xác định độ khó của bài tốn. Về cơ bản có 4 chế độ nói chính:
• Chế độ nói từ riêng lẻ (Isolated word speech)
Là hệ thống với hai trạng thái "nghe/khơng-nghe" giúp
nhận biết chính xác điểm bắt đầu và kết thúc của từng từ.

Những hệ thống nhận dạng tiếng nói ban đầu thường áp
dụng chế độ này này bởi tính đơn giản và chủ yếu liên quan
đến xử lý tín hiệu và so sánh tần số. Những hệ thống trên
hiện vẫn được áp dụng rộng rãi trong các hệ thống ra lệnh
và điều kiển (Command and Control).
• Chế độ nói nối từ (Connected word speech)
13


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Là cơ chế giúp hệ thống nhận ra các chuỗi từ liên tiếp cách
nhau bởi các khoảng nghỉ đủ lớn.
• Chế độ nói liên tục (Continuous speech)
Là chế độ nói tự nhiên mà khơng cần phải nghỉ giữa mỗi
cụm từ. Có thể thấy, chế độ này phức tạp hơn hai chế độ
trên bởi cần thêm cơ chế để nhận ra giới hạn giữa các phát
âm.
• Chế độ nói trực tiếp (Spontaneous speech)
Là chế độ nói tự nhiên khơng chỉnh sửa do đó chứa các từ
được nói liên tục, các từ đệm ("ừm", "à") hay cả khả năng
bị lắp từ (nói lắp nhẹ).
Một tiêu chí nữa cũng quan trọng trong việc xác định độ
phức tạp cũng như khả năng ứng dụng của hệ thống là từ vựng.
Đối với từ vựng, ta có thể chia thành 3 loại chính:
• Từ vựng bé (small-vocabulary)
Từ vựng bé chứa lượng từ cố định và thường có kích thước
bé hơn 100. Nó thường được sử dụng trong việc nhận dạng

số, chứ cái.
• Từ vựng vừa (medium-vocabulary)
Từ vựng vừa chứa lượng từ cố định và thường có kích thước
từ 100 đến cỡ hàng nghìn từ. Với kích thước như vậy, hệ
thống có khả năng nhận diện hầu hết các cuộc hội thoại
thông thường. Tuy vậy, những từ ngữ chun mơn, hay từ
nước ngồi sẽ khơng được nhận đúng.
• Từ vựng lớn (large-vocabulary)
Từ vựng lớn là hệ thống có khả năng nhận ra được hơn
chục nghìn từ thậm chí cả những từ khơng có trong tập dữ
liệu huấn luyện.
14


HV: NGHIÊM NGUYỄN VIỆT DŨNG

1.2

KHMT-2016B

Các hướng tiếp cận

Các phương pháp nhận diện tiếng nói có thể chia thành 3
hướng chính: tiếp cận dựa vào âm học - ngữ âm học (acousticphonetic), tiếp cận dựa theo mẫu và tiếp cận theo hướng trí tuệ
nhân tạo.
Tiếp cận dựa vào âm học và ngữ âm học

Hướng đi này đựa trên định đề là trong bất kỳ ngôn ngữ nào
cũng chỉ tồn tại hữu hạn các đơn vị ngữ âm phân biệt (âm vị).
Bước đầu tiên trong cách tiếp cận này là phân tích phổ tiếng

nói kết hợp với các bộ nhận nhận diện đặc trưng để có được tập
các tính chất âm học. Ở bước tiếp theo, tín hiệu được chia cắt
và gán cho một hay nhiều nhãn ngữ âm. Bước cuối của phương
pháp đưa ra chuỗi các từ kết quả dựa trên chuỗi nhãn ngữ âm
từ bước trước.
Tiếp cận dựa vào nhận dạng mẫu

Hai bước quan trọng nhất trong hướng tiếp cận này là huấn
luyện mẫu và so sánh mẫu. Trong bước so sánh mẫu, từng phần
âm thanh đầu vào được so sánh trực tiếp với các tập mẫu có
được trong quá trình huấn luyện để tìm ra mẫu gần nhất. Dạng
biểu diễn của mẫu so sánh có thể là mẫu âm thanh trực tiếp
hoặc là một mơ hình thống kê (ví dụ: mơ hình Markov ẩn).
Tiếp cận theo hướng trí tuệ nhân tạo

Cách tiếp cận này là sự kết hợp của hai cách tiếp cận trên.
Cụ thể là nó khai thác ý tưởng từ hướng ngữ âm học và phương
pháp từ nhận dạng mẫu. Có 3 hướng đi con trong cách tiếp cận
15


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

này: phương pháp dựa trên Dynamic Time Warping (DTW),
phương pháp dựa trên mơ hình Markov ẩn và mơ hình học trực
tiếp.
Trong DTW, mỗi lớp nhận diện được đại diện bởi một hay
nhiều mẫu[5]. Việc sử dụng nhiều hơn một mẫu mỗi lớp giúp

tăng độ chính xác trong trường hợp có những khác biệt về các
phát âm hay người nói của cùng một ngơn ngữ. Trong khâu nhận
diện, khoảng cách giữa chuỗi âm thu được và mẫu lớp được tính.
Để loại bỏ sự khác biệt về độ dài của hai đối tượng này, mẫu
bị co kéo và biến dạng cũng được sử dụng trong tính tốn. Từ
được nhận diện tương ứng với đường đi mà có tổng khoảng cách
bé nhất. Trong các hệ thống hiện đại nhất, mơ hình sử dụng
Markov ẩn sẽ tốt hơn mơ hình dựa vào DTW bởi tính khái quát
và bộ nhớ tiêu tốn.
Mơ hình Markov ẩn là mơ hình thống kê với giả định tiếng
nói tn theo tiến trình Markov với các tham số ẩn. Thử thách
ở đây là tìm ra tham số ẩn từ dữ liệu quan sát. Dù trạng thái
không được trực tiếp nhận thấy nhưng các biến phụ thuộc bởi
trạng thái thì biết được. Mơ hình Markov ẩn do đó mà cần thiết
kế cẩn thận lộ trình huấn luyện để dần có được các mơ hình
nhận diện phức tạp hơn.
Mơ hình học trực tiếp sẽ được giới thiệu cụ thể ở chương 2.

1.3

Mơ hình ngơn ngữ trong nhận dạng tiếng
nói

Mơ hình ngơn ngữ là tập hợp các điều kiện để một chuỗi các
từ (ký tự) có thể được chấp nhận đối với một ngơn ngữ. Những
điều kiện này có thể được biểu diễn bằng tập các luật ngữ pháp
hoặc bằng việc thống kê trên mỗi cặp từ dựa trên một tập văn
bản huấn luyện.
Một trong các mơ hình ngơn ngữ thường được sử dụng là mô
16



HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

hình ngơn ngữ n-gram. Bằng việc thống kê trên các tập văn bản
mẫu kích thước cớ hàng triệu từ, mà mơ hình có thể đưa ra xác
suất của một từ khi biết trước các từ trước nó. Tùy vào số lượng
từ phía trước nó sử dụng mà ta có các loại uni-gram (1 từ phía
trước), bi-gram (2 từ phía trước) cho tới 5-gram. Xác suất của
từ wn khi biết các từ phía trước w1 , w2 , ..., wn−1 là:
n−1
P (wn |wn−N
+1 )

n−1
C(wn−N
+1 wn )
=
n−1
C(wn−N +1 )

(1.1)

Trong đó:
- C(X) là số lượng xuất hiện của X trong văn bản.
- wji là chuỗi wi wi+1 ...wj
Xác suất của cả một câu: w1 , w2 , ..., wn được tính bằng:
n−1

P (w1 w2 ...wn ) = P (w1 ) × P (w2 |w1 )... × P (wn |wn−N
+1 )

(1.2)

Do khi tính xác suất có nhiều trường hợp sẽ gặp các cụm
n-gram chưa xuất hiện hoặc do sự phân bố không đều trong tập
huấn luyện sẽ dẫn tới việc tính tốn khơng chính xác. Vì vậy
người ta đưa ra phương pháp làm mịn để khắc phục vấn đề này.
Các phương pháp làm mịn có thể chia thành 3 loại chính:
• Discounting: giảm xác suất các cụm n-gram có xác suất lớn
hơn 0 để bù cho các cụm n-gram chưa xuất hiện
• Back-off: tính xác suất các cụm n-gram chưa xuất hiện bằng
các cụm ngắn hơn và có xác suất lớn hơn 0
• Interpolation: tính xác suất của tất cả các cụm n-gram bằng
các cụm ngắn hơn

1.4

Các thách thức

Nhận dạng tiếng nói vẫn đang cịn xa mới tới sự hồn thiện.
Theo [6], bài tốn này vẫn cịn 6 thách thức lớn:
17


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B


• Khai thác dữ liệu
Nhờ mạng internet mà chúng ta có thể tiếp cận một lượng
lớn các tệp tin giao tiếp ở nhiều tình huống và mơi trường
khác nhau. Thêm vào đó, các cơng ty như Apple, Google
và Microsoft cũng có một lượng lớn dữ liệu người dùng qua
các sản phẩm có sử dụng tiếng nói. Tuy nhiên, hầu hết dữ
liệu này đều không được đánh nhãn hoặc đánh nhãn sơ sài.
Việc đánh nhãn chúng chính xác và đầy đủ sẽ tiêu tốn một
nguồn lực không nhỏ.
• Hệ thống tính tốn
Việc sử dụng GPU đã có hiệu quả đáng kể trong việc huấn
luyện các mơ hình nhận diện tiếng nói [3, 1]. Tuy nhiên để
huấn luyện các mơ hình lớn cũng như nhanh hơn ta cần các
hệ thống phân tán. Thêm nữa, mật độ tính tốn của chip
vi xử lý đã đạt tới mức nếu tăng xung nhịp có thể khiến
silicon tan chảy. Do vậy, năng lực tính tốn sẽ phát triển
theo hướng phân cụm và phân tán hơn là tính tốn đơn.
Điều này dẫn đến song song hoá thuật toán hay thiết kế
thuật toán theo hướng song song sẽ là hướng nghiên cứu
quan trọng trong giải quyết bài tốn nhận diện tiếng nói.
• Học khơng giám sát
Đã có khá ít các nghiên cứu về học khơng giám sát cho
nhận diện tiếng nói. Mặc dù có một lượng lớn dữ liệu tiếng
nói khơng đánh nhãn trên internet. Thêm nữa, khả năng
thay đổi hệ thống nhận diện tiếng nói sẵn có (hệ thống có
thể được huấn luyện bằn học có giám sát) bằng học khơng
giám sát giúp cho hệ thống dễ dàng thích nghi với nhiều
với sự biến đổi của mơi trường âm học, người nói, cách sử
dung từ mới.
• Tính khả chuyển

18


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Đứng từ góc độ con người, các hệ thống nhận diện tiếng nói
hiện nay có cách "học" rất cứng nhắc. Mặc dù con người
được nghe tiếng nói rất đa dạng từ mơi trường, người nói
đến chủ đề thì con người vẫn có khả năng tạo ra được
mơ hình tiếng nói và ngơn ngữ có tính khái quán lớn. Các
nghiên cứu về thử thách này cần tập trung vào cơng nghệ
có tính khái qt hố cao giúp hệ thống học từ tập dữ liệu
bé hơn và đa dạng hơn.
• Khó khăn khi có các thay đổi đầu vào
Các hệ thống nhận diện tiếng nói hiện nay vẫn có thể giảm
chất lượng đáng kể khi có những đổi nhỏ mà không ảnh
hưởng nhiều tới khả năng nghe của con người. Có hai loại
thay đổi chính đó là mơi trường âm thanh và tính chất
người nói. Mơi trường âm thanh bao gồm tiếng ồn, tạp âm,
âm vọng lại hay bị trộn với tiếng nói khác. Đồi với người
nói, hầu hết các hệ thống hiện nay tập trung vào người bản
địa và chất giọng chuẩn.
• Nhận ra sự "khơng biết" (Socrate’s wisdom)
Thách thức này là việc thiết kế ra hệ thống có khả năng
biết khi nào nó khơng thể tìm ra chữ đúng. Điều này đặc
biệt cần thiết khi gặp từ nằm ngoài tập huấn luyện hay từ
nước ngoài. Trong các trường hợp này, các hệ thống hiện
nay sẽ thường trả về những từ thơng thường khác mà có

phát âm tương tự.

19


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Chương 2
Mơ hình nhận dạng tiếng nói
trực tiếp
Ở phần tổng quan 2.1, các loại mơ hình nhận dạng tiếng nói
trực tiếp sẽ được giới thiệu và ưu nhược điểm của từng loại được
phân tích cụ thể. Trong phần sau, ta sẽ đi sâu vào các khối con
của mơ hình CTC - mơ hình được sử dụng trong luận văn này.
Ở phần cuối, ta sẽ đưa ra đánh giá cụ thể của việc áp dụng
phương pháp này đối với tiếng Việt.

2.1

Tổng quan

Trong phần này, chúng ta sẽ đi đánh giá cụ thể một số mạng
neural huấn luyện trực tiếp (end-to-end trained) cho bài tốn
nhận dạng tiếng nói. Những mạng nhận dạng tiếng nói trực tiếp
này có đặc điểm chung là đều nhận dạng trực tiếp chữ cái (ký
tự sử dụng trong văn bản) mà không cần sử dụng bộ từ điển
phát âm hay mơ hình ngơn ngữ.
Các mơ hình nhận dạng trực tiếp có kiến trúc đơn giản hơn

những mơ hình truyền thống. Bởi khả năng học cho cả các dữ
liệu trên môi trường âm thanh nhiễu hay cả các phương ngữ
khác nhau nên vẫn đem lại hiệu quả cho những trường hợp nói
trên mà khơng cần các thuật tốn xử lý riêng mang tính chất
20


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

thủ công.
Hiện nay, một số loại mơ hình phổ biến trong nhận dạng
trực tiếp này bao gồm [4]: connectionist temporal classification
(CTC), recurrent neural network (RNN) transducer, cơ chế attention, và mơ hình kết hợp RNN transducer với cơ chế attention.
Để việc giới thiệu mơ hình được thống nhất, một số định
nghĩa sau sẽ được sử dụng:
• Đầu vào dạng sóng âm thanh được biến đổi thành chuỗi
của các vector d-chiều. Được ký hiệu là x = (x1 , x2 , ..., xT )
với xt ∈ Rd .
• Đầu ra là chuỗi các ký tự thuộc tập Y . Chuỗi đầu ra được
ký hiệu y = (y1 , y2 , ..., yL ). Thường thì L nhỏ hơn rất nhiều
so với T .
2.1.1

Mơ hình CTC

Bằng việc thêm vào ký tự trống (blank), Graves và các đồng
sự [7] đã giới thiệu CTC như một cơ chế học mà không cần phải
căn chỉnh giữa đầu vào và đầu ra. Đối với bài tốn nhận dạng

tiếng nói, đó là sự tương ứng của các ký tự (hay từ) đầu ra so
với các khung thời gian của chuỗi đầu vào. Tuy nhiên, mơ hình
này cịn được sử dụng trong bài tốn nhận dạng chữ viết tay [8]
và các bài toán nhận dạng chuỗi khác.
Ta ký hiệu:
• L là tập các ký tự văn bản của mơ hình
• b là ký tự trống.
• L =L∪{ b }
Định nghĩa hàm chuẩn hóa chuỗi N (S) là hàm L
hiện hai bước sau:
21

n

→ Lm thực


HV: NGHIÊM NGUYỄN VIỆT DŨNG

KHMT-2016B

Hình 2.1: Mơ hình CTC

1. Bỏ các ký tự liên tiếp giống nhau
2. Bỏ tất cả ký tự trống ( b )
Ví dụ: Đối với chuỗi a b aa b bbb , sau khi bỏ đi ký tự liên
tiếp giống nhau ,ta được a b a b b . Tiếp theo ta loại bỏ đi ký
tự b , để có aab.
Do vậy, N (a b aa b bbb) = aab
Định nghĩa B(y, x) là tập tất cả các chuỗi S hình thành bởi

các ký tự trong tập Y ∪ { b } và có độ dài bằng độ dài của x mà
N (S) = y . Khi đó, xác suất của một xâu văn bản y khi biết
đầu vào x được tính bằng cơng thức 2.1.
T

P (yt |x)

P (y|x) =

(2.1)

y∈B(y,x) t=1

Xác suất điều kiện cho mỗi ký tự ở mỗi khung thời gian
P (yt |x) được tính bằng mạng nơron hồi quy. Cụ thể, chuỗi x
enc
được đưa vào bộ encoder để tính chuỗi vector henc = (henc
1 , ..., hT )
rồi chuỗi này được đưa qua một lớp softmax để có được phân
22


×