Tải bản đầy đủ (.pdf) (111 trang)

Nhận dạng tự động tiếng việt nói sử dụng bộ công cụ sphinx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 111 trang )

LỜI CAM ĐOAN
Tôi – Nguyễn Thị Hiền, học viên lớp Cao học CNTT 2010 – 2012 Trƣờng Đại
học Bách khoa Hà Nội – cam kết Luận văn tốt nghiệp là công trình nghiên cứu của
bản thân tôi dƣới sự hƣớng dẫn của TS. Nguyễn Hồng Quang - Viện Công Nghệ
Thông Tin và Truyền Thông – Đại học Bách Khoa Hà Nội. Các kết quả trong Luận
văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào
khác.

Hà Nội, ngày 12 tháng 9 năm 2012
Học viên: Nguyễn Thị Hiền
Lớp: 10BCNTT-HV

1


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS. Nguyễn Hồng Quang –
Bộ môn kỹ thuật máy tính – Viện Công Nghệ Thông Tin và Truyền Thông – Đại
học Bách Khoa Hà Nội, Thầy đã khuyến khích và rất tận tình hƣớng dẫn tôi trong
suốt quá trình thực hiện luận văn. Nhờ sự quan tâm chỉ bảo và những ý kiến đóng
góp quý báu của Thầy, tôi mới có thể hoàn thành luận văn này.
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trƣờng Đại học Bách
Khoa Hà Nội nói chung và Viện Công Nghệ Thông Tin và Truyền Thông nói riêng
đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong
suốt những năm học vừa qua.
Tôi cũng xin cảm ơn các giảng viên đồng nghiệp ở trƣờng Đại học Hùng
Vƣơng đã tạo điều kiện về thời gian để tôi có thể học tập và hoàn thành luận văn.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã luôn ủng hộ và động
viên tôi trong những lúc khó khăn nhất.

2




MỤC LỤC
LỜI CAM ĐOAN .................................................................................................... 1
LỜI CẢM ƠN ......................................................................................................... 2
MỤC LỤC .............................................................................................................. 3
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT .............................................................. 7
DANH MỤC HÌNH .............................................................................................. 10
MỞ ĐẦU .............................................................................................................. 12
1. Lý do chọn đề tài ............................................................................................... 12
2. Mục đích, phạm vi nghiên cứu ........................................................................... 13
3. Đối tƣợng nghiên cứu ........................................................................................ 13
4. Phƣơng pháp nghiên cứu ................................................................................... 13
5. Nhiệm vụ nghiên cứu......................................................................................... 13
CHƢƠNG 1. CƠ SỞ LÝ THUYẾT .................................................................... 14
1.1. Nhận dạng tiếng nói ........................................................................................ 14
1.1.1. Nhận dạng tiếng nói là gì ......................................................................... 14
1.1.2. Mô hình tổng quan của nhận dạng tiếng nói ............................................. 15
1.1.3. Các ứng dụng của nhận dạng tiếng nói..................................................... 17
1.2. Một số đặc điểm của tiếng Việt nói ................................................................ 18
1.3. Những thuận lợi và khó khăn đối với nhận dạng tiếng Việt nói ....................... 21
1.3.1. Thuận lợi ................................................................................................. 21
1.3.2. Khó khăn ................................................................................................. 22
1.4. Tìm hiểu về các kết quả nhận dạng tiếng nói đã có với tiếng Việt ................... 22
1.4.1. Tìm hiểu về kết quả của đề tài “Nhận dạng tự động tiếng Việt nói sử dụng
hệ thống HTK ” của PGS. TS. Trịnh Văn Loan, TS. Nguyễn Hồng Quang và Lê
Thế Đạt……………………………………………………………………………..22
1.4.2. Tìm hiểu về kết quả của đề tài “ Nhận dạng tự động tiếng Việt nói bằng
phƣơng pháp FLaVoR ” của tác giả Vũ Hải Quân. ................................................ 24
1.4.3. Tìm hiểu về kết quả của đề tài “Tăng cƣờng độ chính xác của hệ thống

mạng neuron nhận dạng tiếng Việt” của tác giả Đặng Ngọc Đức, Lƣơng Chi Mai . 27

3


1.5. Hệ thống nhận dạng tiếng nói ......................................................................... 32
1.6. Mô hình âm học……………………………………………………………….33
1.6.1. Giới thiệu chung về mô hình Markov ẩn .................................................. 34
1.6.2. Mô hình Markov rời rạc về mặt thời gian ................................................ 34
1.7. Mô hình ngôn ngữ .......................................................................................... 37
1.7.1. Lý thuyết chung về mô hình ngôn ngữ ..................................................... 37
1.7.2. Tầm quan trọng của mô hình ngôn ngữ .................................................... 38
CHƢƠNG 2. CÁC CÔNG CỤ SỬ DỤNG TRONG ĐỀ TÀI ............................ 39
2.1. Bộ công cụ tạo mô hình ngôn ngữ thống kê CMU SLM ................................. 39
2.2. Các chức năng của công cụ CMU SLM .......................................................... 39
2.3. Các công cụ của CMU SLM ........................................................................... 41
2.3.1. Công cụ đếm số lần xuất hiện của các từ [text2wfreq]. ............................ 41
2.3.2. Công cụ tạo bộ từ vựng [wfreq2vocab] .................................................... 41
2.3.3. Công cụ đếm tần suất n-gram [text2wngram] .......................................... 42
2.3.4. Công cụ đếm tần suất và đánh chỉ số n-gram [text2idngram] ................... 42
2.3.5. Công cụ chuyển đổi mô hình ngôn ngữ thống kê [ngram2mgram] ........... 43
2.3.6. Công cụ đánh chỉ số [wngram2idngram] ………………………………...44
2.3.7. Công cụ ghép nhiều file n-gram [mergeidngram] ..................................... 44
2.3.8. Công cụ tạo mô hình ngôn ngữ thống kê [idngram2lm] ......................... 45
2.3.9. Công cụ chuyển đổi định dạng file mô hình ngôn ngữ [binlm2arpa] ........ 46
2.3.10. Công cụ đánh giá mô hình ngôn ngữ [Evallm] ....................................... 47
2.3.11. Định dạng file chuẩn ARPA .................................................................. 47
2.4. Sơ đồ xây dựng mô hình ngôn ngữ bằng công cụ CMU SLM . ....................... 50
2.5. Công cụ huấn luyện mô hình âm học SphinxTrain .......................................... 51
2.6. Công cụ nhận dạng tiếng nói PocketSphinx .................................................... 53

2.7. Công cụ đánh giá kết quả nhận dạng Sclite ..................................................... 54
CHƢƠNG 3. TRIỂN KHAI

HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG

TIẾNG VIỆT NÓI………………………………………………………………..56
3.1. Sơ đồ tổng quan quá trình xây dựng hệ thống nhận dạng tiếng nói .................. 56

4


3.2. Chuẩn bị dữ liệu ............................................................................................. 57
3.2.1. Thu âm .................................................................................................... 58
3.2.2. Cơ sở dữ liệu BKSPEC ............................................................................ 60
3.2.3. Một số quy ƣớc........................................................................................ 62
3.2.4. Xây dựng một tập danh sách các âm vị và tạo từ điển phát âm cho hệ thống
nhận dạng .............................................................................................................. 63
3.2.5. Tạo file phiên âm..................................................................................... 67
3.2.6. Tạo file danh sách.................................................................................... 68
3.2.7. Tạo file filler ........................................................................................... 68
3.3. Huấn luyện mô hình âm học cho Tiếng Việt sử dụng SphinxTrain.................. 69
3.3.1. Sơ đồ khối cho quá trình huấn luyện mô hình âm học sử dụng SphinxTrain ...... 69

3.3.2. Bƣớc 1: Tạo thƣ mục làm việc ................................................................. 70
3.3.3. Bƣớc 2: Tạo cấu trúc thƣ mục và các file cấu hình cần thiết......................70
3.3.4. Bƣớc 3: Sửa file cấu hình ....................................................................... 71
3.3.5. Bƣớc 4: Cập nhật dữ liệu huấn luyện ....................................................... 71
3.3.6. Bƣớc 5: Tính tham số MFCC của các file WAV ...................................... 72
3.3.7. Bƣớc 6: Huấn luyện mô hình HMM cho từng âm vị ............................... 72
3.4. Xây dựng mô hình ngôn ngữ thống kê cho Tiếng Việt......................................74

3.4.1. Sơ đồ khối của quá trình xây dựng mô hình ngôn ngữ thống kê ............... 74
3.4.2. Bƣớc 1: Cài đặt phần mềm CMU SLM Toolkit vào thƣ mục................ ..75
3.4.3. Bƣớc 2: Tạo file cơ sở dữ liệu văn bản để huấn luyện mô hình ngôn ngữ.75
3.4.4. Bƣớc 3: Xác định bộ từ vựng ................................................................... 75
3.4.5. Bƣớc 4: Đếm số n-gram........................................................................... 75
3.4.6. Bƣớc 5: Tạo mô hình ngôn ngữ ở dạng file ARPA .................................. 76
3.4.7. Bƣớc 6: Tạo mô hình ngôn ngữ ở dạng file DMP (dạng file nhị phân) sử
dụng Sphinxbase ................................................................................................... 76
3.5. Nhận dạng Tiếng Việt nói với PocketSphinx .................................................. 77
3.5.1. Sơ đồ khối của quá trình nhận dạng tiếng Việt nói với pocketSphinx ....... 77
3.5.2. Cài đặt phần mềm pocketsphinx ............................................................. 78

5


3.5.3. Chạy thử nghiệm với mô hình độc lập ngữ cảnh: ..................................... 78
3.5.4. Chạy thử nghiệm với mô hình phụ thuộc ngữ cảnh: ................................. 80
3.6. Kết quả thử nghiệm và đánh giá kết quả ......................................................... 82
3.6.1. Thực hiện bằng công cụ Sclite ................................................................. 82
3.6.2. Phân tích đánh giá kết quả ....................................................................... 83
3.7. Chƣơng trình demo nhận dạng tiếng nói ......................................................... 92
TÀI LIỆU THAM KHẢO ................................................................................... 96
PHỤ LỤC ............................................................................................................. 97
Phụ lục A: Ba bài toán cơ bản khi áp dụng mô hình HMM .............................. 97
A.1. Bài toán thứ nhất: Đánh giá xác suất .............................................................. 97
A.2. Bài toán thứ hai: Tìm dãy trạng thái tối ƣu ..................................................... 98
A.3. Bài toán thứ ba: Ƣớc lƣợng tham số của mô hình ......................................... 100
A.4. Những vấn đề khác trong mô hình Markov ẩn ............................................. 103
A.4.1. Các loại mô hình Markov ẩn: ................................................................ 103
A.4.2. Mật độ quan sát rời rạc và mật độ quan sát liên tục: .............................. 105

A.4.3. Huấn luyện với nhiều dãy quan sát ....................................................... 106
A.4.4. Khởi tạo các tham số ƣớc lƣợng của mô hình: ...................................... 106
Phụ lục B. Mô hình ngôn ngữ thống kê………………………………………...107
B.1. Các khái niệm liên quan đến mô hình ngôn ngữ ........................................... 107
B.1.1. Mô hình N-grams .................................................................................. 107
B.1.2. Các phƣơng pháp làm trơn (Smooth) .................................................... 107
B.2. Lý thuyết liên quan đến mô hình ngôn ngữ .................................................. 108
B.2.1. Lý thuyết xác suất ................................................................................. 108
B.2.2. Mô hình ngôn ngữ n-gram ......................................................................108
B.2.3. Các phƣơng pháp làm trơn .................................................................... 109
B.2.4. Đánh giá mô hình ngôn ngữ bằng Perplexity………………………......110

6


DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
Chữ viết tắt
Acoustic Model
ASCII

Chữ viết đầy đủ
Mô hình ngôn ngữ
American Standard Code for Information Interchange –
Chuẩn mã dùng để trao đổi thông tin của Hoa Kì.
Bach Khoa SPEech Corpus – cơ sở dữ liệu tiếng nói đƣợc

BKSPEC

phát triển tại bộ môn Kỹ Thuật Máy Tính – Viện Công
Nghệ Thông Tin và Truyền Thông – Đại học Bách Khoa Hà

Nội.

HMM

Hidden Markov Model – mô hình Markov Ẩn.

Language Model

Mô hình ngôn ngữ.
Carnegie Mellon University Statistical Language Modeling

CMU SLM

Toolkit: là một công cụ dùng để xây dựng mô hình ngôn
ngữ thống kê.

MFCC

Mixture

VIQR

Mel Frequency Cepstral Coefficients – các hệ số Cepstral
theo thang đo tần số Mel.
Một thành phần Gauss trong mô hình phân bố xác suất hỗn
hợp Gauss.
VIetnamese Quoted-Readable - là một quy ƣớc để viết chữ
tiếng Việt dùng bảng mã ASCII 7 bit.

#Snt


#Sentence – Tổng số câu

% Corr

Percent of correct words – phần trăm các từ đúng

% Sub

Percent of substituted words – phần trăm các từ bị thay thế

% Del

Percent of deleted words - phần trăm các từ bị xóa

% Ins

Percent of inserted words - phần trăm các từ bị chèn

% WER

Percent Word Error Rate – Tỷ lệ lỗi nhận dạng từ

7


DANH MỤC BẢNG
Bảng 1-1 Cấu trúc của một âm tiết tiếng Việt ........................................................ 20
Bảng 1-2 Kích thƣớc của nguồn dữ liệu sử dụng trong đề tài “ Nhận dạng tự động
tiếng Việt nói sử dụng hệ thống HTK ” ................................................................. 23

Bảng 1-3 Dữ liệu sử dụng trong đề tài “Nhận dạng tự động tiếng Việt nói bằng
phƣơng pháp FLaVoR” ......................................................................................... 25
Bảng 1-4 Thống kê perplexity của hai mô hình ngôn ngữ trong đề tài “ Nhận dạng
tự động tiếng Việt nói bằng phƣơng pháp FLaVoR” .............................................. 26
Bảng 1-5 Tỷ lệ lỗi WU của đề tài “ Nhận dạng tự động tiếng Việt nói bằng phƣơng
pháp FLaVoR” ...................................................................................................... 26
Bảng 1-6 Phiên âm chính tả âm tiết và âm vị mƣời chữ số tiếng Việt .................... 30
Bảng 1-7 Số lƣợng các category tƣơng ứng với mỗi âm vị..................................... 30
Bảng 1-8 Kết quả nhận dạng của các hệ thống nhận dạng dùng đơn vị nhận dạng cơ
sở là âm vị phụ thuộc ngữ cảnh ............................................................................. 31
Bảng 1-9 Kết quả nhận dạng của bƣớc 2................................................................ 32
Bảng 1-10 Kết quả nhận dạng của bƣớc 3 .............................................................. 32
Bảng 2-1 Các định dạng file hỗ trợ bởi CMU SLM ............................................... 40
Bảng 3-1 Dữ liệu văn bản dùng để thu âm ............................................................. 59
Bảng 3-2 Thông tin về dữ liệu tiếng nói ứng với mỗi ngƣời nói ............................. 60
Bảng 3-3 Cách biểu diễn dấu và thanh điệu tiếng Việt có sử dụng VIQR............... 62
Bảng 3-4 Quy đổi thanh điệu và dấu mũ của chữ cái ............................................. 63
Bảng 3-5 Danh sách phone là nguyên âm .............................................................. 65
Bảng 3-6 Danh sách phone là phụ âm .................................................................... 66
Bảng 3-7 Danh sách các từ trong file từ điển ......................................................... 67
Bảng 3-8 Thời gian huấn luyện với SphinxTrain ................................................... 83
Bảng 3-9 Thời gian nhận dạng với PocketSphinx với mô hình ngôn ngữ bigram ... 84
Bảng 3-10 Thời gian nhận dạng với PocketSphinx với mô hình ngôn ngữ trigram. 85

8


Bảng 3-11 Kết quả nhận dạng bằng PocketSphinx của mô hình độc lập ngữ cảnh
với mô hình ngôn ngữ bigram ................................................................................ 86
Bảng 3-12 Kết quả nhận dạng bằng PocketSphinx của mô hình độc lập ngữ cảnh

với mô hình ngôn ngữ trigram ............................................................................... 87
Bảng 3-13 Kết quả nhận dạng bằng PocketSphinx của mô hình phụ thuộc ngữ cảnh
với mô hình ngôn ngữ bigram ................................................................................ 88
Bảng 3 -14 Kết quả nhận dạng bằng PocketSphinx của mô hình phụ thuộc ngữ cảnh
với mô hình ngôn ngữ trigram ............................................................................... 89
Bảng 3-15 Kết quả tổng hợp nhận dạng tiếng nói bằng PocketSphinx ................... 90
Bảng 3-16 So sánh kết quả của đề tài với các đề tài đã tìm hiểu…………………..92

9


DANH MỤC HÌNH

Hình 1.2 Cấu trúc cơ bản của một hệ nhận dạng tiếng nói ..................................... 16
Hình 1.3 Phổ tín hiệu của âm tiết “ba” ................................................................... 19
Hình 1.4 Sự khác nhau về phổ của 5 nguyên âm cơ bản......................................... 19
Hình 1.5 Hệ thống nhận dạng dùng mạng ANN trong đề tài “Tăng cƣờng độ chính
xác của hệ thống mạng neuron nhận dạng tiếng Việt”............................................ 27
Hình 1.6 Quá trình mã hóa và giải mã bản tin ........................................................ 33
Hình 2.1 Giao diện chạy lệnh CYGWIN................................................................ 39
Hình 2.2 Sơ đồ xây dựng mô hình ngôn ngữ bằng công cụ CMU SLM ................. 50
Hình 2.3 Mô hình HMM ứng với ma trận chuyển trạng thái .................................. 53
Hình 3.1 Quá trình xây dựng hệ thống nhận dạng tiếng nói ................................... 56
Hình 3.2 Các bƣớc chuẩn bị dữ liệu ....................................................................... 57
Hình 3.3 Phần mềm hỗ trợ thu âm ......................................................................... 58
Hình 3.4 Chuyển đổi giữa UTF-8 và VIQR dùng Unikey ...................................... 62
Hình 3.5 Âm vị phụ âm ........................................................................................ 63
Hình 3.6 Âm vị nguyên âm .................................................................................... 64
Hình 3.7 Sơ đồ khối của quá trình huấn luyện mô hình âm học sử dụng SphinxTrain ...... 69


Hình 3.8 Huấn luyện mô hình âm học bằng SphinxTrain ....................................... 73
Hình 3.9 Sơ đồ khối của quá trình xây dựng mô hình ngôn ngữ thống kê .............. 74
Hình 3.10 Xây dựng mô hình ngôn ngữ thống kê .................................................. 77
Hình 3.11 Quá trình nhận dạng tiếng nói với pocketSphinx ................................... 77
Hình 3.12 Nhận dạng tiếng nói bằng pocketSphinx ............................................... 82
Hình 3.13 Thời gian nhận dạng bằng PocketSphinx với mô hình ngôn ngữ bigram
của các thử nghiệm với số thành phần Gauss khác nhau…………………………..84
Hình 3.14 Thời gian nhận dạng bằng PocketSphinx với mô hình ngôn ngữ trigram
của các thử nghiệm với số thành phần Gauss khác nhau ........................................ 85
Hình 3.15 Kết quả nhận dạng bằng PocketSphinx của mô hình độc lập ngữ cảnh với
mô hình ngôn ngữ bigram ...................................................................................... 86

10


Hình 3.16 Kết quả nhận dạng bằng PocketSphinx của mô hình độc lập ngữ cảnh với
mô hình ngôn ngữ trigram ..................................................................................... 87
Hình 3.17 Kết quả nhận dạng bằng PocketSphinx của mô hình phụ thuộc ngữ cảnh
với mô hình ngôn ngữ bigram ................................................................................ 88
Hình 3.18 Kết quả nhận dạng bằng PocketSphinx của mô hình phụ thuộc ngữ cảnh
với mô hình ngôn ngữ trigram ............................................................................... 89
Hình 3.19 Kết quả tổng hợp nhận dạng tiếng nói bằng pocketSphinx .................... 90
Hình 3.20 Giao diện phần mềm nhận dạng tiếng nói .............................................. 93
Hình A.1. Mô hình Markov ẩn liên kết đầy đủ với 4 trạng thái ............................ 103
Hình A.2. Mô hình Markov ẩn liên kết trái-phải với 4 trạng thái ......................... 104

11


MỞ ĐẦU

1. Lý do chọn đề tài
Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa ngƣời và
máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con ngƣời. Hiện nay
trên thế giới, lĩnh vực nhận dạng tiếng nói đã đạt đƣợc nhiều tiến bộ vƣợt bậc. Tuy
nhiên, hầu hết các hệ thống này chủ yếu sử dụng các cơ sở dữ liệu tiếng nói khá
hoàn chỉnh (chủ yếu là tiếng Anh).
Ý tƣởng về xây dựng các hệ thống nhận dạng tiếng nói đã có từ những năm
50 của thế kỷ 20 và đến nay đã đạt đƣợc nhiều kết quả đáng kể. Có 3 hƣớng tiếp cận
chính cho nhận dạng tiếng nói:
 Tiếp cận Âm học: Hƣớng tiếp cận này dựa vào các đặc điểm âm học đƣợc
rút ra đƣợc từ phổ âm thanh. Tuy nhiên kết quả của hƣớng tiếp cận này còn thấp vì
trong thực tế, các đặc trƣng âm học có sự biến động rất lớn. Hơn nữa phƣơng pháp
này đòi hỏi tri thức rất đầy đủ về âm học (Vốn tri thức âm học hiện nay chƣa thể
đáp ứng).
 Tiếp cận Nhận dạng mẫu thống kê: Sử dụng các phƣơng pháp máy học dựa
trên thống kê để học và rút ra mẫu tham khảo từ lƣợng dữ liệu lớn. Hƣớng này đang
đƣợc sử dụng nhiều, chủ yếu là dựa vào Mô hình Markov ẩn (HMM).
 Tiếp cận Trí tuệ nhân tạo: Là hƣớng kết hợp của cả hai hƣớng trên. Phƣơng
pháp này kết hợp đƣợc cả tri thức của chuyên gia và phƣơng pháp mẫu thống kê.
Đây sẽ là hƣớng tiếp cận tƣơng lai của nhận dạng tiếng nói.
Ở Việt Nam, hƣớng nghiên cứu và phát triển các hệ thống nhận dạng tiếng
nói đang đƣợc phát triển mạnh mẽ. Do tiếng Việt có những đặc thù riêng, nên việc
chọn lựa cách tiếp cận bài toán nhận dạng sao cho phù hợp với tiếng Việt là một
vấn đề quan trọng và tƣơng đối khó khăn. Với mục đích tìm hiểu và góp phần phát
triển chƣơng trình nhận dạng tiếng Việt nói, tác giả đã thực hiện đề tài “ Nhận dạng
tự động tiếng Việt nói sử dụng bộ công cụ Sphinx”.
Hệ thống Sphinx là một hệ thống nhận dạng tiếng nói. Hệ thống này đƣợc

12



phát triển bởi sự hợp tác giữa trƣờng đại học Carnegie Mellon, phòng thí nghiệm
của hãng Sun, hãng Mitsubishi, hãng Hewlett Packard, cùng với sự tham gia của
trƣờng đại học California và Viện Công nghệ Massachusetts (MIT). Hệ thống này
đã đƣợc sử dụng để nghiên cứu và phát triển các ứng dụng nhận dạng tiếng nói và
tƣơng tác ngƣời máy. Vì vậy nhu cầu nghiên cứu và sử dụng hệ thống này cho tiếng
Việt đã trở nên ngày càng cấp thiết và có tính ứng dụng thực tiễn cao.
2. Mục đích, phạm vi nghiên cứu
- Tìm hiểu tổng quan về nhận dạng tiếng nói, và các đặc điểm của tiếng Việt nói.
- Nghiên cứu về mô hình HMM và công cụ sphinxtrain để huấn luyện mô hình
âm học.
- Tìm hiểu về mô hình ngôn ngữ và công cụ tạo mô hình ngôn ngữ thống kê
CMU SLM
- Tìm hiểu về công cụ sphinxbase, và pocketsphinx để thực hiện nhận dạng tiếng
nói.
3. Đối tƣợng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng tiếng Việt nói.
- Nghiên cứu mô hình HMM, mô hình ngôn ngữ.
- Nghiên cứu về các công cụ: sphinxtrain, CMU SLM, sphinxbase, pocketsphinx.
4. Phƣơng pháp nghiên cứu
Các phƣơng pháp nghiên cứu đã đƣợc áp dụng bao gồm:
- Nghiên cứu lý thuyết về nhận dạng tiếng nói.
- Nghiên cứu sử dụng bộ công cụ nhận dạng tiếng nói Sphinx.
- Thu âm tiếng Việt nói và thử nghiệm nhận dạng tiếng Việt nói.
5. Nhiệm vụ nghiên cứu
- Tìm hiểu khái quát về nhận dạng tiếng nói, và những đặc điểm của tiếng Việt
nói.
- Tìm hiểu về mô hình HMM, mô hình ngôn ngữ.
- Tìm hiểu về hoạt động của công cụ CMU SLM, sphinxtrain, sphinxbase,
pocketsphinx.


13


CHƢƠNG 1. CƠ SỞ LÝ THUYẾT
1.1. Nhận dạng tiếng nói
1.1.1. Nhận dạng tiếng nói là gì
Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết đƣợc ngữ nghĩa của lời
nói. Thực chất đây là quá trình biến đổi tín hiệu âm thanh thu đƣợc qua micro, qua
đƣờng dây điện thoại hoặc các thiết bị thu âm khác, … thành một chuỗi các từ, kết
quả có thể đƣợc sử dụng ngay trong các ứng dụng điều khiển thiết bị, nhập dữ liệu,
soạn thảo văn bản bằng lời, … hoặc đƣợc đƣa đến một quá trình xử lý ngôn ngữ
mức cao hơn.
Một hệ nhận dạng tiếng nói lý tƣởng phải có khả năng nhận dạng đƣợc từ bất
kỳ đƣợc nói bởi một ngƣời bất kỳ và trong mọi môi trƣờng. Tuy nhiên trong thực tế,
hiệu năng của hệ thống phụ thuộc rất nhiều yếu tố. Ví dụ lƣợng từ vựng lớn, nhiều
ngƣời nói, nhận dạng tiếng nói liên tục, tác động của nhiễu lên tín hiệu tiếng nói là
các yếu tố làm quá trình nhận dạng trở nên phức tạp.
Xây dựng một hệ nhận dạng tiếng nói gặp rất nhiều khó khăn. Một số khó
khăn chủ yếu là:
 Tiếng nói là tín hiệu thay đổi theo thời gian. Mỗi ngƣời có một giọng nói,
cách phát âm khác nhau… Thậm chí một ngƣời phát âm cùng một từ mà mỗi
lần khác nhau cũng không giống nhau (chẳng hạn về âm lƣợng, tốc độ …)
 Các phƣơng pháp nhận dạng hiện tại của máy tính khá “máy móc”, còn xa
mới đạt đến mức độ tƣ duy của con ngƣời.
 Nhiễu là thành phần luôn gặp trong môi trƣờng hoạt động của các hệ thống
nhận dạng và ảnh hƣởng rất nhiều đến kết quả nhận dạng.
Do những khó khăn đó, nhận dạng tiếng nói cần tri thức từ rất nhiều ngành
khoa học liên quan:
 Xử lí tín hiệu: Tìm hiểu các phƣơng pháp tách các thông tin đặc trƣng, ổn

định từ tín hiệu tiếng nói, giảm ảnh hƣởng của nhiễu và sự thay đổi theo thời
gian của tiếng nói.

14


 Âm học: Tìm hiểu mối quan hệ giữa tín hiệu tiếng nói vật lí với các cơ chế
sinh lí học của việc phát âm và việc nghe của con ngƣời.
 Nhận dạng mẫu: Nghiên cứu các thuật toán để phân lớp, huấn luyện và so
sánh các mẫu dữ liệu …
 Lý thuyết thông tin: Nghiên cứu các mô hình thống kê, xác suất, các thuật
toán tìm kiếm, mã hóa, giải mã, ƣớc lƣợng các tham số của mô hình …
 Ngôn ngữ học: Tìm hiểu mối quan hệ giữa ngữ âm và ngữ nghĩa, ngữ pháp,
ngữ cảnh của tiếng nói.
 Tâm – sinh lí học: Tìm hiểu các cơ chế bậc cao của hệ thống nơron của bộ
não ngƣời trong các hoạt động nghe và nói.
 Khoa học máy tính: Nghiên cứu các thuật toán, các phƣơng pháp cài đặt và sử
dụng hiệu quả các hệ thống nhận dạng trong thực tế.
1.1.2. Mô hình tổng quan của nhận dạng tiếng nói
Theo quan điểm của lý thuyết thông tin, bài toán nhận dạng tiếng nói đƣợc
biểu diễn bằng các mô hình nguồn tin, kênh truyền tin nhƣ trong Hình 1.1
Kênh truyền

Bộ máy
phát âm

Bộ sinh
văn bản

Giải mã

tiếng nói

Xử lý tín hiệu
tiếng nói

X
W

W

Nhận dạng tiếng nói

Hình 1.1 Mô hình nguồn – kênh của một hệ nhận dạng tiếng nói [10].
Trong đó, chủ định của ngƣời nói quyết định chuỗi từ nguồn W mà đƣợc đƣa
ra qua bộ sinh văn bản của ngƣời nói. Văn bản nguồn đƣợc đƣa qua một kênh
truyền thông nhiễu, kênh đó bao gồm bộ máy phát âm của ngƣời nói để sinh ra tiếng
nói dạng sóng và thành phần xử lí tín hiệu tiếng nói của nhận dạng tiếng nói. Cuối
cùng, bộ giải mã tiếng nói nhằm giải mã tín hiệu âm học X thành một chuỗi từ

15

,


mà hy vọng gần giống với chuỗi từ gốc W. Cấu trúc của nhận dạng tiếng nói đƣợc
mô tả Hình 1.2:

Tiếng nói

Khối xử lý tín hiệu


Mô hình ngôn ngữ

Bộ thích nghi

Mô hình
âm học

Ứng dụng

Ứng dụng

Bộ giải mã

Hình 1.2 Cấu trúc cơ bản của một hệ nhận dạng tiếng nói [10]
Hình 1.2 mô tả cấu trúc một hệ thống nhận dạng tiếng nói điển hình trong thực
tế (hình chữ nhật gạch nét đứt). Hệ thống bao gồm các thành phần cơ bản sau:
 Khối xử lý tín hiệu (Signal Processing) – xử lý tín hiệu tiếng nói đầu vào, trích
chọn các vector đặc trƣng.
 Bộ giải mã (Decoder) – nhận các vector đặc trƣng từ khối xử lý tín hiệu, kết
hợp với các tri thức của mô hình âm học và mô hình ngôn ngữ để tìm ra chuỗi từ
thích hợp nhất với vector đặc trƣng tƣơng ứng.
 Bộ thích nghi (Adaptation) – nhận thông tin từ bộ giải mã và thay đổi các tham
số của các mô hình âm học, mô hình ngôn ngữ nhằm nâng cao kết quả nhận dạng.
Và một hệ thống nhận dạng tiếng nói sử dụng các tài nguyên ngôn ngữ sau:
 Mô hình âm học (Acoustic Models) – tri thức về âm học, ngữ âm, sự đa dạng
về môi trƣờng ghi âm, microphone và cả các đặc tính của ngƣời ghi âm nhƣ giới
tính, tuổi, hình thái ngôn ngữ (tiếng địa phƣơng)…

16



 Mô hình ngôn ngữ (Language Models) – tri thức về các yếu tố tạo nên từ, xác
suất xuất hiện của các từ, cụm từ, chuỗi từ liên tục, các quy tắc ngữ pháp, ngữ
nghĩa…
Như vậy, đầu vào của một hệ thống nhận dạng tiếng nói là tín hiệu tiếng nói
từ hệ thống thu âm, hoặc từ hệ thống lưu trữ. Các ứng dụng nhận kết quả của hệ
thống, và có thể dùng các kết quả này để thích nghi một số thành phần của hệ
thống. Cụ thể trong đề tài này, đầu ra của hệ thống là văn bản, và nội dung của đề
tài này là tập trung vào tìm hiểu và xây dựng hệ thống nhận dạng tiếng Việt nói.
1.1.3. Các ứng dụng của nhận dạng tiếng nói
Với sự phát triển của công nghệ nhận dạng tiếng nói, đã đem lại những tiện
ích to lớn cho cuộc sống của con ngƣời, góp phần thay đổi cách thức tƣơng tác giữa
con ngƣời và các thiết bị xung quanh, làm cho cuộc sống của con ngƣời ngày càng
tiện nghi, thoải mái.
Phạm vi ứng dụng của nhận dạng tiếng nói rất đa dạng, thƣờng đƣợc chia
thành năm lĩnh vực chính:
 Ứng dụng nghiệp vụ văn phòng: Các ứng dụng điển hình bao gồm nhập thông
tin vào các biểu mẫu, quản lý và điều khiển cơ sở dữ liệu…
 Ứng dụng trong quản lý sản xuất: Các ứng dụng điển hình cung cấp các tiện
ích “eyes – free, hands – free” giám sát quy trình sản xuất, ví dụ nhƣ kiểm tra
chất lƣợng các mẫu sản phẩm (kiểm soát chất lƣợng).
 Ứng dụng trong các hệ thống điện thoại và viễn thông: Các ứng dụng điển
hình bao gồm quay số bằng giọng nói, trả lời điện thoại tự động, truy nhập
bằng giọng nói.
 Ứng dụng trong các hệ thống y tế: Các ứng dụng chính bao gồm tạo và chỉnh
sửa các báo cáo cụ thể bằng giọng nói.
 Ứng dụng trên các thiết bị di động: Xe hơi và điện thoại di động là hai trong
số các thiết bị di động phổ biến nhất. Các ứng dụng của nhận dạng tiếng nói trên
điện thoại di động, đặc biệt là trên các loại điện thoại thông minh (smartphones),


17


các thiết bị trợ giúp số cá nhân (Personal Digital Assistants – PDA), có dùng giọng
nói để truy nhập thay cho các phƣơng pháp thông thƣờng (dùng bút, bàn phím ảo).
Trên xe hơi, do những hạn chế về khả năng thao tác, sự có mặt của các ứng dụng
nhận dạng tiếng nói là sự trợ giúp đắc lực cho ngƣời lái xe, ví dụ hệ thống FordSync
của Microsoft – Ford dùng công nghệ nhận dạng tiếng nói giúp tài xế có thể ra lệnh
cho các thiết bị giải trí trên xe (đầu đĩa, điện thoại, iPod, Zune …)
1.2. Một số đặc điểm của tiếng Việt nói
 Giới thiệu về âm tiết
Khi giao tiếp, con ngƣời phát ra những chuỗi âm thanh nhất định, ta gọi là
dòng ngữ lƣu (utterance). Trong từng dòng ngữ lƣu, nếu đem chia cắt chúng ra, ta
sẽ thu nhận đƣợc những đơn vị cấu thành nhỏ hơn, đó là âm tiết và âm vị. Trong đó,
âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất.
Mỗi âm tiết là một tiếng.
Ví dụ: lời nói “Một hai ba bốn năm sáu” có 6 âm tiết.
Về mặt sinh lý - vật lý, âm tiết đƣợc định nghĩa là một đơn vị mà khi phát âm
đƣợc đặc trƣng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm.
Trong một âm tiết có thành phần trung tâm bắt buộc phải có đó là nguyên âm
làm hạt nhân cho âm tiết đó. Và một âm tiết khi đƣợc phát ra thì phần năng lƣợng
tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu và cuối âm tiết thì
năng lƣợng giảm dần.
Một đặc điểm dễ thấy là tiếng Việt là ngôn ngữ đơn âm (monosyllable – mỗi
từ đơn chỉ có một âm tiết), không biến hình (cách đọc, cách ghi âm không thay đổi
trong bất cứ tình huống ngữ pháp nào). Tiếng Việt hoàn toàn khác với các ngôn ngữ
Ấn – Âu nhƣ tiếng Anh, tiếng Pháp là các ngôn ngữ đa âm, biến hình.
Theo thống kê trong tiếng Việt có khoảng 10000 âm tiết. Nhìn về mặt ghi âm:
âm tiết tiếng Việt có cấu tạo chung là: phụ âm – vần. Ví dụ âm tin có phụ âm t, vần

in. Phụ âm là một âm vị và âm vị này liên kết rất lỏng lẻo với phần còn lại của âm
tiết (hiện tƣợng nói lái).
Vần trong tiếng Việt lại đƣợc cấu tạo từ các âm vị nhỏ hơn, trong đó có một

18


âm vị chính là nguyên âm.
Hình 1.3 là phổ tín hiệu của âm tiết “ba”. Chúng ta có thể quan sát và phân
biệt rõ miền nhiễu nền (silence), miền phổ của phụ âm b và nguyên âm a (miền đậm
hơn là có mật độ năng lƣợng lớn hơn).

khoảng lặng

Hình 1.3 Phổ tín hiệu của âm tiết “ba” [6].
Quan sát phổ các âm tiết tƣơng tự chúng ta có thể rút ra kết luận: các phụ âm
và các nguyên âm đều phân biệt với nhau rất rõ qua sự phân bố năng lƣợng tại các
miền tần số, ví dụ: phụ âm ở tần số thấp, năng lƣợng nhỏ, nguyên âm có năng lƣợng
lớn ở cả vùng tần số cao. Vùng không có tín hiệu tiếng nói (nhiễu nền và khoảng
lặng) có năng lƣợng thấp và chỉ tập trung ở các tần số rất thấp.
Các nguyên âm có tần phổ (spectrum) khác nhau khá rõ. Hình 1.4 minh họa
sự khác nhau về phổ của 5 nguyên âm cơ bản. Miền đậm là miền có độ năng lƣợng
cao.

Hình 1.4 Sự khác nhau về phổ của 5 nguyên âm cơ bản [6].
Theo tác giả Đoàn Thiện Thuật, xét về mặt ngữ âm – âm vị học âm tiết tiếng

19



Việt có cấu trúc nhƣ sau:
Bảng 1-1 Cấu trúc của một âm tiết tiếng Việt [8].
Thanh điệu
Vần
Âm đầu
Âm đệm

Âm chính

Âm cuối

Lƣợc đồ cho thấy âm tiết tiếng Việt có cấu trúc rõ ràng, ổn định, Mỗi âm vị
có một vị trí nhất định trong âm tiết, tạo thành cấu trúc của một âm tiết nhƣ sau:
Âm tiết = Phụ âm đầu + Vần
Trong đó,
Vần = Âm đệm + Âm chính + Âm cuối
Phụ âm đầu (thủy âm): là yếu tố mở đầu âm tiết. Nó mang tính độc lập do
không tham gia vào việc thay đổi về cƣờng độ giữa các yếu tố bên trong âm tiết.
Các âm tiết tiếng Việt khi phát âm về mặt cấu âm bao giờ cũng mở đầu bằng một
động tác khép lại, dẫn đến chỗ cản trở không khí hoàn toàn hoặc bộ phận. Ðó là
cách phát âm của các âm tiết nhƣ: bút, mai, … Còn những âm tiết nhƣ ăn, uống, …
mặc dù trên chữ viết, phụ âm vắng mặt, nhƣng thực tế chúng cũng phải bắt đầu
bằng một động tác khép kín khe thanh, sau đó mở ra đột ngột gây nên một tiếng
động.
Âm đệm: đóng vai trò là âm lƣớt trong kết cấu âm tiết. Âm đệm ảnh hƣởng
đến cách mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ “toàn” khi phát âm
có hiện tƣợng tròn môi do tác động của âm đệm /-u-/, còn chữ “tàn” thì không có
hiện tƣợng tròn môi do không có âm đệm.
Âm chính: là nguyên âm, âm tiết chính có thể là một nguyên âm đơn hay
nguyên âm đôi.

Âm cuối: là yếu tố kết thúc âm tiết. Các âm tiết tiếng Việt thƣờng đối lập bằng
những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ
nguyên, ví dụ: Má, đi, cho,… Số âm tiết khác kết thúc bằng cách biến đổi âm sắc

20


của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ nhƣ: một,
mai, màng,… Trong trƣờng hợp đầu, ta có các âm cuối là âm vị /zero/, trong trƣờng
hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm.
Thứ tự các loại hình âm vị trong cấu trúc của âm tiết nhƣ trên đƣợc giữ
nguyên không thay đổi cho mỗi âm tiết.
Ngoài ra, tiếng Việt còn là ngôn ngữ có thanh điệu [Bảng 1-1]
 Mỗi âm tiết có thanh điệu riêng
Thanh điệu là một tập hợp những đặc trƣng có liên quan đến độ cao (phụ
thuộc tần số rung động của dây thanh âm) của thanh cơ bản của âm tiết. Nó đƣợc
thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn
nguyên âm tính (nguyên âm và bán nguyên âm).
Thanh điệu trong âm tiết là âm vị siêu đoạn tính (thể hiện trên toàn bộ âm
tiết). Do đó đặc trƣng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét
nhƣ các thành phần khác của âm tiết.
Thanh điệu có thể phân tích thành hai phần thƣờng xuyên kết hợp với nhau:
âm vực (độ cao của thanh cơ bản) và âm điệu (hƣớng chuyển biến cao độ (độ tăng
giảm của tần số)) trong quá trình thể hiện. Vì vậy, mỗi thanh có thể đƣợc miêu tả
nhƣ một sự kết hợp của hai thông số nói trên.
Sự khác biệt về cách phát âm tiếng Việt rất rõ rệt theo giới tính, lứa tuổi và
đặc biệt là theo vị trí địa lí (phƣơng ngữ - giọng miền Bắc, miền Trung và miền
Nam khác nhau rất nhiều).
Hệ thống thanh điệu gồm có 6 thanh: bằng, huyền, sắc, hỏi, ngã, nặng.
1.3. Những thuận lợi và khó khăn đối với nhận dạng tiếng Việt nói

1.3.1. Thuận lợi
Những đặc điểm ngữ âm tiếng Việt cho thấy nhận dạng tiếng nói tiếng Việt
có một số thuận lợi sau:
Tiếng Việt là ngôn ngữ đơn âm, số lƣợng âm tiết không quá lớn. Điều này sẽ
giúp hệ nhận dạng xác định ranh giới các âm tiết dễ dàng hơn nhiều. Đối với hệ
nhận dạng các ngôn ngữ Ấn – Âu (tiếng Anh, tiếng Pháp …) xác định ranh giới âm

21


tiết (endpoint detection) là vấn đề rất khó và ảnh hƣởng lớn đến kết quả nhận dạng.
Tiếng Việt là ngôn ngữ không biến hình từ. Âm tiết tiếng Việt ổn định, có cấu
trúc rõ ràng. Đặc biệt không có 2 âm tiết nào đọc giống nhau mà viết khác nhau.
Điều này sẽ dễ dàng cho việc xây dựng các mô hình âm tiết trong nhận dạng, đồng
thời việc chuyển từ phiên âm sang từ vựng (lexical decoding) sẽ đơn giản hơn so
với các ngôn ngữ Ấn – Âu.
1.3.2. Khó khăn
Ngoài những thuận lợi trên, nhận dạng tiếng nói tiếng Việt cũng gặp rất nhiều
khó khăn dƣới đây:
Tiếng Việt là ngôn ngữ có thanh điệu (6 thanh). Thanh điệu là âm vị siêu
đoạn tính, đặc trƣng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét nhƣ
các thành phần khác của âm tiết.
Cách phát âm tiếng Việt thay đổi nhiều theo vị trí địa lí. Giọng địa phƣơng
trong tiếng Việt rất đa dạng (mỗi miền có một giọng đặc trƣng).
Hệ thống ngữ pháp, ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào
hệ nhận dạng với mục đích tăng hiệu năng nhận dạng. Hệ thống phiên âm cũng
chƣa thống nhất.
Các nghiên cứu về nhận dạng tiếng Việt cũng chƣa nhiều và ít phổ biến. Đặc
biệt khó khăn lớn nhất là hiện nay chƣa có một bộ dữ liệu chuẩn cho việc huấn
luyện và kiểm tra các hệ thống nhận dạng tiếng Việt.

1.4. Tìm hiểu về các kết quả nhận dạng tiếng nói đã có với tiếng Việt
1.4.1. Tìm hiểu về kết quả của đề tài “Nhận dạng tự động tiếng Việt nói sử dụng
hệ thống HTK ” của PGS. TS. Trịnh Văn Loan, TS. Nguyễn Hồng Quang và Lê
Thế Đạt.
a. Cơ sở dữ liệu tiếng nói
Cần chuẩn bị cho hệ thống nhận dạng tiếng nói: từ vựng, cơ sở dữ liệu tiếng
nói và cơ sở dữ liệu văn bản.
 Thứ nhất, từ vựng đƣợc lấy từ một nguồn dữ liệu mở. Từ vựng này chứa
22418 từ (đơn âm tiết và đa âm tiết trong tiếng Việt).

22


 Thứ hai, cơ sở dữ liệu văn bản tiếng việt:
Cơ sở dữ liệu văn bản tiếng việt đƣợc xây dựng với nguồn dữ liệu từ Internet.
Trong đó nguồn dữ liệu báo chí là lớn nhất. Kích thƣớc của nguồn dữ liệu tải về lần
lƣợt đƣợc thể hiện ở Bảng 1-2.
Bảng 1-2 Kích thƣớc của nguồn dữ liệu sử dụng trong đề tài “ Nhận dạng tự
động tiếng Việt nói sử dụng hệ thống HTK ”
Nguồn

Kích thƣớc

Kích thƣớc sau
khi lọc

Vnexpress.net

2.79 GB


168 MB

Vietnamnet.net

1.26 MB

113MB

Vanhoc.xitrum.net

415 MB

97 MB

Vnthuquan.net

1.2 GB

162 MB

4.814 GB

540 MB

Tổng

Trong đề tài này cơ sở dữ liệu văn bản tiếng việt đƣợc đặt tên là BKVTEC
(Vietnamese BachKhoa Text Corpus), với dung lƣợng là 535 MB, bao gồm 4 triệu
câu với 90 triệu âm tiết.
Xây dựng mô hình ngôn ngữ thông kê: Sử dụng BKVTEC ở trên để xây

dựng các mô hình ngôn ngữ thống kê. BKVTEC đƣợc chia thành 2 phần: 90% cho
huấn luyện, 10% cho phần thử nghiệm. Công cụ CMU SLM đƣợc dùng để xây
dựng các mô hình ngôn ngữ thống kê. Mô hình unigram, bigram, trigram đã đƣợc
thử nghiệm.
Tổng số câu thu âm 8047 với khoảng 208000 âm tiết. Tiếng nói đƣợc thu âm
với tần số lấy mẫu là 16000Hz, mỗi mẫu là 16 bit.
Thu âm tiếng nói của 19 ngƣời, có độ tuổi trung bình là 23. Họ có giọng
tiếng Việt chuẩn (Giọng miền Bắc), và mỗi ngƣời nói khoảng 20- 40 câu với những
câu đƣợc lựa chọn một cách ngẫu nhiên. Tổng số câu thu âm là 3045 với dung
lƣợng là 1.32 GB, vào khoảng 5.93 giờ. Và cơ sở dữ liệu tiếng nói này đƣợc đặt tên

23


là BKSPEC.
b. Phƣơng pháp thực hiện nhận dạng tiếng nói
Trong hệ thống này đã sử dụng: các file văn bản đƣợc chọn lọc từ Web và
mô hình ngôn ngữ bigram đƣợc tạo ra bởi công cụ CMU SLM toolkit. Các thử
nghiệm với những mô hình âm học khác nhau. Hơn nữa, các thử nghiệm sử dụng
thích nghi ngƣời nói với MLLR (Maximum Likelihood Linear Regression).
Xây dựng hệ thống nhận dạng tiếng Việt nói sử dụng HTK. Và thích nghi
các ký tự tiếng Việt cho hệ thống HTK.
 Kiểm tra nhận dạng tiếng nói tiếng Việt.
+ Mô hình âm học: Sử dụng từ vựng mô tả ở trên. Từ vựng này chỉ chứa
những từ đơn âm tiết (2521 âm tiết). Sau đó, phát triển một chƣơng trình để xây
dựng một từ điển phát âm cho tiếng Việt. Mỗi âm vị đƣợc thể hiện bởi một mô hình
HMM năm trạng thái. Trong đó, trạng thái đầu và trạng thái cuối không phát xạ.
+ Mô hình ngôn ngữ: hiện nay, HTK hỗ trợ mô hình ngôn ngữ bigram với
monophones. Và sử dụng công cụ CMU SLM để tạo ra mô hình ngôn ngữ ở định
dạng ARPA. Sau đó, sử dụng công cụ HBuild của HTK để tạo ra mô hình ngôn ngữ

tƣơng ứng với định dạng HTK. Mô hình này chứa 35812 bigrams.
c. Kết quả nhận dạng tiếng nói
Cơ sở dữ liệu tiếng nói BKSPEC gồm hai phần: phần huấn luyện gồm 15
ngƣời và phần thử nghiệm gồm 4 ngƣời. Tổng số thời gian nói cho phần thử nghiệm
là 88.8 phút và trung bình mỗi ngƣời nói là 22 phút.
Kết quả nhận dạng tiếng nói đƣợc đánh giá qua chỉ số WA (Word Accuracy),
có nghĩa là phầm trăm số từ nhận dạng đúng, thì trƣờng hợp nhận dạng với mô hình
độc lập ngữ cảnh cho WA là 71.37 %, và 75.96 % là kết quả thử nghiệm với thích
nghi ngƣời nói.
1.4.2. Tìm hiểu về kết quả của đề tài “ Nhận dạng tự động tiếng Việt nói bằng
phương pháp FLaVoR ” của tác giả Vũ Hải Quân.
a. Cơ sở dữ liệu
Cơ sở dữ liệu huấn luyện và dữ liệu thử nghiệm: sử dụng VNBN

24


(Vietnamese Broadcast News corpus). Dữ liệu huấn luyện và dữ liệu thử nghiệm
đƣợc thống kê cụ thể ở Bảng 1-3
Bảng 1-3 Dữ liệu sử dụng trong đề tài “Nhận dạng tự động tiếng Việt nói bằng
phƣơng pháp FLaVoR”

Huấn luyện
Giọng

Tổng số giờ
tiếng nói

Tổng số câu


Thử nghiệm
Tổng số giờ

Tổng số

tiếng nói

câu

Hà Nội

18.0

17502

1.0

1021

Thành Phố Hồ Chí Minh

2.0

1994

_

_

Tổng


20.0

19496

1.0

1021

Dữ liệu tiếng nói đƣợc lấy từ VOV – đài truyền hình phát thanh quốc gia.
Bao gồm tổng cộng 20 giờ tiếng nói, 19496 câu và kích thƣớc của từ vựng khoảng
3174 WUs (Word Units)
b. Phƣơng pháp thực hiện
Hƣớng tiếp cận của đề tài này bao gồm 4 bƣớc:
+ Bƣớc 1: Một âm vị đầu dò F đƣợc tạo ra dựa trên các mô hình âm học
tƣơng ứng. F bao gồm một tập các âm vị phù hợp với thời gian bắt đầu và kết thúc.
+ Bƣớc 2: F đƣợc hợp thành với M, trong đó M đại diện cho WU phát âm,
lập bản đồ trình tự của âm vị theo một từ điển phát âm.
+ Bƣớc 3: FST là kết quả của bƣớc 2 đƣợc tạo ra với W, trong đó W là miêu
tả cho các phân đoạn từ, lập bản đồ trình tự WU theo một trình tự của bộ từ vựng.
+ Bƣớc 4: Cuối cùng, FST là kết quả của bƣớc 3 bao gồm mô hình cơ bản tử
G để tạo ra FST cuối cùng. Viterbi giải mã đƣợc sử dụng để tìm kiếm đƣờng đi tốt
nhất qua FST cuối cùng này.
Cả mô hình ngôn ngữ trigram WU cơ bản và mô hình ngôn ngữ từ cơ bản
đƣợc huấn luyện trên cơ sở dữ liệu ở trên, sử dụng công cụ SRI LM với phƣơng
pháp làm trơn Kneser-Ney. Đối với mô hình ngôn ngữ cơ bản WU, một từ vựng với

25



×