BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGÔ VĂN CƯƠNG
NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TIẾNG NÓI
TIẾNG VIỆT VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 01 04
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2015
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Cán bộ hướng dẫn chính: PGS.TS. Bùi Thế Hồng
Cán bộ chấm phản biện 1: TS. Trần Nguyên Ngọc
Cán bộ chấm phản biện 2: TS. Trần Thị Thu Hà
Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Ngày tháng năm 2015
Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.
TÁC GIẢ LUẬN VĂN
Ngô Văn Cương
MỤC LỤC
Trang
Trang phụ bìa
Bản cam đoan
Mục lục
Các thuật ngữ viết tắt
Mở đầu ......................................................................................................... 1
Chương 1
CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
1.1. Lý thuyết âm thanh và tiếng nói .............................................................. 5
1.1.1. Nguồn gốc âm thanh:............................................................................ 5
1.1.2. Các đại lượng đặc trưng cho âm thanh:................................................. 5
1.1.2.1. Tần số của âm thanh: ......................................................................... 5
1.1.2.2. Chu kì của âm thanh: ......................................................................... 5
1.1.2.3. Tốc độ truyền âm: .............................................................................. 5
1.1.2.4. Cường độ âm thanh: ......................................................................... 5
1.1.2.5. Thanh áp:.......................................................................................... 6
1.1.2.6. Âm sắc: ............................................................................................ 6
1.1.2.7. Âm lượng: ........................................................................................ 6
1.1.3. Các tần số của âm thanh: ...................................................................... 6
1.1.4. Cơ chế tạo lập tiếng nói của con người: ................................................ 6
1.1.5. Mô hình lọc nguồn tạo tiếng nói: .......................................................... 7
1.1.6. Hệ thống nghe của người: ..................................................................... 8
1.1.7. Quá trình sản xuất tiếng nói và thu nhận tiếng nói: ............................... 9
1.1.8. Các âm thanh tiếng nói và các đặc trưng:............................................ 10
1.1.8.1. Nguyên âm: ..................................................................................... 10
1.1.8.2. Các âm vị khác: ............................................................................... 10
1.2. Giới thiệu về xử lý tiếng nói .................................................................. 11
1.3. Nhận dạng tiếng nói .............................................................................. 12
1.3.1. Bài toán nhận dạng tiếng nói .............................................................. 12
1.3.2. Các phương pháp nhận dạng tiếng nói ................................................ 14
1.3.2.1. Phương pháp âm học ngữ âm học .................................................... 14
1.3.2.2. Phương pháp nhận dạng mẫu .......................................................... 16
1.3.2.3. Phương pháp ứng dụng trí tuệ nhân tạo........................................... 18
1.4. Nhận dạng tiếng Việt ............................................................................. 19
1.4.1. Một số đặc điểm ngữ âm tiếng Việt .................................................... 19
1.4.2. Những thuận lợi và khó khăn đối với nhận dạng tiếng Việt ................ 20
1.4.2.1. Thuận lợi ......................................................................................... 20
1.4.2.2. Khó khăn ......................................................................................... 20
Chương 2
MÔ HÌNH NHẬN DẠNG TIẾNG NÓI
2.1. Các kiểu mô hình mạng nơron ............................................................... 22
2.1.1. Perceptron .......................................................................................... 24
2.1.2. Mạng nhiều tầng truyền thẳng (MLP)
25
2.2. Huấn luyện mạng nơron ........................................................................ 26
2.2.1. Các phương pháp học
26
2.2.2. Học có giám sát trong các mạng nơron ............................................... 28
2.2.3. Thuật toán lan truyền ngược ............................................................... 29
2.3. Các vấn đề trong xây dựng mạng MLP.................................................. 30
2.3.1. Chuẩn bị dữ liệu ................................................................................. 30
2.3.1.1. Kích thước mẫu ............................................................................... 30
2.3.1.2. Mẫu con........................................................................................... 32
2.3.2. Xác định các tham số cho mạng.......................................................... 32
2.3.2.1. Chọn hàm truyền ............................................................................. 32
2.3.2.2. Xác định số nơron tầng ẩn ............................................................... 33
2.3.2.3. Khởi tạo trọng.................................................................................. 34
2.3.3. Vấn đề lãng quên (catastrophic forgetting) ......................................... 35
2.3.4. Vấn đề quá khớp................................................................................. 36
2.3.4.1. Khái niệm quá khớp......................................................................... 36
2.3.4.2. Giải quyết quá khớp......................................................................... 36
Chương 3
QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NÓI
3.1. Phát hiện tiếng nói ................................................................................. 38
3.1.1. Năng lượng ngắn hạn.......................................................................... 38
3.1.2. Tốc độ đi qua điểm không .................................................................. 39
3.1.3. Lượng thông tin .................................................................................. 39
3.1.3.1. Tính FFT ......................................................................................... 39
3.1.3.2. Mật độ xác suất của phổ năng lượng ................................................ 40
3.1.3.3. Tính Entropy ................................................................................... 40
3.1.4. Giải thuật phát hiện tiếng nói .............................................................. 40
3.2. Phân tích cepstral thông qua thang độ mel ............................................. 41
3.2.1. Mô hình tính toán các hệ số MFCC .................................................... 42
3.2.2. Quá trình tiền xử lý tín hiệu ................................................................ 42
3.2.2.1. Bộ lọc thích nghi ............................................................................. 42
3.2.2.2. Chuẩn hóa biên độ ........................................................................... 43
3.2.2.3. Phân khung ...................................................................................... 43
3.2.2.4. Lấy cửa sổ ....................................................................................... 43
3.2.2.5. Phổ năng lượng................................................................................ 43
3.2.2.6. Băng lọc Mel ................................................................................... 44
3.2.2.7. Logarit các hệ số năng lượng qua băng lọc ...................................... 44
3.2.2.8. Biến đổi Cosine rời rạc ngược ......................................................... 45
3.2.2.9. Cepstral có trọng số ......................................................................... 45
3.2.2.10. Đạo hàm Cepstral theo thời gian .................................................... 45
3.3. Lượng tử hóa vector .............................................................................. 46
3.3.1. Tập vector huấn luyện ........................................................................ 46
3.3.2. Khoảng cách giữa hai vector............................................................... 47
3.3.3. Nhân của một tập vector ..................................................................... 48
3.3.4. Phân cụm các vector ........................................................................... 48
Chương 4
ỨNG DỤNG XÂY DỰNG HỆ THỐNG MÔ PHỎNG NHẬN
DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG MẠNG NƠRON
MLP TRÊN MATLAB
4.1. Giới thiệu .............................................................................................. 50
4.2. Xây dựng hệ thống nhận dạng demo...................................................... 50
4.2.1. Mô tả chung về hệ thống .................................................................... 50
4.2.2. Sơ đồ khối của hệ thống ..................................................................... 51
4.2.3. Thu thập và tiền xử lí tín hiệu tiếng nói .............................................. 52
4.2.4. Trích chọn đặc trưng MFCC ............................................................... 54
4.2.5. Tính đầu vào cho mạng....................................................................... 56
4.2.6. Xây dựng và huấn luyện và thử nghiệm mạng nơron MLP ................. 58
4.2.7. Sử dụng mạng trong nhận dạng .......................................................... 59
4.2.8. Giao diện của hệ thống demo: ............................................................ 59
4.3. Kết quả thử nghiệm ............................................................................... 62
4.4. Hướng mở rộng của đề tài ..................................................................... 65
4.4.1. Xây dưng bộ dữ liêu huấn luyện lớn hơn ............................................ 65
4.4.2. Xây dựng phần mềm nhận dạng dưa trên kết quả nghiên cứu ............. 65
4.4.3. Nghiên cứu các phương pháp xác định đặc trưng khác ....................... 66
4.4.4. Nghiên cứu các phương pháp nhận dạng khác .................................... 66
DANH MỤC HÌNH
Hình 1-1: Mô hình lọc nguồn tạo tiếng nói ..................................................... 8
Hình 1-2: Quá trình sản xuất và thu nhận tiếng nói......................................... 9
Hình 1-3: Mô hình bài toán xử lý tiếng nói................................................... 12
Hình 1-4: Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu . 16
Hình 1-6: Tích hợp tri thức trong nhận dạng tiếng nói .................................. 19
Hình 2-1: Mạng tự kết hợp ........................................................................... 22
Hình 2-2: Mạng kết hợp khác kiểu ............................................................... 23
Hình 2-3: Mạng truyền thẳng ....................................................................... 23
Hình 2-4: Mạng phản hồi ............................................................................. 24
Hình 2-5: Perceptron .................................................................................... 24
Hình 2-6: Mạng MLP tổng quát ................................................................... 25
Hình 2-7: Mối liên hệ giữa sai số và kích thước mẫu ................................... 31
Hình 2-8: Huấn luyện luân phiên trên hai tập mẫu........................................ 35
Hình 3-1: Sơ đồ khối tính toán các hệ số MFCC .......................................... 42
Hình 4-1: Sơ đồ khối hệ thống nhận dạng tiếng nói các chữ số tiếng Việt bằng
mạng nơron MLP trên môi trường Matlab .................................................... 51
Hình 4-2: Từ ‘hai’ được thu âm – bao gồm nền nhiễu .................................. 52
Hình 4-3: Từ ‘hai’ sau khi đã loại bỏ nền nhiễu........................................... 53
Hình 4-4: Xác định nền nhiễu từ môi trường thu âm .................................... 53
Hình 4-5: wav trước và sau khi chuẩn hóa ở ngưỡng max(wav)=1 ............... 55
Hình 4-6: Mạng MLP gồm 40 đầu vào và 11 đầu ra ..................................... 56
Hình 4-7: Vector đầu vào gồm 40 phần tử, vector đầu ra gồm 11 phần tử .... 57
Hình 4-8: Các vector đầu vào và đầu ra để huấn luyện mạng MLP .............. 57
Hình 4-9: Giao diện chính của hệ thống demo .............................................. 59
Hình 4-10: Chức năng nhận dạng ................................................................. 60
Hình 4-11: Mẫu bảng điểm trên Excel (chưa có điểm) ................................. 61
Hình 4-12: Ứng dụng nhập điểm và xuất sang Excel .................................... 61
Hình 4-13: Mẫu bảng điểm trên Excel (đã có điểm) ..................................... 62
Tóm tắt luận văn:
Họ và tên học viên: Ngô Văn Cương
Lớp: Hệ thống thông tin
Khoá: 25A
Cán bộ hướng dẫn: PGS. TS. Bùi Thế Hồng
Tên đề tài: Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt và
ứng dụng.
Tóm tắt: Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên kỹ
thuật sử dụng mạng nơron MLP (trên môi trường Matlab). Hệ thống có thể
vừa nhận dạng trực tuyến (thu âm trực tiếp và nhận dạng) hoặc nhận dạng từ
tệp âm thanh có sẵn. Ứng dụng của hệ thống là đọc điểm và kết quả là điểm
số sẽ được xuất sang bảng điểm trên Excel.
CÁC THUẬT NGỮ VIẾT TẮT
Viết tắt
Viết đầy đủ
Tạm dịch nghĩa
ASR
Automatic Speech Recognition
Nhận dạng tiếng nói tự động
HMM
Hide Markov Model
Mô hình Markov ẩn
IDFT
Inverse Discrete Fourier Transform
Biến đổi Fourier rời rạc ngược
LPC
Linear Prediction Coding
Mã dự đoán tuyến tính
MFCC
Mel Frequency Cepstral Coefficients
Hệ số phân tích phổ tần Mel
TTS
Text To Speech
Chuyển văn bản thành tiếng nói
STT
Speech To Text
Chuyển tiếng nói thành văn bản
STE
Short Time Energy
Năng lượng ngắn hạn
1
MỞ ĐẦU
Trong thời đại công nghệ thông tin hiện nay, khi việc giao tiếp giữa
người với máy, máy với máy… luôn là vấn đề được quan tâm thì việc trao đổi
thông tin bằng tiếng nói có một vai trò quan trọng. Máy tính ra đời đã giúp
con người giải quyết công việc nhanh gọn và hiệu quả hơn. Tuy nhiên, các
máy tính ngày nay chỉ nhận thông tin từ con người qua các thiết bị như: bàn
phím, chuột, bút,… . M
0.1
0.5
0.1
0.1
0.5
0.01
0.01
50
100
50
50
100
50
1000
1000
63
Kết quả quá trình thử nghiệm được tổng hợp trong các bảng sau:
hnode
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
105
110
115
120
125
130
135
140
145
150
TB
sof01
50
53.64%
64.55%
71.82%
64.55%
89.09%
80.00%
92.73%
50.00%
84.55%
90.00%
90.91%
80.91%
92.73%
93.64%
90.91%
91.82%
92.73%
89.09%
88.18%
88.18%
86.36%
90.91%
92.73%
89.09%
95.45%
92.73%
84.55%
95.45%
88.18%
82.73%
84.61%
sof01
100
37.27%
78.18%
48.18%
88.18%
85.45%
85.45%
91.82%
97.27%
98.18%
91.82%
91.82%
94.55%
93.64%
93.64%
90.00%
98.18%
91.82%
90.91%
93.64%
90.91%
88.18%
93.64%
82.73%
99.09%
89.09%
88.18%
89.09%
94.55%
89.09%
89.09%
87.79%
sof05
50
60.91%
40.91%
75.45%
60.00%
63.64%
75.45%
72.73%
88.18%
92.73%
91.82%
87.27%
87.27%
86.36%
81.82%
96.36%
93.64%
90.00%
93.64%
94.55%
89.09%
93.64%
93.64%
95.45%
95.45%
90.00%
95.45%
90.91%
89.09%
90.91%
90.91%
84.91%
sof001
1000
85.45%
96.36%
94.55%
97.27%
93.64%
98.18%
94.55%
96.36%
97.27%
91.82%
97.27%
97.27%
97.27%
97.27%
97.27%
97.27%
97.27%
96.36%
97.27%
97.27%
97.27%
97.27%
97.27%
96.36%
96.36%
97.27%
96.36%
97.27%
96.36%
97.27%
96.21%
log01
50
27.27%
23.64%
44.55%
52.73%
46.36%
78.18%
75.45%
80.91%
89.09%
89.09%
90.91%
74.55%
85.45%
82.73%
94.55%
94.55%
94.55%
91.82%
90.91%
89.09%
84.55%
95.45%
90.91%
93.64%
91.82%
91.82%
93.64%
93.64%
86.36%
89.09%
80.24%
log01
100
25.45%
46.36%
59.09%
69.09%
84.55%
65.45%
90.00%
94.55%
85.45%
90.91%
83.64%
96.36%
94.55%
90.00%
90.00%
96.36%
98.18%
91.82%
95.45%
89.09%
95.45%
98.18%
95.45%
87.27%
94.55%
90.00%
97.27%
90.91%
94.55%
96.36%
85.88%
log05
50
20.91%
31.82%
45.45%
46.36%
73.64%
52.73%
73.64%
72.73%
89.09%
89.09%
92.73%
88.18%
90.00%
92.73%
87.27%
96.36%
91.82%
88.18%
88.18%
97.27%
86.36%
97.27%
90.91%
91.82%
90.00%
96.36%
91.82%
90.91%
96.36%
92.73%
81.09%
Bảng 4.2: Tỷ lệ số từ nhận dạng đúng so với tổng số từ nhận dạng
log001
1000
41.82%
55.45%
77.27%
86.36%
80.00%
89.09%
92.73%
93.64%
90.00%
98.18%
98.18%
98.18%
95.45%
95.45%
96.36%
98.18%
97.27%
92.73%
95.45%
92.73%
95.45%
98.18%
98.18%
97.27%
97.27%
98.18%
97.27%
99.09%
98.18%
97.27%
91.36%
Biểu đồ sau thể hiện kết quả trung bình trong 2 kiểu mạng sử dụng hàm
kích hoạt “logistic” và “softmax”
64
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
softmax
logistic
Từ kết quả thử nghiệm trên, tác giả luận văn rút ra một số kết luận sau:
Phương pháp nhận dạng bằng mạng nơron cho kết quả nhận dạng
cao nhất là 99. 09% trên bộ dữ liệu do tác giả tự xây dựng. Như vậy
có thể sử dụng mạng nơron làm một cơ cấu nhận dạng khá hiệu quả
(ít nhất là đối với hệ thống nhận dạng các chữ số trong luận văn).
2. Mạng sẽ cho kết quả nhận dạng cao nếu xây dựng hợp lí. Không
hẳn cứ nhiều nơron lớp ẩn, cứ huấn luyện nhiều là mạng có độ
chính xác cao hơn [6]. (Mặc dù việc huấn luyện nhiều đã làm giảm
sai số huấn luyện của mạng). Vấn đề sai số huấn luyện thấp, sai số
kiểm tra cao xảy ra khi độ tương tự giữa bộ dữ liệu huấn luyện và
bộ dữ liệu kiểm tra không lớn. Khi đó mạng nhận dạng rất chính
xác trên bộ dữ liệu huấn luyện nhưng kém chính xác hơn nhiều trên
bộ dữ liệu kiểm tra.
3. Hàm kích hoạt softmax ổn định hơn hàm logistic: Mặc dù kết quả
1.
nhận dạng không phải là cao nhất nhưng kết quả trung bình lại cao
65
hơn; mức độ ổn định hơn, số nơron ẩn cần dùng thấp hơn khi cho
kết quả nhận dạng cao nhất.
4.
Môi trường Matlab có thể giúp công việc nghiên cứu nhận dạng
tiếng nói đơn giản và hiệu quả hơn. Nhờ có Matlab và các bộ công
cụ VoiceBox, NetLab mà việc phát triển hệ thống nhận dạng khá
đơn giản và nhanh chóng, từ Matlab còn có thể xuất kết quả sang
Excel phù hợp với mục đích của nhiều người dùng. (ví dụ: mã
chương trình dùng rất ít lệnh, nhiều phần không cần lập trình).
Những kết luận trên cho thấy khả năng sử dụng mạng nơron và môi
trường Matlab trong nhận dạng tiếng nói có nhiều hứa hẹn. Tuy nhiên để đạt
được kết quả cao hơn, độ chính xác hơn thì phải xây dựng một bộ dữ liệu
chuẩn và có chiến lược xây dựng, huấn luyện, thử nghiệm mạng hợp lí hơn.
4.4. Hướng mở rộng của đề tài
4.4.1. Xây dựng bộ dữ liệu huấn luyện lớn hơn
Như ta đã thấy, bộ dữ liệu là thành phần rất quan trọng đối với hệ
nhận dạng. Hiện tại bộ dữ liệu tác giả đã xây dựng là dùng microphone thu
trực tiếp trên máy tính gồm 330 file để huấn luyện, 110 file để test thử nghiệm
– trên cơ sở 11 từ tiếng Việt – con số này còn quá khiêm tốn. Để có thể có
những kết quả nghiên cứu tốt hơn, tác giả sẽ mở rộng bộ dữ liệu: tăng số
người nói và số từ, đa dạng hoá môi trường ghi âm, trang bị hệ thống thu âm
chuẩn và hiện đại hơn để có chất lượng âm thanh tốt nhất.
4.4.2. Xây dựng phần mềm nhận dạng dưa trên kết quả nghiên cứu
Hệ thống nhận dạng hiện tại của tác giả hiện chỉ được thử nghiệm trên
môi trường Matlab, mới có khả năng nhận dạng một file ghi âm sẵn hoặc
ngay cả khi nhận dạng trực tuyến thì cũng phải thực hiện xong công đoạn thu
66
âm rồi mới đến công đoạn nhận dạng. Trong khi đó để hệ nhận dạng có thể
ứng dụng được tốt trong thực tế thì hệ phải hoạt động ở dạng trực tiếp và liên
tục (tức là vừa ghi âm vừa nhận dạng, chạy như một chương trình hệ thống).
Mục tiêu của tác giả là sau khi thử nghiệm hệ thống cho kết quả cao sẽ xây
dựng một bộ công cụ nhận dạng tiếng nói mà có thể gắn vào các phần mềm
ứng dụng – đây mới là mục đích của nghiên cứu nhận dạng tiếng nói trong
tương lai.
4.4.3. Nghiên cứu các phương pháp xác định đặc trưng khác
Ở nghiên cứu này, việc tách đặc trưng của tín hiệu tiếng nói còn rất
đơn giản (chia frame, tính MFCC, chia 5 phần lấy trung bình cộng). Để nâng
cao kết quả nhận dạng cần tìm những đặc trưng ổn định hơn của tiếng nói và
những phương pháp tách đặc trưng hiệu quả hơn.
4.4.4. Nghiên cứu các phương pháp nhận dạng khác
Các nghiên cứu khác cho thấy hiện tại mô hình Markov ẩn (HMM)
đang cho kết quả nhận dạng cao nhất. Hướng nghiên cứu mới của đề tài là tìm
cách kết hợp mạng nơron và mô hình Markov ẩn nhằm kết hợp ưu điểm của
hai mô hình.
Mặt khác, đối với bộ từ vựng nhỏ thì nhận dạng từ đơn (âm tiết) là
thích hợp. Tuy nhiên với hệ nhận dạng cỡ lớn, nhất là hệ nhận dạng tiếng Việt
hoàn chỉnh (6000 âm tiết) thì chọn đơn vị nhận dạng là âm tiết không hợp lí
lắm. Một hướng nghiên cứu khác của đề tài là nhận dạng đối với đơn vị nhỏ
hơn âm tiết là âm vị. Tức là xây dựng các hệ nhận dạng có chức năng:
•
Phân biệt được nhiễu nền (khoảng lặng), phụ âm, nguyên âm.
•
Nhận dạng phụ âm (phân biệt được các phụ âm khác nhau).
•
Nhận dạng nguyên âm (phân biệt được các nguyên âm khác nhau).
•
Nhận dạng thanh điệu của âm tiết.
67
KẾT LUẬN
Với kết quả kiểm tra độ chính xác nhận dạng như trên thì có thể thấy
rằng việc áp dụng mô hình Markov ẩn trong nhận dạng tiếng Việt đã cho kết
quả khá tốt. Tuy chưa thật sự hoàn hảo nhưng những kết quả thu được tương
đối khả quan, từ đó có thể thấy rằng việc áp dụng mô hình mạng nơron MLP
trong nhận dạng tiếng Việt là khá phù hợp, nếu đầu tư nghiên cứu nhiều hơn
nữa phương pháp này sẽ còn đem lại hiệu quả cao hơn.
Trong chương trình khi chạy vẫn bị nhận dạng nhầm, nguyên nhân dẫn
đến nhận dạng nhầm có thể là:
@ Dữ liệu huấn luyện chưa đầy đủ, số từ đem huấn luyện chưa nhiều,
chưa thu được từ nhiều người, nhiều nơi; môi trường thu âm còn nhiều nền
nhiễu (tiếng ồn),…
@ Một số thông số có ảnh hưởng đến độ chính xác nhận dạng như: hàm
khởi tạo, số nút ẩn, giá trị kích hoạt trọng số,… có thể được lựa chọn chưa tối
ưu.
Các nguyên nhân trên muốn khắc phục được đều cần phải có thời gian,
và cần phải bỏ công sức nghiên cứu nhiều hơn nữa. Để hệ thống có thể được
ứng dụng rộng rãi hơn cần phải cải tiến và mở rộng thêm. Với thiết kế đã
được đưa ra thì hướng phát triển tiếp của tác giả có thể là:
@ Tăng số lượng từ trong từ điển nhận dạng
@ Có thể vừa thu âm, vừa nhận dạng (không phải chờ đến khi thu âm
xong mới nhận dạng)
@ Nhận dạng câu (có khả năng phán đoán được từ gần đúng)
@ Mở rộng ứng dụng của chương trình, không chỉ tích hợp với bộ
Microsoft Office Excel mà có thể nhập dữ liệu vào bất cứ chương trình nào.
Do thời gian làm Luận văn không có nhiều nên tác giả chưa có điều kiện
để tìm hiểu hết những hướng tiếp cận mới trong nhận dạng tiếng nói. Hi vọng
rằng trong thời gian tới tác giả Luận văn có thể hoàn thiện hơn nữa các nội
dung đã đề ra.
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]
Võ Xuân Hào, ĐH Quy Nhơn - 2009: “Giáo trình ngữ âm tiếng Việt
hiện đại”
[2]
TS. Nguyễn Văn Giáp, KS. Trần Việt Hồng - Bộ môn Cơ điện tử Khoa Cơ khí - Đại học Bách Khoa TPHCM: “Kỹ thuật nhận dạng
tiếng nói và ứng dụng trong điều khiển”
[3]
Nguyễn Thị Thanh Nga – Đại học Công nghiệp Thái Nguyên:
“Nghiên cứu ứng dụng giải thuật di truyền kết hợp với thuật toán
‘vượt khe’ để cải tiến quá trình học của mạng neural MLP có mặt lỗi
đặc biệt”
[4]
Đặng Ngọc Đức: “Mạng nơron và mô hình Markov ẩn trong nhận
dạng tiếng Việt” – Luận án Tiến sỹ
[5]
Nguyễn Hữu Tình, Lê Tấn Hùng, Phạm Ngọc Yến, Nguyễn Thị Lan:
“Cơ sở Matlab và ứng dụng” - Sách NXB KHKT – 2009.
[6]
Nguyễn Thành Phúc: “Một phương pháp nhận dạng lời Việt: Áp dụng
phương pháp kết hợp mạng Nơron với mô hình Markov ẩn cho các hệ
thống nhận dạng lời Việt” - Luận án Tiến sĩ Kỹ thuật, Thư viện
trường ĐHBK Hà Nội.
[7]
Đặng Ngọc Đức, Lương Chi Mai: “Tăng cường độ chính xác của hệ
thống mạng nơron nhận dạng tiếng Việt” - Tạp chí Bưu chính Viễn
thông, số 11 (3/2004).
[8]
Phạm Văn Sự, Lê Xuân Thành – Học viện Công nghệ bưu chính viễn
thông: “Bài giảng xử lý tiếng nói” – 2010.
Tiếng Anh:
[9]
NEURAL NETWORKS: Basics using MATLAB Neural Network
Toolbox By Heikki N. Koivo ©2008.
[10] Theodoros Giannakopoulos, Department of Informatics and
Telecommunications University of Athens, Greece: “A method for
silence removal and segmentation of speech signals, implemented in
Matlab”
[11] G. Saha1, Sandipan Chakroborty2, Suman Senapati3 Department of Electronics and Electrical Communication
Engineering: “A New Silence Removal and Endpoint Detection
Algorithm for Speech and Speaker Recognition Applications”
LÝ LỊCH TRÍCH NGANG
Họ và tên:
Ngô Văn Cương
Ngày tháng năm sinh:
01/10/1974
Địa chỉ liên lạc:
Nơi sinh: Bắc Ninh
Khoa CNTT-Trường CĐ Thủy Sản - Từ Sơn - Bắc Ninh.
Quá trình đào tạo:
1993-1997: Học đại học - Trường ĐH Kinh tế Quốc dân. Chuyên ngành Tin
học kinh tế.
Quá trình công tác:
1997-2000: Giáo viên trường THPT Lý Thái Tổ - Từ Sơn - Bắc Ninh.
2000-nay: Giáo viên trường CĐ Thủy Sản - Từ Sơn - Bắc Ninh.
XÁC NHẬN QUYỂN LUẬN VĂN ĐỦ ĐIỀU KIỆN NỘP LƯU CHUYỂN
CHỦ NHIỆM KHOA
CÁN BỘ HƯỚNG DẪN
QUẢN LÝ CHUYÊN NGÀNH
(Ký và ghi rõ họ tên)
(Ký và ghi rõ họ tên)
PGS.TS. Bùi Thế Hồng