(Luận văn thạc sĩ) Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.33 MB, 81 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ QUỐC PHÒNG

HỌC VIỆN KỸ THUẬT QUÂN SỰ

NGÔ VĂN CƯƠNG

NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TIẾNG NÓI
TIẾNG VIỆT VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 01 04

LUẬN VĂN THẠC SĨ KỸ THUẬT

Hà Nội - Năm 2015

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
HỌC VIỆN KỸ THUẬT QUÂN SỰ

Cán bộ hướng dẫn chính: PGS.TS. Bùi Thế Hồng

Cán bộ chấm phản biện 1: TS. Trần Nguyên Ngọc

Cán bộ chấm phản biện 2: TS. Trần Thị Thu Hà

Luận văn thạc sĩ được bảo vệ tại:
HỘI ĐỒNG CHẤM LUẬN VĂN THẠC SĨ
HỌC VIỆN KỸ THUẬT QUÂN SỰ
Ngày tháng năm 2015

Tôi xin cam đoan:
Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn
trung thực, của tôi, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và
pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật.
TÁC GIẢ LUẬN VĂN

Ngô Văn Cương

MỤC LỤC
Trang
Trang phụ bìa
Bản cam đoan
Mục lục
Các thuật ngữ viết tắt
Mở đầu ......................................................................................................... 1
Chương 1
CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
1.1. Lý thuyết âm thanh và tiếng nói .............................................................. 5
1.1.1. Nguồn gốc âm thanh:............................................................................ 5
1.1.2. Các đại lượng đặc trưng cho âm thanh:................................................. 5
1.1.2.1. Tần số của âm thanh: ......................................................................... 5
1.1.2.2. Chu kì của âm thanh: ......................................................................... 5
1.1.2.3. Tốc độ truyền âm: .............................................................................. 5
1.1.2.4. Cường độ âm thanh: ......................................................................... 5
1.1.2.5. Thanh áp:.......................................................................................... 6
1.1.2.6. Âm sắc: ............................................................................................ 6
1.1.2.7. Âm lượng: ........................................................................................ 6

1.1.3. Các tần số của âm thanh: ...................................................................... 6
1.1.4. Cơ chế tạo lập tiếng nói của con người: ................................................ 6
1.1.5. Mô hình lọc nguồn tạo tiếng nói: .......................................................... 7
1.1.6. Hệ thống nghe của người: ..................................................................... 8
1.1.7. Quá trình sản xuất tiếng nói và thu nhận tiếng nói: ............................... 9
1.1.8. Các âm thanh tiếng nói và các đặc trưng:............................................ 10
1.1.8.1. Nguyên âm: ..................................................................................... 10
1.1.8.2. Các âm vị khác: ............................................................................... 10
1.2. Giới thiệu về xử lý tiếng nói .................................................................. 11

1.3. Nhận dạng tiếng nói .............................................................................. 12
1.3.1. Bài toán nhận dạng tiếng nói .............................................................. 12
1.3.2. Các phương pháp nhận dạng tiếng nói ................................................ 14
1.3.2.1. Phương pháp âm học ngữ âm học .................................................... 14
1.3.2.2. Phương pháp nhận dạng mẫu .......................................................... 16
1.3.2.3. Phương pháp ứng dụng trí tuệ nhân tạo........................................... 18
1.4. Nhận dạng tiếng Việt ............................................................................. 19
1.4.1. Một số đặc điểm ngữ âm tiếng Việt .................................................... 19
1.4.2. Những thuận lợi và khó khăn đối với nhận dạng tiếng Việt ................ 20
1.4.2.1. Thuận lợi ......................................................................................... 20
1.4.2.2. Khó khăn ......................................................................................... 20
Chương 2
MÔ HÌNH NHẬN DẠNG TIẾNG NÓI
2.1. Các kiểu mô hình mạng nơron ............................................................... 22
2.1.1. Perceptron .......................................................................................... 24
2.1.2. Mạng nhiều tầng truyền thẳng (MLP)

25

2.2. Huấn luyện mạng nơron ........................................................................ 26
2.2.1. Các phương pháp học

26

2.2.2. Học có giám sát trong các mạng nơron ............................................... 28
2.2.3. Thuật toán lan truyền ngược ............................................................... 29
2.3. Các vấn đề trong xây dựng mạng MLP.................................................. 30
2.3.1. Chuẩn bị dữ liệu ................................................................................. 30
2.3.1.1. Kích thước mẫu ............................................................................... 30
2.3.1.2. Mẫu con........................................................................................... 32
2.3.2. Xác định các tham số cho mạng.......................................................... 32
2.3.2.1. Chọn hàm truyền ............................................................................. 32
2.3.2.2. Xác định số nơron tầng ẩn ............................................................... 33

2.3.2.3. Khởi tạo trọng.................................................................................. 34
2.3.3. Vấn đề lãng quên (catastrophic forgetting) ......................................... 35
2.3.4. Vấn đề quá khớp................................................................................. 36
2.3.4.1. Khái niệm quá khớp......................................................................... 36
2.3.4.2. Giải quyết quá khớp......................................................................... 36
Chương 3
QUÁ TRÌNH TIỀN XỬ LÝ TIẾNG NÓI
3.1. Phát hiện tiếng nói ................................................................................. 38
3.1.1. Năng lượng ngắn hạn.......................................................................... 38
3.1.2. Tốc độ đi qua điểm không .................................................................. 39
3.1.3. Lượng thông tin .................................................................................. 39
3.1.3.1. Tính FFT ......................................................................................... 39
3.1.3.2. Mật độ xác suất của phổ năng lượng ................................................ 40
3.1.3.3. Tính Entropy ................................................................................... 40

3.1.4. Giải thuật phát hiện tiếng nói .............................................................. 40
3.2. Phân tích cepstral thông qua thang độ mel ............................................. 41
3.2.1. Mô hình tính toán các hệ số MFCC .................................................... 42
3.2.2. Quá trình tiền xử lý tín hiệu ................................................................ 42
3.2.2.1. Bộ lọc thích nghi ............................................................................. 42
3.2.2.2. Chuẩn hóa biên độ ........................................................................... 43
3.2.2.3. Phân khung ...................................................................................... 43
3.2.2.4. Lấy cửa sổ ....................................................................................... 43
3.2.2.5. Phổ năng lượng................................................................................ 43
3.2.2.6. Băng lọc Mel ................................................................................... 44
3.2.2.7. Logarit các hệ số năng lượng qua băng lọc ...................................... 44
3.2.2.8. Biến đổi Cosine rời rạc ngược ......................................................... 45
3.2.2.9. Cepstral có trọng số ......................................................................... 45
3.2.2.10. Đạo hàm Cepstral theo thời gian .................................................... 45

3.3. Lượng tử hóa vector .............................................................................. 46
3.3.1. Tập vector huấn luyện ........................................................................ 46
3.3.2. Khoảng cách giữa hai vector............................................................... 47
3.3.3. Nhân của một tập vector ..................................................................... 48
3.3.4. Phân cụm các vector ........................................................................... 48
Chương 4

ỨNG DỤNG XÂY DỰNG HỆ THỐNG MÔ PHỎNG NHẬN
DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG MẠNG NƠRON
MLP TRÊN MATLAB
4.1. Giới thiệu .............................................................................................. 50
4.2. Xây dựng hệ thống nhận dạng demo...................................................... 50
4.2.1. Mô tả chung về hệ thống .................................................................... 50
4.2.2. Sơ đồ khối của hệ thống ..................................................................... 51

4.2.3. Thu thập và tiền xử lí tín hiệu tiếng nói .............................................. 52
4.2.4. Trích chọn đặc trưng MFCC ............................................................... 54
4.2.5. Tính đầu vào cho mạng....................................................................... 56
4.2.6. Xây dựng và huấn luyện và thử nghiệm mạng nơron MLP ................. 58
4.2.7. Sử dụng mạng trong nhận dạng .......................................................... 59
4.2.8. Giao diện của hệ thống demo: ............................................................ 59
4.3. Kết quả thử nghiệm ............................................................................... 62
4.4. Hướng mở rộng của đề tài ..................................................................... 65
4.4.1. Xây dưng bộ dữ liêu huấn luyện lớn hơn ............................................ 65
4.4.2. Xây dựng phần mềm nhận dạng dưa trên kết quả nghiên cứu ............. 65
4.4.3. Nghiên cứu các phương pháp xác định đặc trưng khác ....................... 66
4.4.4. Nghiên cứu các phương pháp nhận dạng khác .................................... 66

DANH MỤC HÌNH

Hình 1-1: Mô hình lọc nguồn tạo tiếng nói ..................................................... 8
Hình 1-2: Quá trình sản xuất và thu nhận tiếng nói......................................... 9
Hình 1-3: Mô hình bài toán xử lý tiếng nói................................................... 12
Hình 1-4: Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu . 16
Hình 1-6: Tích hợp tri thức trong nhận dạng tiếng nói .................................. 19
Hình 2-1: Mạng tự kết hợp ........................................................................... 22
Hình 2-2: Mạng kết hợp khác kiểu ............................................................... 23
Hình 2-3: Mạng truyền thẳng ....................................................................... 23
Hình 2-4: Mạng phản hồi ............................................................................. 24
Hình 2-5: Perceptron .................................................................................... 24
Hình 2-6: Mạng MLP tổng quát ................................................................... 25
Hình 2-7: Mối liên hệ giữa sai số và kích thước mẫu ................................... 31
Hình 2-8: Huấn luyện luân phiên trên hai tập mẫu........................................ 35
Hình 3-1: Sơ đồ khối tính toán các hệ số MFCC .......................................... 42

Hình 4-1: Sơ đồ khối hệ thống nhận dạng tiếng nói các chữ số tiếng Việt bằng
mạng nơron MLP trên môi trường Matlab .................................................... 51
Hình 4-2: Từ ‘hai’ được thu âm – bao gồm nền nhiễu .................................. 52
Hình 4-3: Từ ‘hai’ sau khi đã loại bỏ nền nhiễu........................................... 53
Hình 4-4: Xác định nền nhiễu từ môi trường thu âm .................................... 53
Hình 4-5: wav trước và sau khi chuẩn hóa ở ngưỡng max(wav)=1 ............... 55
Hình 4-6: Mạng MLP gồm 40 đầu vào và 11 đầu ra ..................................... 56
Hình 4-7: Vector đầu vào gồm 40 phần tử, vector đầu ra gồm 11 phần tử .... 57
Hình 4-8: Các vector đầu vào và đầu ra để huấn luyện mạng MLP .............. 57
Hình 4-9: Giao diện chính của hệ thống demo .............................................. 59
Hình 4-10: Chức năng nhận dạng ................................................................. 60
Hình 4-11: Mẫu bảng điểm trên Excel (chưa có điểm) ................................. 61
Hình 4-12: Ứng dụng nhập điểm và xuất sang Excel .................................... 61
Hình 4-13: Mẫu bảng điểm trên Excel (đã có điểm) ..................................... 62

Tóm tắt luận văn:
Họ và tên học viên: Ngô Văn Cương
Lớp: Hệ thống thông tin

Khoá: 25A

Cán bộ hướng dẫn: PGS. TS. Bùi Thế Hồng
Tên đề tài: Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt và
ứng dụng.
Tóm tắt: Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt dựa trên kỹ
thuật sử dụng mạng nơron MLP (trên môi trường Matlab). Hệ thống có thể
vừa nhận dạng trực tuyến (thu âm trực tiếp và nhận dạng) hoặc nhận dạng từ
tệp âm thanh có sẵn. Ứng dụng của hệ thống là đọc điểm và kết quả là điểm
số sẽ được xuất sang bảng điểm trên Excel.

CÁC THUẬT NGỮ VIẾT TẮT

Viết tắt

Viết đầy đủ

Tạm dịch nghĩa

ASR

Automatic Speech Recognition

Nhận dạng tiếng nói tự động

HMM

Hide Markov Model

Mô hình Markov ẩn

IDFT

Inverse Discrete Fourier Transform

Biến đổi Fourier rời rạc ngược

LPC

Linear Prediction Coding

Mã dự đoán tuyến tính

MFCC

Mel Frequency Cepstral Coefficients

Hệ số phân tích phổ tần Mel

TTS

Text To Speech

Chuyển văn bản thành tiếng nói

STT

Speech To Text

Chuyển tiếng nói thành văn bản

STE

Short Time Energy

Năng lượng ngắn hạn

1

MỞ ĐẦU

Trong thời đại công nghệ thông tin hiện nay, khi việc giao tiếp giữa
người với máy, máy với máy… luôn là vấn đề được quan tâm thì việc trao đổi
thông tin bằng tiếng nói có một vai trò quan trọng. Máy tính ra đời đã giúp
con người giải quyết công việc nhanh gọn và hiệu quả hơn. Tuy nhiên, các
máy tính ngày nay chỉ nhận thông tin từ con người qua các thiết bị như: bàn
phím, chuột, bút,… . M�
0.1
0.5
0.1
0.1
0.5
0.01
0.01

50
100
50
50
100
50
1000
1000

63

Kết quả quá trình thử nghiệm được tổng hợp trong các bảng sau:

hnode
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
105
110
115
120
125
130
135
140
145

150
TB

sof01
50

53.64%
64.55%
71.82%
64.55%
89.09%
80.00%
92.73%
50.00%
84.55%
90.00%
90.91%
80.91%
92.73%
93.64%
90.91%
91.82%
92.73%
89.09%
88.18%
88.18%
86.36%
90.91%
92.73%
89.09%

95.45%
92.73%
84.55%
95.45%
88.18%
82.73%
84.61%

sof01
100

37.27%
78.18%
48.18%
88.18%
85.45%
85.45%
91.82%
97.27%
98.18%
91.82%
91.82%
94.55%
93.64%
93.64%
90.00%
98.18%
91.82%
90.91%
93.64%

90.91%
88.18%
93.64%
82.73%
99.09%
89.09%
88.18%
89.09%
94.55%
89.09%
89.09%
87.79%

sof05
50

60.91%
40.91%
75.45%
60.00%
63.64%
75.45%
72.73%
88.18%
92.73%
91.82%
87.27%
87.27%
86.36%
81.82%

96.36%
93.64%
90.00%
93.64%
94.55%
89.09%
93.64%
93.64%
95.45%
95.45%
90.00%
95.45%
90.91%
89.09%
90.91%
90.91%
84.91%

sof001
1000

85.45%
96.36%
94.55%
97.27%
93.64%
98.18%
94.55%
96.36%
97.27%

91.82%
97.27%
97.27%
97.27%
97.27%
97.27%
97.27%
97.27%
96.36%
97.27%
97.27%
97.27%
97.27%
97.27%
96.36%
96.36%
97.27%
96.36%
97.27%
96.36%
97.27%
96.21%

log01
50

27.27%
23.64%
44.55%
52.73%

46.36%
78.18%
75.45%
80.91%
89.09%
89.09%
90.91%
74.55%
85.45%
82.73%
94.55%
94.55%
94.55%
91.82%
90.91%
89.09%
84.55%
95.45%
90.91%
93.64%
91.82%
91.82%
93.64%
93.64%
86.36%
89.09%
80.24%

log01
100

25.45%
46.36%
59.09%
69.09%
84.55%
65.45%
90.00%
94.55%
85.45%
90.91%
83.64%
96.36%
94.55%
90.00%
90.00%
96.36%
98.18%
91.82%
95.45%
89.09%
95.45%
98.18%
95.45%
87.27%
94.55%
90.00%
97.27%
90.91%
94.55%

96.36%
85.88%

log05
50

20.91%
31.82%
45.45%
46.36%
73.64%
52.73%
73.64%
72.73%
89.09%
89.09%
92.73%
88.18%
90.00%
92.73%
87.27%
96.36%
91.82%
88.18%
88.18%
97.27%
86.36%
97.27%
90.91%
91.82%

90.00%
96.36%
91.82%
90.91%
96.36%
92.73%
81.09%

Bảng 4.2: Tỷ lệ số từ nhận dạng đúng so với tổng số từ nhận dạng

log001
1000

41.82%
55.45%
77.27%
86.36%
80.00%
89.09%
92.73%
93.64%
90.00%
98.18%
98.18%
98.18%
95.45%
95.45%
96.36%
98.18%
97.27%

92.73%
95.45%
92.73%
95.45%
98.18%
98.18%
97.27%
97.27%
98.18%
97.27%
99.09%
98.18%
97.27%
91.36%

Biểu đồ sau thể hiện kết quả trung bình trong 2 kiểu mạng sử dụng hàm
kích hoạt “logistic” và “softmax”

64

100%
90%
80%
70%
60%
50%
40%
30%
20%

10%
0%
softmax

logistic

Từ kết quả thử nghiệm trên, tác giả luận văn rút ra một số kết luận sau:
Phương pháp nhận dạng bằng mạng nơron cho kết quả nhận dạng
cao nhất là 99. 09% trên bộ dữ liệu do tác giả tự xây dựng. Như vậy
có thể sử dụng mạng nơron làm một cơ cấu nhận dạng khá hiệu quả
(ít nhất là đối với hệ thống nhận dạng các chữ số trong luận văn).
2. Mạng sẽ cho kết quả nhận dạng cao nếu xây dựng hợp lí. Không
hẳn cứ nhiều nơron lớp ẩn, cứ huấn luyện nhiều là mạng có độ
chính xác cao hơn [6]. (Mặc dù việc huấn luyện nhiều đã làm giảm
sai số huấn luyện của mạng). Vấn đề sai số huấn luyện thấp, sai số
kiểm tra cao xảy ra khi độ tương tự giữa bộ dữ liệu huấn luyện và
bộ dữ liệu kiểm tra không lớn. Khi đó mạng nhận dạng rất chính
xác trên bộ dữ liệu huấn luyện nhưng kém chính xác hơn nhiều trên
bộ dữ liệu kiểm tra.
3. Hàm kích hoạt softmax ổn định hơn hàm logistic: Mặc dù kết quả
1.

nhận dạng không phải là cao nhất nhưng kết quả trung bình lại cao

65

hơn; mức độ ổn định hơn, số nơron ẩn cần dùng thấp hơn khi cho
kết quả nhận dạng cao nhất.
4.

Môi trường Matlab có thể giúp công việc nghiên cứu nhận dạng
tiếng nói đơn giản và hiệu quả hơn. Nhờ có Matlab và các bộ công
cụ VoiceBox, NetLab mà việc phát triển hệ thống nhận dạng khá
đơn giản và nhanh chóng, từ Matlab còn có thể xuất kết quả sang
Excel phù hợp với mục đích của nhiều người dùng. (ví dụ: mã
chương trình dùng rất ít lệnh, nhiều phần không cần lập trình).

Những kết luận trên cho thấy khả năng sử dụng mạng nơron và môi
trường Matlab trong nhận dạng tiếng nói có nhiều hứa hẹn. Tuy nhiên để đạt
được kết quả cao hơn, độ chính xác hơn thì phải xây dựng một bộ dữ liệu
chuẩn và có chiến lược xây dựng, huấn luyện, thử nghiệm mạng hợp lí hơn.
4.4. Hướng mở rộng của đề tài
4.4.1. Xây dựng bộ dữ liệu huấn luyện lớn hơn
Như ta đã thấy, bộ dữ liệu là thành phần rất quan trọng đối với hệ
nhận dạng. Hiện tại bộ dữ liệu tác giả đã xây dựng là dùng microphone thu
trực tiếp trên máy tính gồm 330 file để huấn luyện, 110 file để test thử nghiệm
– trên cơ sở 11 từ tiếng Việt – con số này còn quá khiêm tốn. Để có thể có
những kết quả nghiên cứu tốt hơn, tác giả sẽ mở rộng bộ dữ liệu: tăng số
người nói và số từ, đa dạng hoá môi trường ghi âm, trang bị hệ thống thu âm
chuẩn và hiện đại hơn để có chất lượng âm thanh tốt nhất.
4.4.2. Xây dựng phần mềm nhận dạng dưa trên kết quả nghiên cứu
Hệ thống nhận dạng hiện tại của tác giả hiện chỉ được thử nghiệm trên
môi trường Matlab, mới có khả năng nhận dạng một file ghi âm sẵn hoặc
ngay cả khi nhận dạng trực tuyến thì cũng phải thực hiện xong công đoạn thu

66

âm rồi mới đến công đoạn nhận dạng. Trong khi đó để hệ nhận dạng có thể

ứng dụng được tốt trong thực tế thì hệ phải hoạt động ở dạng trực tiếp và liên
tục (tức là vừa ghi âm vừa nhận dạng, chạy như một chương trình hệ thống).
Mục tiêu của tác giả là sau khi thử nghiệm hệ thống cho kết quả cao sẽ xây
dựng một bộ công cụ nhận dạng tiếng nói mà có thể gắn vào các phần mềm
ứng dụng – đây mới là mục đích của nghiên cứu nhận dạng tiếng nói trong
tương lai.
4.4.3. Nghiên cứu các phương pháp xác định đặc trưng khác
Ở nghiên cứu này, việc tách đặc trưng của tín hiệu tiếng nói còn rất
đơn giản (chia frame, tính MFCC, chia 5 phần lấy trung bình cộng). Để nâng
cao kết quả nhận dạng cần tìm những đặc trưng ổn định hơn của tiếng nói và
những phương pháp tách đặc trưng hiệu quả hơn.
4.4.4. Nghiên cứu các phương pháp nhận dạng khác
Các nghiên cứu khác cho thấy hiện tại mô hình Markov ẩn (HMM)
đang cho kết quả nhận dạng cao nhất. Hướng nghiên cứu mới của đề tài là tìm
cách kết hợp mạng nơron và mô hình Markov ẩn nhằm kết hợp ưu điểm của
hai mô hình.
Mặt khác, đối với bộ từ vựng nhỏ thì nhận dạng từ đơn (âm tiết) là
thích hợp. Tuy nhiên với hệ nhận dạng cỡ lớn, nhất là hệ nhận dạng tiếng Việt
hoàn chỉnh (6000 âm tiết) thì chọn đơn vị nhận dạng là âm tiết không hợp lí
lắm. Một hướng nghiên cứu khác của đề tài là nhận dạng đối với đơn vị nhỏ
hơn âm tiết là âm vị. Tức là xây dựng các hệ nhận dạng có chức năng:
•

Phân biệt được nhiễu nền (khoảng lặng), phụ âm, nguyên âm.

•

Nhận dạng phụ âm (phân biệt được các phụ âm khác nhau).

•

Nhận dạng nguyên âm (phân biệt được các nguyên âm khác nhau).

•

Nhận dạng thanh điệu của âm tiết.

67

KẾT LUẬN

Với kết quả kiểm tra độ chính xác nhận dạng như trên thì có thể thấy
rằng việc áp dụng mô hình Markov ẩn trong nhận dạng tiếng Việt đã cho kết
quả khá tốt. Tuy chưa thật sự hoàn hảo nhưng những kết quả thu được tương
đối khả quan, từ đó có thể thấy rằng việc áp dụng mô hình mạng nơron MLP
trong nhận dạng tiếng Việt là khá phù hợp, nếu đầu tư nghiên cứu nhiều hơn
nữa phương pháp này sẽ còn đem lại hiệu quả cao hơn.
Trong chương trình khi chạy vẫn bị nhận dạng nhầm, nguyên nhân dẫn
đến nhận dạng nhầm có thể là:
@ Dữ liệu huấn luyện chưa đầy đủ, số từ đem huấn luyện chưa nhiều,
chưa thu được từ nhiều người, nhiều nơi; môi trường thu âm còn nhiều nền
nhiễu (tiếng ồn),…
@ Một số thông số có ảnh hưởng đến độ chính xác nhận dạng như: hàm
khởi tạo, số nút ẩn, giá trị kích hoạt trọng số,… có thể được lựa chọn chưa tối
ưu.
Các nguyên nhân trên muốn khắc phục được đều cần phải có thời gian,
và cần phải bỏ công sức nghiên cứu nhiều hơn nữa. Để hệ thống có thể được
ứng dụng rộng rãi hơn cần phải cải tiến và mở rộng thêm. Với thiết kế đã
được đưa ra thì hướng phát triển tiếp của tác giả có thể là:

@ Tăng số lượng từ trong từ điển nhận dạng
@ Có thể vừa thu âm, vừa nhận dạng (không phải chờ đến khi thu âm
xong mới nhận dạng)
@ Nhận dạng câu (có khả năng phán đoán được từ gần đúng)
@ Mở rộng ứng dụng của chương trình, không chỉ tích hợp với bộ
Microsoft Office Excel mà có thể nhập dữ liệu vào bất cứ chương trình nào.
Do thời gian làm Luận văn không có nhiều nên tác giả chưa có điều kiện
để tìm hiểu hết những hướng tiếp cận mới trong nhận dạng tiếng nói. Hi vọng
rằng trong thời gian tới tác giả Luận văn có thể hoàn thiện hơn nữa các nội
dung đã đề ra.

TÀI LIỆU THAM KHẢO

Tiếng Việt:
[1]

Võ Xuân Hào, ĐH Quy Nhơn - 2009: “Giáo trình ngữ âm tiếng Việt
hiện đại”

[2]

TS. Nguyễn Văn Giáp, KS. Trần Việt Hồng - Bộ môn Cơ điện tử Khoa Cơ khí - Đại học Bách Khoa TPHCM: “Kỹ thuật nhận dạng
tiếng nói và ứng dụng trong điều khiển”

[3]

Nguyễn Thị Thanh Nga – Đại học Công nghiệp Thái Nguyên:
“Nghiên cứu ứng dụng giải thuật di truyền kết hợp với thuật toán
‘vượt khe’ để cải tiến quá trình học của mạng neural MLP có mặt lỗi

đặc biệt”

[4]

Đặng Ngọc Đức: “Mạng nơron và mô hình Markov ẩn trong nhận
dạng tiếng Việt” – Luận án Tiến sỹ

[5]

Nguyễn Hữu Tình, Lê Tấn Hùng, Phạm Ngọc Yến, Nguyễn Thị Lan:
“Cơ sở Matlab và ứng dụng” - Sách NXB KHKT – 2009.

[6]

Nguyễn Thành Phúc: “Một phương pháp nhận dạng lời Việt: Áp dụng
phương pháp kết hợp mạng Nơron với mô hình Markov ẩn cho các hệ
thống nhận dạng lời Việt” - Luận án Tiến sĩ Kỹ thuật, Thư viện
trường ĐHBK Hà Nội.

[7]

Đặng Ngọc Đức, Lương Chi Mai: “Tăng cường độ chính xác của hệ
thống mạng nơron nhận dạng tiếng Việt” - Tạp chí Bưu chính Viễn
thông, số 11 (3/2004).

[8]

Phạm Văn Sự, Lê Xuân Thành – Học viện Công nghệ bưu chính viễn
thông: “Bài giảng xử lý tiếng nói” – 2010.

Tiếng Anh:
[9]

NEURAL NETWORKS: Basics using MATLAB Neural Network
Toolbox By Heikki N. Koivo ©2008.

[10] Theodoros Giannakopoulos, Department of Informatics and
Telecommunications University of Athens, Greece: “A method for
silence removal and segmentation of speech signals, implemented in
Matlab”
[11] G. Saha1, Sandipan Chakroborty2, Suman Senapati3 Department of Electronics and Electrical Communication
Engineering: “A New Silence Removal and Endpoint Detection
Algorithm for Speech and Speaker Recognition Applications”

LÝ LỊCH TRÍCH NGANG
Họ và tên:

Ngô Văn Cương

Ngày tháng năm sinh:

01/10/1974

Địa chỉ liên lạc:

Nơi sinh: Bắc Ninh

Khoa CNTT-Trường CĐ Thủy Sản - Từ Sơn - Bắc Ninh.

Quá trình đào tạo:
1993-1997: Học đại học - Trường ĐH Kinh tế Quốc dân. Chuyên ngành Tin
học kinh tế.
Quá trình công tác:
1997-2000: Giáo viên trường THPT Lý Thái Tổ - Từ Sơn - Bắc Ninh.
2000-nay: Giáo viên trường CĐ Thủy Sản - Từ Sơn - Bắc Ninh.

XÁC NHẬN QUYỂN LUẬN VĂN ĐỦ ĐIỀU KIỆN NỘP LƯU CHUYỂN

CHỦ NHIỆM KHOA

CÁN BỘ HƯỚNG DẪN

QUẢN LÝ CHUYÊN NGÀNH

(Ký và ghi rõ họ tên)

(Ký và ghi rõ họ tên)

PGS.TS. Bùi Thế Hồng

(Luận văn thạc sĩ) Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng Việt và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về