Nghiên cứu và ứng dụng mạng neuron trong nhận dạng tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.28 MB, 98 trang )

Đại học Quốc Gia Thành phố Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----oOo-----

LÊ THỊ KIM ANH

NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NEURON
TRONG NHẬN DẠNG TIẾNG VIỆT
Chuyên ngành: KT VÔ TUYẾN – ĐIỆN TỬ
Mã số ngành: 2.07.01

LUẬN VĂN THẠC SĨ

Tp. HỒ CHÍ MINH, tháng 10 năm 2003

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

NHIỆM VỤ LUẬN VĂN CAO HỌC
Họ và tên học viên: LÊ THỊ KIM ANH
Phái: Nữ
Ngày tháng năm sinh: 20.02.1969
Nơi sinh: Bình Dương
Chuyên ngành: KỸ THUẬT VÔ TUYẾN ĐIỆN TỬ
Khóa: 12 (2001-2003)
I. TÊN ĐỀ TÀI: “ Nghiên cứu và ứng dụng mạng neuron trong nhận dạng

tiếng Việt”
II. NHIỆM VỤ VÀ NỘI DUNG:
1. Nghiên cứu tổng quan về hệ thống nhận dạng tiếng nói.
2. Tìm hiểu về mạng neuron và ứng dụng của mạng neuron trong nhận dạng
tiếng nói.
3. Xử lý tiếng nói và chọn phương pháp trích đặc trưng.
4. Xây dựng mạng neuron để nhận dạng tiếng nói.
5. Mô phỏng kết quả bằng ngôn ngữ Matlab.
III. NGÀY GIAO NHIỆM VỤ: 15.05.2003
IV. NGÀY HOÀN THÀNH NHIỆM VỤ:08.11.2003
V. HỌ VÀ TÊN GIÁO VIÊN HƯỚNG DẪN:
1. Cô TS. Nguyễn Như Anh
2. Thầy GVC_ThS. Tống Văn On
VI. HỌ VÀ TÊN GIÁO VIÊN PHẢN BIỆN:
1. Thầy PGS.TS. Vũ Đình Thành
2. Thầy TS. Trần Xuân Phước
GVHD1

GVHD2

GVPB1

GVPB2

Nội dung và đề cương Luận văn Cao học đã được thông qua hội đồng chuyên
ngành.

PHÒNG ĐÀO TAỌ SAU ĐẠI HỌC

Ngày…… tháng…… năm

CHỦ NHIỆM NGÀNH

Lời cảm ơn
Em xin bày tỏ lòng biết ơn chân thành đến Cô Nguyễn Như Anh, và
đặc biệt là Thầy Tống Văn On đã tận tình gíup đỡ động viên em về
mặt tinh thần cũng như các phương tiện để hòan thành luận văn này.

Xin chân thành cảm ơn q Thầy Cô trong bộ môn Điện tử đã giúp đỡ
em nhiều mặt trong quá trình thực hiện luận án.

Con xin biết ơn Ba Má đã nuôi dạy con khôn lớn và tạo điều kiện để
con học tập được cho đến ngày hôm nay.

Xin cảm ơn các anh chị em, bạn bè, các đồng nghiệp đã giúp đỡ và
động viên Kim Anh trong suốt quá trình làm luận án này.

Bách Khoa, ngày 25 tháng 10 năm 2003
Lê Thị Kim Anh

Tóm tắt
Với mục tiêu để thực hiện được đề tài này, người viết đã từng bước nghiên cứu các
vấn đề như sau:
1. Nghiên cứu tổng quan về hệ thống nhận dạng tiếng nói.
2. Tìm hiểu về mạng neuron và ứng dụng của mạng neuron trong nhận dạng
tiếng nói.
3. Xử lý tiếng nói và chọn phương pháp trích đặc trưng.
4. Xây dựng mạng neuron để nhận dạng tiếng nói.
5. Mô phỏng kết quả bằng ngôn ngữ Matlab.

Kết quả cuối cùng đạt được tương đối khả quan là đã mô phỏng được một hệ
thống nhận dạng tiếng nói trên ngôn ngữ Matlab với mức độ chính xác khá cao
(khoảng 97%), là cơ sở để xây dựng một mạng Neuron để nhận dạng tiếng nói thực
hiện bằng phần cứng trên kit FPGA.

Abstract
In order to do this thesis, the author researched the following problems:
1. Generally researching the speech recognization system.
2. Learning about neural network and its applications to speech recognization.
3. Processing speech and chosing the specific characterics method.
4. Setting up a neural network to recognize Vietnamese speech.
5. Simulating the results by using Matlab.

The final results are very relatively favorable. The author simulated successfully
a speech recognization system using Matlab with accuration up to 97%, which is the
base to set up a speech recognization system done by EPGA kit.

PHẦN 1

MỞ ĐẦU

PHẦN 2

TỔNG QUAN
VỀ HỆ THỐNG
NHẬN DẠNG

PHẦN 3

GIỚI THIỆU
VỀ MẠNG
NEURON

PHẦN 4

XỬ LÝ TIẾNG
NÓI
VÀ TRÍCH ĐẶC
TRƯNG

PHẦN 5

XÂY DỰNG
MẠNG NEURON

PHẦN 6

KẾT QUẢ MÔ
PHỎNG VÀ
NHẬN XÉT

Mục lục
Trang
Lời cảm ơn
……………………………………………………………….i
Mục lục
…………………………………………………………………………….ii
Phần 1: MỞ ĐẦU
…………………………………………………………………….1
Phần 2: TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG
…………………………2
2.1 Giới thiệu
………………………………………………………………………2
2.2 Những yếu tố ảnh hưởng đến hệ thống nhận dạng
…………………………..4
2.3 Các vấn đề của một hệ thống nhận dạng tiếng nói
…………………………9
2.4 Các hướng nghiên cứu nhận dạng tiếng nói
…………………………………10
Phần 3: GIỚI THIỆU VỀ MẠNG NEURON
……………………………………12
3.1 Giới thiệu tổng quát về mạng neuron nhân tạo (ANN)
……………………12
3.1.2 Các mô hình cơ bản và các qui tắc học của mạng neuron nhân tạo …22
3.1.3 Phân loại mạng neuron
…………………………………………………31
3.1.4 Khái quát về lý thuyết của các mạng neuron
…………………………32
3.2 Các đặc điểm của ANN và thuật toán truyền ngược
……………………35
3.2.1 Dẫn nhập

………………………………………………………………35
3.2.2 Mô hình hóa thống kê
…………………………………………………35
3.2.3 Lan truyền ngược
………………………………………………………38
3.2.4 nh xạ NN
……………………………………………………………44
3.2.5 Khái niệm cơ bản về tiến trình học
……………………………………52
3.2.6 Đạo hàm hàm lỗi
………………………………………………………55
3.2.7 Qui tắc học
………………………………………………………………62
3.2.8 Khảo sát các hệ số học tập của lan truyền ngược
nhằm cải tiến tốc độ hội tụ……….……………………………………………
3.3 Kết luận
………………………………………………………………………71
Phần 4: XỬ LÝ TIẾNG NÓI VÀ TRÍCH ĐẶC TRƯNG
………………………72
4.1 Tiền xử lý tiếng nói
…………………….……………………………………72
4.2 Tách tiếng nói……………………………..…………………………………
72
4.2.1 Phép biến đổi Wavelets………………………………………………
73
4.2.2 Trích chu kỳ cao độ dùng CWT…………………………………………
78
4.3 Trích đặc trưng tiếng nói
……………………………………………………87
4.3.1 Windowing(cửa sổ hóa)

………………………………………
88
4.3.2 Tính DFT…………………………………………………………
89
4.2.3 Dãy bộ lọc Mel
………………………………………………89
4.2.4 Tính Log năng lượng phổ
………………………………………………91
4.2.5 Tính các hệ số MFCC
……………………………………………………91
Phần 5: XÂY DỰNG MẠNG NEURON
…………………………………………93
5.1 Huấn luyện mạng …………………………………………………………………………………………………………93
5.1.1 Chọn hàm truyền ……………………………………………………………………………………………………96

5.1.2 Chọn số nút cho mỗi lớp ……………………………………………………………………………………96
5.1.3 Chọn hàm huấn luyện
………………………………………………………………………………97
5.1.4 Sai số đích và số lần huấn luyện ………………………………………………………………………97
5.1.5 Tập dữ liệu mẫu huấn luyện ……………………………………………………………………………97
5.1.7 Huấn luyện ………………………………………………………………………………………………………………97
5.2 Nhận dạng …………………………………………………………………………………………………………………………98
Phần 6: KẾT QUẢ MÔ PHỎNG VÀ NHẬN XÉT ……………………………………………………100
HƯỚNG PHÁT TRIỂN ĐỀ TÀI…………………………………………………………………………………………105
TÀI LIỆU THAM KHẢO …………………………………………………………………………………………………106
LÝ LỊCH TRÍCH NGANG …………………………………………………………………………………………………107

Đề tài: Nghiên cứu ứng dụng mạng Neuron

1

GVHD:

trong nhận dạng tiếng Việt

Cô TS. Nguyễn Như Anh

Thầy GVC_ThS. Tống Văn On

Lời mở đầu
Trong những năm gần đây, những kết quả quan trọng đã đạt được trên cơ sở
các phương pháp nhận dạng và mạng neuron.Nhận dạng tiếng nói là một lónh
vực nghiên cứu quan trọng đã phát triển trong những thập niên qua. Các hệ
thống nhận dạng tiếng nói có nhiều ứng dụng quan trọng như trong điều
khiển tự động, bảo mật…

Việc ứng dụng mạng neuron để nhận dạng tiếng là một kỹ thuật hiện đang
được sử dụng rất rộng rãi vì các ưu điểm vượt trội của nó, đó là khả năng
học tập, dự đoán và phân loại từ các đặc trưng tiếng nói rất lớn, độ chính xác
khá cao. Mối quan hệ giữa ma trận đầu vào và ma trận kết quả đầu ra không
phải là các hằng số và các hệ phương trình cố định mà là những mối liên kết
có cấu trúc và phi tuyến. Đối với mạng neuron các mối liên hệ vào ra được
xác định và điều chỉnh liên tục qua quá trình học của mạng. Nhờ ưu điểm
này, có thể xây dựng một cấu trúc mạng cho hệ thống nhận dạng tiếng nói là
một lọai dữ liệu đầy biến động phức tạp. Đây chính là phương pháp được
chọn để nghiên cứu và sử dụng trong luận án.

Với thời gian ngắn, mục tiêu của luận án này là cố gắng xây dựng được một

cấu trúc mạng neuron và lựa chọn thuật tóan thích hợp để có thể nhận dạng
được tiếng nói với mức độ sai nhầm nhỏ nhất.

Phần 1: Mở đầu

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

2

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

2.1. GIỚI THIỆU
Tiếng nói là phương tiện trao đổi thông tin tự nhiên và hiệu quả nhất của
người, do đó thu hút rất nhiều sự quan tâm của các nhà khoa học. Để có thể
nghiên cứu được cấu trúc tiếng nói, đòi hỏi phải có sự kết hợp của các nhà
ngôn ngữ học, tâm lý học và các nhà sinh lý học. Mục tiêu của kỹ thuật nhận
dạng tiếng nói là tạo ra những máy có thể nhận thông tin đọc vào và thao tác
hợp lý trên thông tin đó. Kế đó, việc trao đổi thông tin từ máy đến người phải
yêu cầu sử dụng bộ tổng hợp tiếng nói. Như vậy công việc nghiên cứu nhận
dạng tiếng nói là một phần của yêu cầu đối với máy thông minh nhân tạo
(artificially intelligent) có thể “nghe”, “hiểu”, “xử lý” trên thông tin đọc vào,
và “đọc” lại đúng thông tin cần trao đổi.
Nhu cầu tìm hiểu về nhận dạng tiếng nói đang gia tăng với tốc độ cao, nhưng
kiến thức hiện nay chỉ phục vụ cho những nhiệm vụ tương đối đơn giản và

những phạm vi ứng dụng bị hạn chế. Các hệ thống nhận dạng tiếng nói đương
thời với hiệu suất có thể chấp nhận được chia thành 3 loại sau:
1. Hệ thống với bộ từ vựng nhỏ (~10÷100 từ).
2. Hệ thống mà các từ được đọc rời rạc từ này với từ khác (bộ từ vựng có
thể vượt 1000 từ).
3. Hệ thống chấp nhận tiếng nói liên tục nhưng chỉ liên quan tới phạm vi
ứng dụng tương đối bị giới hạn (bộ từ vựng ~1000÷5000 từ).
Hầu hết hệ thống được áp dụng trong thực tế thuộc loại bộ từ vựng nhỏ hay
loại từ cô lập (isolated-word). Những hệ thống để giao tiếp giữa người và máy
tự nhiên hơn vẫn chủ yếu ở trong giai đoạn thử nghiệm. Tất cả hoạt động tốt
hơn nếu yêu cầu nhận dạng chỉ một người nói huấn luyện hệ thống. Cho dù
hệ thống được dùng để nhận dạng nhiều người, hiệu suất được cải thiện nếu

Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

3

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

người sử dụng hệ thống cũng là người huấn luyện. Dù hệ thống là đơn hay
nhiều người nhận dạng, việc phát âm rõ và không dùng từ ngoài bộ từ vựng
sẽ dễ nhận dạng hơn. Một số hệ thống tồn tại có ưu điểm về cấu trúc ngữ

pháp của ngôn ngữ, nhưng chỉ hệ thống thí nghiệm mới có khả năng nhận
thức trừu tượng hơn như hiểu ý nghóa từ sai sót. Tương phản với điều này, hầu
hết phạm vi ứng dụng có lợi từ việc nhận dạng tiếng nói không sử dụng phát
âm rõ, rời rạc bởi một người trong môi trường yên tónh, và cũng không thể
huấn luyện hệ thống bởi số đông người sử dụng. Thực ra, hệ thống nhận dạng
tiếng nói phải có khả năng nhận dạng tiếng nói liên tục, nhiều người nói với
trọng âm, bộ từ vựng và văn phạm khác nhau (thậm chí đa ngôn ngữ) phát âm
không rõ tiếng nói trong môi trường nhiễu. Hơn nữa, tất cả khả năng này phải
xuất hiện trong hệ thống nhỏ, đủ khả năng và hoạt động thời gian thực (real
time). Một cách lý tưởng, hệ thống nên bắt chước và học các thông tin mới về
thực tế, ngữ pháp, ngữ nghóa, từ vựng như con người.
Vấn đề nhận dạng tiếng nói là một vấn đề lớn. Nhiều nghiên cứu đã được
thực hiện trong vài thập niên gần đây. Các hệ thống với bộ từ vựng nhỏ, nhập
từ rời rạc có thể áp dụng trong những ứng dụng tương đối đơn giản để cải
thiện hiệu quả nhập thông tin vào máy (nhập tiếng nói nhanh gấp hai lần
nhập thông tin bằng gõ chữ) trong môi trường sản xuất (công việc phân loại),
trong những ứng dụng mà đôi tay không còn giá trị (chẳng hạn như trong phẩu
thuật để trợ giúp người không có khả năng vận động, trong phòng tối, trong
buồng lái…), hoặc trong ứng dụng điều khiển từ xa với thiết bị (qua điện thoại
trong môi trường nguy hiểm). Tiềm năng là vô hạn, người ta có thể tưởng
tượng ra những ứng dụng như trong thư viện hoặc chức năng truy cập thông tin
khác, ở trạm điều khiển không lưu, trong môi trường y khoa hoặc trong các
nhiệm vụ đặc biệt có khuynh hướng giới hạn bộ từ vựng và nội dung thông
Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thò Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

4

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

điệp. Trong khi vẫn tiếp tục ứng dụng các kỹ thuật hiện đại, một số kỹ thuật
hứa hẹn khác đang đóng góp cho các phòng thí nghiệm và hệ thống thương
mại để giải quyết một hay nhiều vấn đề thử thách trên.
Kể từ khi có máy tính, nhiều hệ thống nhận dạng rất thực tế được phát triển:
Đầu những năm 1970, hệ thống nhận dạng tiếng nói được thiết kế để nhận
dạng phát âm rời rạc trong môi trường không nhiễu (noise-free). Các hệ thống
dùng bộ từ vựng nhỏ (10-100 từ) và trong trường hợp người nói cũng là người
huấn luyện.
Cuối những năm 1970, các nhà nghiên cứu tại IBM đã phát triển một hệ
thống thực nghiệm có khả năng nhận dạng 20000 từ khi phát âm rời rạc hoặc
phát âm được đọc một cách tự nhiên từ bộ từ vựng 5000 từ.
2.2. NHỮNG YẾU TỐ ẢNH HƯỞNG ĐẾN HIỆU QUẢ CỦA MỘT HỆ
THỐNG NHẬN DẠNG TIẾNG NÓI
Phần trên đã trình bày mục tiêu chung của nhiệm vụ nhận dạng tiếng nói và
một số vấn đề chính có liên quan. Phần này bàn về các yếu tố ảnh hưởng đến
sự thành công hay thất bại của một hệ thống nhận dạng tiếng nói và chỉ ra
mức độ phức tạp khi thiết kế hệ thống nhận dạng. Những yếu tố này được liệt
kê dưới dạng các câu hỏi sau:
1.

Hệ thống được thiết kế để nhận dạng một cá nhân hay nhiều người?

2.

Kích thước của bộ từ vựng như thế nào ?

3.

Tiếng nói được nhập vào bằng các từ rời rạc với khoảng dừng đủ lớn
hoặc phát âm liên tục ?

4.

Sự không rõ ràng và nhầm lẫn ngữ âm trong một bộ từ vựng là gì ?

5.

Hệ thống hoạt động trong môi trường yên tónh hay nhiễu ?

6.

Kiến thức ngữ âm học nào được vận dụng vào bộ nhận dạng ?

Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

5

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

Các vấn đề trên lần lượt được nêu ra như sau:
2.2.1. Nhận dạng độc lập hay phụ thuộc người nói
Về nguyên tắc, hầu hết giải thuật nhận dạng tiếng nói có thể được sử dụng ở
chế độ độc lập người nói hay phụ thuộc người nói và việc thiết kế một hệ
thống nào đó phụ thuộc vào chế độ huấn luyện. Một bộ nhận dạng phụ thuộc
người nói sử dụng phát âm của một người nói để học các tham số mà đặc tả
mô hình xử lý bên trong của hệ thống. Tiếp theo, hệ thống được dùng riêng
để nhận dạng tiếng nói của người huấn luyện đó. Bộ nhận dạng này cho hiệu
quả cao so với bộ nhận dạng độc lập người nói được sử dụng để huấn luyện
và nhận dạng bởi nhiều người. Mặc dù chính xác hơn, bất lợi rõ ràng của hệ
thống phụ thuộc người nói là yêu cầu huấn luyện lại mỗi khi dùng cho người
mới. Sự đánh đổi giữa thuận tiện và độ chính xác là phát sinh cần thiết. Một
hệ thống điện thoại phải phục vụ cho công chúng nhất thiết là độc lập người
nói trong khi một hệ thống được dùng để nhận dạng tiếng nói của người có
khuyết tật, tiếng nói phải được huấn luyện bởi người nói đó. Ngoài ra, có một
hệ thống khác gọi là hệ thống thích nghi người nói. Hệ thống này tự cập nhật
thông tin về từng người sử dụng riêng biệt trong thời gian hệ thống được sử
dụng.
2.2.2. Kích thước bộ từ vựng
Một số nhà nghiên cứu đã chứng minh được rằng độ phức tạp của bài toán
nhận dạng tiếng nói tăng theo hàm logarith đối với kích thước bộ từ vựng.
Yêu cầu bộ nhớ cũng tăng khi bộ từ vựng tăng. Hệ thống nhận dạng tiếng nói
nói chung chia thành hệ thống với bộ từ vựng nhỏ, trung bình, lớn. Hệ thống
với bộ từ vựng nhỏ có kích thước trong khoảng 1-99 từ, trung bình 100-999 từ
và lớn trên 1000 từ.
Hệ thống với bộ từ vựng nhỏ được dùng trong các nhiệm vụ như nhận dạng

Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

6

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

thẻ tín dụng hay số điện thoại, và trong hệ thống phân loại (nhận dạng nơi
đến) cho công tác tàu biển.
Hệ thống với bộ từ vựng trung bình là những hệ thống thử nghiệm để nghiên
cứu nhận dạng tiếng nói liên tục.
Hệ thống với bộ từ vựng lớn hiện nay dùng trong thương mại nhằm vào những
ứng dụng như giao tiếp văn phòng và truy cập tài liệu.
Những hệ thống này thuộc loại từ cô lập mà người nói phải đọc từng từ một.
Nhận dạng tiếng nói liên tục khó hơn nhiều so với nhận dạng tiếng nói rời
rạc. Vì thế, kích thước bộ từ vựng chỉ là một thước đo độ khó khăn.
Đối với bộ từ vựng nhỏ, công việc tương đối hạn chế, nhận dạng từ đơn hoặc
từ nối thường được áp dụng. Trong trường hợp này, mô hình cho mỗi từ trong
bộ từ vựng được xác định trong hệ thống và danh sách được dò cho từng từ để
nhận dạng. Khi bộ từ vựng lớn và nhiệm vụ phức tạp, mô hình huấn luyện và
lưu trữ cho mỗi từ là không thể và mô hình cho đơn vị dưới từ (như âm vị)
được áp dụng. Việc tìm tất cả thông điệp có thể trở nên khó quản lý và nhiều
giải thuật phức tạp hơn phải được thiết kế để giảm bớt số đối tượng cần tìm.

Điều cần thiết đối với giải thuật này là ràng buộc ngôn ngữ học (linguitic
constraint) trên việc truy tìm loại bỏ cấu trúc câu không đúng ngữ pháp và
ngữ nghóa. Khi bộ từ vựng tăng cũng tăng sự nhầm lẫn.
2.2.3. Nhận dạng từ cô lập và nhận dạng tiếng nói liên tục
2.2.3.1Nhận dạng từ cô lập
Trong nhận dạng từ cô lập, người nói phát âm một câu với khoảng dừng đủ
dài giữa các từ (điển hình, tối thiểu 200 ms) để khoảng im lặng không nhầm
với phụ âm xát yếu và khoảng bật hơi. Ranh giới các từ được định vị bằng
nhiều kỹ thuật khác nhau có liên quan đến giải thuật phát hiện đầu cuối. Khi
kích thước bộ từ vựng lớn, hệ thống nhận dạng từ cô lập cần được xây dựng
Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

7

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

và huấn luyện đặc biệt dùng mô hình dưới từ. Hơn nữa, nếu cần nhận dạng
câu thì hiệu suất có thể được nâng cao bằng cách khai thác kiến thức về cú
pháp trong câu.
2.2.3.2Nhận dạng tiếng nói liên tục
Các hệ thống nhận dạng từ cô lập (không liên tục) gây cho ta một cảm giác
không được tự nhiên trong quá trình nhận dạng vì khi nhận dạng ta phải đọc

các từ vào hệ thống một cách ngắt quãng. Do đó yêu cầu chúng ta phải cải
thiện chúng để quá trình đọc các từ vào để nhận dạng có thể diễn ra liên tục
nhằm đáp ứng được các yêu cầu trong thực tế như đọc số điện thoại, các mã
số ở nhà băng… Hệ thống như thế gọi là hệ thống nhận dạng tiếng nói liên tục
(CSR: continuous-speech recognition), ở đó người sử dụng phát âm thông điệp
theo kiểu hoàn toàn không bị ràng buộc. Đây là bộ nhận dạng phức tạp nhất.
Các vấn đề phải giải quyết khi thiết kế hệ thống này là: trước hết bộ nhận
dạng phải có khả năng giải quyết các ranh giới thời gian không biết trong tín
hiệu âm học, thứ hai, bộ nhận dạng phải có khả năng thực hiện tốt khi có mặt
sự ảnh hưởng của âm lân cận và phát âm tùy tiện (bỏ sót một số âm hoặc thay
thế một âm bằng một âm khác). Phương pháp rõ ràng nhất để nhận dạng
tiếng nói thuộc loại này là ta phải thực hiện phân đoạn chuỗi từ liên tục thành
các từ riêng biệt, sau đó mới tiến hành nhận dạng các từ này và kết hợp
chúng lại thành câu cần nhận dạng. Một phương pháp khác được đề nghị để
thay thế là ta thực hiện tất cả các tổ hợp có thể có trong bộ từ vựng và sau đó
lấy đoạn tiếng nói vừa được đọc vào để so sánh với tất cả các tổ hợp này. Tuy
nhiên phương pháp này gặp phải một trở ngại rất lớn là khi số tổ hợp tăng lên
thì quá trình nhận dạng khó có thể thực hiện được. Chẳng hạn như trong một
hệ thống quay số điện thoại bằng tiếng nói chúng ta có tất cả mười chữ số từ 0
đến 9, giả sử mỗi số điện thoại chúng ta có tối đa 4 chữ số, khi đó số tổ hợp
Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

8

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

mà ta có sẽ là 104 tổ hợp 4 số, 103 tổ hợp 3 số,102 tổ hợp 2 chữ số và 10 tổ
hợp có 1 chữ số. Số tổ hợp này đòi hỏi một dung lượng bộ nhớ rất lớn và mỗi
khi thực hiện nhận dạng, ta phải thực hiện một khối lượng tính toán rất nặng
nề. Do đó phương pháp này không có tính thực tế.
2.2.3.3Nhận dạng từ nối
Trong các ứng dụng tiếng nói liên tục với bộ từ vựng nhỏ, người ta dùng một
kỹ thuật nhận dạng gọi là nhận dạng từ nối (connected-word). Tiếng nói được
phát âm theo kiểu liên tục. Trong kỹ thuật này, một câu được giải mã bằng
cách ghép các mô hình được hình thành từ các từ rời rạc và kết hợp cách nói
đầy đủ thành mô hình ràng buộc.
2.2.4. Sự ràng buộc ngôn ngữ học
Sự ràng buộc ngôn ngữ học nói chung có liên quan đến việc các đơn vị cơ bản
bị ràng buộc như thế nào, theo thứ tự nào, trong phạm vi nào, với ý nghóa nào.
Vấn đề này liên quan nhiều đến việc lập trình các quy tắc ngữ pháp đúng cho
ngôn ngữ. Rõ ràng, các quy tắc ngôn ngữ càng chặt chẽ thì người sử dụng
càng ít tự do trong việc xây dựng thông điệp muốn nói.
2.2.5. Sự không rõ ràng và nhầm lẫn về âm học
Khái niệm “không rõ ràng về âm học” có nghóa là những từ không thể phân
biệt bằng biểu hiện phát âm của chúng.
Trái lại, “nhầm lẫn” có liên quan đến phạm vi mà các từ có thể dễ bị nhầm
lẫn vì sự giống nhau cục bộ về âm thanh.
2.2.6. Nhiễu môi trường
Một trong những thử thách chính của vấn đề nhận dạng tiếng nói là làm cho
hệ thống tương thích với nhiễu môi trường. Nhiễu này có thể từ người nói
khác, thiết bị âm thanh, máy điều hòa nhiệt độ, ánh sáng đèn trong văn
phòng, nhiễu thiết bị nặng trong môi trường sản xuất hoặc nhiễu trong buồng

Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

9

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

lái máy bay. Nhiễu cũng có thể được tạo ra bởi chính người sử dụng như nhiễu
hơi thở, ho hoặc hắt hơi…
2.3. CÁC VẤN ĐỀ CỦA MỘT HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
Tiếng nói là một chuỗi âm thanh được trích ra từ tập hợp các âm thanh cơ bản
còn gọi là âm vị. Các âm thanh khác nhau được tạo ra bằng cách thay đổi hình
dạng của bộ máy phát âm do sự điều khiển cơ bắp của các cơ quan phát âm
như môi, lưỡi, hàm… Tuy nhiên cùng một âm vị được phát ra nhưng dạng sóng
âm học có thể sẽ thay đổi rất nhiều với nhiều người phát âm khác nhau. Điều
này bởi vì bộ máy phát âm của chúng ta không giống nhau, chẳng hạn như sự
khác nhau về chiều dài dây thanh đới trong bộ máy phát âm của phụ nữ và
nam giới dẫn đến giọng nói của nam giới thì trầm khi đó giọng nói của phụ nữ
lại rất cao. Thậm chí tiếng nói của cùng một người khi phát âm cùng một từ
cũng khác nhau do ảnh hưởng của các âm lân cận.
Sự không rõ ràng về ranh giới giữa các âm hoặc các từ. Ngay cả việc khá đơn
giản là tìm điểm bắt đầu và kết thúc của một âm cũng khó khăn và dễ xảy ra
lỗi, đặc biệt là trong môi trường nhiễu.

Sự thay đổi của tiếng nói do tiếng địa phương, trong đó thường bỏ sót một số
âm hoặc thay thế một âm bằng các âm khác. . Ví dụ như thuộc miền Bắc của
chúng ta thường thay thế âm ‘l’ bằng âm ‘n’ (‘đi làm’ phát âm thành ’đi
nàm’…). Các đặc tính ngôn điệu như âm điệu, nhịp điệu và trọng âm cũng có
thể gây thay đổi tín hiệu tiếng nói. Thêm vào đó, khi phát âm chúng ta
thường tạo ra nhiễu tương tự tiếng nói chẳng hạn như tiếng chắp môi (lip
smacks), tiếng tặt lưỡi (tongue clicks), hơi thở…
Bản thân tiếng nói không thể luôn luôn mang tất cả các thông tin âm học-ngữ
âm cần thiết để nhận dạng.

Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

10

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

2 .4. CÁC HƯỚNG NGHIÊN CỨU NHẬN DẠNG TIẾNG NÓI
2 .4.1. Hướng âm học-ngữ âm
Các hướng nghiên cứu ban đầu dựa vào việc tìm âm tiếng nói và gán nhãn
cho các âm này. Đây là cơ sở của hướng âm học-ngữ âm với giả thiết tồn tại
một số hữu hạn các đơn vị ngữ âm khác nhau có thể phân biệt được trong
ngôn ngữ nói với các đặc điểm được mô tả bằng các đặc tính âm học hiện

diện rõ ràng trong tín hiệu tiếng nói. Mặc dù các đặc tính âm học của các đơn
vị ngữ âm có thể thay đổi theo người nói hoặc theo các âm lân cận, hướng
nghiên cứu âm học-ngữ âm giả sử các qui luật chi phối sự thay đổi là không
phức tạp và có thể cho máy học dễ dàng. Bước đầu tiên trong hướng âm họcngữ âm là phân đoạn và gán nhãn trong tín hiệu tiếng nói được phân ra thành
các vùng âm học ổn định, mỗi vùng được gán bởi một hay nhiều ký hiệu ngữ
âm tạo thành một chuỗi âm vị mô tả tiếng nói. Bước thứ hai là cố gắng xác
định một từ có nghóa (hoặc một chuỗi các từ) từ chuỗi ký hiệu âm vị được tạo
ra trong bước đầu tiên. Trong quá trình này, các giới hạn ngôn ngữ học (ví dụ
như từ vựng, ngữ cảnh và các qui luật ngữ nghóa) được áp dụng để truy xuất
bộ từ vựng dựa trên chuỗi âm vị. Hướng âm học-ngữ âm không được sử dụng
rộng rãi trong các ứng dụng thương mại.
2 .4.2. Hướng kết hợp mẫu
Hướng kết hợp mẫu gồm hai bước chủ yếu là huấn luyện mẫu (pattern
training) và so sánh mẫu (pattern comparision). Đặc tính chủ yếu của hướng
này là sử dụng các cơ cấu toán học rõ ràng và thiết lập sự biểu diễn thích hợp
các mẫu tiếng nói cho việc so sánh chính xác các mẫu từ tập hợp mẫu huấn
Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thò Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

11

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

luyện đã gán nhãn thông qua giải thuật huấn luyện nghiêm chỉnh. Tiếng nói
có thể được biểu diễn ở dạng mẫu tiếng nói hoặc một mô hình thống kê, và
có thể áp dụng cho một âm, một từ hoặc một nhóm từ. Trong giai đoạn so
sánh mẫu, có một sự so sánh trực tiếp giữa tiếng nói chưa biết (cần nhận
dạng) với mỗi mẫu được học trong giai đoạn huấn luyện để xác định đặc tính
của mẫu chưa biết dựa theo chất lượng của việc kết hợp mẫu. Hướng kết hợp
mẫu đã trở thành phương pháp nhận dạng rất phổ biến trong những năm 90.
2 .4.3. Hướng thông minh nhân tạo
Hướng thông minh nhân tạo cố gắng máy móc hóa hoạt động nhận dạng theo
cách con người áp dụng trí khôn trong việc hình dung, phân tích và đánh giá
tiếng nói dựa trên một tập hợp các tính chất âm học đo được. Trong số các kỹ
thuật được sử dụng trong hướng này có việc sử dụng một hệ chuyên gia trong
đó tích hợp âm vị, từ vựng, cú pháp, ngữ nghóa và ngay cả kiến thức thực tế
cho việc phân đoạn và gán nhãn, và sử dụng các công cụ như mạng trí tuệ
nhân tạo cho việc học các quan hệ giữa các sự kiện âm vị. Trọng tâm trong
hướng này chủ yếu là sự biểu diễn kiến thức và tích hợp các nguồn kiến thức.
Kỹ thuật thứ hai là dùng mạng neuron để huấn luyện từ các đặc trưng của
tiếng nói. Đây chính là phương pháp được chọn nghiên cứu và sử dụng trong
luận văn.

Phần 2: Tổng quan về hệ thống nhận dạng tiếng nói

Học viên: KS. Lê Thị Kim Anh

Đề tài: Nghiên cứu ứng dụng mạng Neuron
trong nhận dạng tiếng Việt

35

GVHD:
Cô TS. Nguyễn Như Anh
Thầy GVC_ThS. Tống Văn On

3.2 CÁC ĐẶC ĐIỂM CỦA ANN VÀ THUẬT TOÁN TRUYỀN NGƯC
3.2.1 Dẫn nhập
Mô hình hóa thống kê truyền thống và mạng neuron là các lónh vực có liên quan
mật thiết với nhau. Khác biệt chính giữa hai lónh vực này là thống kê truyền
thống, tập trung vào các bài toán tuyến tính, trong khi mạng neuron lại tập trung
vào các bài toán phi tuyến.
Phần giao dễ nhận thấy nhất giữa hai lónh vực này là kỹ thuật lan truyền
ngược. Lan truyền ngược là một kỹ thuật trọng tâm của mạng neuron, nhưng
thực chất nó lại là một công cụ mô hình hóa thống kê.
Trước tiên sẽ giới thiệu ngắn gọn về phương pháp mô hình hóa thống kê và
thảo luận về lan truyền ngược.
3.2.2 Mô hình hóa thống kê
Các phương pháp thống kê thường được sử dụng để tìm được phương trình
nhằm mô hình hóa các dữ liệu thu nhập được. Ta gọi tập dữ liệu này là tập
mẫu.
Từ tập mẫu, để có được phương trình, ta cần biết giá trị của biến độc lập và biến phụ
thuộc.
Hồi qui tuyến tính là phương pháp cơ bản nhất của mô hình hóa thống kê.
Trong hồi qui tuyến tính, phương trình có dạng:
y = a0 +

I

∑ ai.xi

(3.12)

i= 1
Trong đó, y là biến phụ thuộc mà ta muốn đánh giá, I là tổng số các biến độc lập
xi, còn hằng số a0 và các hệ số ai là các tham số được xác định bằng phương pháp
hồi quy.

Phần 3: Giới thiệu về mạng neuron

Học viên: KS. Lê Thị Kim Anh

Nghiên cứu và ứng dụng mạng neuron trong nhận dạng tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về