Tải bản đầy đủ (.pdf) (97 trang)

Nhận dạng và chuyển đổi tiếng nói tiếng việt sang văn bản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.47 MB, 97 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

NHẬN DẠNG VÀ CHUYỂN ĐỔI
TIẾNG NÓI TIẾNG VIỆT SANG VĂN BẢN

HOÀNG MINH SƠN

HÀ NỘI - 2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

NHẬN DẠNG VÀ CHUYỂN ĐỔI
TIẾNG NÓI TIẾNG VIỆT SANG VĂN BẢN

HOÀNG MINH SƠN
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60480201

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN QUANG HOAN

HÀ NỘI - 2015



LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của em và chưa được công bố
trong bất cứ công trình nào và chưa được đăng trong bất kỳ tài liệu, tạp chí, hội nghị
nào khác. Những kết quả nghiên cứu trong luận văn là trung thực.

Hà Nội, tháng 11 năm 2015
TÁC GIẢ LUẬN VĂN

Hoàng Minh Sơn

i


LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn sâu sắc đến PGS.TS. Nguyễn Quang Hoan,
người đã giúp đỡ em rất nhiều về kiến thức cũng như tài liệu kỹ thuật phục vụ cho
công tác nghiên cứu.
Em xin chân thành cảm ơn các thầy, cô giáo là giảng viên đã giảng dạy tại
Viện Đại học Mở - Hà Nội đã tạo điều kiện giúp đỡ em hoàn thành đề tài tốt nghiệp,
cảm ơn tất cả bạn bè đã nhiệt tình giúp đỡ, động viên và góp ý cho luận văn, đề tài
này.
Mặc dù đã rất nỗ lực và cố gắng để hoàn thành luận văn tốt nghiệp này
nhưng chắc chắn không thể tránh khỏi những sai sót. Vì vậy, em rất mong được sự
chỉ bảo của thầy, cô giáo để luận văn này được hoàn thiện hơn.

ii


MỤC LỤC
Lời cam đoan ................................................................................................. i

Lời cảm ơn .................................................................................................... ii
Mục lục ........................................................................................................ iii
Danh mục các thuật ngữ, chữ viết tắt ......................................................... v
Danh sách bảng ........................................................................................... vi
Danh sách hình vẽ ...................................................................................... vii
Mở đầu .......................................................................................................... 1
Chương 1: Tổng quan về nhận dạng tiếng nói, tiếng nói tiếng Việt .......... 2
1.1. Tổng quan về nghiên cứu nhận dạng tiếng nói trong và ngoài nước ..... 2
1.1.1. Các nghiên cứu nhận dạng tiếng nói trên thế giới........................... 2
1.1.2. Các nghiên cứu nhận dạng tiếng nói trong nước ............................ 4
1.2. Tổng quan về hệ thống nhận dạng tiếng nói ......................................... 6
1.3. Tổng quan về tiếng nói, tiếng Việt ....................................................... 7
1.3.1. Các đặc trưng của tiếng nói ............................................................ 7
1.3.2. Quá trình phát âm và bộ máy phát âm ............................................ 9
1.3.3. Một số đặc điểm khi tìm hiểu về tiếng nói ................................... 10
1.4. Ngữ âm tiếng Việt .............................................................................. 11
1.4.1. Khái niệm ngữ âm tiếng Việt ....................................................... 11
1.4.2. Cấu trúc âm tiết............................................................................ 11
1.5. Lý do chọn đề tài và bài toán nhận dạng ............................................ 17
1.6. Kết luận chương 1 .............................................................................. 18
Chương 2: Phân tích dữ liệu tiếng nói ...................................................... 19
2.1. Cấu trúc tập tin âm thanh ................................................................... 19
2.2. Các kỹ thuật tiền xử lý tiếng nói ......................................................... 24
2.2.1. Các đơn vị cơ bản tiếng nói.......................................................... 24
2.2.2. Phương pháp trích chọn đặc trưng LPC ....................................... 26
2.3. Kết luận chương 2 .............................................................................. 31

iii



Chương 3: Cấu trúc và các luật học mạng nơron..................................... 32
3.1. Khái niệm mạng nơron nhân tạo ........................................................ 32
3.2. Cấu trúc nơron nhân tạo ..................................................................... 33
3.3. Các luật học của mạng nơron ............................................................. 35
3.3.1. Học tham số ................................................................................. 35
3.3.2. Học cấu trúc ................................................................................. 37
3.4. Kết luận chương 3 .............................................................................. 44
Chương 4: Nghiên cứu, thiết kế chương trình nhận dạng và chuyển đổi
tiếng nói....................................................................................................... 45
4.1. Mô tả cấu trúc ứng dụng..................................................................... 45
4.1.1. Hoạt động .................................................................................... 45
4.1.2. Dịch vụ ........................................................................................ 48
4.1.3. Bộ thu nhận.................................................................................. 50
4.1.4. Trình cung cấp nội dung .............................................................. 51
4.2. Mô tả dữ liệu ...................................................................................... 52
4.3. Mô tả mạng nơron máy chủ Google ................................................... 53
4.4. Sơ đồ quá trình hoạt động của ứng dụng ............................................ 54
4.5. Quá trình thực hiện chương trình ứng dụng ........................................ 55
4.6. Lưu đồ thuật toán chương trình .......................................................... 56
4.7. Mô phỏng ứng dụng trên máy tính ..................................................... 57
4.7.1. Mô phỏng ứng dụng với đoạn văn bản có một câu ....................... 57
4.7.2. Hướng dẫn sử dụng chương trình ................................................. 64
4.8. Kết luận chương 4 .............................................................................. 68
Kết luận và hướng phát triển của đề tài.................................................... 69
Tài liệu tham khảo...................................................................................... 71
Phụ lục

iv



DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt
AMDF

Tiếng Anh

Tiếng Việt

Average Magnitude Difference
Function

Hàm vi sai biên độ trung bình

ANN

Artificial Neural Network

API

Application Programming Interface Giao diện lập trình ứng dụng

AVI

Audio Video Interleave

Định dạng tập tin hình ảnh

BP

Back Propagation


Lan truyền ngược

Information Technology

Công nghệ thông tin

Genetic Algorithms
Global System for Mobile

Giải thuật di truyền
Công nghệ mạng thông tin di

Communications

động

Linear Predictive Coding

Mã hoá dự đoán tuyến tính

MPEG

Motion Picture Experts Group

Định dạng tệp tin hình ảnh

Nơron
PE


Neural
Perceptron

Tế bào thần kinh

RIFF

Resource Interchange File Format

CNTT
GA
GSM
LPC

s2t
SDK

Mạng nơron nhân tạo

Định dạng tập tin trao đổi tài
nguyên

Speech to text

Tiếng nói sang văn bản

Software Development Kit

Bộ phát triển phần mềm


v


DANH SÁCH BẢNG

Bảng 1.1: Cấu trúc âm tiết 5 thành phần ..................................................... 12
Bảng 1.2: Cấu trúc âm tiết 3 thành phần ..................................................... 13
Bảng 1.3: Tổ hợp âm giữa .......................................................................... 14
Bảng 1.4: Phân loại thanh điệu trong tiếng Việt .......................................... 17
Bảng 2.1: Bảng thông tin về định dạng âm thanh ........................................ 22
Bảng 2.2: Bảng thông tin về dữ liệu............................................................ 23
Bảng 3.1: Các hàm truyền H(s) thường dùng .............................................. 34
Bảng 3.2: Một số hàm phi tuyến thường dùng trong mô hình nơron ........... 35

vi


DANH SÁCH HÌNH VẼ
Hình 1.1:

Ứng dụng Windows Speech Recognition ...........................................2

Hình 1.2:

Ứng dụng Voice-To-Text trên Facebook Messenger .........................3

Hình 1.3:

Ứng dụng tích hợp Web Speech API Demonstration .........................4


Hình 1.4:

Sơ đồ hệ thống nhận dạng tiếng nói.....................................................7

Hình 1.5:

Đồ thị tín hiệu tiếng nói trong thời gian dài .........................................8

Hình 1.6:

Đồ thị tín hiệu tiếng nói trong thời gian ngắn......................................8

Hình 1.7:

Thanh điệu trong tiếng Việt .............................................................. 15

Hình 2.1:

Sơ đồ mô tả cấu trúc các trường thông tin của Wave....................... 20

Hình 2.2:

Mô tả cấu trúc các trường dữ liệu Wave........................................... 24

Hình 3.1:

Phân loại mạng nơron nhân tạo......................................................... 32

Hình 3.2.


Mô hình nơron nhân tạo .................................................................... 33

Hình 3.3:

Sơ đồ khối luật học giám sát của mạng nơron.................................. 36

Hình 3.4:

Sơ đồ khối luật học không giám sát của mạng nơron ...................... 37

Hình 3.5:

Sơ đồ khối luật học củng cố của mạng nơron .................................. 37

Hình 3.6:

Mạng Perceptron một lớp đơn .......................................................... 38

Hình 3.7:

Cấu trúc mạng Hopfield rời rạc......................................................... 40

Hình 3.8:

Cấu trúc mạng Back Propagation ..................................................... 42

Hình 4.1:

Giao diện chương trình nhận dạng tiếng nói tiếng Việt ................... 86


Hình 4.2:

Biểu đồ Hoạt động ............................................................................. 47

Hình 4.3:

Biểu đồ Dịch vụ ................................................................................. 49

Hình 4.4:

Biểu đồ Bộ thu nhận .......................................................................... 51

Hình 4.5:

Sơ đồ Trình cung cấp nội dung ......................................................... 52

Hình 4.6:

Mô tả dữ liệu máy chủ Google Speech to Text ................................ 52

Hình 4.7:

Deep Neural Network........................................................................ 53

Hình 4.8:

Quá trình hoạt động của Ứng dụng Nhận dạng và chuyển đổi tiếng
nói sang văn bản ................................................................................ 54

Hình 4.9:


Kết quả đoạn văn bản có một câu thử nghiệm với giọng nữ giới .. 57

vii


Hình 4.10: Kết quả đoạn văn bản có một câu thử nghiệm với giọng nam giới . 57
Hình 4.11: Kết quả đoạn văn bản có một câu thử nghiệm với em bé ................ 58
Hình 4.12: Kết quả đoạn văn bản có một câu thử nghiệm với người già .......... 58
Hình 4.13: Kết quả đoạn văn bản có một câu thử nghiệm với ít nhất hai người
cùng nói .............................................................................................. 59
Hình 4.14: Kết quả đoạn văn bản có ít nhất hai câu thử nghiệm với giọng
nữ giới ............................................................................................... 59
Hình 4.15: Kết quả đoạn văn bản có ít nhất hai câu thử nghiệm với giọng
nam giới ............................................................................................ 60
Hình 4.16: Kết quả đoạn văn bản có ít nhất hai câu thử nghiệm với em bé ...... 60
Hình 4.17: Kết quả đoạn văn bản có một câu thử nghiệm với người già .......... 61
Hình 4.18: Kết quả thực nghiệm với kết quả đầu ra là câu có nhiều chữ bằng
tiếng Anh............................................................................................ 62
Hình 4.19: Kết quả thử nghiệm lần 1 .................................................................. 62
Hình 4.20: Kết quả thử nghiệm lần 2 .................................................................. 63
Hình 4.21: Kết quả thử nghiệm lần 3 .................................................................. 63
Hình 4.22: Kết quả thử nghiệm lần 4 .................................................................. 63
Hình 4.23: Kết quả thử nghiệm lần n .................................................................. 63
Hình 4.24: Biểu tượng Ứng dụng Nhận dạng và chuyển đổi tiếng nói tiếng Việt
sang văn bản....................................................................................... 64
Hình 4.25: Giao diện Chương trình chính........................................................... 65
Hình 4.26: Giao diện thực hiện nhận dạng tiếng nói trên phương thức
Google API............................................................................... 66
Hình 4.27: Giao diện Kết quả thực hiện chương trình chuyển đổi tiếng nói sang

văn bản ............................................................................................... 67

viii


MỞ ĐẦU
Ngày nay, các thiết bị di động đã và đang phát triển mạnh mẽ. Tương lai,
các thiết bị di động cùng công nghệ điện toán đám mây sẽ là một phần tất yếu của
cuộc sống. Điện thoại, máy tính bảng, đồng hồ thông minh… đều mang lại trải
nghiệm mới cho người sử dụng. Các ứng dụng về nhận dạng tiếng nói đang được
sử dụng nhiều trên các thiết bị này. Tuy nhiên, các ứng dụng nói trên dành cho
người Việt còn khá ít, đa phần là các ứng dụng hỗ trợ sử dụng tiếng nước ngoài.
Mặt khác, độ phức tạp trong việc nhận dạng và chuyển đổi tiếng nói cũng
cần được đề cập tới như môi trường nhiễu, tạp âm và ngôn ngữ đa dạng, giọng nói
từng vùng miền… gây nhiều ảnh hưởng tới việc nhận dạng tiếng nói đã phần nào
khiến các ứng dụng này dành cho người Việt còn hạn chế.
Chính vì thế, em đã nghiên cứu và chọn ra phương pháp phân tích, xử lý
tiếng nói tích hợp công nghệ điện toán đám mây của Google để thực hiện, thiết kế
nên chương trình Nhận dạng và chuyển đổi tiếng nói tiếng Việt sang văn bản sử
dụng được trên thiết bị di động thông minh. Chương trình ứng dụng có khả năng:
-

Nhận dạng và chuyển đổi tiếng nói tiếng Việt sang văn bản.

-

Hoạt động được trên một số thiết bị di động thông minh.

Luận văn này gồm 4 chương nội dung:
Chương 1: Tổng quan về nhận dạng tiếng nói, tiếng nói tiếng Việt

Chương 2: Phân tích dữ liệu tiếng nói
Chương 3: Cấu trúc và các luật học mạng nơron nhân tạo
Chương 4: Nghiên cứu, thiết kế chương trình nhận dạng và chuyển đổi tiếng
nói tiếng Việt sang văn bản
Kết luận và hướng phát triển của đề tài.

1


CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI,
TIẾNG NÓI TIẾNG VIỆT
1.1. Tổng quan về nghiên cứu nhận dạng tiếng nói trong và ngoài nước
Nhận dạng tiếng nói là một quá trình phức tạp. Tín hiệu tiếng nói phát ra là
tương tự. Qua quá trình lấy mẫu, lượng tử hoá và mã hoá để thu được tín hiệu số,
các mẫu tín hiệu này được trích chọn đặc trưng. Những đặc trưng này sẽ là đầu vào
của quá trình nhận dạng. Hệ thống nhận dạng sẽ đưa ra kết quả nhận dạng.
Một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:
- Khi phát âm, người nói nhanh, chậm khác nhau.
- Các từ được nói thường dài ngắn khác nhau.
- Một người cùng nói một từ nhưng ở nhiều lần phát âm là khác nhau và kết
quả phân tích khác nhau.
- Mỗi người có giọng nói riêng được thể hiện thông qua độ cao, độ lớn, cường
độ của âm và âm sắc. Yếu tố nhiễu của môi trường, thiết bị thu… cũng ảnh hưởng
không nhỏ tới hiệu quả nhận dạng.
Hệ thống nhận dạng và chuyển đổi tiếng nói sang văn bản được các nhà khoa
học quốc tế cũng như trong nước nghiên cứu, phát triển phổ biến.

1.1.1. Các nghiên cứu nhận dạng tiếng nói trên thế giới
1.1.1.1. Ứng dụng “Windows Speech Recognition”
- Giới thiệu: Ứng dụng “Windows Speech Recognition” được tích hợp sẵn trong

Microsoft Windows 7, Windows 8, Windows 10, ra đời năm 2009 [21] có khả năng
nhận dạng tiếng nói để quản lý, điều khiển các phần mềm, ứng dụng trên hệ điều
hành Windows nhằm giảm bớt thời gian cho người sử dụng.

Hình 1.1: Ứng dụng “Windows Speech Recognition”

2


- Các đặc trưng của ứng dụng
+ Tạo văn bản từ giọng nói.
+ Quản lý, điểu khiển phần mềm, ứng dụng trên máy tính.
- Một số hạn chế của ứng dụng
+ Ứng dụng phải được học trước khi sử dụng.
+ Khó phân biệt giọng nói một cách chính xác.
+ Hoạt động trong nhận dạng còn kém hiệu quả.
+ Chưa nhận dạng được tiếng Việt.

1.1.1.2. Ứng dụng “Voice-To-Text Facebook Messenger”
- Giới thiệu: Ứng dụng “Voice-To-Text” tích hợp trên Facebook Messenger, được
Facbook đưa vào hoạt động năm 2013. Ứng dụng này nhận diện giọng nói và
chuyển đổi tiếng nói thành một đoạn văn bản gửi qua phần nhập tin nhắn văn bản
trên ứng dụng Facebook Messenger và gửi tin nhắn văn bản đó cho người nhận.

Hình 1.2: Ứng dụng “Voice-To-Text” trên Facebook Messenger

- Các đặc trưng của ứng dụng
+ Nhận dạng giọng nói của người sử dụng ứng dụng nhắn tin trên Facebook.
+ Không cần huấn luyện do sử dụng máy chủ dữ liệu của Facebook.
+ Nhận dạng tiếng nói rất tốt.


3


- Một số hạn chế của ứng dụng
+ Chỉ chuyển giọng nói sang văn bản.
+ Chỉ nhận dạng được tiếng Anh.

1.1.1.3. Ứng dụng “Google Speech To Text”
- Giới thiệu ứng dụng: “Google Speech To Text” được Google phát triển khoảng 2
năm trở lại đây [22]. Ứng dụng chạy được trên nhiều môi trường như Windows, iOS,
Android, tích hợp vào trình duyệt Chrome và nhận dạng được cả đoạn văn bản dài.

Hình 1.3: Ứng dụng tích hợp Web Speech API Demonstration

- Các đặc trưng của ứng dụng “Google Speech To Text”
+ Nhận dạng tốt các giọng nói.
+ Hỗ trợ nhiều ngôn ngữ trên thế giới và Việt Nam.
+ Có khả năng hiểu, dịch được ngôn ngữ người dùng phát âm.

1.1.2. Các nghiên cứu nhận dạng tiếng nói trong nước
1.1.2.1. Thiết kế chip nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA
- Giới thiệu: Đề tài Thiết kế chip nhận dạng tiếng nói tiếng Việt trên nền công
nghệ FPGA (Field Programmable Gate Array - thiết bị bán dẫn được lập trình sau
sản xuất) được T.S. Hoàng Trang cùng nhóm nghiên cứu ở Đại học Bách Khoa,
Đại học Quốc gia TP Hồ Chí Minh triển khai và thiết kế thành công năm 2012
phục vụ cho người khuyết tật và các ứng dụng khác dựa trên nhận dạng, tổng hợp
tiếng nói tiếng Việt [23].

4



- Các đặc trưng của đề tài:
+ Nhận dạng tiếng nói tiếng Việt và hơn 20 ngôn ngữ trên thế giới.
+ Độ chính xác trong nhận dạng tối thiểu là 80% trong môi trường ít nhiễu.
+ Thiết kế chip nhận dạng với giá thành rẻ.
- Một số hạn chế: Khó khăn trong việc nhận dạng giọng nói tuỳ vùng miền.

1.1.2.2. Nghiên cứu về sử dụng tiếng nói để điều khiển thiết bị gia dụng
- Giới thiệu: Dự án này của nhóm tác giả trường Đại học Bách khoa, Đại học Đà
Nẵng phát triển nhằm phát triển hệ thống tự động nhận dạng giọng nói sử dụng
tiếng Việt để điều khiển các thiết bị trong nhà và trong văn phòng như: quạt, đèn,
máy lạnh và quay số điện thoại... [24].
- Các đặc trưng của dự án:
+ Điều khiển hệ thống tự động bằng việc ra lệnh bằng giọng nói rất tốt.
+ Độ chính xác trong nhận dạng lên tới 92%.
- Một số hạn chế: Khó khăn trong việc nhận dạng giọng nói tuỳ vùng miền.

1.1.2.3. Ứng dụng nhận dạng tiếng nói trong việc lồng tiếng phụ đề vào các
chương trình truyền hình trực tiếp
- Giới thiệu: Ứng dụng được Trung tâm Thông tin Khoa học và Công nghệ
nghiên cứu và phát triển nhằm nhận dạng tiếng nói tạo thành phụ đề tiếng Việt
cho video [25].
- Các đặc trưng của dự án:
+ Độ chính xác trong nhận diện tiếng nói rất tốt.
+ Giảm thời gian, công sức cho việc viết phụ đề tiếng Việt.

1.1.2.4. Một số ứng dụng, phần mềm về nhận dạng tiếng nói khác
- “Việt Command Trợ lí ảo Việt Nam”: Ứng dụng sử dụng Google API trên “Chợ
ứng dụng” của hệ điều hành Android, nhận dạng tiếng Việt để giúp người dùng điều

khiển một số chức năng của điện thoại bằng giọng nói tiếng Việt như: Mở ứng

5


dụng, mở web, gọi điện, nhắn tin, tìm kiếm Wiki, tìm đường trên Google maps, báo
thức bằng giọng nói.
- “Dịch giọng nói - Translator”: Ứng dụng sử dụng Google API bán trên “Chợ ứng
dụng” của hệ điều hành Android, nhận dạng tiếng nói giúp người sử dụng dịch từ ngôn
ngữ này sang ngôn ngữ khác qua văn bản được nhận dạng tiếng nói của người dùng.
Trên đây là một số phần mềm ứng dụng, đề tài nghiên cứu khoa học về việc
nhận dạng tiếng nói trong và ngoài nước em đã tìm hiểu và nhận thấy việc nghiên
cứu, phát triển các đề tài, ứng dụng về nhận dạng tiếng nói đã và đang được quan
tâm rất nhiều. Trên thực tế, các đề tài, phần mềm ứng dụng đã mang lại nhiều lợi
ích to lớn cho xã hội.
Ngoài ra, còn rất nhiều các đề tài, ứng dụng về nhận dạng tiếng nói, điều khiển
tự động, xử lý tín hiệu thành công khác mà em chưa có thời gian để tìm hiểu thêm.

1.2. Tổng quan về hệ thống nhận dạng tiếng nói
Nhận dạng tiếng nói là kỹ thuật nhận ra các thành phần lời nói của con
người. Quá trình này được thực hiện từ việc thu tín hiệu tiếng nói từ micro đến việc
hiển thị từ, chữ, văn bản đã được nhận dạng.
Việc nghiên cứu nhận dạng tiếng nói được thực hiện từ những năm 1940 tới
nay đã phát triển, hiện đại hoá và được áp dụng mọi lĩnh vực như điều khiển, tự
động hoá, tìm kiếm… thậm chí ứng dụng cho cả các đồ chơi cho trẻ em.
Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn
trực quan hơn. Có 3 phương pháp nhận dạng tiếng nói phổ biến [10]:
- Phương pháp âm học - ngữ âm học.
- Phương pháp nhận dạng mẫu.
- Phương pháp sử dụng trí tuệ nhân tạo.

Hệ thống nhận dạng tiếng nói được chia làm hai nhóm: Nhóm được sử dụng
với mục đích điều khiển thiết bị thông qua giọng nói và nhóm sử dụng nhằm xử lý
từ tiếng nói sang văn bản (hình 1.4) [16].

6


Nhận dạng tiếng nói

Điều khiển
ra lệnh

Tiếp
xúc

Nhận
dạng
người
nói

Văn bản

Không
tiếp xúc

Điều
khiển
thiết
bị


Tìm
dữ
liệu

Thời
gian
thực

Ngân
hàng
thoại

Phát
âm
liên
tục

Thời
gian
không
thực

Phát
âm
rời
rạc

Phát
âm
liên

tục

Phát
âm
rời
rạc

Hình 1.4: Sơ đồ hệ thống nhận dạng tiếng nói

1.3. Tổng quan về tiếng nói, tiếng Việt
Tiếng nói là một loại sóng âm, khi nói, tiếng nói được truyền đi mang theo
thông tin dưới dạng các dao động cùng phương truyền đến tai người nhận. Mức độ
truyền tin của tiếng nói được xem là nhanh nhất trong các khả năng tự nhiên của
con người [5].

1.3.1. Các đặc trưng của tiếng nói
Đặc trưng của sóng âm gồm các đặc tính sinh lý, vật lý như: cường độ, tần
số, biên độ, năng lượng, âm sắc, độ cao, độ to…
Số lượng từ sử dụng thường xuyên trong giao tiếp hàng ngày của một người
dao động trong khoảng từ 2000 đến 3000 từ. Số từ sử dụng trung bình khoảng 5000
đến 10000. Số âm tiết được sử dụng vào khoảng 6700.
Nghiên cứu về nhận dạng tiếng nói chủ yếu xem xét đến tần số, biên độ.
Tiếng nói có tần số cơ bản nằm trong khoảng 80 - 8000 Hz.

7


Trong chuỗi tiếng nói, có thể dễ dàng nhận thấy có các khoảng trống được
chèn vào giữa các đoạn có tiếng nói thực sự so với khoảng thời gian tổng cộng giữa
chuỗi âm được gọi là tỷ số tiếng nói.

Khi tăng tốc độ nói, khoảng trống giữa các tiếng bị giảm nhiều và ngược lại,
khi giảm tốc độ nói thì các khoảng trống giữa các từ bị dãn ra.
Đặc điểm của tín hiệu tiếng nói là tín hiệu chậm biến đổi theo thời gian, hay
còn được gọi là “quasi - stationary”, hình 1.5 thể hiện điều này. Khi xem xét một
khoảng thời gian đủ ngắn, khoảng từ 5 - 100ms, tính chất gần như là ổn định. Có
thể thấy điều đó ở hình 1.6. Tuy nhiên, trong một khoảng thời gian dài, tính chất
của nó bị thay đổi, phản ánh những âm thanh khác nhau được nói.

Hình 1.5: Đồ thị tín hiệu tiếng nói trong thời gian dài

Hình 1.6: Đồ thị tín hiệu tiếng nói trong thời gian ngắn

Trong xã hội, tiếng nói đã được các nhà khoa học nghiên cứu dưới nhiều góc
độ khác nhau và đã cho thấy tiếng nói nói chung và tiếng nói tiếng Việt nói riêng là
vô cùng phức tạp.

8


Chính vì thế, nhận dạng tiếng nói để áp dụng vào CNTT là điều thực sự cần
thiết song đó cũng là bài toán vô cùng hóc búa mà từ trước nay con người đang
quan tâm.
Để áp dụng được việc thông dịch các ngôn ngữ khác nhau trên thế giới, giao
tiếp giữa người và máy, nhận dạng tiếng nói trong việc điều tra tội phạm, chuyển
đổi tệp tin ghi âm cho phóng viên… đều phải sử dụng đến nhận dạng tiếng nói. Do
đó, các nhà khoa học, các lập trình viên trên thế giới đã nghiên cứu, viết nên các
chương trình nhận dạng tiếng nói phục vụ cho việc nêu trên.
Tuy trên thế giới, có nhiều công cụ, phần mềm đã làm được việc này nhưng
ở Việt Nam, rất ít các nhà khoa học, lập trình viên tạo ra được một công cụ ưu việt
có thể nhận dạng được tiếng nói tiếng Việt. Chính vì thế, nhận dạng tiếng Việt đã và

đang là vấn đề mới được các nhà khoa học ở Việt Nam nghiên cứu chuyên sâu hơn.
Xác định được tầm quan trọng của nhận dạng tiếng nói tiếng Việt trong
nhiều lĩnh vực, em thấy cần phải học hỏi, tìm hiểu về âm thanh, tiếng nói tiếng Việt.

1.3.2. Quá trình phát âm và bộ máy phát âm
- Khí được đẩy từ phổi qua vòm họng ra miệng phát thành âm.
- Khi dây thanh quản rung tạo ra các xung âm thanh và phát ra tiếng kêu
(voiced sound).
- Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm (Unvoice).
- Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác nhau.
- Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms.
- Lượng khí từ phổi đẩy ra xác định âm lượng phát ra.
Mặc dù tiếng nói của mỗi người, mỗi quốc gia khi phát ra là khác nhau song
trên nguyên lý cơ bản, cách tạo ra tiếng nói đều có điểm chung và điểm riêng. Các
điểm riêng biệt khác nhau này là một thuộc tính quan trọng để có thể nhận dạng tốt
được các loại tiếng nói.

9


1.3.3. Một số đặc điểm khi tìm hiểu về tiếng nói
Môi trường phát âm để nhận dạng là một yếu tố quan trọng trong nhận dạng
âm thanh. Với môi trường yên tĩnh thì hiệu quả nhận dạng cao nhưng với môi
trường ồn ào, pha lẫn tạp âm thì hiệu quả nhận dạng thấp, đôi lúc không thể nhận
dạng được.
Ngữ pháp của tiếng nói cũng là một vấn đề phức tạp trong nhận dạng, với
mỗi quốc gia đều có kiểu nói và ngữ pháp của ngôn ngữ khác nhau. Do đó, để nhận
dạng tốt với mỗi tiếng nói là rất phức tạp.
Hệ thống nhận dạng tiếng nói độc lập hay phụ thuộc vào người nói được
dùng để thực hiện học và nhận dạng cho một người nói. Hệ thống này nhận dạng có

hiệu quả tương đối cao so với hệ thống nhận dạng độc lập với người nói vì khi học
sẽ dùng nhiều mẫu học của nhiều người nói khác nhau và khi nhận dạng cũng phải
nhận dạng nhiều người nói. Tuy nhiên, ở kiểu nhận dạng phụ thuộc người nói có
nhược điểm là phải học lại mẫu khi nhận dạng với một người nói. Cả hai kiểu nhận
dạng trên đều được dùng khi nhận dạng tiếng nói.
Hệ thống nhận dạng từ đơn được học với các đơn vị nhỏ nhất của phát âm
hay còn gọi là các âm tiết. Ở kiểu nhận dạng này người nói phải nghỉ với một
khoảng thời gian dài giữa hai phát âm. Công việc phát hiện ra điểm đầu và điểm
cuối của một phát âm tạo ra một khung bao của phát âm để nhận dạng. Khi từ điển
cho nhận dạng phát âm từ đơn quá lớn, chúng ta phải cấu trúc lại cách học với kiểu
dùng chung các phát âm của một từ.
Nhận dạng phát âm liên tục là một hệ thống nhận dạng phức tạp được dùng để
nhận dạng các phát âm liên tục, ở hệ thống này thời gian nghỉ giữa hai âm vị là tương
đối ngắn, các nói tự nhiên trong thực tế là một mô hình của cách phát âm liên tục.
Ở hệ thống nhận dạng này, đầu tiên phải có khả năng xác định được các khung
bao của các phát âm, sau đó hệ thống nhận dạng phải biểu hiện các đặc tính của tín
hiệu phát âm để nhận dạng. Với hệ thống nhận dạng các phát âm liên tục không nhất
thiết yêu cầu nhiều mẫu của nhiều người nói mà điểm mạnh của nó thể hện qua thuật

10


toán nhận dạng với các đặc trưng quan trọng nhất của một phát âm. Nhận dạng phát
âm liên tục là hệ thống được dùng nhiều trong các ứng dụng trong thực tế.
Nhận dạng tiếng nói kết nối là một kiểu nhận dạng phát âm liên tục với bộ từ
điển nhận dạng nhỏ. Ở kiểu nhận dạng này câu phát âm được cắt ra thành các phát
âm nhỏ, hệ thống nhận dạng các phát âm cắt ra sau đó được ghép nối lại.

1.4. Ngữ âm tiếng Việt
1.4.1. Khái niệm ngữ âm tiếng Việt

Lời nói của con người là một chuỗi âm thanh được phát ra kế tiếp nhau trong
không gian và thời gian. Việc phân tích chuỗi âm thanh ấy người ta nhận ra được
các đơn vị của ngữ âm.
Chuỗi lời nói của con người được chia ra thành nhiều đoạn nhỏ như câu, từ,
cụm từ... và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không phân
chia được nữa dù nói chậm đến đâu mà vẫn giữ đúng ý nghĩa âm tiết đó.
Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm
hầu như phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó, người ta còn
xem âm tiết bao gồm nhiều yếu tố đoạn tính là các yếu tố có giới hạn phân đoạn
trong âm tiết như phụ âm, vần, âm đệm và các yếu tố siêu đoạn tính, các yếu tố mà
không giới hạn trong âm tiết như ngữ điệu, thanh điệu. Đặc điểm riêng của âm tiết
tiếng Việt là đơn âm và có thanh điệu.

1.4.2. Cấu trúc âm tiết
Âm tiết là đơn vị phát âm nhỏ nhất mà cho dù ta có phát âm chậm đến mấy đi
nữa cũng không thể tách ra thành các phần nhỏ hơn được [14], [15].

1.4.2.1. Cấu trúc âm tiết năm thành phần
Theo ngôn ngữ học, một âm tiết tiếng Việt được cấu tạo từ năm thành phần:
Âm đầu; Âm đệm; Âm chính; Âm cuối; Thanh điệu.
Chúng ta có thể viết cấu trúc của một âm tiết theo cách tiếp cận 5 thành phần
như sau: Âm tiết = [Âm đầu][Âm đệm]<Âm chính>[Âm cuối][Thanh điệu]

11


Trong đó những thành phần nằm trong cặp dấu <> là bắt buộc, những thành
phần nằm trong cặp dấu [] thì có thể có hoặc không. Ví dụ một số âm tiết 5 thành

phần của tiếng Việt minh hoạ như sau:

Bảng 1.1: Cấu trúc âm tiết 5 thành phần

Âm tiết

luận

văn

o

Các thành phần cấu tạo thành âm tiết
Âm đầu

l

Âm đệm

u

Âm chính

â

Âm cuối

n

Thanh điệu

.


Âm đầu

v

Âm đệm

không có

Âm chính

ăn

Âm cuối

không có

Thanh điệu

không có

Âm đầu

không có

Âm đệm

không có

Âm chính


o

Âm cuối

không có

Thanh điệu

không có

1.4.2.2. Cấu trúc âm tiết ba thành phần
Chúng ta có thể phân tích một âm tiết thành ba thành phần sau:
- Âm đầu
- Tổ hợp âm giữa
- Âm cuối

12


Cấu trúc của một âm tiết theo cách tiếp cận 3 thành phần sẽ được viết lại như
sau: Âm tiết = [Âm đầu]<Tổ hợp âm giữa>[Âm cuối]
Trong đó những thành phần nằm trong cặp dấu < > là bắt buộc phải có, những
thành phần nằm trong cặp dấu [ ] thì có thể có hoặc không, ví dụ một số âm tiết 3
thành phần của tiếng Việt minh hoạ như sau:
Bảng 1.2: Cấu trúc âm tiết 3 thành phần

Âm tiết

tiếng


nói

o

Các thành phần cấu tạo thành âm tiết
Âm đầu

t

Tổ hợp âm giữa

iế

Âm cuối

ng

Âm đầu

n

Tổ hợp âm giữa

ói

Âm cuối

không có


Âm đầu

không có

Tổ hợp âm giữa

o

Âm cuối

không có

Âm đầu gồm có 27 loại như sau: b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh,
nh, p, ph, q, r, s, t, th, tr, v, x, âm khuyết.
Tổ hợp âm giữa có số lượng rất lớn, tổ hợp âm giữa sẽ được cập nhật trong quá
trinh học văn bản của chương trình.
Ví dụ một số tổ hợp âm giữa là: a, ai, au, ay, e, eo, i, ia, iai, iày, iá, iáo...
Âm cuối gồm có 9 loại như sau: c, ch, m, n, ng, nh, p, t, âm khuyết.
Trong cấu trúc âm tiết 3 thành phần thì tổ hợp âm giữa là thành phần bắt buộc
phải có, nó là thành phần chính cấu tạo nên âm tiết.

13


Dựa trên cấu trúc âm tiết 3 thành phần chúng ta thấy một tổ hợp âm giữa thì có
thể ghép với một số âm đầu và một số âm cuối nhất định, điều này có thể minh họa
như sau:
Bảng 1.3: Tổ hợp âm giữa

Âm đầu


Tổ hợp âm giữa

Âm cuối

1. b

15. ngh

1. c

2. c

16. nh

2. ch

3. ch

17. p

3. m

4. d

18. ph

4. n

5. đ


19. q

5. ng

6. g

20. r

6. nh

7. gh

21. s

8. h

22. t

9. k

23. th

10. kh

24. tr

11. l

25. v


12. m

26. x

13. n

27. none

ươ

7. p
8. t
9. âm khuyết

14. ng
Những âm đầu, tổ hợp âm giữa, âm cuối tô đậm là có thể ghép với nhau để tạo
thành âm tiết như: chươm, chươn, chương, cươm, cươn, chương, gươm, gươn,
gương...

1.4.2.3. Thanh điệu
Tiếng Việt có 6 loại dấu bao gồm: "ngang, sắc, huyền, hỏi, ngã, nặng". Các
dấu này luôn đi kèm cùng với nguyên âm để tạo ra âm.

14


Hình 1.7: Thanh điệu trong tiếng Việt

Cách phát âm các loại dấu:

Ngang: Được phát âm bằng cách để môi miệng ở nguyên âm mà ta muốn
thêm dấu sau đó nén luồng hơi lại. Kết thúc bằng cách phát âm đó bằng cách đẩy
hơi qua cổ họng mà không rung dây thanh quản và kéo dài, thu được âm có
dấu ngang (hình 1.7). Với thanh điệu ngang, tần số cơ bản không thay đổi
Sắc: Được phát âm bằng cách để môi miệng ở nguyên âm mà ta muốn thêm
dấu sau đó nén luồng hơi lại. Kết thúc bằng cách mở rộng môi miệng sang hai phía
trên và dưới thật nhanh mà không rung dây thanh quản, thu được âm có dấu sắc
(hình 1.7).
Với dấu sắc, tần số cơ bản tăng dần. Nếu gọi F0 là tần số tương ứng với âm
không dấu, thì sự thay đổi tần số cơ bản của dấu sắc có thể được mô tả như sau: F020, F0-20, F0-15, F0-10, F0-5, F0+5, F0+30, F0+70, F0+80
Huyền: Được phát âm bằng cách để môi miệng ở nguyên âm mà ta muốn
thêm dấu sau đó nén luồng hơi lại. Kết thúc bằng cách phát âm đó bằng cách đẩy
hơi qua cổ họng mà dây thanh quản bị rung, thu được âm có dấu huyền (hình 1.7).

15


×