Tải bản đầy đủ (.pdf) (81 trang)

Nghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng việt trên điện thoại di động android

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.35 MB, 81 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TRẦN MINH TUẤN

NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI VÀ ỨNG DỤNG
ĐỌC BÁO BẰNG TIẾNG VIỆT TRÊN ĐIỆN THOẠI
ANDROID

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2016


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TRẦN MINH TUẤN

NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI VÀ ỨNG DỤNG
ĐỌC BÁO BẰNG TIẾNG VIỆT TRÊN ĐIỆN THOẠI
ANDROID
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ:

0

60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT


(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. LÊ HỮU LẬP

HÀ NỘI - 2016



i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất cứ công trình nào.
TÁC GIẢ

Trần Minh Tuấn


ii

LỜI CÁM ƠN
Lời đầu tiên em xin gửi lời cảm ơn đến toàn thể các thầy, cô giáo Học viện
Công nghệ Bưu chính Viễn thông đã tận tình giảng dạy em trong suốt thời gian học
tập tại nhà trường.
Em xin gửi lời cảm ơn sâu sắc đến PGS.TS. Lê Hữu Lập, người đã trực tiếp
hướng dẫn, tạo mọi điều kiện thuận lợi và tận tình chỉ bảo cho em trong suốt thời
gian làm luận văn tốt nghiệp.
Bên cạnh đó, để hoàn thành đồ án này, em cũng đã nhận được rất nhiều sự
giúp đỡ, những lời động viên quý báu của các bạn bè, gia đình và đồng nghiệp. Em

xin chân thành cảm ơn.
Tuy nhiên, do thời gian hạn hẹp, mặc dù đã nỗ lực hết sức mình, nhưng chắc
rằng luận văn khó tránh khỏi thiếu sót. Em rất mong nhận được sự thông cảm và góp
ý của quý thầy cô và các bạn.
HỌC VIÊN

Trần Minh Tuân


iii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CÁM ƠN ............................................................................................................ ii
DANH MỤC TỪ VIẾT TẮT ......................................................................................v
DANH MỤC CÁC BẢNG BIỂU ............................................................................. vi
DANH MỤC CÁC HÌNH VẼ.................................................................................. vii
MỞ ĐẦU .....................................................................................................................1
Chương 1.TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ TỔNG HỢP
TIẾNG NÓI .................................................................................................................3
1.1.

Giới thiệu về xử lý ngôn ngữ tự nhiên ........................................................3

1.1.1. Ngôn ngữ ................................................................................................ 3
1.1.2. Xử lý ngôn ngữ tự nhiên ......................................................................... 3
1.2.

Chuẩn hóa văn bản ......................................................................................4


1.2.1. Tổng quan về chuẩn hóa văn bản ........................................................... 4
1.2.2. Các nghiên cứu liên quan trên thế giới ................................................... 5
1.2.3. Các nghiên cứu liên quan cho tiếng Việt ................................................ 5
1.2.4. Chuẩn hóa văn bản tiếng việt.................................................................. 6
1.3.

Phân tích cú pháp ........................................................................................7

1.3.1. Tổng quan về phân tích cú pháp ............................................................. 7
1.3.2. Các nghiên cứu về phân tích cú pháp ..................................................... 8
1.4.

Phân tích ngữ cảnh ......................................................................................9

1.4.1. Nhập nhằng nghĩa ở mức từ vựng .......................................................... 9
1.4.2. Mức độ nhập nhằng cấu trúc................................................................... 9
1.4.3. Mức độ nhập nhằng liên câu ................................................................. 10
1.5.

Giới thiệu về hệ thống tổng hợp tiếng nói ................................................10

1.5.1. Tổng quan ............................................................................................. 10
1.5.2. Ý nghĩa của tổng hợp tiếng nói ............................................................. 11
1.5.3. Mô hình tổng hợp tiếng nói từ văn bản ................................................ 11
1.6.

Kết luận chương ........................................................................................12

Chương 2.MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT.....13
2.1.


Tổng hợp mô phỏng hệ thống phát âm .....................................................13

2.1.1. Hệ thống tiếng nói con người ............................................................... 13
2.2.

Tổng hợp tần số formant ...........................................................................16


iv

2.2.1. Các mô hình tổng hợp formant ............................................................. 17
2.2.2. Tổng hợp tiếng nói trên cơ sở tổng hợp formant .................................. 18
2.3.

Tổng hợp dựa trên ghép nối ......................................................................19

2.3.1. Các vấn đề trong tổng hợp tiếng nói bằng phương pháp ghép nối ....... 20
2.3.2. Các phương pháp tổng hợp bằng ghép nối ........................................... 25
2.3.3. Tổng hợp chuyên biệt ........................................................................... 28
2.4.

Tổng hợp dùng tham số thống kê ..............................................................28

2.4.1. Tổng quan về tổng hợp dùng tham số thống kê .................................... 28
2.4.2. Mô hình Markov ẩn .............................................................................. 29
2.5.

Tổng hợp bằng phương pháp lai ghép ......................................................30


2.5.1. Hệ thống tổng hợp lai ghép hướng ghép nối ........................................ 32
2.5.2. Hệ thống tổng hợp lai ghép hướng HMM ............................................ 33
2.6.

Đánh giá và lựa chọn phương pháp xây dựng ứng dụng ..........................39

2.7.

Kết luận chương ........................................................................................43

Chương 3.XÂY DỰNG ỨNG DỤNG……………………………………………..44
3.1.

Giới thiệu về Android SDK ......................................................................44

3.1.1. Android ................................................................................................. 44
3.1.2. Android SDK ........................................................................................ 45
3.2.

Mô tả ứng dụng .........................................................................................45

3.2.1. Tổng quan về ứng dụng ........................................................................ 45
3.2.2. Tổng quan về giao diện và hoạt động của ứng dụng ............................ 47
3.3.

Tổng hợp tiếng nói từ văn bản trên hệ điều hành Android .......................56

3.3.1. Tính năng TextToSpeech trên hệ điều hành Android ........................... 56
3.3.2. Mô hình tổng hợp tiếng nói trên hệ điều hành Android ....................... 57
3.3.3. Lựa chọn và tìm kiếm đơn vị âm .......................................................... 58

3.4.

Vấn đề lưu trữ và xử lý trên thiết bị di động .............................................63

3.5.

Kết quả và đánh giá ứng dụng...................................................................64

3.6.

Kết luận chương ........................................................................................65

KẾT LUẬN ...............................................................................................................66
TÀI LIỆU THAM KHẢO .........................................................................................68


v

DANH MỤC TỪ VIẾT TẮT
STT

Từ viết tắt

Ý nghĩa

1

HMM

Hidden Markov Model


2

LPC

Linear Predictive Coding

3

MFCC

Mel-scale Frequency Cepstral Coefficient

4

NSW

Non-Standard Word

5

PSOLA

Pitch Synchronous Overlap and Add

6

TTS

Text to speech



vi

DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1: Các loại đơn vị âm sử dụng ......................................................................22
Bảng 2.2: Đánh giá chất lượng tiếng nói ..................................................................40
Bảng 2.3: Đánh giá hiệu quả tính toán ......................................................................41
Bảng 2.4: Đánh giá kích thước dữ liệu .....................................................................42
Bảng 3.1: Kịch bản: Tải về dữ liệu ...........................................................................47
Bảng 3.2: Kịch bản: Tải về bài báo ...........................................................................48
Bảng 3.3: Kịch bản: Đọc bài báo ..............................................................................49
Bảng 3.4: Kịch bản: Cài đặt giao diện ......................................................................49
Bảng 3.5: Kịch bản: Cài đặt trang báo ......................................................................50
Bảng 3.6: Các mức đánh giá trong MOS ..................................................................65


vii

DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Ví dụ phân tích cú pháp ...............................................................................8
Hình 1.2: Hệ thống tổng hợp tiếng nói .....................................................................11
Hình 1.3: Mô hình tổng hợp mức cao .......................................................................12
Hình 2.1: Mô hình phát âm của con người ...............................................................13
Hình 2.2: Mô hình tổng hợp tần số formant..............................................................16
Hình 2.3: Mô hình tổng hợp formant nối tiếp ...........................................................17
Hình 2.4: Mô hình bộ tổng hợp formant song song ..................................................17
Hình 2.5: Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant ........................19
Hình 2.6: Mô hình hệ thống TTS dựa trên mô hình Markov ẩn ...............................29
Hình 2.7: Hệ thống lai ghép hướng HMM ................................................................35

Hình 2.8: Hàm trọng số trong các vùng khác nhau của tín hiệu ...............................39
Hình 3.1: Các phiên bản Android .............................................................................44
Hình 3.2: Mô hình tổng quan về ứng dụng ...............................................................46
Hình 3.3: Sơ đồ Usecase-Actor tổng quan ................................................................47
Hình 3.4: Sơ đồ hoạt động tải về dữ liệu RSS ..........................................................51
Hình 3.5: Sơ đồ hoạt động tải về bài báo ..................................................................52
Hình 3.6: Sơ đồ hoạt động đọc báo ...........................................................................53
Hình 3.7: Sơ đồ hoạt động cài đặt giao diện .............................................................53
Hình 3.8: Sơ đồ hoạt động cài đặt giao trang ............................................................54
Hình 3.9: Giao diện bảng tin .....................................................................................55
Hình 3.10: Giao diện chủ đề .....................................................................................55
Hình 3.11: Giao diện cài đặt .....................................................................................55
Hình 3.12: Giao diện cài đặt ban đêm .......................................................................55
Hình 3.13: Giao diện trang báo .................................................................................55
Hình 3.14: Giao diện đọc tin .....................................................................................56
Hình 3.15: Mô hình tổng hợp tiếng nói trên hệ điều hành Android .........................57
Hình 3.16: Mô hình lựa chọn đơn vị âm không đồng nhất .......................................58


viii

Hình 3.17: Quá trình tìm kiếm đơn vị .......................................................................59
Hình 3.18: Ví dụ về bước tiền lựa chọn ....................................................................61
Hình 3.19: Sự khác nhau về ngữ cảnh ......................................................................62
Hình 3.20: Sự khác nhau về phổ ...............................................................................62
Hình 3.21: Sơ đồ đánh giá chất lượng tiếng nói .......................................................65


1


MỞ ĐẦU
Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng
như các dịch vụ trực tuyến ngày càng có nhiều thông tin được tạo ra. Ta có thể truy
cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Cùng
với đó là sự phát triển mạnh của các thiết bị di động Android. Ta có thể thu thập thông
tin ở bất cứ nơi đâu thông qua thiết bị di động này. Hơn nữa, nhu cầu đọc, tìm hiểu
và lưu trữ thông tin của con người ngày càng tăng lên. Tuy nhiên, với số lượng lớn
thông tin như vậy thì ta không có đủ thời gian và sức lực để tiếp thu bằng phương
pháp đọc thông thường. Giải pháp tổng hợp những thông tin dưới dạng văn bản này
thành tiếng nói để cung cấp thêm một phương thức tiếp thu thông tin.
Tổng hợp tiếng nói là quá trình tạo ra tiếng nói nhân tạo của người trên máy
tính từ văn bản. Đây là một đề tài có tính ứng dụng thực tiễn cao nên được nghiên
cứu nhiều trên thế giới và Việt Nam từ rất sớm [7]. Hiện nay, tại Việt Nam đã phát
triển nhiều bộ tổng hợp và ứng dụng của nó dành riêng cho tiếng Việt như phần mềm
tổng hợp tiếng nói tiếng Việt “VnSpeech”. Đây là phần mềm tổng hợp tiếng nói theo
phương pháp tổng hợp tần số formant. Hệ tổng hợp formant có thể đọc được hầu hết
các âm tiết tiếng Việt ở mức nghe rõ, tuy vậy, nó có nhược điểm là mức độ tự nhiên
không cao. Ngoài ra, còn có phần mềm V-Talk của Viện Khoa học kỹ thuật Bưu
Điện, phát triển dựa trên tổng hợp ghép nối diphone (phụ âm đầu và phần vần). Phần
mềm VnVoice (Viện công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ
Việt Nam) tổng hợp tiếng nói theo hướng ghép nối bán âm tiết. Tuy nhiên, chất lượng
tiếng nói tổng hợp sao cho dễ nghe và tự nhiên vẫn là điều mà các công trình nghiên
cứu đang hướng tới [11].
Vì vậy, Học viên xin chọn đề tài “ Nghiên cứu tổng hợp tiếng nói và ứng dụng
đọc báo bằng tiếng Việt trên điện thoại Android ” nhằm nghiên cứu tổng quan về xử
lý ngôn ngữ tự nhiên và một số phương pháp tổng hợp tiếng nói tiếng Việt từ văn bản
đã được ứng dụng và thu được kết quả khả quan, đồng thời xây dựng ứng dụng đọc
báo bằng tiếng Việt trên điện thoại Android.



2

Nội dung của luận văn được trình bày trong ba phần chính như sau:
1. Phần mở đầu
2. Phần nội dung: bao gồm ba chương:
Chương 1: Tổng quan về xử lý ngôn ngữ tự nhiên
Chương 2: Một số phương pháp tổng hợp tiếng nói tiếng Việt
Chương 3: Xây dựng ứng dụng
3. Phần kết luận


3

Chương 1. TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
VÀ TỔNG HỢP TIẾNG NÓI

1.1.

Giới thiệu về xử lý ngôn ngữ tự nhiên

1.1.1. Ngôn ngữ
Ngôn ngữ được coi làm một hệ thống giao thiệp hay suy luận. Hệ thống này
dùng một cách biểu diễn phép ẩn dụ và một loại ngữ pháp theo logic, mỗi thứ đều
bao hàm một tiêu chuẩn hay sự thật thuộc lịch sử và siêu việt. Hầu hết các ngôn ngữ
sử dụng điệu bộ, âm thanh, ký hiệu hay chữ viết để truyền tải khái niệm, ý nghĩa và
ý nghĩ nhưng nhiều khi những khía cạnh này khá là giống nhau nên rất khó phân biệt
[8].
Ngôn ngữ là hệ thống tín hiệu đặc biệt và quan trọng bậc nhất của loài người,
phương tiện tư duy và công cụ giao tiếp xã hội. Ngôn ngữ bao gồm ngôn ngữ nói và
ngôn ngữ viết hay còn gọi là văn bản.


1.1.2.

Xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (Natural language processing- NPL) là một nhánh

của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong
trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó
liên quan đến việc phải hiểu ý nghĩa của ngôn ngữ - công cụ hoàn hảo nhất của tư
duy và giao tiếp.
Xử lý ngôn ngữ chính là xử lý thông tin đầu vào là “Dữ liệu ngôn ngữ” (Dữ
liệu cần biến đổi) tức là dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến
ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên là kiểu dữ liệu chính của
con người và được lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu
này là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các
khuôn dạng cố định như các bảng biểu.


4

Để máy tính có thể hiểu và thực thi một chương trình được viết bằng ngôn ngữ
cấp cao, ta cần phải có một trình biên dịch thực hiện việc chuyển đổi chương trình đó
sang chương trình ở dạng ngôn ngữ đích.
Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ
thống máy tính hiểu và xử lý được ngôn ngữ con người. Tổng hợp tiếng nói là một
trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên. Mặc dù tổng hợp tiếng nói
đã được nghiên cứu và phát triển trong nhiều năm qua, song vẫn tồn tại nhiều vấn đề
cần nghiên cứu.

1.2.


Chuẩn hóa văn bản

1.2.1. Tổng quan về chuẩn hóa văn bản
Trong lĩnh vực ngôn ngữ và công nghệ liên quan tới tiếng nói nói chung theo
cách này hay cách khác đều phải giải quyết bài toán về xử lý văn bản trong thực tế.
Một số lĩnh vực phụ thuộc trực tiếp vào việc giải quyết bài toán này, như máy dịch
ngôn ngữ, hệ thống phát hiện chủ đề văn bản, hệ thống tổng hợp tiếng nói từ văn bản.
Một số lĩnh vực lại phụ thuộc gián tiếp như nhận dạng tiếng nói sử dụng mô hình
ngôn ngữ, trong khi mô hình ngôn ngữ sử dụng các văn bản làm tập huấn luyện.
Trong trường hợp nào đi nữa thì đều phải đối mặt với các vấn đề của văn bản thực tế,
đó là tính hỗn độn của văn bản. Trong một văn bản có thể tìm thấy ngoài các chữ là
các từ còn có các loại số, các từ viết tắt, ngày tháng, tiền tệ, kí hiệu.... Chúng là những
từ chưa chuẩn hóa, theo nghĩa không thể tìm được các thuộc tính của nó nhờ việc tìm
kiếm trong từ điển hay áp dụng các luật phiên âm đơn giản. Vì thế những từ chưa
chuẩn hóa này cần phải được chuẩn hóa, để đưa về dạng bình thường mà ta có thể
tìm thấy nó bởi từ điển, hay các luật phiên âm [20].
Chuẩn hóa văn bản thực chất là đi tìm từ diễn giải tương ứng để có thể áp dụng
được luật phiên âm cho từ chưa chuẩn hóa, từ tương ứng đó chỉ ra cách đọc cho từ
chưa chuẩn hóa. Thông thường việc chuẩn hóa văn bản là một bài toán khá rắc rối,
bởi từ chuẩn hóa tương ứng của một NSW còn phụ thuộc vào cả yếu tố ngữ cảnh và


5

chủng loại của NSW nữa. Tuy không phải là vấn đề nhỏ nhưng bài toán này lại ít
được quan tâm nghiên cứu hơn so với các bài toán khác trong tổng hợp tiếng nói [20].

1.2.2.


Các nghiên cứu liên quan trên thế giới
Trên thế giới đã có nhiều kết quả nghiên cứu về chuẩn hóa văn bản ở các ngôn

ngữ khác nhau, như tiếng Anh [20], Hindi [13], Bangla [9], Trung [18] [24]…và đã
đạt được nhiều thành tựu, giải quyết một số bài toán đặc thù cho loại ngôn ngữ mà
nghiên cứu đó tập trung.
Nghiên cứu chuẩn hóa văn bản tiếng Anh đã đưa ra được hệ thống phân nhóm
và phân loại các NSW (Non-Standard Word) cho tiếng Anh, mà hệ thống này có thể
tham khảo, mở rộng để áp dụng cho các văn bản sử dụng hệ thống chữ cái La-tinh
nói chung. Nghiên cứu này cũng phác họa ra một mô hình cơ bản cho chuẩn hóa văn
bản mà các ngôn ngữ sử dụng chữ cái La-tinh có thể tham khảo.
Nghiên cứu chuẩn hóa văn bản tiếng Trung tập trung vào chuẩn hóa ngôn ngữ
đối thoại cá nhân (chat) dùng trong giao tiếp và đối thoại trên mạng Internet của người
Trung Quốc. Đây là một mảng có tính hỗn độn cao, phong cách trình bày và chính tả
rất tùy tiện. Việc chuẩn hóa chủ yếu là chuẩn chính tả dựa vào một từ điển ánh xạ
giữa những từ cần chuẩn hóa dùng ngôn ngữ chat và những từ chuẩn hóa tương ứng
của nó. Từ điển này xây dựng trên tập dữ liệu học là các đoạn hội thoại thu thập được.
Cách làm này đòi hỏi công sức thống kê, thu thập và độ chính xác phụ thuộc vào mức
độ bao phủ của tập huấn luyện.

1.2.3. Các nghiên cứu liên quan cho tiếng Việt
Mỗi ngôn ngữ có những đặc trưng riêng của nó, vì thế bài toán chuẩn hóa văn
bản cho mỗi ngôn ngữ không thể áp dụng ngay cho ngôn ngữ khác. Tiếng Việt và
tiếng Anh cùng sử dụng hệ thống chữ cái La-tinh để biểu diễn văn bản, nhưng cách
phân tách các từ trong tiếng Việt lại không giống tiếng Anh. Tiếng Việt thuộc ngôn
ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể
hiện bằng một chữ viết. Một từ trong tiếng Việt có thể gồm một hoặc nhiều hơn một


6


tiếng, các tiếng biểu diễn bởi các chữ phân tách với nhau bởi dấu cách. Đặc điểm này
thể hiện rõ ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp. Trong khi đó, một từ trong
tiếng Anh có thể có nhiều nguyên âm và phát âm thành nhiều tiếng, dấu cách cũng là
dấu phân tách các từ với nhau, cách viết tắt và thói quen viết văn bản của người Việt
với người Anh cũng không giống nhau. Tiếng Việt đối với những ngôn ngữ sử dụng
những bảng chữ cái khác, hoặc chữ tượng hình thì càng khác nhau nhiều hơn.
Ở Việt Nam hiện nay, đề tài về xây dựng bộ tổng hợp tiếng nói cho tiếng Việt
cũng đã được quan tâm nghiên cứu, nhiều nghiên cứu đã gặt hái những thành quả đầu
tiên trong lĩnh vực này như bộ tổng hợp tiếng nói SAOMAI, HOASUNG, Tiếng Nói
PHƯƠNG NAM.... Nhưng những nghiên cứu này chưa chú trọng nhiều vào chuẩn
hóa văn bản mà chủ yếu tập trung vào việc xử lý tín hiệu. Một số khác xoay quanh
bài toán chỉnh sửa lại chính tả. Vì thế dù chất lượng tiếng nói tổng hợp ra khá tốt,
nhưng những bộ tổng hợp tiếng nói này chỉ có khả năng làm việc tốt với những văn
bản đầu vào có định dạng đơn giản và tương đối chuẩn. Công đoạn tiền xử lý văn bản
thường chỉ dừng lại ở mức kiểm tra chính tả, hoặc sử dụng một số luật đơn giản áp
dụng cho những trường hợp đặc biệt để chuẩn hóa văn bản. Thực tế đó cho thấy có
một khoảng trống trong lĩnh vực tổng hợp tiếng nói ở Việt Nam tại bước tiền xử lý
văn bản. Đó chính là động lực cho các nghiên cứu về chuẩn hóa văn bản tiếng Việt
cho việc tổng hợp tiếng nói một cách đầy đủ và đã có những kết quả đầu tiên đầy hứa
hẹn như nghiên cứu [23].

1.2.4.

Chuẩn hóa văn bản tiếng việt
Văn bản tiếng Việt thường hàm chứa những dạng chữ số (số đếm, số điện

thoại, thời gian...), những tổ hợp chữ có số (kí hiệu, mã ...), những loại dấu, từ viết
tắt (TS, Ths...), kí hiệu, từ mượn (FAO, WHO, NATO...) [20]... chính là những từ
chưa chuẩn hóa hay Non-Standard Word (NSW). Việc chuẩn hóa văn bản là để diễn

giải những NSW này để bộ tổng hợp tiếng nói có thể hiểu được.
Việc chuẩn hóa văn bản nói chung có những thách thức do các thành phần văn
bản có ý nghĩa khác nhau nhiều khi lại có định dạng giống nhau, cùng một NSW có


7

thể đọc và hiểu theo nhiều phương án khác nhau phụ thuộc nhiều hoặc ít vào ngữ
cảnh xung quanh nó. Bên cạnh đó còn do cấu trúc của văn bản không phải lúc nào
cũng rõ ràng và theo quy chuẩn như cấu trúc các câu hay các đoạn văn; các thành
phần cấu thành nên văn bản đôi khi phức tạp như địa chỉ url, email, biểu thức hay kí
hiệu [20]. Các NSW có thành phần là số thì ý nghĩa phụ thuộc nhiều hơn vào ngữ
cảnh, các NSW thành phần là chữ lại ít phụ thuộc vào ngữ cảnh hơn, tính nhập nhằng
cao hơn [23].
Văn bản tiếng Việt ngoài những vấn đề chung của bài toán chuẩn hóa văn bản
còn có những yếu tố đặc thù riêng của nó. Đó là là sự nhập nhằng khá phổ biến xẩy
ra trong các văn bản và cách viết, cách đọc của từng người nhiều khi rất đa dạng,
thậm chí không theo quy chuẩn nào [27] [28].

1.3.

Phân tích cú pháp

1.3.1. Tổng quan về phân tích cú pháp
Trong tổng hợp tiếng nói, phân tích cú pháp đóng một vai trò rất quan trọng
trong công đoạn xử lí văn bản của hệ thống. Phân tích cú pháp chuẩn xác sẽ đưa ra
cho hệ thống một cái nhìn toàn cảnh về cấu trúc của văn bản, các cụm từ trong văn
bản từ phức tạp đến đơn giản nhất, đồng thời các vị trí âm tiết trong cụm từ cũng
được đưa ra luôn.
Phân tích cú pháp là nhằm phân tích một câu thành những thành phần văn

phạm có liên quan với nhau và được thể hiện thành cây cú pháp. Khi nhập câu, ta
phải phân thành các thành phần như: chủ ngữ, vị ngữ; gán vai trò chủ từ/đối từ của
động từ chính, bổ nghĩa. Để phân tích cú pháp, chúng ta cần có bộ luật văn phạm và
giải thuật phân tích cú pháp. Hiện nay, người ta đã đưa nhiều lý thuyết văn phạm
(CFG, UG, LG, TAG,…), và các giải thuật phân tích cú pháp hiệu quả (Earley,
Tomita, TBL,…). Ví dụ: nhập câu “Tuấn là nhân viên tốt”, nó sẽ phân tích thành
dạng như sau: [Tuấn]DT [làĐt [nhân viên DT tốtTT]NP]VP và cây cú pháp tương ứng:


8

Trong đó :

S
Cn

Vn

DT

VP

Tuấn

Đt


Cn,Vn : chủ ngữ, vị ngữ
Dt :Danh từ
VP : động ngữ

NP : danh ngữ

NP
DT

TT: tính từ
TT

Đt : động từ

nhân viên tốt
Hình 1.1 Ví dụ phân tích cú pháp

Các tập luật cú pháp phải được xây dựng theo cơ chế mở, có thể sửa đổi, bổ
sung hay loại bỏ các luật. Kết quả của bước phân tích cú pháp phụ thuộc rất nhiều
vào tính chính xác và đầy đủ của các luật cú pháp.

1.3.2. Các nghiên cứu về phân tích cú pháp
Trên thế giới, bài toán phân tích cú pháp đã được nghiên cứu và triển khai từ rất
lâu. Đặc biệt với tiếng Anh, đã có rất nhiều thành công và đã tiến rất xa. Các mô hình
PCFG (Probabilistic context-free grammar), HPCFG (Head-lexicalised probabilistic
context-free grammar)… đã cho kết quả phân tích cú pháp rất khả quan.
Mô hình PCFG được phát triển từ những năm 90. Tư tưởng chủ yếu của mô
hình này là dựa trên văn phạm phi ngữ cảnh, nhưng đưa thêm vào một xác suất P(r)
cho mỗi luật sản xuất r. Để đảm báo P là một phân phối xác suất, tổng của tất cả các
xác suất của các luật có cùng một ký hiệu trái sẽ có giá trị là 1. PCFG sử dụng xác
suất nhằm loại bỏ các nhập nhằng mà CFG (Context-Free Grammar) gặp phải. Tuy
nhiên, vẫn còn một số nhập nhằng (với tiếng Anh) mà PCFG không giải quyết được.
Các mô hình phân tích cú pháp phát triển rất mạnh mẽ trên thế giới vì họ đã
có một tập luật cú pháp tương đối đầy đủ làm nền tảng.

Tại Việt Nam, những kết quả nghiên cứu về phân tích cú pháp tiếng Việt rất ít
và nếu có thì cũng không được phổ biến rộng rãi. Kết quả nghiên cứu rất khả quan
nhưng đã cách đây khá lâu (1990 và 1998). Tập luật xây dựng được đưa ra cũng chưa


9

phải là đầy đủ và cũng không thể tạo điều kiện tốt cho bước phân tích ngữ nghĩa tiếp
sau [2].

1.4.

Phân tích ngữ cảnh
Mục đích của việc phân tích ngữ cảnh là kiểm tra ý nghĩa của câu có mâu

thuẫn với ý nghĩa của đoạn hay không. Dựa trên mối liên hệ logic về nghĩa giữa các
cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ xác định được
(một phần) ý nghĩa của câu trong ngữ cảnh của đoạn.
Đầu vào của giai đoạn phân tích ngữ cảnh là tập các khả năng phân tích câu
và thông tin về ngữ nghĩa của tất cả các từ. Các thực từ thường có nhiều nghĩa và
nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ giải thích với các từ khác
trong câu.
Phân tích ngữ cảnh xác định nghĩa phù hợp với ngữ cảnh cho từ nhiều nghĩa,
hoặc chọn cây cú pháp thích hợp trong trường hợp bộ phân tích cú pháp cho ra nhiều
cây cú pháp.

1.4.1.

Nhập nhằng nghĩa ở mức từ vựng
Xét ví dụ “Tôi với quả cam ở trên cây”, ta có từ “với” là “liên từ” hoặc “động


từ”. Để chọn được nghĩa thích cho từ “với” trong trường hợp này chúng ta phải vận
dụng các ý niệm của ngôn ngữ học tri nhận để biết rằng “với” là động từ chỉ hành
động tác động đến một danh từ chỉ sự vật”, và “với” là liên từ liên kết giữa hai đối
tượng có cùng kiểu”. Kết hợp những ý niệm ấy, ta có “tôi” là đại từ và “quả cam” là
danh từ chỉ sự vật không thuộc cùng dạng đối tượng, do đó máy tính sẽ chọn từ “với”
có nghĩa là “Động từ” cho trường hợp này.

1.4.2.

Mức độ nhập nhằng cấu trúc

Ví dụ xét câu “Một con sói và một bầy cừu non”, ta có 2 phân tích: “[Một con
sói] và [một bầy cừu non]” và “[Một con sói và một bầy cừu] non ”, máy tính sẽ chọn
cách phân tích thứ hai (do tính cân bằng vốn có trong cấu trúc song song của liên
từ “và”). Tuy nhiên, nếu xét “Một đứa trẻ và một người đàn ông già”, ta cũng sẽ có
2 phân tích: “[đứa trẻ] và [người đàn ông già]” và “[đứa trẻ và người đàn ông] già”
và máy tính sẽ chọn cách phân tích thứ nhất, vì máy thấy cấu trúc thứ hai là vô lý (do


10

có sự đối lập về ngữ nghĩa giữa thuộc tính “trẻ” trong “đứa trẻ” và thuộc tính “già”
trong “người đàn ông”).

1.4.3.

Mức độ nhập nhằng liên câu
Ví dụ xét câu “Con cá Sấu săn mồi vì nó đói”, máy tính hiện nay, trong một


số trường hợp, có thể xác định được đại từ “nó” thay thế cho từ nào: “cá Sấu” hay
“mồi” . Để giải quyết được nhập nhằng này, máy tính phải xem lại mệnh đề trước và
vận dụng tri thức về thế giới thực để biết rằng “chỉ có cá Sấu mới có khả năng đói”
nên sẽ chọn “nó thay thế cho cá Sấu”.
Còn trong câu: “Con khỉ ăn quả chuối vì nó chín”, thì máy tính sẽ biết rằng
“chỉ có chuối mới có khả năng chín” nên sẽ chọn “nó” thay thế cho “quả chuối”.

1.5.

Giới thiệu về hệ thống tổng hợp tiếng nói

1.5.1. Tổng quan
Tổng hợp tiếng nói là việc tạo ra tiếng nói của con người một cách nhân tạo,
một hệ thống thực hiện mục đích này được gọi là một hệ thống tổng hợp tiếng nói.
Tổng hợp tiếng nói có thể thực hiện bằng phần mềm trên máy tính, các thiết bị di
động hay các hệ nhúng.
Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói có chất lượng ngày
càng cao, tuy nhiên mức độ chất lượng của các phương pháp hiện nay chỉ dừng lại ở
mức phù hợp với một vài ứng dụng. Hiện nay có nhiều phương pháp sử dụng để tổng
hợp tiếng nói. Phương pháp phổ biến nhất vẫn là phương pháp tổng hợp bằng cách
ghép nối các đoạn tiếng nói nhỏ hơn được lưu trữ trong cơ sở dữ liệu [1].
Chất lượng của một hệ thống tổng hợp tiếng nói được đánh giá dựa trên độ
giống, độ tự nhiên với tiếng nói của con người và khả năng để người nghe có thể hiểu
được hết ý nghĩa của văn bản.
Một trong những ứng dụng của tổng hợp tiếng nói đó là tạo ra hệ thống có đầu
vào là một đoạn văn bản và đầu ra là một sóng âm thanh hay còn gọi là hệ thống
chuyển văn bản thành tiếng nói có tên tiếng Anh là Text To Speech và viết tắt là TTS.


11


1.5.2. Ý nghĩa của tổng hợp tiếng nói
Tổng hợp tiếng nói nói chung và của TTS nói riêng có rất nhiều ý nghĩa thực
tiễn. Đặc biệt trên thế giới có nhiều ứng dụng TTS tiếng Anh đã hết sức thành công:
o Giúp đỡ những người bị yếu thị lực, giảm thị lực hoặc tàn tật. Đây là một
trong những ý nghĩa to lớn nhất của TTS.
o Ứng dụng trong các thiết bị truyền thông, các nơi công cộng như nhà ga,
bệnh viện, sân bay, có cơ quan có hệ thống lấy số xếp hàng. Hiện nay, ở
Việt Nam các hệ thống này cũng đang được phát triển, nhưng chất lượng
chưa được cao, âm thanh rời rạc và thiếu tự nhiên.

1.5.3. Mô hình tổng hợp tiếng nói từ văn bản
Thông thường quá trình tổng hợp tiếng TTS nói được chia làm hai mức xử lý:
 Tổng hợp mức cao
 Tổng hợp mức thấp

Văn bản
(Text)

Tổng hợp

Tổng hợp

mức cao

mức thấp

Tiếng nói

Hình 1.2: Hệ thống tổng hợp tiếng nói


1.5.3.1. Tổng hợp mức cao
Tổng hợp mức cao là ở giai đoạn đầu của quá trình tổng hợp tiếng nói. Ở giai
đoạn này sẽ có hai bước chính đó là:
o Chuẩn hóa văn bản
o Phân tích cách đọc


12

Phân tích cách đọc
Văn bản
(Text)

Phân tích
văn bản

Phân tích cú
pháp

Đơn vị
tiếng nói

Phân tích ngữ

cảnh

Hình 1.3: Mô hình tổng hợp mức cao

1.5.3.2. Tổng hợp mức thấp

Tổng hợp mức thấp là quá trình kết hợp các đoạn tín hiệu đã được phân tích
và xử lý qua quá trình tổng hợp mức cao để tạo ra sóng âm và phát ra tiếng nói. Trên
thế giới có nhiều phương pháp được đưa ra để tổng hợp tiếng nói trong giai đoạn này
như phương pháp Formant, phương pháp ghép nối diphone,…
Các phương pháp được chia ra năm nhóm chính:
 Phương pháp tổng hợp dựa trên mô phỏng hệ thống phát âm.
 Phương pháp tổng hợp dựa trên hệ luật: phương pháp Formant.
 Phương pháp tổng hợp bằng ghép nối: ghép nối phone, nửa phone, diphone.
 Phương pháp tổng hợp dựa trên các mô hình: mô hình Markov ẩn (HMM).
 Phương pháp tổng hợp dựa trên lai ghép.

1.6.

Kết luận chương
Trong chương 1, học viên đã nghiên cứu và trình bày tổng quan về xử lý

ngôn ngữ tự nhiên, một số lĩnh vực trong xử lý ngôn ngữ tự nhiên cần thiết cho quá
trình tổng hợp tiếng nói như: Chuẩn hóa văn bản, phân tích cú pháp, phân tích ngữ
cảnh. Bên cạnh đó, học viên cũng giới thiệu tổng quan, ý nghĩa và mô hình tổng hợp
tiếng nói từ văn bản.


13

Chương 2. MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG
NÓI TIẾNG VIỆT

2.1.

Tổng hợp mô phỏng hệ thống phát âm

Tổng hợp mô phỏng hệ thống phát âm là phương pháp mà con người cố gắng

mô phỏng quá trình tạo ra tiếng nói sao cho càng giống với cơ chế phát âm của con
người càng tốt. Vì vậy, về mặt lý thuyết, đây được xem là phương pháp cơ bản nhất
để tổng hợp tiếng nói, nhưng cũng vì thế mà phương pháp này khó thực hiện và tính
toán nhất. Dẫn đến là phương pháp này cũng khó đem lại tiếng nói chất lượng cao.

2.1.1.

Hệ thống tiếng nói con người

2.1.1.1. Bộ máy phát âm
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh
quản, và các đường dẫn miệng, mũi.

Hình 2.1: Mô hình phát âm của con người
(Nguồn: Tổng hợp từ website bomayphatam.com)


14

Trong đó:
-

Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hƣởng cần thiết
để tạo ra âm thanh.

-

Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc

thanh quản.

-

Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng,
có độ dài cố định khoảng 12cm đối với người lớn.

-

Vòm miệng là các nếp cơ chuyển động.

2.1.1.2. Cơ chế phát âm
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang
mũi đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ
thấp và dòng khí sẽ chỉ đi qua khoang mũi. Tuyến âm sẽ được kích thích bởi nguồn
năng lượng chính tại thanh môn. Tiếng nói được tạo ra do tín hiệu nguồn từ thanh
môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai
dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động
âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi
đi qua khoang mũi và môi, sẽ tạo ra tiếng nói.

2.1.1.3. Hệ thống tổng hợp mô phỏng phát âm
Hệ thống tổng hợp mô phỏng phát âm đầu tiên là ASY, thường được dùng
trong các phòng thí nghiệm trong nghiên cứu, được phát triển ở phòng thí nghiệm
Haskins vào giữa những năm 1970 bởi Philip Rubin, Tom Baer, và Paul Mermelstein.
ASY dựa trên mô hình cơ quan phát âm đã được tạo ra bởi phòng thí nghiệm Bell
vào những năm 1960 và 1970 bởi Paul Mermelstein, Cecil Coker, và các đồng nghiệp
khác.
Trước đây, tổng hợp mô phỏng phát âm chỉ dừng lại ở lĩnh vực nghiên cứu
khoa học. Lý do là ít mô hình có thể tạo ra âm thanh chất lượng đủ cao hoặc có thể

chạy hiệu quả trên các ứng dụng thương mại. Một ngoại lệ là hệ thống dựa trên NeXT;


×