Tải bản đầy đủ (.pdf) (196 trang)

phần mềm hỗ trợ người khiếm thị học tiếng anh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.26 MB, 196 trang )

Trang 1


ỦY BAN NHÂN DÂN TP.HCM
SỞ KHOA HỌC VÀ CÔNG NGHỆ






BÁO CÁO NGHIỆM THU
(Đã chỉnh sửa theo góp ý của Hội đồng nghiệm thu)

PHẦN MỀM HỖ TRỢ NGƯỜI KHIẾM THN HỌC TIẾNG ANH


CHỦ NHIỆM ĐỀ TÀI
(Ký tên)




CƠ QUAN QUẢN LÝ CƠ QUAN CHỦ TRÌ
(Ký tên/đóng dấu xác nhận) (Ký tên/đóng dấu xác nhận)








THÀNH PHỐ HỒ CHÍ MINH
THÁNG 04 / 2009
Trang 2

TÓM TẮT NỘI DUNG NGHIÊN CỨU
Theo ước tính của Bộ Thương Binh Lao Động và Xã Hội và Hội Người Mù Việt Nam, hiện
có khoảng 600.000 người mù và kém mắt ở nước ta. Đối với ngưòi khiếm thị, máy tính đã thể hiện
một vai trò quan trọng đố i người khiế m thị trong việ c tiếp cận thông tin. So với phưong cách truyền
thống của người khiếm thị trong việc tiếp nhận thông tin bằng băng ghi âm, tài liệu chữ nổi; máy
tính đã giúp người khiếm thị có thể truy cập nguồn thông tin qua âm thanh một cách chủ động.
Bên cạnh đó, ngôn ngữ tiếng Anh hiện là ngôn ngữ phổ biến nhất trong giao tiếp trên thế giới.
Ngôn ngữ cũng đóng vai trò quan trọng cho người khiếm thị, đặc biệt trong xã hội mà Internet ngày
càng phát triển thì biết tiếng Anh sẽ mở ra cơ hội lớn cho người khiếm thị trong giao tiếp cộng
đồng và nghề nghiệp. Tuy nhiên, công cụ và phương tiện cho người khiếm thị học tiếng Anh thì
còn rất ít, vì vậy học tiếng Anh đối người khiếm thị là công việc khó khăn hơn rất nhiều so với
người sáng mắt.
Với định hướng giúp ngưòi khiếm thị Việt Nam có thể dễ dàng tiếp cận với máy tính
phục vụ cho việc học tập tiếng Anh, dự án này nghiên cứu và xây dựng các công cụ và
phần mềm cần thiết cho nhu cầu cơ bản của người khiếm thị. Với những công cụ và phần
mềm của dự án, người khiếm thị có thể dễ dàng học ngôn ngữ tiếng Anh một cách thuận
lợi và hiệu quả. Trong đề tài này, chúng tôi tập trung nghiên cứu những vấn đề sau:
Bộ phát âm tiếng Việt:. Bộ phát âm máy tính thể hiện một cách chính xác như
người thường đọc trong việc ngưng nghỉ, nhấn nhá âm thanh để người nghe có thể nắm bắt
được thông tin. Với mô hình nghiên cứu mạng nơ-ron, chúng tôi xây dựng bộ phát âm đạt
theo những yêu cầu mong muốn cho người khiếm thị.
Phần mềm Từ điển Anh – Việt: Chúng tôi tập trung nghiên cứu hành vi sử dụng
máy tính của của người khiếm thị và đề ra giải pháp xây dựng phần mềm từ điển để người
khiếm thị có thể tự sử dụng học tiếng Anh.
Chương trình đọc màn hình: Với quan điểm thiết kế một chương trình tổng quan

có thể giúp người khiếm thị điều khiển các thành phần trên máy tính. Chúng tôi tập trung
nghiên cứu kĩ thuật lập trình trên Windows để truy cập các thông tin các đối tượng
Windows và mô tả lại bằng tiếng nói cho người khiếm thị. Với công cụ này người khiếm
thị có thể sử dụng máy tính soạn thảo văn bản, sử dụng các chương trình phục vụ học tiếng
Anh.
Phần mềm giáo trình học tiếng Anh cho người khiếm thị: Qua phân tích các cấu
trúc và phương pháp học tiếng Anh, chúng tôi xây dựng phần mềm dựa trên giáo trình học
tiếng Anh sẵn có nhằm giúp người khiếm thị dễ dàng học tiếng Anh
Trang 3

ABSTRACT
According to the Ministry of Labor and Vietnamese Blind Association, there are
about 600,000 blind and visually impaired people in Vietnam. The blind people realise the
important role of computers to access information. In compared with the traditional
methods in accessing information such as tape recording, Braille materials, the computer
helps blind people can actively manage information by speech responses. In addition,
English language is currently the most popular language in communications over world. In
developing society, English is used an essential tool in communication in business,
education and technology, so those who are good at English have good opportunities and
advantages in jobs and life. Unfortunately , the blind people have many obstacles to access
English language because most of English books are written and printed for the sight
people.
The project aims to help Vietnamese blind people to utilize the advantages of the
computer in learning English. It focuses on studying and developing software which use
text-to-speech engine to assist the blind people in using computer and improve English
skill.
Text-to-Speech Engine based on neuron network: The project pursuits a goal to
build an engine that reads the inputted Vietnamese text like a real voice of human. It uses
studies on neuron network to analyze the significant factors of human voice and applies for
machine’s voice

English – Vietnamese Dictionary: The project concentrates to study the blind
people’s behaviors in using the computer. Based on that, it proposes the solutions for
blinds in using computers and develops an dictionary application which helps the bind
people to look up English words easily and quickly.
Screen reader: With the point of view that the blind people can control the
computer in Windows, the project aims to research technologies of GUI components in
Windows OS to get the information and describe these components in voice. With the
results in the project, the blind people can control the Windows and edit Word documents
for learning English.
English electronic textbook: Based on knowledge in English education from
contemporary English textbook, we develop an electronic textbook for the blind people
which can speak in English and Vietnamese in most of basic situations in English learning.


Trang 4

MỤC LỤC

TÓM TẮT NỘI DUNG NGHIÊN CỨU 2

DANH SÁCH BẢNG 8

DANH SÁCH HÌNH 9

PHẦN 1

PHẦN MỞ ĐẦU 13

1


THÔNG TIN VỀ DỰ ÁN 13

2

MỤC TIÊU 13

3

NỘI DUNG 14

4

SẢN PHẨM CỦA ĐỀ TÀI 15

PHẦN 2

TỔNG HỢP TIẾNG NÓI 16

1

GIỚI THIỆU 16

1.1

Tổng hợp tiếng nói nhân tạo 16

1.2

Một vài đặc điểm của tiếng việt, ngữ âm, ngữ điệu 19


1.3

Những khó khăn trong tổng hợp tiếng nói 23

2

CÁC CÔNG TRÌNH LIÊN QUAN 24

2.1

Các hướng tiếp cận liên quan đến xử lý ngữ điệu 24

2.2

Các mô hình biểu diễn tần số cơ bản 27

2.3

Các hướng tiếp cận tổng hợp tín hiệu tiếng nói 28

2.4

Nhận xét về các hướng tiếp cận 31

3

MÔ HÌNH MẠNG NƠ-RON XÁC ĐNNH CÁC THÔNG SỐ NGỮ ĐIỆU
CHO CÁC ÂM TIẾT TIẾNG VIỆT 32

3.1


Sơ lược về mạng nơ-ron 32

3.2

Xác định các thông số ngữ điệu cho bộ phát âm tiếng việt bằng mạng
nơ-ron 35

4

XÂY DỰNG BỘ PHÁT ÂM TIẾNG VIỆT 44

4.1

Cấu trúc và quy trình xử lý của bộ phát âm 44

4.2

Mô tả các xử lý 45

4.3

Minh họa quá trình xử lý phát âm 50

5

THỬ NGHIỆM VÀ KẾT QUẢ 56

Trang 5


5.1

Thử nghiệm 56

5.2

Kết quả 62

5.3

Nhận xét 73

5.4

Một số kết quả tiêu biểu 74

6

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76

6.1

Kết luận 76

6.2

Hướng phát triển 77

PHẦN 3


PHẦN MỀM TỪ ĐIỂN NÓI ANH – VIỆT 79

1

NHU CẦU VÀ GIẢI PHÁP 79

1.1

Phân tích vấn đề: 79

1.2

Thiết kế: 82

2

CÀI ĐẶT – THỬ NGHIỆM – KẾT LUẬN 85

2.1

Cài đặt: 85

2.2

Thử nghiệm 89

2.3

Kết luận 89


PHẦN 4

PHẦN MỀM ĐỌC MÀN HÌNH 91

1

TỔNG QUAN 91

1.1

Ý nghĩa 91

1.2

Nội dung nghiên cứu 92

2

KHẢO SÁT CÔNG CỤ VÀ YÊU CẦU HỆ THỐNG 92

2.1

Phần mềm Narrator 92

2.2

Phần mềm NonVisual Desktop Access 93

2.3


Phần mềm Jaws 95

2.4

Yêu cầu hệ thống 96

3

TỔNG QUAN VỀ ACTIVE ACCESSIBILITY VÀ HOOK 99

3.1

Cách hoạt động của Active Accessibility 100

3.2

Nền tảng Active Accessibility 101

3.3

Giao tiếp giữa Client và Server 104

3.4

Giao diện IAccessible 105

3.5

Thu nhận tham chiếu giao diện Accessible Object 111


3.6

WinEvents Hook dùng trong Active Accessibility 112

3.7

Hook trong Windows 115

Trang 6

4

NHỮNG KỸ THUẬT SỬ DỤNG TRONG ỨNG DỤNG 122

4.1

Các kỹ thuật tương tác với mã khơng quản lý 122

4.2

Xây dựng lớp xử lý thơng tin một đối tượng 124

4.3

Cài đặt Hook 126

4.4

Xử lý văn bản 128


4.5

Cơ chế thực thi bất đồng bộ 132

4.6

Xử lý bắt phím & Thực hiện chức năng 134

5

PHÂN TÍCH THIẾT KẾ ỨNG DỤNG 137

5.1

Sơ đồ Use Case 137

5.2

Danh sách các Actor 140

5.3

Danh sách các Use-case 140

5.4

Kiến trúc hệ thống 144

5.5


Thiết kế giao diện 149

6

TỔNG KẾT 153

6.1

So sánh với những ứng dụng hỗ trợ người khiếm thị khác 153

6.2

Kết quả đạt được 155

6.3

Hướng phát triển 155

PHẦN 5

PHẦN MỀM GIÁO TRÌNH HỌC TIẾNG ANH 156

1

TỔNG QUAN 156

2

PHÂN TÍCH YÊU CẦU 156


2.1

Yêu cầu chức năng 156

2.2

Yêu cầu phi chức năng 159

3

THIẾT KẾ ĐỐI TƯNG 160

3.1

Lớp đối tượng người dùng 160

3.2

Đối tượng Đơn vò bài : 160

3.3

Đối tượng bài : 161

3.4

Quan hệ làm bài : 161

4


THIẾT KẾ DỮ LIỆU 162

4.1

Sơ đồ các bảng 162

4.2

Danh sách các bảng : 162

4.3

Mô tả chi tiết các bảng 163

Trang 7

5

THIẾT KẾ GIAO DIỆN SOẠN BÀI GIÁO TRÌNH 167

5.1

Sơ đồ màn hình : 167

5.2

Màn hình giới thiệu : 167

5.3


Màn hình chính : 168

5.4

Màn hình thêm bài mới 169

5.5

Màn hình soạn đơn vò bài 170

5.6

Màn hình soạn từ khoá 171

5.7

Màn hình soạn văn phạm : 172

5.8

Màn hình soạn trắc nghiệm 174

5.9

Màn hình soạn bài học 175

5.10

Màn hình xử lý âm thanh cho bài đọc 177


5.11

Màn hình soạn điền vào chỗ trống 178

6

HỆ THỐNG MÀN HÌNH BÀI HỌC 183

6.1

Sơ đồ màn hình: 183

6.2

Màn hình chính 184

6.3

Màn hình chọn bài 185

6.4

Màn hình bài đọc 186

6.5

Màn hình bài tập Điền Từ 187

6.6


Màn hình học văn phạm 188

6.7

Màn hình tra cứu văn phạm 189

6.8

Màn hình trắc nghiệm(Bài tập True False) 190

7

CÀI ĐẶT KIỂM NGHIỆM 191




Trang 8

DANH SÁCH BẢNG
Bảng 1 Các đặc trưng ngôn ngữ của âm tiết trong câu và nội dung tương ứng 37

Bảng 2 Minh họa cấu trúc nội dung của dữ liệu đánh dấu 39

Bảng 3 Minh họa thông tin xác định giá trị các đặc trưng của các âm tiết 52

Bảng 4 Minh họa thông tin các đặc trưng của âm tiết đã được chuNn hóa 53

Bảng 5 Minh họa kết quả xác định các thông số ngữ điệu của mạng nơ-ron 54


Bảng 6 Minh họa kết quả xác định các thông số ngữ điệu 55

Bảng 7 Giá trị trung bình và độ lệch chuNn của các yếu tố ngữ điệu 61

Bảng 8 Mạng nơ-ron xác định cường độ 62

Bảng 9 Mạng nơ-ron xác định trường độ 64

Bảng 10 Mạng nơ-ron xác định khoảng ngừng 66

Bảng 11Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với cường độ 70

Bảng 12 Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với trường độ 71

Bảng 13 Mức độ ảnh hưởng của các thuộc tính đặc trưng âm tiết đối với khoảng ngừng 72

Bảng 14 Những hạn chế và hướng cải tiến cho bộ phát âm 77

Bảng 15 Danh sách các Actor 140

Bảng 16 Danh sách các UseCase 143

Bảng 17 Mô tả các lớp trong module HOOK 146

Bảng 18 Mô tả các lớp trong COMMON FEATURES 148

Bảng 19 Mô tả các lớp trong TEXT PROCESS 149




Trang 9

DANH SÁCH HÌNH
Hình 1 Cấu trúc tổng quát của một bộ phát âm 16

Hình 2 Cấu trúc của âm tiết tiếng Việt 21

Hình 3 Cấu trúc của một nơ-ron nhân tạo 32

Hình 4 Đồ thị hàm sigmoid 33

Hình 5 Minh họa một kiến trúc mạng nơ-ron 34

Hình 6 Màn hình công cụ Transcriber 42

Hình 7 Xác định các thông số ngữ điệu bằng các mạng nơ-ron 42

Hình 8 Cấu trúc và quy trình xử lý của bộ phát âm 44

Hình 9 Các bước xây dựng vector đặc trưng âm tiết 48

Hình 10 Xử lý tổng hợp tín hiệu tiếng nói 50

Hình 11 Biểu đồ histogram phân bố cường độ của tập dữ liệu thử nghiệm. 57

Hình 12 Biểu đồ histogram phân bố trường độ của tập dữ liệu thử nghiệm. 57

Hình 13 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu thử nghiệm 58

Hình 14 Biểu đồ histogram phân bố cường độ của tập dữ liệu huấn luyện 58


Hình 15 Biểu đồ histogram phân bố trường độ của tập dữ liệu huấn luyện. 59

Hình 16 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu huấn luyện. 59

Hình 17 Biểu đồ histogram phân bố cường độ của tập dữ liệu kiểm thử. 60

Hình 18 Biểu đồ histogram phân bố trường độ của tập dữ liệu kiểm thử. 60

Hình 19 Biểu đồ histogram phân bố khoảng ngừng của tập dữ liệu kiểm thử. 61

Hình 20 Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu huấn luyện. 63

Hình 21 Biểu đồ histogram phân bố sai lệch cường độ đối với tập dữ liệu kiểm thử. 63

Hình 22 Biểu đồ histogram phân bố sai lệch cường độ đối với toàn tập dữ liệu thử nghiệm.
64

Hình 23 Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu huấn luyện. 65

Hình 24 Biểu đồ histogram phân bố sai lệch trường độ đối với tập dữ liệu kiểm thử. 65

Hình 25 Biểu đồ histogram phân bố sai lệch trường độ đối với toàn tập dữ liệu thử nghiệm.
66

Hình 26 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu huấn luyện.
67

Trang 10


Hình 27 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với tập dữ liệu kiểm thử. 67

Hình 28 Biểu đồ histogram phân bố sai lệch khoảng ngừng đối với toàn tập dữ liệu thử
nghiệm. 68

Hình 29 Biểu đồ histogram phân bố output cường độ đối với toàn tập dữ liệu thử nghiệm.
68

Hình 30 Biểu đồ histogram phân bố output trường độ đối với toàn tập dữ liệu thử nghiệm.
69

Hình 31 Biểu đồ histogram phân bố output khoảng ngừng đối với toàn tập dữ liệu thử
nghiệm. 69

Hình 32 Kết quả đọc câu “Hôm nay trời đẹp quá!” 74

Hình 33 Kết quả đọc câu “Hôm nay trời nắng chang chang” 75

Hình 34 Kết quả đọc câu “Mèo con đi học chẳng mang thứ gì” 75

Hình 35 Kết quả đọc câu “Địa chỉ: 227 Nguyễn Văn Cừ.” 76

Hình 36 Giao tiếp giữa người khiếm thị và máy tính 80

Hình 37 Mô hình xử lý tra từ điển 82

Hình 38 Mô hình phát âm tiếng Anh 83

Hình 39 Bộ điều phối phát âm tiếng Anh và tiếng Việt 84


Hình 40 Màn hình tra từ điển 88

Hình 41 Hệ thống bảng chọn 89

Hình 42 Phần mềm Narrator 93

Hình 43 Chương trình NVDA 94

Hình 44 Phần mềm Jaws 95

Hình 45 Minh họa Simple Element 103

Hình 46 Minh họa một cửa sổ Window chuNn 104

Hình 47 Mối quan hệ giữa các miền 110

Hình 48 Một điểm hook trong quá trình lưu chuyển thông điệp không có hàm lọc 117

Hình 49 Một điểm hook trong quá trình lưu chuyển thông điệp có hàm lọc 118

Hình 50 Một điểm hook có 3 thủ tục Hook đính kèm 118

Hình 51 Chương trình Winword 131

Hình 52 Thêm thư viện Word 131

Hình 53 Minh họa lớp ShortCutKeyInfo 136

Trang 11


Hình 54 Sơ đồ Use Case cho phần xử lý văn bản 138

Hình 55 Sơ đồ Use Case cho phần các chức năng chung 139

Hình 56 Sơ đồ Use Case cho phần các Module chun biệt 140

Hình 57 Sơ đồ hoạt động của hệ thống 144

Hình 58 Sơ đồ lớp module HOOK 146

Hình 59 Sơ đồ lớp COMMON FEATURES 147

Hình 60 Sơ đồ lớp TEXT PROCESS 148

Hình 61 Chương trình chính 150

Hình 62 Màn hình cấu hình mơ tả 151

Hình 63 Màn hình cấu hình âm thanh 151

Hình 64 Màn hình cấu hình xử lý văn bản 152

Hình 65 Màn hình cấu hình mơ tả chuột 152

Hình 66 Màn hình cấu hình ngơn ngữ 153

Hình 67 Màn hình giúp đỡ 153

Hình 68 Các đơn vò trong giáo trình 157


Hình 69 Phân tích đối tượng bài 161

Hình 70 Sơ đồ các bảng 162

Hình 71 Mô hình màn hình 167

Hình 72 Màn hình giới thiệu soạn bài 167

Hình 73 Màn hình chính soạn bài 168

Hình 74 Màn hình thêm bài học mới 169

Hình 75 Màn hình soạn đơn vò bài 170

Hình 76 Màn hình soạn từ khoá 171

Hình 77 Màn hình soạn văn phạm 173

Hình 78 Màn hình soạn trắc nghiệm 174

Hình 79 Màn hình soạn từ vựng 175

Hình 80 Màn hình soạn bài đọc 176

Hình 81 Màn hình xử lý âm thanh 177

Hình 82 Màn hình soạn tiêu đề 179

Trang 12


Hình 83 Màn hình xác lập ngôn ngữ 180

Hình 84 Màn hình điền từ 180

Hình 85 Màn hình phát sinh câu 181

Hình 86 Màn hình đáp án điền tư 182

Hình 87 Sơ đồ màn hình bài học 183

Hình 88 Màn hình học bài chính 184

Hình 89 Màn hình soạn bài học 185

Hình 90 Màn hình học bài đọc 186

Hình 91 Màn hình học bài điền từ 187

Hình 92 Màn hình học bài văn phạm 188

Hình 93 Màn hình tra cứu văn phạm 189

Hình 94 Màn hình học bài trắc nghiệm 190




Trang 13

PHẦN 1 PHẦN MỞ ĐẦU

1 THÔNG TIN VỀ DỰ ÁN
Tên dự án: Phần mềm hỗ trợ cho người khiếm thị học tiếng Anh
Chủ nhiệm đề tài/dự án: Huỳnh Ngọc Dũng
Nhóm nghiên cứu: Nguyễn Tấn Đạt, Nguyễn Hữu Minh, Ông Mộc Vinh, Trần Văn
Quý
Cơ quan chủ trì: Trung tâm phát triển Khoa học và Công nghệ trẻ.
Thời gian thực hiện:
Kinh phí được duyệt: 45.000.000 đồng
Kinh phí đã cấp: 45.000.000 đồng theo TB số: TB-SKHCN ngày / /
2 MỤC TIÊU
Theo ước tính của Bộ Thương Binh Lao Động và Xã Hội và Hội Người Mù Việt
Nam, hiện có khoảng 600.000 người mù và kém mắt ở nước ta. Ngoài 22 trường mù và
trường khuyết tật có trẻ em mù, hiện có một số người khiếm thị đông đảo đang sinh hoạt
tại hơn 22 Thành, Tỉnh, Hội và hàng trăm quận huyện hội trong số 61 tỉnh thành trên nước
Việt Nam.
Hiện nay, máy tính đã thể hiện một vai trò quan trọng đối người khiếm thị trong việc
tiếp cận thông tin. So với phưong cách truyền thống của người khiếm thị trong việc tiếp
nhận thông tin bằng băng ghi âm, tài liệu chữ nổi; máy tính đã giúp người khiếm thị có thể
truy cập nguồn thông tin qua âm thanh một cách chủ động. Trên thế giới và Việt Nam đã
có những phần mềm giúp người khiếm thị tương tác với máy tính phục vụ cho nhu cầu của
mình như học tập, làm việc và tra cứu thông tin. Các phần mềm này đều có những mục tiêu
riêng và hướng vào những đối tượng cụ thể, ví dụ: các chương trình nước ngoài chỉ cho
người biết tiếng Anh, phần mềm chuyên đọc web.
Ngôn ngữ tiếng Anh hiện là ngôn ngữ phổ biến nhất trong giao tiếp trên thế giới.
Một điều không thể phủ nhận rằng tiếng Anh là hành trang cho tất cả mọi người trong con
đường lập nghiệp. Người khiếm thị cũng vậy, ngôn ngữ cũng đóng vai trò quan trọng, đặc
biệt trong xã hội mà Internet ngày càng phát triển thì biết tiếng Anh sẽ mở ra cơ hội lớn
Trang 14

cho người khiếm thị trong giao tiếp cộng đồng và nghề nghiệp. Tuy nhiên, công cụ và

phương tiện cho người khiếm thị học tiếng Anh còn rất ít, vì vậy việc học tiếng Anh đối
người khiếm thị là công việc khó khăn hơn rất nhiều so với người sáng mắt.
Với định hướng giúp ngưòi khiếm thị Việt Nam có thể dễ dàng tiếp cận với máy tính
phục vụ cho việc học tập tiếng Anh, dự án này nghiên cứu và xây dựng các công cụ và
phần mềm cần thiết cho nhu cầu cơ bản của người khiếm thị. Với những công cụ và phần
mềm của dự án, người khiếm thị có thể dễ dàng học ngôn ngữ tiếng Anh một cách thuận
lợi và hiệu quả.
3 NỘI DUNG
Với mục đích xây dựng công cụ hỗ trợ cho người khiếm thị học tiếng Anh như nêu
trên, đề tài tập trung vào nghiên cứu những vấn đề sau:
Bộ phát âm tiếng Việt: Tiếng nói đóng vai trò quan trọng trong việc điều khiển máy
tính của người khiếm thị. Bởi vì người khiếm thị không thể nhìn màn hình máy tính, tiếng
nói sẽ mô tả lại tất cả những gì trên màn hình để họ có thể hiểu đuợc. Vì vậy, bộ phát âm
máy tính cần thể hiện một cách chính xác như người thường đọc trong việc phát âm, ngưng
nghỉ và nhấn âm thanh để người nghe có thể nắm bắt được thông tin. Với mô hình nghiên
cứu mạng nơ-ron, chúng tôi xây dựng bộ phát âm đạt theo những yêu cầu mong muốn cho
người khiếm thị.
Công cụ hỗ trợ học tiếng Anh: Trong đề tài này chúng tôi tập trung nghiên cứu và
xây dựng hai phần mềm chính giúp người khiếm thị học tiếng Anh
- Phần mềm Từ điển Anh – Việt: Từ điển là công cụ không thể thiếu với
người học tiếng Anh. Đã có nhiều từ điển sách, từ điển máy tính như Lạc
Việt, nhưng một từ điển để người khiếm thị sử dụng để tự học thì còn thiếu.
Trong phần mềm này chúng tôi tập trung nghiên cứu hành vi sử dụng máy
tính của của người khiếm thị và đề ra giải pháp xây dựng phần mềm từ điển
để người khiếm thị có thể tự sử dụng học tiếng Anh.
- Chương trình đọc màn hình: Với quan điểm thiết kế một chương trình
tổng quan có thể giúp người khiếm thị điều khiển các thành phần trên máy
Trang 15

tính. Chúng tôi tập trung nghiên cứu kĩ thuật lập trình trên Windows để

truy cập các thông tin các đối tượng Windows và mô tả lại bằng tiếng nói
cho người khiếm thị. Với công cụ này người khiếm thị có thể sử dụng máy
tính soạn thảo văn bản, sử dụng các chương trình phục vụ học tiếng Anh.
- Phần mềm giáo trình học tiếng Anh cho người khiếm thị: Qua phân tích
các cấu trúc và phương pháp học tiếng Anh, chúng tôi xây dựng phần mềm
dựa trên giáo trình học tiếng Anh sẵn có nhằm giúp người khiếm thị dễ
dàng học tiếng Anh.
4 SẢN PHẨM CỦA ĐỀ TÀI
Sản phNm đề tài bao gồm 3 thành phần chính:
- Bộ phát âm tiếng Việt dựa trên nghiên cứu mạng nơ-ron
- Phần mềm Từ điển Anh – Việt
- Phần mềm đọc màn hình.
- Phần mềm Giáo trình học tiếng Anh
Trong báo cáo này chúng tôi trình bày thành ba phần theo từng nội dung sản phNm
của đề tài.



Trang 16

PHẦN 2 TỔNG HỢP TIẾNG NÓI
1 GIỚI THIỆU
1.1 Tổng hợp tiếng nói nhân tạo
Tổng hợp tiếng nói là quá trình tạo ra lời nói một cách tự động từ văn bản. Một hệ
thống tổng hợp tiếng nói (speech synthesis) hay còn gọi là bộ phát âm là một hệ thống cho
phép chuyển đổi một cách tự động văn bản có nội dung bất kỳ thành lời nói (Text-To-
Speech, viết tắt là TTS) [13].
1.1.1 Kiến trúc của một hệ thống tổng hợp tiếng nói

Hình 1 Cấu trúc tổng quát của một bộ phát âm

Một hệ thống tổng hợp tiếng nói về cơ bản sẽ có 2 thành phần gồm: Khối phân tích
xử lý ngôn ngữ tự nhiên và khối xử lý tổng hợp tiếng nói.
Khối phân tích xử lý ngôn ngữ tự nhiên (NLP: Natural Language Processing) nhận
vào một chuỗi các ký tự văn bản, thực hiện các tiền xử lý (pre-processing), phân tích hình
thái (morphological analysis), phân tích cấu trúc ngữ pháp của văn bản, xác định cách đọc
nội dung văn bản với thông tin ngữ âm và ngữ điệu tương ứng.
Khối xử lý tổng hợp tiếng nói (DSP: Digital Signal Processing) thực hiện việc tổng
hợp tạo ra tín hiệu tiếng nói tương ứng với nội dung văn bản theo các thông tin ngữ âm và
ngữ điệu do khối phân tích xử lý ngôn ngữ tự nhiên cung cấp.

Trang 17

1.1.2 Xử lý ngôn ngữ tự nhiên

Nhiệm vụ của khối xử lý ngôn ngữ tự nhiên là phát sinh các thông tin về ngữ âm và
ngữ điệu cho việc đọc văn bản đầu vào. Thông tin ngữ âm cho biết những âm nào sẽ được
phát ra, thông tin ngữ điệu mô tả điệu tính của các âm được phát. Việc xử lý ngôn ngữ tự
nhiên bao gồm nhiều bước phức tạp như: chuNn hóa văn bản, phân tích cú pháp, phân tích
ngữ cảnh và ngữ nghĩa, phát sinh thông tin ngữ âm và ngữ điệu.
Việc chuNn hóa văn bản khá phức tạp và tùy thuộc vào từng ngôn ngữ khác nhau.
Công đoạn này bao gồm các xử lý như: làm sạch văn bản bằng cách loại bỏ những nội
dung không cần thiết, định dạng lại văn bản cho phù hợp với yêu cầu của các xử lý tiếp
theo.
Xử lý phân tích cú pháp nhằm nhận biết các thành phần trong văn bản. Cùng với việc
phân tích ngữ cảnh và ngữ nghĩa của các thành phần văn bản sẽ cho phép phát sinh các
thông tin ngữ âm và ngữ điệu phù hợp. Ví dụ: nhận biết các thành phần như chữ số, tùy
ngữ cảnh chữ số có thể là số điện thoại hoặc số tiền, số ký hiệu… mà sẽ phát sinh cách
phát âm khác nhau (chẳng hạn: “0953951116” sẽ được phát âm thành “không chín năm, ba
chín năm, một một một sáu”, “1000000000” sẽ được phát âm thành “một tỷ”); chữ viết tắt
“HTX” sẽ được phát âm thành “hợp tác xã”…

Xử lý xác định các thông tin ngữ điệu đóng vai trò đặc biệt quan trọng quyết định
chất lượng của tiếng nói tổng hợp. Đây là vấn đề rất khó khăn phức tạp vì nó phụ thuộc
vào nhiều yếu tố nằm ngoài văn bản như: ý nghĩa ngữ cảnh của câu nói, trạng thái tình cảm
của người nói…
1.1.3 Ngữ điệu trong tiếng nói tổng hợp
Ngữ điệu trong tiếng nói được thể hiện ở: cao độ, cường độ, trường độ và khoảng
ngừng của tiếng nói.
Cao độ, độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm thanh. Đối
với tiếng nói, tần số dao động của dây thanh âm quy định độ cao giọng nói của con người.
Tiếng nói gồm nhiều dao động âm thanh có tần số khác nhau kết hợp lại, trong đó tần số
thấp nhất chính là tần số cơ bản F0 và cũng chính là tần số dao động của dây thanh. Mỗi
người có một độ cao giọng nói khác nhau, độ cao của nữ giới thường cao hơn nam giới và
Trang 18

độ cao của trẻ em thường cao hơn của người lớn. Cao độ giọng nói cũng thay đổi với
những trạng thái biểu lộ xúc cảm khác nhau. Cao độ là yếu tố cơ bản tạo nên những hiện
tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm, và cả trọng âm.
Cường độ là độ to nhỏ của âm thanh. Cường độ càng lớn thì âm thanh có thể truyền
đi được càng xa. Xét trên phương diện sóng cơ học thì cường độ chính là biên độ của dao
động sóng âm, nó quyết định năng lượng của sóng âm. Cường độ âm thanh được đo bằng
đơn vị decibel (dB). Cường độ là yếu tố chính tạo nên hiện tượng trọng âm.
Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm. Nó tạo nên sự tương
phản giữa các bộ phận của lời nói. Tốc độ phát âm được quy định bởi đặc điểm cá nhân
của người nói, phong cách và hoàn cảnh phát âm. Tốc độ lời nói còn phụ thuộc vào nội
dung câu nói.
Khoảng ngừng được hiểu là chỗ lặng về âm học và chỗ ngừng về cấu âm. Chức năng
của khoảng ngừng là tạo nên ranh giới giữa các phần khác nhau của câu, tách đơn vị ngữ
pháp này với đơn vị ngữ pháp khác và thể hiện mối quan hệ giữa chúng.
Tùy tính chất của mỗi ngôn ngữ khác nhau và mức độ yêu cầu chất lượng ngữ điệu
cho bộ phát âm, việc xử lý ngữ điệu có thể được thực hiện ở nhiều mức độ, từ mức hoàn

toàn không xử lý ngữ điệu đến mức chỉ xử lý một số hoặc tất cả các yếu tố ngữ điệu.
1.1.4 Xử lý tổng hợp tín hiệu tiếng nói

Bộ xử lý tổng hợp tín hiệu tiếng nói đảm trách thực hiện việc tổng hợp tạo ra tín hiệu
tiếng nói từ các thông tin ngữ âm và ngữ điệu do khối phân tích xử lý ngôn ngữ tự nhiên
cung cấp. Chất lượng tiếng nói tổng hợp được có hai tính chất quan trọng là: mức độ tự
nhiên và mức độ dễ nghe. Mức độ tự nhiên của giọng nói tổng hợp chỉ đến sự giống nhau
giữa giọng nói tổng hợp và giọng nói tự nhiên của con người. Mức độ dễ nghe chỉ đến việc
câu phát âm có thể hiểu được dễ dàng không. Một hệ thống tổng hợp giọng nói lý tưởng
cần phải vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng hệ thống tổng hợp giọng nói là
làm gia tăng đến mức tối đa hai tính chất này. Có nhiều phương pháp tổng hợp giọng nói
khác nhau được sử dụng, một số thiên về mức độ dễ nghe hơn hoặc mức độ tự nhiên hơn,
tùy thuộc vào mục đích mà các phương pháp được lựa chọn. Có hai phương pháp chính
Trang 19

thường được dùng là tổng hợp ghép nối và tổng hợp cộng hưởng tần số, ngoài ra cũng có
các phương pháp khác.

1.2 Một vài đặc điểm của tiếng việt, ngữ âm, ngữ điệu
1.2.1 Một vài đặc điểm của tiếng Việt
Tiếng Việt là ngôn ngữ được xếp vào loại hình đơn lập (isolate) hay còn được gọi là
loại hình phi hình thái, không biến hình, đơn tiết. Tiếng Việt có một vài đặc điểm chính
như sau [1]:
• Trong hoạt động ngôn ngữ, từ không biến đổi hình thái. Ý nghĩa ngữ pháp
nằm ở ngoài từ.
• Phương thức ngữ pháp chủ yếu là trật tự từ và hư từ.
• Tồn tại một loại đơn vị đặc biệt là “hình tiết” mà vỏ ngữ âm của chúng
trùng khít với âm tiết, và đơn vị đó cũng chính là “hình vị tiếng Việt” hay
còn gọi là “tiếng” (tiếng Việt sử dụng khoảng 10.000 tiếng).
• Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng như các

thứ tiếng biến hình khác. Ví dụ: “học sinh học sinh học”. Điều này khiến
cho việc phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn. Việc nhận
diện ranh giới từ là quan trọng làm tiền đề cho các bài toán xử lý ngôn ngữ
tiếp theo sau đó như kiểm lỗi chính tả, gán nhãn từ loại, …
• Tồn tại loại từ đặc biệt “từ chỉ loại” (classifier) hay còn gọi là phó danh từ
chỉ loại đi kèm với danh từ, như: cái bàn, cuốn sách, bức thư, …
• Về mặt ngữ âm học, các âm tiết tiếng Việt đều mang một trong 6 thanh điệu
(ngang, sắc, huyền, hỏi, ngã, nặng). Đây là âm vị siêu đoạn tính.
• Có hiện tượng láy trong từ tiếng Việt, như: lấp lánh, lung linh,… Ngoài ra
còn có hiện tượng nói lái (do mối liên kết giữa phụ âm đầu và phần vần
trong âm tiết là lỏng lẻo), như: “biệt thự” láy thành “bự thiệt”, “cá đối” láy
thành “cối đá”,
Trang 20

1.2.2 Ngữ âm tiếng Việt

Trong ngữ âm tiếng Việt các âm tố cấu tạo thành âm tiết về mặt chức năng gồm có
[4]:
• Phụ âm: là yếu tố đi kèm, không tạo thành âm tiết (trừ các phụ âm vang).
• Nguyên âm: thường làm hạt nhân hay đỉnh của âm tiết.
• Bán nguyên âm: là những âm tố có đặc tính giống nguyên âm nhưng thường chỉ
đi kèm, bản thân không tạo thành âm tiết được, như: các âm tố được viết thành
u, i, trong các âm tiết “sau”, “mai”.
• Thanh điệu: các âm tiết tiếng Việt đều mang một trong 6 thanh điệu gồm:
ngang, sắc, huyền, hỏi, ngã, nặng.
Người ta thường định nghĩa âm vị là đơn vị nhỏ nhất của cơ cấu âm thanh ngôn ngữ,
dùng để cấu tạo và phân biệt hình thức ngữ âm của những đơn vị có nghĩa của ngôn ngữ -
từ và hình vị. Ví dụ: tôi và đôi, ta và đa của tiếng Việt phân biệt nhau bởi các âm vị /t/ và
/d/.
Âm tiết là đơn vị phát âm nhỏ nhất, được phân định tự nhiên trong lời nói con người.

Về phương diện phát âm, dù lời nói chậm đến đâu cũng chỉ phân chia được đến giới hạn
của âm tiết mà thôi. Nhưng về mặt thính giác thì âm tiết là một tổ hợp âm thanh có thể bao
gồm nhiều âm tố hoặc đôi khi chỉ có một âm tố.
Về mặt ngữ âm học, các cứ liệu thực nghiệm cho thấy âm tiết tiếng Việt được cấu tạo
bởi 3 thành tố độc lập là thanh điệu, phụ âm đầu và thành phần còn lại.
Thanh điệu là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt. Tính chất độc lập về
mặt ngữ âm của thanh điệu thể hiện ở chỗ nó có đường nét và trường độ tương đối ổn định
tùy thuộc các loại hình âm tiết.
Phụ âm đầu là yếu tố mở đầu của âm tiết. Tính chất độc lập của phụ âm đầu thể hiện
ở chỗ nó không tham gia vào việc đắp đổi về trường độ giữa các yếu tố bên trong âm tiết.
Phần còn lại của âm tiết còn được gọi là phần vần, có từ một đến ba yếu tố, gồm một
bán nguyên âm chiếm vị trí trung gian giữa phụ âm đầu và phần còn lại, một nguyên âm
âm tiết tính và một phụ âm hoặc bán nguyên âm cuối, có vai trò kết thúc âm tiết. Trừ bán
Trang 21

nguyên âm trước nguyên âm âm tiết tính, các yếu tố của phần còn lại liên kết với nhau rất
chặt chẽ làm thành một khối.
Về mặt hình thái học, các yếu tố của âm tiết tiếng Việt có mức độc độc lập khác nhau
chia thành hai bậc:
• Bậc một là những yếu tố độc lập về mặt ngữ âm và có thể được tách rời về
mặt hình thái học, đó là: thanh điệu, âm đầu và vần.
• Bậc hai là các yếu tố của phần vần, gồm bán nguyên âm trước nguyên âm
âm tiết tính (được gọi là âm đệm), nguyên âm âm tiết tính (được gọi là âm
chính), phụ âm hoặc bán nguyên âm cuối (được gọi là âm cuối). Các yếu tố
này gắn liền với nhau về mặt ngữ âm do tính chất cố định về trường độ của
âm tiết và chỉ được tách ra bằng những ranh giới thuần túy ngữ âm học.
Các thành tố của âm tiết tiếng Việt và quan hệ hai bậc giữa các thành tố có thể được
trình bày như lược đồ sau:
THANH ĐIỆU
Âm đầu

Vần
Âm đệm Âm chính Âm cuối
Hình 2
Cấu trúc của âm tiết tiếng Việt
1.2.3 Ngữ điệu trong tiếng Việt
Trong chuỗi lời nói, mỗi câu thường được thể hiện như một chỉnh thể toàn vẹn về
ngữ âm, được tách ra giữa hai chỗ ngừng giọng. Hình thức ngữ âm của câu được gọi là ngữ
điệu câu. Ngữ điệu có hai mặt:
Ngữ điệu giao tiếp: là ngữ điệu thể hiện những kiểu câu khác nhau như câu kể, câu
hỏi, câu cảm thán, câu cầu khiến và biểu hiện mối quan hệ giữa các câu, thông báo câu đã
kết thúc chưa, hay phân chia các câu thành các bộ phận nhỏ hơn, các ngữ đoạn…
Ngữ điệu tình thái: là ngữ điệu biểu hiện một sắc thái tình cảm nào đấy, phù hợp với
trạng thái cảm xúc của người nói (vui, buồn, giận, âu yếm, mỉa mai…). Ngữ điệu tình thái
Trang 22

không nhất thiết phải liên quan đến nội dung ý nghĩa của câu. Cùng một câu, một ý nghĩa
ấy có thể được thông báo với nhiều cảm xúc khác nhau.
Ngữ điệu gồm có những thành tố:
• Âm điệu: Âm điệu là đặc điểm của sự biến thiên tần số thanh cơ bản trong
quá trình phát âm một âm tiết. Sự biến thiên này được gọi là đường nét âm
điệu, nó có thể bằng phẳng hoặc không bằng phẳng. Dựa vào đặc trưng này
có thể phân các thanh điệu tiếng Việt thành 2 nhóm bằng và trắc. Thanh
ngang và thanh huyền là những thanh bằng. Chúng có âm điệu bằng phẳng
hoặc hơi đi xuống. Các thanh ngã, hỏi, sắc và nặng là những thanh trắc.
Chúng có đường nét âm điệu phức tạp và giới hạn biến đổi rất rộng.
• Cường độ: Chức năng cơ bản của cường độ là làm nổi bật một bộ phận quan
trọng nào đó trong câu, thể hiện qua kiểu loại trọng âm (trọng âm câu hay
ngữ đoạn, trọng âm logic…
• Trường độ: Được hiểu là tốc độ phát âm. Tốc độ phát âm được quy định bởi
đặc điểm cá nhân của người nói, phong cách và hoàn cảnh phát âm. Tốc độ

lời nói còn phụ thuộc vào nội dung câu nói.
• Chỗ ngừng: Được hiểu là chỗ lặng về âm học và chỗ ngừng về cấu âm. Đôi
khi không có hai đặc điểm trên nhưng người nghe cảm nhận có chỗ ngừng,
đó là chỗ ngừng tâm lý. Chức năng của chỗ ngừng là tạo nên ranh giới giữa
các phần khác nhau của câu, tách đơn vị ngữ pháp này với đơn vị ngữ pháp
khác và thể hiện mối quan hệ giữa chúng. Chỗ ngừng có thể truyền đạt được
những sắc thái tình cảm. Sự im lặng có tác dụng truyền cảm, đó chính là sự
ngắt giọng tâm lý. Nó có vị trí đáng kể trong việc đọc, kể chuyện văn học và
diễn xuất…
• Âm sắc: Được hiểu là chất lượng của giọng, thể hiện qua mối quan hệ phức
tạp giữa tần số âm cơ bản và các thượng âm, độ vang, độ rõ của giọng… Âm
sắc dùng để thể hiện mặt tình thái của ngữ điệu.
Trang 23

Trọng âm là sự nêu bật một số đơn vị nào đó so với những đơn vị khác trong chuỗi
lời nói. Trọng âm câu nêu bật một từ trong câu, còn trọng âm từ nêu bật một âm tiết trong
từ. Phương tiện để nêu bật đơn vị có trọng âm khác nhau trong các ngôn ngữ có thể là độ
cao, độ mạnh, độ dài của âm tiết hoặc sự phát âm rõ ràng các nguyên âm, phụ âm và các
yếu tố khác cấu thành âm tiết. Trọng âm trong tiếng Việt tuy tồn tại nhưng không điển hình
và có nội dung không hoàn toàn giống khái niệm trọng âm trong các ngôn ngữ phi âm tiết
tính. Trong tiếng Việt có các trọng âm câu, trọng âm ngữ đoạn, trọng âm logic…
1.3 Những khó khăn trong tổng hợp tiếng nói
Trong quá trình xây dựng bộ phát âm, để hệ thống có thể tổng hợp được tiếng nói
một cách chính xác và có ngữ điệu tự nhiên chúng ta cần phải xác định đúng các thông số
về ngữ âm và ngữ điệu cần thiết. Việc xác định chính xác các thông số này thường gặp
nhiều khó khăn do những nguyên nhân hạn chế như:
• Văn bản viết thường rất đa dạng và phong phú về các thành phần nội dung
như chữ, các loại số, ngày tháng, các ký hiệu, chữ viết tắt… để chuyển được
văn bản thành các âm tiết tiếng nói phù hợp đòi hỏi nhiều xử lý phân tích văn
bản phức tạp và khó có được độ chính xác cao.

• Ngữ điệu của tiếng nói tự nhiên phụ thuộc nhiều vào ngữ cảnh khi nói, trong
nội dung văn bản thường không chứa đựng đầy đủ những thông tin ngữ cảnh
khi nói.
• Đối với những người khác nhau sẽ thể hiện tiếng nói với những sắc thái ngữ
điệu khác nhau.
• Ở những trạng thái cảm xúc khác nhau của người nói, cùng một câu khi nói
sẽ thể hiện những ngữ điệu rất khác nhau.
• Các yếu tố ngữ điệu phụ thuộc nhiều vào nội dung, cấu trúc ngữ pháp và ý
nghĩa của văn bản. Việc phân tích các tri thức ngôn ngữ này đối với tiếng
Việt còn nhiều hạn chế.
Ngoài ra để tạo được tín hiệu tiếng nói với chất lượng rõ ràng dễ nghe với âm điệu tự
nhiên cũng gặp những khó khăn về tốc độ xử lý, khả năng lưu trữ… Chính vì những khó
Trang 24

khăn trên, hiện tại các thành quả tổng hợp tiếng nói tiếng Việt với chất lượng ngữ điệu tự
nhiên còn khá khiêm tốn và chưa được ứng dụng rộng rãi.

2 CÁC CÔNG TRÌNH LIÊN QUAN
2.1 Các hướng tiếp cận liên quan đến xử lý ngữ điệu
Trong tổng hợp tiếng nói nhân tạo, việc xử lý ngữ điệu được thực hiện trên các yếu
tố vật lý của tiếng nói gồm: tần số cơ bản F0, cường độ và trường độ. Các hệ thống tổng
hợp tiếng nói hầu hết tập trung vào mục đích là tạo ra giọng nói với ngữ điệu bình thường,
có sự nhấn giọng hợp lý, nhịp điệu nhịp nhàng tự nhiên và bỏ qua các hình thái cảm xúc
của người nói. Tùy tính chất của mỗi ngôn ngữ khác nhau mà các yếu tố ngữ điệu có mức
độ quan trọng khác nhau, và tùy mức độ yêu cầu chất lượng ngữ điệu của hệ thống mà việc
xử lý ngữ điệu có thể được thực hiện ở nhiều mức độ, từ mức hoàn toàn không xử lý ngữ
điệu đến mức chỉ xử lý một số hoặc tất cả các yếu tố ngữ điệu. Trong 3 yếu tố ngữ điệu
trên, yếu tố cường độ thường không được xử lý hoặc được xử lý cùng với tần số F0. Có
nhiều mô hình khác nhau được dùng để xử lý các yếu tố ngữ điệu trong tổng hợp tiếng nói,
mỗi mô hình đều có những ưu và khuyết điểm riêng và được trình bày thành 2 nhóm gồm:

các mô hình xử lý trường độ và các mô hình biểu diễn tần số cơ bản F0.
2.1.1 Các mô hình xử lý trường độ
Sau đây là một số mô hình phổ biến được dùng để xử lý trường độ:
2.1.2 Mô hình luật Klatt
Dennis Klatt đã đưa ra một mô hình dựa trên luật được sử dụng trong hệ thống
MITalk [34]. Mô hình này được dùng để xác định trường độ các âm vị bằng công thức dựa
trên các thông tin ngữ âm có ảnh hưởng liên quan. Theo đó, trường độ của âm vị khi tổng
hợp được xác định theo công thức như sau:
MINDUR
PRCNT
MINDURINHDURDUR +−=
100
*)(
(2.1)
Trong đó:
DUR: trường độ cần xác định của âm vị
INHDUR: trường độ của âm vị mẫu
Trang 25

MINDUR: trường độ âm vị ngắn nhất
PRCNT: Tỉ lệ biến đổi trường độ được xác định dựa vào các luật.
Để xác định tham số PRCNT, Dennis Klatt sử dụng 10 luật kết hợp với nhau dựa trên
các yếu tố ngữ cảnh của âm vị như sự nhấn giọng, mức độ nhấn giọng, v.v… Cũng như các
mô hình dựa trên luật khác, các luật Klatt và các thông số được xác định một cách thủ công
qua một quá trình thử sai. Phần mềm đọc tiếng Việt VnSpeech [8] của tác giả Lê Hồng
Minh xác định trường độ dựa trên mô hình này [6].
2.1.3 Mô hình Sums-of-Products

Jan van Santen đã đưa ra mô hình sums-of-products với các công thức có dạng tổng
của các tích để tính trường độ của một âm vị được biểu diễn bởi vector đặc trưng d như sau

[36]:




=
Ki
Ij
jji
i
dSdDUR )()(
,
(2.2)
Trong đó:
d
j
: thành phần thứ j của vector đặc trưng d.
S
i,j
: là một hệ số tương ứng với đặc trưng j, và mối liên hệ giữa hai đặc
trưng i,j.
K: tập các chỉ số tương ứng với các chuỗi tích.
I
i
: tập các hệ số tương ứng với chuỗi tích i.
Mô hình này về cơ bản là một sự tổng quát hóa của một số mô hình đã có như mô
hình luật Klatt. Nó được ứng dụng bằng cách xây dựng một cây với các nút lá tách không
gian đặc trưng thành các lớp con thuần nhất mà có thể được biểu diễn bởi một công thức
sums-of-products riêng biệt. Công việc này được thực hiện một cách thủ công dựa trên các
kiến thức ngôn ngữ học và phân tích ngữ liệu.

2.1.4 Mô hình cây phân lớp và hồi quy (CART)
Mô hình cây phân lớp và hồi quy (Classification and Regression Trees) là mô hình
tiêu biểu được dùng khá phổ biến để xác định yếu tố ngữ điệu trong các hệ tổng hợp tiếng

×