mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.95 MB, 68 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ────────
ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
NGÀNH CÔNG NGHỆ THÔNG TIN
MÔ HÌNH HÓA TRƯỜNG ĐỘ ÂM TIẾT
TIẾNG VIỆT NÂNG CAO CHẤT LƯỢNG
TỔNG HỢP TIẾNG NÓI
Sinh viên thực hiện : NGUYỄN TRỌNG HIẾU
Lớp: Công nghệ phần mềm A – K51
Giáo viên hướng dẫn: TS. Trần Thị Thanh Hải
ThS Nguyễn Thị Thu Trang
HÀ NỘI 05-2011
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thông tin về sinh viên
Họ và tên sinh viên: Nguyễn Trọng Hiếu
Điện thoại liên lạc: 01677 225 100 Email:
Lớp: Công nghệ phần mềm A – K51 Hệ đào tạo: Đại học chính quy
Đồ án tốt nghiệp được thực hiện tại: Trung tâm nghiên cứu MICA: Từ ngày 21/02/2010
đến 28/05/2010
2. Mục đích nội dung của ĐATN
Mục đích của đồ án tốt nghiệp là giải quyết bài toán “Mô hình hóa trường độ âm tiết
tiếng Việt, nâng cao chất lượng tổng hợp tiếng nói ”.
3. Các nhiệm vụ cụ thể của ĐATN
− Tìm hiểu bài toán mô hình hóa trường độ và tổng hợp tiếng nói
− Xây dựng mô hình lý thuyết cho bài toán chuẩn hóa văn bản tiếng Việt
− Thực thi mô hình lý thuyết
− Đánh giá kết quả của mô hình.
4. Lời cam đoan của sinh viên:
Tôi – Nguyễn Trọng Hiếu - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới

sự hướng dẫn của TS. Trần Thị Thanh Hải và ThS. Nguyễn Thị Thu Trang.
Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ
công trình nào khác.
Hà Nội, ngày 25 tháng 05 năm 2011
Tác giả ĐATN
Nguyễn Trọng Hiếu
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN và cho phép bảo
vệ:
Hà Nội, ngày tháng năm 2011
Giáo viên hướng dẫn
TS. Trần Thị Thanh Hải ThS. Nguyễn Thị Thu Trang
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT
NGHIỆP
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Tổng hợp tiếng nói đóng vai trò quan trọng trong đời sống, chính vì vậy một bộ tổng hợp
tiếng nói “hoàn hảo”, có thể đọc được văn bản như con người là niềm khao khát của các
nhà phát triển. Nhiều bộ tổng hợp tiếng đã được phát triển, nhưng muốn có bộ tổng hợp
tiếng nói có thể tổng hợp được những âm thanh có độ tự nhiên cao, bộ tổng hợp tiếng nói
cần phải “hiểu” được ngữ điệu của âm thanh từ văn bản đầu vào. Đây là một vấn đề không
đơn giản, và để xử lý được vấn đề này cần xây dựng những mô hình ngữ điệu cho tiếng
Việt.
Đồ án tập trung vào nghiên cứu bài toán xây dựng mô hình trường độ cho tiếng việt. Tác
giả tìm hiểu các mô hình được sử dụng rộng rãi trên thế giới và các mô hình hiện được sử
dụng đối với tiếng Việt, dựa vào đó đưa ra nhận xét đánh giá về các mô hình và xây dựng
mô hình.
Để có thể đánh giá được sự thành công của mô hình, mô hình được cài đặt và triển khai thử
nghiệm. Kết quả của mô hình được đánh giá qua hai tiêu chí, thông số về độ chính xác của
trường độ qua mô hình và đánh giá theo cảm nhận của người nghe về độ tự nhiên của âm
thanh.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51

LỜI CẢM ƠN
Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các
thầy cô giáo trong trường Đại học Bách Khoa Hà Nội nói chung và các
thầy cô trong Viện Công nghệ thông tin và truyền thông, bộ môn Công
nghệ phần mềm nói riêng đã tận tình giảng dạy, truyền đạt cho em những
kiến thức và những kinh nghiệm quý báu trong suốt 5 năm học tập và rèn
luyện tại trường Đại học Bách Khoa Hà Nội.
Em xin được gửi lời cảm ơn đến Ts. Trần Thị Thanh Hải, ThS
Nguyễn Thị Thu Trang - Giảng viên bộ môn Công nghệ phần mềm, Viện
Công nghệ thông tin và truyền thông, trường Đại học Bách Khoa Hà Nội
đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em
làm đồ án tốt nghiệp.
Em cũng xin gửi lời cảm ơn đến thầy Trần Đỗ Đạt trung tâm MICA
đã giúp đỡ em rất nhiều về mặt chuyên môn và dữ liệu để em có thể hoàn
thành đồ án này.
Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn
bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình
học tập, nghiên cứu và hoàn thành đồ án tốt nghiệp.
Hà Nội, ngày 25 tháng 05 năm 2011
Nguyễn Trọng Hiếu
Lớp CNPM A – K51
Viện CNTT & TT – ĐH Bách Khoa HN
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
MỤC LỤC
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
DANH MỤC BẢNG
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
DANH MỤC HÌNH
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
ĐẶT VẤN ĐỀ

Tổng hợp tiếng nói nhân tạo là một nhu cầu rất cần thiết trong nhiều lĩnh vực ứng
dụng như: các hệ thống giao tiếp người-máy (máy đáp ứng bằng tiếng nói), các hệ
thống hỗ trợ tra cứu thông tin qua điện thoại, các hệ thống ứng dụng cho người
khiếm thị, các hệ thống thông báo tự động, phần mềm dạy ngoại ngữ… Hiện nay,
điểm hạn chế chủ yếu trong lĩnh vực tổng hợp tiếng nói nhân tạo là vấn đề xử lý
ngữ điệu. Ngữ điệu trong tiếng nói tự nhiên có sự biến đổi lên xuống của giọng nói,
các khoảng ngừng nghỉ giữa các ý, các từ có ý nghĩa quan trọng trong câu được
nhấn mạnh hơn giúp cho người nghe dễ dàng hiểu được thông điệp. Ngữ điệu trong
tổng hợp tiếng nói nhân tạo thường có chất lượng không cao, tiếng nói phá ra
không được rõ ràng, đơn điệu nên thường gây nhàm chán và khó khăn cho người
nghe trong việc lĩnh hội. Vì vậy, ngữ điệu là yếu tố đặc biệt quan trọng quyết định
chất lượng của tiếng nói tổng hợp.
Hiện nay trên thế giới việc tổng hợp tiếng nói đã đạt được những tiến bộ đáng
kể ở một số thứ tiếng như Anh, Pháp, Tây Ban Nha, Quan Thoại (Trung Quốc),
Nhật… với chất lượng khá cao và được ứng dụng rộng rãi. Đối với tiếng Việt, chất
lượng ngữ điệu của tiếng nói tổng hợp vẫn còn nhiều hạn chế nên việc ứng dụng
còn rất giới hạn.
Khi xử lý ngữ điệu, khó khăn lớn nhất là trong văn bản viết hầu như không chứa
các thông tin ngữ điệu một cách chặt chẽ rõ ràng, người đọc phải dựa vào các kiến
thức ngữ pháp, ngữ nghĩa và kinh nghiệm trong thế giới thực để hiểu văn bản rồi từ
đó xây dựng các thông tin ngữ điệu để đọc văn bản. Đối với máy tính, để “hiểu”
được văn bản ở mức độ này vẫn còn là một thách thức và trở ngại rất lớn. Do đó
chúng ta chỉ có thể tạm thời bằng lòng với các giải pháp cho kết quả tương đối gần
đúng có thể chấp nhận được.
Với mục đích xây dựng một bộ phát âm tiếng Việt có chất lượng ngữ điệu tự
nhiên hơn, đề tài nghiên cứu áp dụng mô hình xác định các thông số ngữ điệu theo
hướng tiếp cận học từ ngữ liệu tiếng nói tự nhiên bằng các mạng Neuron.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Đồ án tập trung vào xây dựng mô hình trường độ với mạng Neuron, dựa trên các
nghiên cứu trên thế giới về mạng neuron, tổng hợp tiếng nói cũng như các kết quả

gần đây về ngữ âm, ngữ điệu tiếng Việt.
Bố cục của đồ án được trình bày như sau:
CHƯƠNG 1: TỔNG QUAN BÀI TOÁN
CHƯƠNG 2: ĐỀ XUẤT MÔ HÌNH TRƯỜNG ĐỘ ÂM TIẾT
CHƯƠNG 3: XÂY DỰNG VÀ THỬ NGHIỆM MÔ HÌNH
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
CHƯƠNG 1. TỔNG QUAN BÀI TOÁN
1.1 Tổng hợp tiếng nói nhân tạo
Tổng hợp tiếng nói là quá trình tạo ra lời nói một cách tự động từ văn bản. Một
hệ thống tổng hợp tiếng nói (speech synthesis) hay còn gọi là bộ phát âm là một hệ
thống cho phép chuyển đổi một cách tự động văn bản có nội dung bất kỳ thành lời
nói (Text-To-Speech, viết tắt là TTS).
Đây là một khâu quan trọng trong lĩnh vực giao tiếp người máy, bao gồm nhận
dạng tiếng nói và tổng hợp tiếng nói. Sự kết hợp giữa nhận dạng và tổng hợp sẽ
giúp cho máy tính có thể giao tiếp với con người theo cách tự nhiên mà con người
vẫn sử dụng trong giao tiếp hàng ngày. Đó là sử dụng tiếng nói.
Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng mức độ giống
nhau của nó với giọng nói con người. Một hệ thống text-to-speech thông minh cho
phép người khiếm thị hoặc rối loạn khả năng đọc có thể nghe được các văn bản ở
trên máy tính. Nhiều hệ điều hành đã bao gồm cả bộ tổng hợp tiếng nói từ đầu thập
niên 1980[2]
1.1.1 Kiến trúc của một hệ thống tổng hợp tiếng
Một hệ thống tổng hợp tiếng nói hoàn chỉnh gồm nhiều module thực hiện các
nhiệm vụ khác nhau. Nhưng tổng quan có thể chia thành hai phần chính, tổng hợp
mức cao và tổng hợp mức thấp.
Tổng hợp mức cao là giai đoạn đầu của quá trình tổng hợp, giai đoạn chuyển đổi
các văn bản text thành các đơn vị tiếng nói (gồm thông tin về ngữ âm và ngôn điệu
dưới dạng các thông số). sau đó qua tổng hợp mức thấp sẽ thành tiếng nói.
Để có thể tổng hợp được ra âm thanh, văn bản đầu vào cần phải trải qua một số

bước xử lý:
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Hình 1-1 Hệ thống tổng hợp tiếng nói[2].
1.1.1.1 Chuẩn hóa văn bản
Trong hệ thống tổng hợp tiếng nói, việc chuẩn hóa văn bản là công đoạn đầu tiên
có ảnh hưởng quan trọng trong việc đảm bảo văn bản được đọc một cách đúng đắn.
Văn bản đầu vào là văn bản lấy trong thực tế, ban đầu rất hỗn độn vì nó chứa
nhiều dạng từ chưa chuẩn hóa khác nhau. Vấn đề là nhận ra và phân loại đúng
những từ này. Vì mỗi loại có cách đọc khác nhau nên khi phân loại sai có thể sẽ
khiến cách đọc sai và người nghe hiểu sai nội dung văn bản. Ví dụ “phần XI” đọc
lên là “phần mười một”, nếu không nhận đúng số la mã “XI” sẽ đọc là “phần xi”!
Chữ số được sử dụng trong với nhiều vai trò như là số, là này tháng, giá trị đo
đạc,và trong những biểu thức toán học. Những số nằm giữa 1100 và 2002 thông
thường được chuyển đổi thành năm. 1/1/1111 chữ số trong mẫu trên thường được
chuyển đổi thành ngày/tháng/năm. Nhưng 2/5 thì thật khó bởi vì nó có thể vừa là
ngày/tháng vừa có thể là một phân số.
Hiện tượng nhập nhằng là một thách thức trong chuẩn hóa văn bản, đòi hỏi phải
có một giải pháp hợp lí.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
1.1.1.2 Phân tích cú pháp
Trong tổng hợp tiếng nói, phân tích cú pháp đóng một vai trò quan trọng trong
công đoạn xử lí văn bản của hệ thống. Phân tích cú pháp chuẩn xác sẽ đưa ra cho hệ
thống một cái nhìn toàn cảnh về cấu trúc của văn bản, các cụm từ trong văn bản từ
phức tạp cho đến đơn giản nhất, cũng như vị trí âm tiết trong cụm từ.
1.1.1.3 Phân tích ngữ điệu
Bộ phân phân tích ngữ điệu có nhiệm vụ mô hình hóa được ngữ điệu của tiếng
nói và đưa ra các thông tin về ngữ điệu dưới dạng số liệu và làm đầu vào cho bộ
tổng hợp mức thấp. Bộ phân tích ngữ điệu có ảnh hưởng lớn đến mức độ tự nhiên
của tiếng nói tổng hợp. Ảnh hưởng của ngữ điệu sẽ được phân tích rõ ở các phần
sau.

1.1.1.4 Tổng hợp mức thấp
Tổng hợp mức thấp là quá trình kết hợp các đoạn tín hiệu (ví dụ như diphone).
Các đoạn tín hiệu này đã được phân tích, xử lý qua mức cao (phân tích ngữ âm,
phân tích ngôn điệu).
Hiện nay có ba phương pháp tổng hợp tiếng nói. Phương pháp đơn giản nhất để
phát sinh tiếng nói tổng hợp là phát các mẫu tiếng nói đã thu từ tiếng nói tự nhiên
(như các từ hoặc câu). Phương pháp này cho chất lượng tương đối tốt nhưng gặp
phải hạn chế là số lượng từ vựng trong cơ sở dữ liệu rất lớn. Bên cạnh đó tiếng nói
cũng có thể tạo ra bằng cách mô phỏng hệ thống phát âm. Phương pháp này cho
chất lượng rất tốt nhưng thực hiện khá phức tạp. Một phương pháp nữa cũng được
dùng để tổng hợp tiếng nói là tổng hợp formant. Các phương pháp tổng hợp tiếng
nói cùng với những đặc điểm cơ bản nhất sẽ được giới thiệu trong phần tiếp theo.
1.1.2 Một số phương pháp tổng hợp tiếng
Các tiêu chí chất lượng quan trọng nhất của một bộ tổng hợp tiếng nói là tính tự
nhiên và dễ hiểu. Các hệ thống tổng hợp tiếng nói đều cố gắng cực đại hóa cả hai
tiêu chí này.
Hai phương pháp chính trong tổng hợp tiếng nói là tổng hợp ghép nối và tổng
hợp formant. Mỗi phương pháp đều có điểm mạnh và điểm yếu, và mục đích sử
dụng của hệ thống tổng hợp tiếng nói sẽ quyết định phương pháp nào được sử dụng.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Format 1 Format 3Format 2
Kích thích
Tiếng nói
F1 F2 F3
Hệ Số
a. Tổng hợp ghép nối: Tổng hợp bằng cách ghép nối các âm được tổng hợp từ
các lời nói tự nhiên đã được thu từ trước có lẽ là cách dễ nhất để sản sinh lời
nói. Phương pháp tổng hợp ghép nối cho chất lượng cao và tương đối tự
nhiên. Phương pháp này rất phù hợp với các hệ thống phát thanh và các hệ
thống thông tin. [2].

b. Các diphone được cắt ra từ tín hiệu rồi sau đó được tổng hợp lại theo yêu
cầu dựa trên một thuật toán ghép nối.
Hiện nay phương pháp này đang được sử dụng rộng rãi trên thế giới và ngày
càng cho chất lượng tốt hơn nhờ sự trợ giúp của máy tính.
c. Tổng hợp formant: hệ thống này không dùng bất cứ mẫu giọng nào khi
tổng hợp. Thay vào đó, giọng nói tổng hợp được tạo ra dựa theo một mô
hình âm nào đó [2] Các thông số như tần số cơ bản, sự phát âm và mức độ
tiếng ồn được thay đổi theo thời gian để tạo ra một dạng sóng cho giọng nói
nhân tạo. Phương pháp này đôi lúc còn được gọi là phương pháp tổng hợp
theo luật, mặc dù rất nhiều hệ thống tổng hợp ghép nối cũng có các thành
phần dựa theo luật [9]
Hình 1-2 Tổng hợp Formant nối tiếp
d. Tổng hợp mô phỏng phát âm: Phương pháp mô phỏng hệ thống phát âm
(articulatory synthesis) cố gắng mô phỏng hệ thống phát âm của con người
một cách hoàn hảo nhất, do đó có thể đạt tới chất lượng cao trong tổng hợp
tiếng nói. Nhưng cũng chính vì vậy mà phương pháp này khó có thể thực
hiện được, vì việc mô phỏng hệ thống phát âm của con người rất khó thực
hiện. Nhưng từ khi có sự xuất hiện của máy tính thì nó lại được phát triển.
Cho tới gần đây, các hệ thống tổng hợp mô phỏng phát âm mới bắt đầu được
đưa vào trong các ứng dụng thương mại.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
e. Tổng hợp lai: kết hợp giữa tổng hợp ghép nối và tổng hợp formant nhằm
giảm thiểu sự co xát hay thấy ở các hệ tổng hợp ghép nối, đồng thời có tính
tự nhiên cao hơn tổng hợp formant.
1.2 Đặc điểm ngữ điệu, ngữ âm tiếng Việt.
1.2.1 Một vài đặc điểm của tiếng Việt
Tiếng Việt là ngôn ngữ được xếp vào loại hình đơn lập (isolate) hay còn được
gọi là loại hình phi hình thái, không biến hình, đơn tiết. Tiếng Việt có một vài đặc
điểm chính như sau [7].:
- Trong hoạt động ngôn ngữ, từ không biến đổi hình thái. Ý nghĩa ngữ pháp

nằm ở ngoài từ.
- Phương thức ngữ pháp chủ yếu là trật tự từ và hư từ.
- Tồn tại một loại đơn vị đặc biệt là “hình tiết” mà vỏ ngữ âm của chúng trùng
khít với âm tiết, và đơn vị đó cũng chính là “hình vị tiếng Việt” hay còn gọi là
“tiếng” (tiếng Việt sử dụng khoảng 10.000 tiếng).
- Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng như các thứ
tiếng biến hình khác. Ví dụ: “học sinh học sinh học”. Điều này khiến cho việc phân
tích hình thái (tách từ) tiếng Việt trở nên khó khăn. Việc nhận diện ranh giới từ là
quan trọng làm tiền đề cho các bài toán xử lý ngôn ngữ tiếp theo sau đó như kiểm
lỗi chính tả, gán nhãn từ loại, …
- Tồn tại loại từ đặc biệt “từ chỉ loại” (classifier) hay còn gọi là phó danh từ chỉ
loại đi kèm với danh từ, như: cái bàn, cuốn sách, bức thư, …
- Về mặt ngữ âm học, các âm tiết tiếng Việt đều mang một trong 6 thanh điệu
(ngang, sắc, huyền, hỏi, ngã, nặng). Đây là âm vị siêu đoạn tính.
- Có hiện tượng láy trong từ tiếng Việt, như: lấp lánh, lung linh,… Ngoài ra còn
có hiện tượng nói lái (do mối liên kết giữa phụ âm đầu và phần vần trong âm tiết là
lỏng lẻo), như: “biệt thự” láy thành “bự thiệt”, “cá đối” láy thành “cối đá”,
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
1.3 Cấu trúc âm tiết tiếng Việt
Hình 1-3 Cấu trúc âm tiết tiếng Việt
Một âm tiết tiếng Việt gồm 3 thành phần chính: phụ âm chính (initial), vần
(final) và thanh điệu (tone). Trong đó phần vần lại được chia làm 3 phần nhỏ hơn là
nguyên âm chính (nucleus), nguyên âm đệm (median), và phần cuối cùng (final)
[7]
Ví dụ: âm tiết “TOÁN” có phiên âm /twan-5/ trong đó phần trước là /t/, bán
nguyên âm /w/, nguyên âm chính /a/, phần cuối /n/ và thanh 5 (thanh sắc).
Âm cuối của âm tiết chỉ có thể là:
- 6 phụ âm, còn được gọi là các phụ âm cuối: / p /, / t /, / m /, / n /, / k /, / ŋ /
- 2 bán nguyên âm: / i /, / w /
Dựa theo âm cuối người ta có thể chia âm tiết thành bốn loại như sau:

- Âm tiết mở: những âm tiết mà không có âm cuối. Ví dụ: ta /ta-1/, bố /bo-
5/
- Âm tiết bán mở: những âm tiết có phần cuối là một bán nguyên âm. Ví
dụ: tai /taj-1/, vài /vaj-2/.
- Âm tiết đóng: những âm tiết có phần cuối là một phụ âm câm (voiceless
consonant). Ví dụ: át /at-5/, áp /ap-5/, ác /ak-5/.
- Âm tiết bán đóng: những âm tiết có phần cuối là một phụ âm mũi (nasal
consonant). Ví dụ: am /am-1/, êm /em-1/.
1.3.1 Thanh điệu
Trong hệ thống tiếng Việt có tất cả 6 thanh[7].:
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Bảng 1-1 Các thanh điệu của tiếng Việt
Hệ thống thanh của tiếng Việt tương đối phức tạp. Nó thay đổi theo từng vùng
miền. Số lượng các thanh có thể thay đổi từ 6 (giọng Hà Nội) đến 5 (giọng thành
phố Hồ Chí Mình) hoặc đến 4 (giọng miền Trung). Bởi vì giọng Hà Nội được coi là
giọng chuẩn, nên phần sau sẽ chỉ quan tâm đến các thuộc tính của giọng Hà Nội.
1.3.2 Ngữ điệu tiếng Việt
Ngữ điệu trong tiếng nói được thể hiện ở: cao độ, cường độ và trường độ:
- Cao độ, độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm
thanh. Đối với tiếng nói, tần số dao động của dây thanh âm quy định độ
cao giọng nói của con người. Mỗi người có một độ cao giọng nói khác
nhau, độ cao của nữ giới thường cao hơn nam giới và độ cao của trẻ em
thường cao hơn của người lớn. Cao độ giọng nói cũng thay đổi với
những trạng thái biểu lộ xúc cảm khác nhau. Cao độ là yếu tố cơ bản tạo
nên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm, và cả
trọng âm.
- Cường độ là độ to nhỏ của âm thanh. Cường độ càng lớn thì âm thanh có
thể truyền đi được càng xa. Xét trên phương diện sóng cơ học thì cường
độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng của
sóng âm. Cường độ âm thanh được đo bằng đơn vị decibel (dB). Cường

độ là yếu tố chính tạo nên hiện tượng trọng âm.
- Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm. Nó tạo
nên sự tương phản giữa các bộ phận của lời nói. Tốc độ phát âm được
quy định bởi đặc điểm cá nhân của người nói, phong cách và hoàn cảnh
phát âm. Tốc độ lời nói còn phụ thuộc vào nội dung câu nói.
1.3.3 Ngữ điệu trong tổng hợp tiếng nói
Như đã phân tích ở trên, ba yếu tố cấu thành nên ngữ điệu gồm cao độ, cường độ
và trường độ chúng đặc trưng cho các tham số cảm nhận của con người về âm tiết:
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
độ cao, độ mạnh, và độ dài. Tần số cơ bản F0 được đo bằng đơn vị Hz, đặc trưng
cho sự cảm nhận về giai điệu. Cường độ của âm thanh được đo bằng Decibels (dB).
Trường độ được đo bằng đơn vị centi giây (cs) hay milli giây (ms), dựa vào đó
chúng ta có thể xác định được giai điệu (số lượng âm tiết trong một giây).
Nhiệm vụ chính của việc sinh ngữ điệu trong tổng hợp là đưa ra được biểu diễn
về mặt ngữ âm của ngữ điệu dựa trên các thông tin ngôn ngữ học. Bộ phân tích văn
bản có thể cung cấp những thông tin hữu ích như cấu trúc của câu, quan hệ ngữ
nghĩa, sự đồng âm, trọng âm… các yếu tố có thể ảnh hưởng đến đến sự biểu diễn
của ngữ điệu. Tuy nhiên, việc không có một phương thức chuyển đổi rõ ràng các
thông tin ngữ điệu và sự liên quan của ngữ điệu đến nhiều mức khác nhau của ngôn
ngữ khiến cho việc phân tích ngữ điệu trở thành một công việc khó khăn.
1.4 Bài toán mô hình hóa trường độ
1.4.1 Bài toán
Trong các yếu tố cấu thành nên ngữ điệu, trường độ là một trong những yếu tố
quan trọng quyết định đến chất lượng của tiếng nói. Phạm vi của đồ án sẽ tập trung
vào bài toán phân tích trường độ của âm tiết.
Bài toán mô hình hóa trường độ trong tổng hợp tiếng nói hướng đến việc phân
tích âm tiết dựa trên ngữ cảnh để có thể đưa ra được thông tin về trường độ của âm
tiết. Trường độ được đưa ra càng gần với trường độ thực tế của âm tiế càng tốt, đảm
bảo được độ tự nhiên của tiếng nói tổng hợp.
Có nhiều hướng tiếp cận khác nhau đối với bài toán mô hình hóa trường độ sử

dụng các công cụ và phương pháp khác nhau, trong phần sau sẽ đề cập đến một số
hướng tiếp cận phân tích các hướng tiếp cận đó, để chọn ra được hướng tiếp cận cho
bài toán trong phạm vi đề tài.
1.4.2 Khó khăn
Ngay từ những nỗ lực đầu tiên của việc tổng hợp tiếng nói, mô hình hóa được
trường độ nói riêng và ngữ điệu của âm tiết nói chung đã gặp phải nhiều khó khăn.
- Văn bản viết thường rất đa dạng và phong phú về các thành phần nội
dung như chữ, các loại số, ngày tháng, các ký hiệu, chữ viết tắt… để
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
chuyển được văn bản thành các âm tiết tiếng nói phù hợp đòi hỏi nhiều
xử lý phân tích văn bản phức tạp và khó có được độ chính xác cao.
- Ngữ điệu của tiếng nói tự nhiên phụ thuộc nhiều vào ngữ cảnh khi nói,
trong nội dung văn bản thường không chứa đựng đầy đủ những thông tin
ngữ cảnh khi nói. Ví dụ cùng một câu: “Đây là con đường đến trường”
nếu như đang ở trong bối cảnh hội thoại thì trường độ của các âm tiết sẽ
khác so với trong đoạn văn. Nhưng với cùng một câu như vậy không thể
xác định được khi nào là hội thoại và khi nào là một câu văn bình thường.
- Ngữ điệu mang tính tương đối rất cao, với những người khác nhau thì
ngữ điệu khác nhau rất nhiều. Thậm chí với cùng một người, nói cùng
một câu nhưng sẽ không có hai lần người đó
- Bởi vì không có một cách mô tả chính xác khi nào thì trường độ âm tiết
như thế nào. Các nghiên cứu tập trung vào việc tìm ra các yếu tố có độ
ảnh hưởng cao hoặc tìm ra các luật đặc trưng đến trường độ.
- Ngữ điệu nói chung và trường độ nói riêng còn phụ thuộc rất nhiều vào
trạng thái tâm lý cảm xúc của người nói.
Do đó việc mô hình trường độ và dự đoán trường độ của âm tiết chủ yếu mang
tính chất tương đối. Và tạo ra cảm giác thật nhất có thể cho âm tiết tổng hợp.
1.5 Các hướng tiếp cận mô hình hóa trường độ
Trường độ là độ dài của âm thanh thể hiện qua tốc độ phát âm. Nó tạo nên sự
tương phản giữa các bộ phận của lời nói. Tốc độ phát âm được quy định bởi đặc

điểm cá nhân của người nói, phong cách và hoàn cảnh phát âm. Tốc độ lời nói còn
phụ thuộc vào nội dung câu nói.
Trong tổng hợp tiếng nói việc có được thời gian phát âm và khoảng ngừng nghỉ
giữa các âm là một vấn đề thiết yếu nếu muốn có được âm thanh giống với âm
thanh tự nhiên. Mục đích của các mô hình trường độ là đưa ra được các tham số cho
mô hình qua đó có được các giá trị về thời gian tương ứng.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Trên thế giới có nhiều hướng tiếp cận khác nhau để xử lý bài toán mô hình hóa
trường độ. Các phương pháp này có ưu nhược điểm và môi trường áp dụng khác
nhau.
1.5.1 Mô hình luật Klatt
Dennis Klatt đã đưa ra một mô hình dựa trên luật được sử dụng trong hệ thống
MITalk. Mô hình Klatt là một trong những mô hình chuẩn của tổng hợp tiếng nói.
Dựa trên một lượng lớn các phép thí nghiệm và thay đổi từ một trường độ cơ bản
đối với tất cả các âm tiết miêu tả bởi một tập luật.[11].
Mô hình Klatt giả sử rằng:
• Mỗi loại âm tiết có một trường độ cố hữu của bản thân nó và được
xem như là một thuộc tính riêng biệt của âm tiết đó.
• Mỗi luật sẽ ảnh hưởng bằng việc tăng hoặc giảm một lượng phần trăm
nhất định đối với trường độ của âm tiết.
• Âm tiết không thế có trường độ ngắn hơn một mức tối thiểu.
Mô hình này được dùng để xác định trường độ các âm vị bằng công thức dựa
trên các thông tin ngữ âm có ảnh hưởng liên quan. Theo đó, trường độ của âm vị
khi tổng hợp được xác định theo công thức như sau:
Trong đó:
DUR: trường độ cần xác định của âm vị
INHDUR: trường độ của âm vị mẫu
MINDUR: trường độ âm vị ngắn nhất
PRCNT: Tỉ lệ biến đổi trường độ được xác định dựa vào các luật.
Để xác định tham số PRCNT, Dennis Klatt sử dụng 10 luật kết hợp với nhau

dựa trên các yếu tố ngữ cảnh của âm vị như sự nhấn giọng, mức độ nhấn giọng,
v.v… Cũng như các mô hình dựa trên luật khác, các luật Klatt và các thông số được
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
xác định một cách thủ công qua một quá trình thử sai. Phần mềm đọc tiếng Việt
VnSpeech của tác giả Lê Hồng Minh xác định trường độ dựa trên mô hình này.
Đây là một mô hình đơn giản và có nhiều ứng dụng trong thực tế, tuy nhiên con
đường để có thể có được tập luật dùng trong mô hình rất vất vả, với nhiều thử
nghiệm, và khi áp dụng sang ngôn ngữ khác phải thực hiện lại từ đầu.
1.5.2 Mô hình Sum-of-products
Jan van Santen đã đưa ra mô hình sums-of-products với các công thức có dạng
tổng của các tích để tính trường độ của một âm vị được biểu diễn bởi vector đặc
trưng d như sau[11].:
Trong đó:
d
j
: thành phần thứ j của vector đặc trưng d.
S
i,j
: là một hệ số tương ứng với đặc trưng j, và mối liên hệ giữa hai đặc trưng i,j.
K: tập các chỉ số tương ứng với các chuỗi tích.
I
i
: tập các hệ số tương ứng với chuỗi tích i.
Mô hình này về cơ bản là một sự tổng quát hóa của một số mô hình đã có như
mô hình luật Klatt. Nó được ứng dụng bằng cách xây dựng một cây với các nút lá
tách không gian đặc trưng thành các lớp con thuần nhất mà có thể được biểu diễn
bởi một công thức sums-of-products riêng biệt. Công việc này được thực hiện một
cách thủ công dựa trên các kiến thức ngôn ngữ học và phân tích ngữ liệu.
1.5.3 Mô hình cây phân lớp hồi quy CART
Mô hình cây phân lớp và hồi quy (Classification and Regression Trees) là mô

hình tiêu biểu được dùng khá phổ biến để xác định yếu tố ngữ điệu trong các hệ
tổng hợp tiếng nói như Festival. Mô hình CART đã được sử dụng cho tiếng Anh từ
năm 1990[10]
Mô hình này về cơ bản là một cây phân lớp nhị phân với đầu vào là các âm vị và
vector các thuộc tính đặc trưng của nó được đưa vào từ nút gốc, sau đó âm vị được
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
chuyển đi theo các nhánh thỏa mãn các luật tương ứng tại mỗi nút con cho đến khi
gặp nút lá. Trị số ở các nút lá sẽ cho phép xác định thông số ngữ điệu của âm vị
tương ứng. [2].
Việc huấn luyện cây được thực hiện với một tập ngữ liệu mẫu với input và output
được xác định sẳn. Trong quá trình huấn luyện các luật phân lớp ở các nút sẽ được
xây dựng tự động. Sau khi huấn luyện, cây hầu như sẽ cho kết quả chính xác đối với
những mẫu đã huấn luyện, tuy nhiên với những mẫu mới không có trong ngữ liệu
huấn luyện thì kết quả thường không chính xác. Để khắc phục tình trạng quá luyện,
việc “tỉa nhánh” được thực hiện bằng cách chọn cắt bớt những nhánh gây nên tình
trạng quá luyện bằng cách thử với tập mẫu dữ liệu chưa được huấn luyện. Mô hình
này được áp dụng trong phần mềm đọc tiếng Việt VnVoice.
Hình 1-4 Cây phân lớp hồi quy
Các thành phần của vector thuộc tính được lựa chọn sao cho có thể đặc trưng
được cho các tính chất về trường độ.
Bảng 1-2 Các tham số của CART
Tham số Số lượng
Đặc trưng của âm tiết (đầu, giữa, nhân, cuối) và thanh điệu
5
Số lượng âm vị trong âm tiết 1
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
Thanh điệu của âm tiết đứng trước. 1
Thanh điệu của âm tiết đứng sau. 1
Âm vị cuối của âm tiết đứng trước. 1
Âm vị đầu của âm tiết đứng sau. 1

Vị trí của âm tiết trong câu 1
Vị trí tương đối của âm tiết trong từ. 1
Thông tin về trọng âm của âm tiết 1
Chiều dài của câu 1
1.5.4 Mô hình mạng Neuron
Ý tưởng đầu tiên xây dựng mạng Neuron nhân tạo giống mạng Neuron của con
người là của MC.Culloch và Pitts vào năm 1943 với nguyên lý là các Neuron có thể
được mô hình hóa như thiết bị ngưỡng giới hạn logic. Đến nay đã có nhiều nghiên
cứu phát triển mô hình mạng Neuron và các ứng dụng của nó. Về cơ bản mạng
Neuron bao gồm một hệ thống các phần tử đơn vị là các Neuron còn được gọi là nút
được kết nối với nhau. Khả năng xử lý của mạng Neuron nằm ở các kết nối giữa các
Neuron và trọng số của các kết nối đó. Các kết nối và trọng số tương ứng được xây
dựng qua một quá trình huấn luyện với một tập dữ liệu mẫu cho trước.
Mạng Neuron hoạt động theo cơ chế như là một hộp đen, ứng với dữ liệu đầu
vào sẽ đưa ra giá trị đầu ra mà không rõ ràng cơ chế xử lý bên trong như thế nào.
Do trong quá trình huấn luyện mạng sẽ tự tìm cách tối ưu hóa các thông số.
Mạng Neuron là một công cụ được nhiều hệ thống tổng hợp tiếng hiện đại sử
dụng [4] Trong bài toán này mạng Neuron đã tỏ ra ưu thế hơn hẳn đối với các
phương pháp tiếp cận khác về độ tự nhiên của trường độ. Chi tiết về mạng Neuron
sẽ được trình bày trong những phần tiếp theo.
1.5.5 Nhận xét
Đối với các phương pháp mô hình hóa trường độ ở trên, phương pháp đơn giản
nhất là phương pháp sử dụng luật Klatt, phương pháp này đơn giản, dễ cài đặt. Tuy
nhiên vấn đề khó khăn lớn nhất đối với Klatt là rất khó có thể xây dựng được tập
luật đầy đủ, để xác định chính xác các trường hợp trong thực tế. Công việc này đòi
hỏi rất nhiều nghiên cứu, thử nghiệm tuy nhiên độ chính xác thu được lại không thật
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
sự cao. Đây là phương pháp được sử dụng nhiều trong thời gian trước đây, nhưng
giờ ít được sử dụng vì sự ra đời của các phương pháp có độ tin cậy cao hơn.
Phương pháp Sum-Of-Products là sự cải tiến của phương pháp Klatt nhằm thu

được sự chính xác cao hơn, nhưng thay vào đó là sự cồng kềnh và phức tạp trong
tính toán, cài đặt và đòi hỏi nhiều kiến thức chuyên môn.
Phương pháp sử dụng Cây phân lớp hồi quy CART (Classiffication and
Regression Tree) cài đặt đơn giản, cho kết quả tương đối tốt nhưng đối với các dữ
liệu chưa được huấn luyện thì độ chính xác không cao. Và các trường độ dự đoán
được phân theo một số mức nhất định.
Trong khi đó sử dụng mạng Neuron lại chứng tỏ sự ưu việt của mình với khả
năng tự phát hiện được các mốt liên hệ giữa các đặc trưng âm tiết ở đầu vào và các
thông số ngữ điệu ở đầu ra. Mô hình này còn có khả năng dự đoán khá chính xác
cho các mẩu chưa được huấn luyện và việc cài đặt cũng không phức tạp. Do đó,
mạng Neuron được lựa chọn để giải quyết bài toán mô hình hóa trường độ âm tiết
tiếng Việt. Chi tiết hơn sẽ được trình bày trong chương sau.
1.6 Kết luận chương
Chương này đã điểm qua tổng quan về một hệ tổng hợp tiếng nói và đặc điểm
ngữ âm ngữ điệu của tiếng Việt. Việc mô hình hóa được trường độ âm tiết trong
tiếng Việt nói riêng và ngữ điệu nói chung là một bài toán không đơn giản. Nó phụ
thuộc vào nhiều yếu tố khác nhau trong khi các yếu tố đó rất khó để có thể xác định
được từ văn bản.
Các mô hình, hướng tiếp cận khác nhau đã được xem xét và đánh giá và chọn ra
hướng đi cho đề tài.
Chương tiếp sẽ đi vào phân tích các yếu tố ảnh hưởng đến trường độ, đề xuất mô
hình trường độ cho âm tiết tiếng Việt.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
CHƯƠNG 2. ĐỀ XUẤT MÔ HÌNH TRƯỜNG
ĐỘ ÂM TIẾT
Như đã đề cập ở các chương trước, có nhiều mô hình khác nhau cho trường độ.
Các mô hình này sử dụng các tham số, các phương pháp khác nhau để sinh trường
độ. Và mô hình mạng Neuron được sử dụng trong đồ án. Chương này sẽ tập trung
vào quá trình xây dựng mô hình trường độ cho âm tiết.
Để có thể xây dựng được mô hình trường độ cho âm tiết tiếng Việt, trước tiên

cần phải đi vào phân tích sự ảnh hưởng của các yếu tố đặc trưng của âm tiết đối với
trường độ của âm tiết đó. Các yếu tố đặc trưng này có thể là đặc trưng tĩnh (phụ
thuộc vào bản thân âm tiết) hoặc các đặc trưng động (phụ thuộc vào ngữ cảnh xung
quanh âm tiết).
2.1 Trường độ âm tiết và các yếu tố ảnh hưởng đến trường độ
2.1.1 Trường độ
Trường độ của âm tiết do nhiều yếu tố khác nhau quyết định, nó thay đổi giữa
dân cư từng vùng miền, giữa từng người và phụ thuộc vào cả trạng thái cảm xúc của
người đó. Rất khó để một người có thể hai lần nói cùng một câu với cùng một ngữ
điệu. Do đó việc phân tích trường độ được thực hiện với dữ liệu từ cùng một người,
thu âm chuẩn.
Để có thể mô hình hóa được trường độ một cách chuẩn xác nhất, trước tiên
chúng ta cần tìm ra một số yếu tố có độ ảnh hưởng lớn đớn trường độ và xây dựng
vector đặc trưng.
Việc phân tích được tiến hành dựa trên thống kê đối với các âm tiết có trong cơ
sở dữ liệu âm tiết là các đoạn văn, đoạn hội thoại được thu âm và gán nhãn trường
độ đối với từng âm tiết.
Dữ liệu cho việc phân tích và huấn luyện được cung cấp bởi TS. Trần Đỗ Đạt,
Trung tâm nghiên cứu MICA.
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51
2.1.2 Các yếu tố ảnh hưởng đến trường độ âm tiết
2.1.2.1 Thanh điệu
Trước tiên ta sẽ phân tích sự ảnh hưởng của thanh điệu âm tiết đến trường độ của
âm tiết đó. Trong 6 thanh của tiếng Việt thì có 2 thanh sắc và nặng có đặc tính khác
với các thanh còn lại. Mỗi thanh lại được chia làm 2 (5a,5b) và (6a,6b). [2].
Tính độ dài tương đối của một thanh i:
Trong đó Y là độ dài trung bình của thanh i, N là độ dài trung bình của cả 6
thanh.
Để đạt được độ tin cậy cao thử nghiệm được tiến hành với 7 người khác nhau
[2]

Đây là biểu đồ độ dài tương đối của 6 thanh sau khi tính ra:
Hình 2-5 Độ dài tương đối của thanh. [8].
Những thanh có độ dài tương đối lớn hơn 1 thì là thanh dài, những thanh còn lại
là thanh ngắn. Từ đó ta có:
- Thanh 1, thanh 2, thanh 3, và thanh 5a là những thanh dài.
- Thanh 5b, thanh 6a và thanh 6b là những thanh ngắn.
- Thanh 4 có độ dài tương đối lớn hơn 1 với hầu hết những người nói, nên
có thể xem như là thanh dài.
Thanh điệu là các yếu tố thuộc về trạng thái tĩnh của âm tiết, các thông tin về
thanh điệu là cố định đối với các âm tiết. Việc phân chia thanh số 5 và số 6 (thanh
Sinh viên thực hiện: Nguyễn Trọng Hiếu – Công nghệ phần mềm A - K51

mô hình hóa trường độ âm tiết tiếng việt nâng cao chất lượng tổng hợp tiếng nói

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về