Tải bản đầy đủ (.pdf) (82 trang)

Nghiên cứu một số phương pháp tổng hợp tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 82 trang )

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


NGUYỄN ĐỨC THỌ
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP





LUẬN VĂN THẠC SĨ KỸ THUẬT


NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP
TIẾNG NÓI




Ngành: KỸ THUẬT ĐIỆN TỬ
Học Viên: NGUYỄN ĐỨC THỌ
Ngƣời HD Khoa học: PGS.TS. LƢƠNG CHI MAI









THÁI NGUYÊN – 2012

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP






LUẬN VĂN THẠC SĨ KỸ THUẬT

LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT ĐIỆN TỬ

NGÀNH: KỸ THUẬT ĐIỆN TỬ


NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI




Ngành: KỸ THUẬT ĐIỆN TỬ
Học Viên: NGUYỄN ĐỨC THỌ
Ngƣời HD Khoa học: PGS.TS. LƢƠNG CHI MAI







TN
2013


THÁI NGUYÊN 2013

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




LUẬN VĂN THẠC SĨ

Họ và tên học viên
:
Nguyễn Đức Thọ
Ngày tháng năm sinh
:
Ngày 22 tháng 03 năm 1980
Nơi sinh
:
Chi lăng - Quế võ - Tỉnh Bắc Ninh
Nơi công tác
:
Trƣờng Cao đẳng nghề Cơ điện và Xây dựng Bắc Ninh
Cơ sở đào tạo
:
Trƣờng Đại học Kỹ thuật Công nghiệp Thái Nguyên

Chuyên ngành
:
Kỹ thuật điện tử
Khóa học
:
K13- KT ĐT
Ngày giao đề tài
:
Ngày Tháng Năm
Ngày hoàn thành đề tài
:
Ngày Tháng Năm

TÊN ĐỀ TÀI:

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI

Ngƣời hƣớng dẫn khoa học:
PGS.TS. Lương Chi Mai

Viện công nghệ thông tin, viện khoa học và công
nghệ Việt Nam

GIÁO VIÊN HƢỚNG DẪN



PGS.TS. Lương Chi Mai
HỌC VIÊN




Nguyễn Đức Thọ
BAN GIÁM HIỆU
KHOA SAU ĐẠI HỌC











TRƢỜNG ĐẠI HỌC
KỸ THUẬT CÔNG NGHIỆP

Độc lập - Tự do - Hạnh phúc
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP












LUẬN VĂN THẠC SĨ


Tên đề tài: NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI


Ngƣời hƣớng dẫn: PGS .TS Lƣơng Chi Mai
Học viên: Ngyễn Đức Thọ
Chuyên ngành: Kỹ thuật điện tử






















Thái Nguyên 2013

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

LỜI CAM ĐOAN
Tên tôi là:Nguyễn Đức Thọ
Học viên lớp Cao học khoá 13- Kỹ thuật điện tử - Trƣờng Đại học Kỹ thuật Công
nghiệp Thái Nguyên
Tôi xin cam đoan luận văn là kết quả nghiên cứu của riêng tôi, các số liệu, kết quả
nêu trong luận văn này là trung thực và không sao chép của ai, luận văn này không
giống hoàn toàn bất cứ luận văn hoặc các công trình đã có trƣớc đó.
Thái Nguyên, Ngày … tháng … năm
2013






Nguyễn Đức Thọ



























Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Lời cảm ơn



Trƣớc hết, em xin đƣợc gửi lời biết ơn sâu sắc tới các thầy cô giáo trong trƣờng
Đại học kỹ thuật Công nghiệp Thái Nguyên, các thầy cô giáo trực tiếp giảng dạy,

tận tình hƣớng dẫn em những kiến thức và kinh nghiệm quý báu trong suốt thời
gian học tập và rèn luyện.

Em xin bày tỏ lời cảm ơn chân thành tới các thầy cô giáo trong Khoa Điện
điện tử Trƣờng Đại học kỹ thuật Công nghiệp Thái Nguyên, khoa sau Đại học
Trƣờng Đại học kỹ thuật Công nghiệp Thái Nguyên đã tạo điều kiện thuận lợi cho
em trong thời gian học tập.

Em xin bày tỏ lòng biết ơn chân thành, lời cảm ơn sâu sắc đối với cô giáo
PGS.TS. Lƣơng Chi Mai đã trực tiếp hƣớng dẫn, định hƣớng cho em giải quyết
nhiều vấn đề trong luận văn.
Em cũng muốn gửi lời cảm ơn tới tập thể lớp thạc sĩ kỹ thuật điện tử k13 đã
tạo một môi trƣờng thi đua học tập lành mạnh, tạo điều kiện cho sự phát triển của
các thành viên trong lớp.
Cuối cùng em xin đƣợc cảm ơn những ngƣời thân, bạn bè đã quan tâm, động
viên giúp đỡ em trong quá trình học tập, nghiên cứu và hoàn thành luận văn.

Tác giả luận văn





Nguyễn Đức Thọ










Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

MỤC LỤC
Lời cam đoan……………………………………………………………………… i
Lời cảm ơn ……………………………………………………………………… ii
Mục lục……………………………………………………………………………. 1
Danh mục các chữ viết tắt………………………………………………………… 5
Danh mục bảng các thuật ngữ Anh – Việt ……………………………………… 5
Danh mục hình vẽ và đồ thị……………………………………………………… 6
Danh mục các bảng biểu…………………………………………………………. 7

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


NỘI DUNG
Trang
LỜI MỞ ĐẦU………………………………………………………………
8
Chƣơng 1. Tổng quan về tổng hợp tiếng nói……………………………
12
1.1 Giới thiệu về tổng hợp tiếng nói…………………………………………
12
1.1.1 khái niệm về tổng hợp tiếng nói……………………………………
12
1.1.2 Mô hình của một bộ tổng hợp tiếng nói……………………………
12
1.1.2.1. Thành phần xử lý ngôn ngữ tự nhiên………………………………

15
1.1.2.2. Thành phần xử tín hiệu số…………………………………………
18
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói……………………
20
Chƣơng 2. Các phƣơng pháp tổng hợp tiếng nói………………………
25
2.1 Phƣơng pháp tổng hợp theo cấu âm……………………………………
25
2.2 Phƣơng pháp tổng hợp theo formant…………………………………….
28
2.3 Phƣơng pháp Tổng hợp ghép nối………………………………………….
30
2.4 Phƣơng pháp tổng hợp theo ghép chuỗi…………………………………
31
2.5 Đánh giá chung các phƣơng pháp tổng hợp tiếng nói……………………
34
Chƣơng 3. Chuẩn hoá văn bản và thuật toán phân tích văn bản……….
38
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3.1 Tổng quan………………………………………………………………
38
3.2.Các vấn đề đối với bài toán Chuẩn hóa văn bản tiếng Việt……………….
38
3.2.1.Bài toán chuẩn hóa văn bản tiếng Anh………………………………
38
3.2.2 Đặc điểm văn bản tiếng Việt………………………………………….
39
3.2.3.Sự tổ chức không có quy chuẩn của một token………………………….

39
3.2.3.1 Sự phức tạp của NSW…………………………………………………
40
3.2.3.2 Xử lý các NSW khác nhau…………………………………………….
41
3.2.3.3 Vấn đề phân loại NSW………………………………………………
41
3.2.3.4.Vấn đề mở rộng NSW…………………………………………………
41
3.3.Giải pháp đề xuất………………………………………………………….
42
3.3.1 Phân loại các từ chƣa chuẩn hóa cho tiếng Việt………………………
42
3.3.2 Tổ chức gán thẻ cho NSW………………………………………………
47
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3.3.3.Chuẩn phân tách…………………………………………………………
49
3.3.4.Phát hiện NSW………………………………………………………….
50
3.3.5.Phân loại NSW………………………………………………………….
50
3.3.6.Mở rộng cách đọc……………………………………………………….
52
3.4.Các kỹ thuật và giải thuật …………………………………………………
52
3.4.1.Tổng quan về cây quyết định…………………………………………….
53
3.4.2. Các bƣớc xây dựng cây quyết định……………………………………

54
3.4.2.1.Cắt tỉa cây.…………………………………………………………….
55
3.4.2.2.Độ đo thuộc tính……………………………………………………….
55
3.4.2.3.Rút luật phân lớp từ cây quyết định……………………………………
56
3.4.2.4.Hiện tƣợng “quá vừa” (overfitting) dữ liệu huấn luyện………………
56
3.4.2.5.Xử lí quá vừa dữ liệu…………………………………………………
57
3.4.2.6.Áp dụng cây quyết định………………………………………………
58
3.4.3.Mô hình ngôn ngữ chữ cái (Letter Language Modeling)……………
60
3.4.4.Kỹ thuật làm trơn mô hình Kneser-Ney cải tiến…………………………
60
3.5.Kết chƣơng………………………………………………………………
61
Chƣơng 4. Cài đặt thử nghiêm modul chuẩn hóa văn bản cho tiếng Việt
62
4.1. Cài đặt và thử nghiệm…………………………………………………
62
4.1.1.Cài đặt…………………………………………………………………
62
4.1.2.Thử nghiệm chƣơng trình……………………………………………
69
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4.1.2.1. Phƣơng pháp đánh giá kết quả……………………………………

69
4.1.2.2.Bộ dữ liệu thử nghiệm Training………………………………
70
4.2. .Kết quả thử nghiệm……………………………………………………
72
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
74
TÀI LIỆU THAM KHẢO…………………………………………………
75
















Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

I. DANH MỤC CÁC CHỮ VIẾT TẮT
TTS
Text to Speech

CSDL
Cơ sở dữ liệu
F0
Formant 0 (Tần số formant cơ bản)
H/S
Harmonic/Stochastic
LPC
Linear Prediction Coding
MOS
Mean Opinion Score
PSOLA
Pitch-Synchronous Overlap and Add
TD-PSOLA
Time-Domain Pitch-Synchronous Overlap and Add
II. BẢNG CÁC THUẬT NGỮ ANH – VIỆT
Tiếng Anh
Tiếng Việt
Codebook
Sách mã
Context
Ngữ cảnh
Classification
Phân lớp
Corpus
Cơ sở dữ liệu tiếng nói
Diphthong
Nguyên âm đôi
diphone
Âm đôi
Duration

Trƣờng độ
Front-end
processing
Xử lý đầu cuối
Intelligibility
Tính dễ hiểu
Naturalness
Tính tự nhiên
Pitch
Tần số cơ bản
Phoneme
Âm vị
Syllable
Âm tiết
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Semi-vowel
Bán nguyên âm
Segmentation
Phân đoạn
Spectrogram
Biểu đồ phổ
Tone
Thanh điệu
Triphone
Âm ba
Voiced
Hữu thanh
Unvoiced
Vô thanh



III. DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ
Hình
Nội dung
Trang
Hình 1-1.
Mô hình hệ thống TTS

Hình 1-2.
Thành phần xử lý ngôn ngữ tự nhiên trong hệ tổng hợp tiếng nói


Hình 2-1.
Ví dụ về sơ đồ hệ thống tổng hợp ghép nối


Hình 2-2.
Gián đoạn biên độ


Hình 2-3.
Gián đoạn năng lƣợng (miền thời gian).


Hình 2-4.
Gián đoạn năng lƣợng


Hình 3-1

Mô hình chuẩn hóa văn bản cơ bản cho tiếng Anh Error!
Reference source not found.

Hình 3-2
Mô hình chuẩn hóa văn bản tiếng Việt

Hình 3-3
Minh họa về cây quyết định

Hình 3-4
Chọn thuộc tính temperature đầu tiên

Hình 3-5
Chọn thuộc tính outlook đầu tiên

Hình 4-1
Giao diện hệ thống

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Hình 4-2
Từ điển viết tắt

Hình 4-3
Minh họa các độ đo

IV. DANH MỤC CÁC BẢNG BIỂU
Bảng 2-1
Các tham số của mô hình cấu âm Mermelstei


Bảng 3-1
Bảng phân loại NSW

Bảng 3-2
Bảng giá trị thuộc tính

Bảng 4-1
Các phƣơng thức chính trong chƣơng trình

Bảng 4-2
Phân bố cụ thể của các loại thuộc kiểu NUMBERS

Bảng 4-3
Phân bố của NSWs trong tập OTHERS













Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

LỜI MỞ ĐẦU

1. Tính cấp thiết của đề tài
Xử lý tiếng nói trên máy tính đã đạt đƣợc những thành tựu rất khả quan, đã có nhiều
phƣơng pháp tổng hợp tiếng nói từ văn bản (text-to-speech hay ngắn gọn là TTS)
hay các mã hóa việc phát âm để nhằm đáp ứng những mục đích ứng dụng thiết thực
trong xã hội. Cụ thể:
- Một bộ tổng hợp tiếng nói TTS đƣợc sử dụng trong các ứng dụng khác Nhau nhƣ:
đọc văn bản trên một màn hình, hay trong một CSDL trong khi tham gia giao thông,
cho ngƣời khiếm thị
- Các dịch vụ viễn thông: Các hệ thống TTS làm nó có khả năng truy cập thông tin
trên điện thoại. Các văn bản có thể là những thông báo đơn giản, nhƣ các sự kiện
văn hoá địa phƣơng (các rạp chiếu phim, nhà hát,…), đến các cơ sở dữ liệu lớn mà
có thể đƣợc đọc và lƣu trữ nhƣ là tiếng nói đựơc số hoá. TTS là công cụ hữu hiệu
cho các hệ thông trả lời tự đông.
- Giáo dục ngôn ngữ: Hệ thống TTS chất lƣợng cao có thể đƣợc hợp lại với một hệ
thống học đƣợc hỗ trợ máy tính, và cung cấp một công cụ hữu ích để học một ngôn
ngữ mới.
- Hỗ trợ những ngƣời bị tật nguyền: Những tật nguyền giọng nói bắt nguồn từ
những sự rối loạn tâm thần hay cơ vận động/cảm giác. Các máy có thể là sự hỗ trợ
vô giá trong các trƣờng hợp sau: với sự giúp đỡ của một bàn phím đƣợc thiết kế đặc
biệt và một chƣơng trình tập hợp câu nhanh, tiếng nói tổng hợp có thể đƣợc sinh ra
trong một vài giây để bù đắp cho những trở ngại này.
- Các dịch vụ tiếp âm điện thoại đã nói ở trên là một ví dụ khác. Ngƣời mù cũng
đƣợc lợi một cách rộng rãi từ các hệ thống TTS, khi kết hợp với các hệ thống nhận
dạng thị giác (OCR), khi họ truy cập đến thông tin đƣợc viết ra.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- Những cuốn sách và đồ chơi biết nói: Thị trƣờng đồ chơi đã tiếp cận với
tổng hợp tiếng nói. Nhiều đồ chơi nói đƣợc đã xuất hiên, dƣới sự thúc đẩy của “lời
thần chú đầy ma lực” có tính chất đổi mới từ Texas Instruments. Chất lƣợng nghèo
nàn hạn chế một cách chắc chắn tham vọng giáo dục của các sản phẩm nhƣ vậy. Sự

tổng hợp chất lƣợng cao ở giá cả có thể chấp nhận có thể thay đổi điều này.
- Giám sát phát âm: Trong mốt số trƣờng hợp, thông tin bằng miệng hiệu quả cao
hơn thông tin đƣợc viết ra. Sự kêu gọi mạnh mẽ hơn trong khi sự chú ý vẫn tập
trung vào những nguồn thông tin thị giác. Do đó tƣ tƣởng của các bộ tổng hợp tiếng
nói hợp nhất trong các hệ thống đo lƣờng hoặc điều khiển.
Nghiên cứu cơ bản và ứng dụng: Các bộ tổng hợp TTS có một đặc trƣng rất riêng
biệt làm cho chúng trở thành những công cụ thí nghiệm tuyệt diệu cho các nhà ngôn
ngữ học: chúng đang đƣợc kiểm tra một cách hoàn chỉnh để các thí nghiệm đƣợc
lặp lại cung cấp các kết quả đúng. Vì vậy chúng cho phép nghiên cứu hiệu qủa của
các mô hình ngữ điệu và giai điệu. Một loại đặc biệt của các hệ thống TTS mà đƣợc
dựa trên sự mô tả miền âm thanh thông qua tần số vang của nó (foocmăng của nó)
và đƣợc thể hiện nhƣ là các bộ tổng hợp foocmăng cũng đã đƣợc sử dụng một cách
rộng rãi bởi các nhà ngữ âm học để nghiên cứu tiếng nói xét về khía cạnh các luật
âm thanh.
-Vì những lý do trên tôi đã lựa chọn đề tài “ Ngiên cứu một số phương pháp tổng
hợp tiếng nói ” , nhằm tìm hiểu các vấn đề về tổng hợp tiếng nói và áp dụng chúng
trong tổng hợp tiếng nói tiếng Việt.
2. Ý nghĩa khoa học và thực tiễn của đề tài
a.Ý nghĩa khoa học.
- Hiểu đƣợc các vấn đề, các bài toán cơ bản và các phƣơng pháp tổng hợp tiếng nói
b.Ý nghĩa thực tiễn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- Các khả năng áp dụng các kết quả tổng hợp tiếng nói, trong đó có tiếng việt trong
thực tế.
3. Phƣơng pháp nghiên cứu.
- Đọc và nghiên cứu tài liệu liên quan đến đề tài
- Xây dựng mô hình và mô phỏng hệ thống trên phần mềm
4. Nội dung nghiên cứu.
- Nội dung cơ bản của luận văn gồm có 04 chƣơng nhƣ sau:

Chƣơng 1: Tổng quan về tổng hợp tiếng nói.
Chƣơng này trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng nhƣ
ứng dụng của nó vào một số phƣơng pháp tổng hợp tiếng nói. Chƣơng 1 cũng chỉ ra
một số đặc điểm của ngữ âm, ngôn điệu tiếng việt
Chƣơng 2: Tìm hiểu một số phƣơng pháp tổng hợp tiếng nói.
Trong phần này, tôi trình bày khái quát một số phƣơng pháp tổng hợp tiếng nói hiện
nay và những đánh giá sơ bộ về từng phƣơng pháp.
- Phƣơng pháp tổng hợp theo cấu âm.
- Phƣơng pháp tổng hợp theo formant.
- Phƣơng pháp tổng hợp theo ghép chuỗi.
- Phƣơng pháp tổng hợp theo mô hình Markov ẩn
Chƣơng 3: Chuẩn hoá văn bản và thuật toán phân tích văn bản.
- Tìm hiểu về các phƣơng pháp phân tích, chuẩn hóa văn bản trong tổng hợp tiếng
nói.
- Tìm hiểu những đặc trƣng ngữ âm tiếng Việt và từ tiếng Việt.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

- Mô hình ngôn ngữ N-grams ứng dụng trong phân tích văn bản cho tổng hợp tiếng
nói.
- Phƣơng pháp gán nhãn dùng N-grams
Chƣơng 4: Cài đặt
- Cài đặt thử nghiêm modul chuẩn hóa văn bản cho tiếng Việt

















Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

CHƢƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI
1.1.Giới thiệu về tổng hợp tiếng nói
1.1.1.khái niệm về tổng hợp tiếng nói
Tổng hợp tiếng nói là việc tạo ra tiếng nói con ngƣời từ đầu vào là văn bản
hay các mã hóa ngữ âm. Hệ thống tổng hợp tiếng nói cho phép chuyển đổi nội dung
văn bản của một ngôn ngữ nhất định trong thực tế thành tiếng nói tƣơng ứng. Tổng
hợp tiếng nói là một phần trong bài toán xử lý ngôn ngữ tự nhiên - bao gồm cả nhận
dạng và tổng hợp tiếng nói.
Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang
tín hiệu tiếng nói. Chất lƣợng của một bộ tổng hợp tiếng nói đƣợc đánh giá bằng
mức độ giống nhau của nó với giọng nói con ngƣời. Ứng dụng của Hệ thống tổng
hợp tiếng nói từ văn bản ngày càng trở nên phổ biến, chúng ta có thể thấy hệ thống
này trong các hệ thống, thiết bị sử dụng tƣơng tác ngƣời máy bằng tiếng nói (robot
thông minh, hệ thống dẫn đƣờng, hệ thống khai thác thông tin), hệ thống hỗ trợ cho
ngƣời khiếm thị, ngƣời khuyết tật mất khả năng nói. Nhiều hệ điều hành đã bao
gồm cả bộ tổng hợp tiếng nói từ đầu thập niên 1980.
1.1.2.Mô hình của một bộ tổng hợp tiếng nói

Hình 1.1:Mô hình hệ thống TTS
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


Một hệ thống tổng hợp tiếng nói bao gồm 2 bộ phận chính:
* Mức cao (Front-end): thực hiện các bước phân tích văn bản đầu vào
- Phân tích văn bản:
o Phát hiện cấu trúc văn bản
o Chuẩn hóa văn bản
o Phân tích ngôn ngữ
- Phân tích ngữ âm:
o Chuyển đổi từ hình vị sang âm vị
- Phân tích ngôn điệu:
Thêm các thông số về tần số cơ bản, trƣờng độ, khoảng ngừng, cao độ
* Mức thấp (Back-end): tổng hợp tiếng nói từ văn bản đã được phân tích
Tại mức tổng hợp mức thấp ta có 3 phƣơng pháp tổng hợp tiếng nói bao
gồm:
- Tổng hợp ghép nối.
- Tổng hợp formant.
- Tổng hợp cấu âm.
Các quá trình chuyển đổi
Theo sơ đồ tổng quát, để thực hiện việc chuyển đổi văn bản thành tiếng
nói phải thực hiện bốn bƣớc sau đây:
a. Chuẩn hoá văn bản (Text Normalization): Xác định biên của câu và từ,
chuyển chữ số trong văn bản thành dạng chữ, chuyển đổi các chữ viết tắt và ghi
nhận một số dấu quan trọng cho phần xử lý ngữ điệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

b. Chuyển đổi từ chữ sang âm vị (Grapheme to Phoneme) dựa trên từ điển
phát âm hay theo quy luật ngôn ngữ. Quá trình chuyển đổi “phiên âm” này rất
quản trọng, chiếm tới hơn 30% khối lƣợng cộng việc cho phần lớn các ngôn ngữ và
chữ viết không phải là loại chữ viết ghi âm. Chữ viết của tiếng Việt là loại chữ viết
ghi âm nên việc phát triển một hệ thống tổng hợp tiếng Việt giảm đƣợc rất nhiều.

c. Dự báo ngữ điệu từ văn bản: độ dài, cao độ tần số cơ bản của các ngữ
đoạn tổng hợp phải phù hợp với các quy luật về ngữ điệu của một ngôn ngữ. Đó là
việc xác định vị trí trọng âm của từ đƣợc phát âm. Lên xuống giọng ở các vị trí
khác nhau trong câu, nhƣ đầu câu, cuối câu, … và xác định các biến thể khác nhau
của các âm phụ thuộc vào ngữ cảnh khi đƣợc phát âm trong một ngữ lƣu liên tục.
Bƣớc này bao gồm cả việc xác định điểm dừng nghỉ lấy hơi khi phát âm, nói hoặc
đọc một văn bản. Từ đó tạo ra các thông tin để điều khiển ngữ điệu thích hợp cho
bộ tổng hợp tiếng nói.
d. Tổng hợp tiếng nói là giai đoạn cuối cùng thực hiện việc giải mã các
thông tin từ chuỗi mô tả ngữ âm nhận đƣợc từ khối xử lý văn bản, tạo ra chuỗi
các tham số cho bộ tổng hợp (phụ thuộc vào phƣơng pháp tổng hợp). Bộ tổng hợp
tạo ra tín hiệu tiếng nói dạng sóng.
Theo sơ đồ trên thì giao diện giữa hai khối xử lý ngôn ngữ tự nhiên và xử lý
tính hiệu số đƣợc định nghĩa rõ ràng và việc nghiên cứu về hai quá trình có thể
đƣợc thực hiện riêng rẽ, độc lập với nhau. Bây giờ chúng ta giả thiết rằng thông tin
chất lƣợng cao nhất đƣợc cung cấp tại đầu vào của bộ phận xử lý tín hiệu số giống
nhƣ những gì con ngƣời đọc cảm nhận đƣợc. Phần xử lý tín hiệu số trên phƣơng
diện nào đó phải xét đến các hạn chế phát âm, bởi vì ta đã biết rằng sự biến đổi ngữ
âm (phần động, chuyển tiếp giữa các âm) quan trọng đối với việc hiểu lời nói hơn là
các phần tĩnh của lời nói (Liberman, 1959). Tổng hợp tiếng nói có thể đạt đƣợc cơ
bản theo hai phƣơng pháp:
• Phƣơng pháp thứ nhất đƣợc thực hiện dƣới dạng một loạt các quy
tắc mô tả một cách chính thức các âm vị, ảnh hƣởng lẫn nhau giữa các âm vị khi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

phát ra một âm.
• Phƣơng pháp thứ hai là lƣu giữ những mẫu âm vị, biến đổi âm vị và
đồng phát âm vào cơ sở dữ liệu tiếng nói và sự dụng chúng nhƣ chúng vốn có là
các đơn vị âm học cơ bản (ở vị trí của âm vị).
Nội dung phần tiếp theo là trình bày chi tiết hơn về hai mô đun chính

trong tổng
hợp tiếng nói là xử lý ngôn ngữ tự nhiên và xử lý tín hiệu số.
1.1.2.1. Thành phần xử lý ngôn ngữ tự nhiên
Trong hình vẽ sau đây sẽ mô tả chức năng của mô đun xử lý ngôn ngữ tự
nhiên của hệ thống chuyển đổi văn bản thành tiếng nói. Mô đun xử lý ngôn ngữ tự
nhiên lấy văn bản đầu vào và sinh ra phiên âm âm vị cùng với các thông tin về ngữ
điệu và ngôn điệu phục vụ cho mô đun xử lý tín hiệu tiếng nói. Có ba thành
phần chính trong mô đun xử lý ngôn ngữ tự nhiên: thành phần chuyển ký tự thành
âm vị, thành phần sinh ngôn điệu và thành phần phân tích cú pháp hình vị. Trong
quá trình phát triển hệ tổng hợp, có thể bỏ qua phần sinh ngôn điệu. Tuy nhiên,
chất lƣợng tiếng nói tổng hợp tốt hay không lại rất phụ thuộc vào phần sinh ngôn
điệu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Hình 1.2: Thành phần xử lý ngôn ngữ tự nhiên trong hệ tổng hợp tiếng nói.

* Phân tích văn bản
Phân tích văn bản là một thành phần ngôn ngữ độc lập trong hệ thống tổng
hợp. Mục đích của bƣớc phân tích văn bản là diễn giải đƣợc văn bản đầu vào thành
một chuỗi văn bản để máy có thể hiểu và đọc đúng theo phiên đó. Quá trình này bao
gồm ba bƣớc chính:
- Tiền xử lý: Mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ.
Nó xác định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng
thành dạng văn bản đầy đủ khi cần đến.
- Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

riêng lẻ dựa vào các cách phát âm cơ bản.

- Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng
trong từng ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để
phiên âm phù hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự
nhập nhằng về mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó.
* Chuyển ký tự thành âm thanh
Mô đun này xác định phiên âm âm vị của văn bản đầu vào. Trong phần này
có hai kiểu mô đun phổ biến nhất là mô đun dựa trên từ điển và mô đun dựa trên
luật.
Một ví dụ về phiên âm văn bản đầu vào để hệ thống tổng hợp có thể hiểu
đƣợc và phát âm, câu ”Hôm nay trời đẹp quá!” đƣợc phiên âm thành ”hoom
nay trowif ddepj quas”. Ví dụ này minh họa việc chuyển thành phiên âm cho máy
hiểu sử dụng trong tiếng Việt.
Giải pháp dựa trên từ điển dựa trên cơ sở dữ liệu tri thức lớn. Để có từ điển
kích thƣớc nhỏ có thể, các mục thƣờng giới hạn các âm vị. Chẳng hạn trong tiếng
Anh thƣờng chỉ lƣu các từ gốc nhƣ ”go” chứ không lƣu trữ ”goes” hay ”gone”.,
trong tiếng Việt thì các âm vị k, c, qu trong các âm tiết nhƣ ”kính”, ”canh”,
”quyết” là nhƣ nhau.
Bên cạnh đó, một phƣơng pháp khác là hệ thống phiên âm dựa theo luật
biến đổi hầu hết khả năng âm vị có thể có trong từ điển thành các luật. Ở đây, các
từ đƣợc phát âm theo mỗi cách riêng tạo thành luật lƣu trữ trong từ điển ngoại lệ.
Khi tìm thấy quá nhiều ngoại lệ trong từ điển thì có thể dùng phƣơng pháp thống kê
tỉ lệ các từ xuất hiện trong văn bản.
Tuy nhiên, phƣơng pháp sử dụng từ điển đạt chất lƣợng cao hơn phƣơng
pháp dựa trên luật vì từ điển có khả năng chứa đƣợc toàn bộ âm vị trên máy tính.
* Sinh ngôn điệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Thuật ngữ ngôn điệu liên quan đến tính chất nào đó của tín hiệu tiếng nói mà
liên quan đến thay đổi pitch, độ to nhỏ, độ dài âm tiết. Các đặc trƣng ngôn điệu có
các hàm riêng trong liên kết tiếng nói. Ảnh hƣởng rõ nhất của ngôn điệu là trọng

điểm. Chẳng hạn, có các sự kiện pitch nào đó mà làm âm tiết nổi bật trong phát
âm, và gián tiếp từ hay nhóm cú pháp thuộc về nó sẽ sáng nhƣ là thành phần quan
trọng và mới có ý nghĩa của phát âm. Hiện tại việc đánh dấu đƣợc trọng tâm có
thể có nhiều ảnh hƣởng nhƣ sự trái ngƣợc phụ thuộc vào nơi xảy ra nó hay ngữ
cảnh ngữ nghĩa của phát âm.
Các đặc trƣng ngôn ngữ tạo ra một chuỗi đoạn tiếng nói thành nhóm các âm
tiết. Chúng cũng làm nhóm các âm tiết và các từ lớn hơn. Hơn nữa, có những đặc
trƣng ngôn điệu chỉ mối quan hệ giữa các nhóm đánh dấu hai hay nhiều nhóm
âm tiết đƣợc liên kết theo một cách nào đó. Tác dụng của việc nhóm này là có tính
thừa kế, mặc dù không giống cấu trúc cú pháp của phát âm.
1.1.2.2. Thành phần xử tín hiệu số
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ
đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đƣa chúng thành các tín hiệu tiếng
nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo
luật hoặc tổng hợp ghép dựa trên ghép nối.
* Tổng hợp dựa trên luật
Theo Dutoit thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hƣởng
của các âm vị lên một âm vị khác và hầu nhƣ nó rất phù hợp với các nhà ngữ âm
học, chúng liên quan đến việc tích lũy kinh nghiệm, cách tiếp cận có khả năng
tạo ra máy phiên âm âm vị theo luật.
Dutoit cũng phát biểu rằng: ”Với những lí do về lịch sử và thực tế, tổng hợp
luật luôn xuất hiện dƣới dạng tổng hợp formant. Cách tiếp cận này miêu tả tiếng nói
nhƣ là sự tƣơng tác của tần số formant và tần số ngƣợc formant và băng thông và
sóng thanh môn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Tổng hợp dựa trên luật vẫn là cách tiếp cận tiềm tàng cho tổng hợp tiếng
nói. Ƣu điểm của phƣơng pháp này là cho phép thay đổi đặc trƣng giọng nói mà
độc lập với ngƣời nói nhờ các luật riêng trong cơ sở dữ liệu luật. Tuy nhiên, nhƣợc
điểm của phƣơng pháp này là rất khó thu thập đƣợc đầy đủ các luật để mô tả tính

phong phú của ngôn điệu. Hơn nữa, việc thu thập luật là công việc nhàm chán.
* Tổng hợp ghép nối
Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế nhƣ là các đơn vị tổng
hợp và ghép nối đơn vị cùng sinh ra tiếng nói. Dutoit [Dutoit 93] cho rằng tổng hợp
tiếng nói bằng ghép nối là cách tiếp cận đơn giản nhất và hiệu quả nhất. Hơn nữa,
các hệ thống tổng hợp hiện nay cũng chủ yếu theo phƣơng pháp ghép nối đơn vị.
Vì vậy, bằng cách tiếp cận ghép nối, lựa chọn đơn vị là tiêu chuẩn sinh tiếng nói
chất lƣợng cao. Các đơn vị tiếng nói đƣợc chọn sao cho cực tiểu những vấn đề
trong khi ghép nối nhƣ chỗ khớp tiếng nói. Thông thƣờng, các đơn vị tiếng nói
đƣợc lƣu trữ trong cơ sở dữ liệu lớn.
Trong phần trƣớc, các âm vị đƣợc thừa nhận nhƣ là các đơn vị tổng hợp cơ
bản. Với những ứng dụng đòi hỏi bộ nhớ nhỏ thì việc giảm kích thƣớc lƣu trữ cũng
đáng quan tâm. Nhƣ vậy, việc dùng âm vị có thể làm giảm đáng kể bộ nhớ nhƣng
nó lại xuất hiện rất nhiều lỗi gián đoạn do việc ghép nối của các âm vị. Cho nên,
Dutoit cũng có đề xuất là đơn vị tiếng nói có thể là diphone hoặc triphone.
Chọn diphone hay triphone làm giảm đƣợc lỗi trong ghép nối, chất lƣợng tốt hơn
tuy bộ nhớ có tăng lên.
Các mô hình dùng trong tổng hợp ghép nối thƣờng dựa trên các công cụ xử
lý tiếng nói và một số cách biểu diễn nhƣ tổng hợp mã dự báo tuyến tính
[TLTK](LPC), Harmonic/Stochastic, cộng chồng đồng bộ [TLTK] (PSOLA) và
cộng chồng đồng bộ miền thời gian (TD-PSOLA).
Ƣu điểm của thuật toán PSOLA là có thể tạo ra tiếng nói tổng hợp có chất
lƣợng cao với độ tính toán phức tạp thấp. Nó có thể đƣợc áp dụng tối ƣu hóa đơn vị

×