Tải bản đầy đủ (.pdf) (4 trang)

Tài liệu Báo cáo " Nghiên cứu các phương pháp tổng hợp tiếng Việt cho các hệ thống có tài nguyên hạn chế " ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (211.28 KB, 4 trang )

Nghiên cứu các phương pháp tổng hợp tiếng
Việt cho các hệ thống có tài nguyên hạn chế

Nguyễn Tu Trung

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS. Lương Chi Mai
Năm bảo vệ: 2011

Abstract: Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài nguyên. Trình bày
khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó và một
số phương pháp tổng hợp tiếng nói. Một số đặc điểm của ngữ âm, ngôn điệu tiếng
Việt. Giới thiệu sơ lược về các hệ thống hạn chế tài nguyên. Tổng hợp tiếng nói từ văn
bản và yêu cầu trên hệ thống tài nguyên hạn chế. Trình bày thành phần cơ bản của hệ
tổng hợp tiếng nói từ văn bản. Phân tích về vấn đề tổng hợp tiếng nói trên hệ thống tài
nguyên hạn chế và đưa ra những yêu cầu, điều kiện cần thiết để một hệ tổng hợp trên
máy tính có thể chuyển xuống hệ thống này. Giới thiệu và phân tích về hai hệ tổng
hợp tiếng Việt có khả năng chuyển vào hệ thống tài nguyên hạn chế. Tối ưu hóa lưu
trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp VnVoice. Khả năng áp dụng biểu
diễn số dấu chấm tĩnh để giảm thiểu bộ nhớ và tăng tốc độ tính toán. Phân tích cách
thức tối ưu hóa lưu trữ và một số thao tác tính toán của hệ tổng hợp VnVoice để thực
sự đáp ứng các yêu cầu trên hệ thống hạn chế tài nguyên. Xây dựng thử nghiệm hệ
thống tổng hợp tiếng Việt trên hệ thống tài nguyên bộ nhớ hạn chế. Phân tích, thiết kế
thử nghiệm hệ tổng hợp tiếng Việt trên hệ thống hạn chế tài nguyên bộ nhớ. Tổng
quan về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản
đồ (tích hợp trong phần mềm ArcPad) chạy trên nền WinCE. Trình bày một thử
nghiệm so sánh chất lượng giọng tổng hợp tiếng Việt giữa chương trình demo với
phiên bản VnSpeech trên WinCE và với chính hệ tổng hợp VnVoice.

Keywords: Xử lý tín hiệu; Âm thanh; Tiếng Việt; Công nghệ phần mềm



Content
MỞ ĐẦU
Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu và các
phương pháp xử lý tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là
được “số hóa”. Do đó, xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số và xử lý
ngôn ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được nghiên cứu từ rất lâu. Ở Việt Nam,
khoảng hơn chục năm trở lại đây đã có một số sản phẩm ra đời cả về tổng hợp và nhận dạng
tiếng nói.
Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người
ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên
hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù

2
của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử
dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu trên thế giới đã đạt
được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại
chip với khả năng lưu trữ và tính toán rất thấp.
Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các hệ
thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài nghiên cứu
về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ thống nhúng đã và
đang triển khai đã minh chứng cho nhu cầu này.
Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu một số phương pháp tổng hợp
tiếng nói và đề xuất cách thức tối ưu trên hệ thống hạn chế tài nguyên.
Luận văn sẽ được chia thành 4 chương bao gồm:
Chương 1: Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài nguyên.
Chương này trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng
của nó và một số phương pháp tổng hợp tiếng nói. Chương 1 cũng chỉ ra một số đặc điểm của
ngữ âm, ngôn điệu tiếng Việt. Ngoài ra, chương 1 còn giới thiệu sơ lược về các hệ thống hạn
chế tài nguyên.

Chương 2: Tổng hợp tiếng nói từ văn bản và yêu cầu trên hệ thống tài nguyên
hạn chế. Chương này giúp người đọc nắm được về các thành phần cơ bản của hệ tổng hợp
tiếng nói từ văn bản. Tiếp theo, chương 2 phân tích về vấn đề tổng hợp tiếng nói trên hệ thống
tài nguyên hạn chế và đưa ra những yêu cầu, điều kiện cần thiết để một hệ tổng hợp trên máy
tính có thể chuyển xuống hệ thống này. Cuối cùng, chương 2 giới thiệu và phân tích về hai hệ
tổng hợp tiếng Việt có khả năng chuyển vào hệ thống tài nguyên hạn chế.
Chương 3: Tối ưu hóa lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp
VnVoice. Chương này chỉ ra khả năng áp dụng biểu diễn số dấu chấm tĩnh để giảm thiểu bộ
nhớ và tăng tốc độ tính toán. Chương 3 còn phân tích cách thức tối ưu hóa lưu trữ và một số
thao tác tính toán của hệ tổng hợp VnVoice để thực sự đáp ứng các yêu cầu trên hệ thống hạn
chế tài nguyên.
Chương 4: Xây dựng thử nghiệm hệ thống tổng hợp tiếng Việt trên hệ thống tài
nguyên bộ nhớ hạn chế. Chương này trình bày việc phân tích, thiết kế thử nghiệm hệ tổng
hợp tiếng Việt trên hệ thống hạn chế tài nguyên bộ nhớ. Sau đó, chương 4 trình bày sơ lược
về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản đồ (tích hợp
trong phần mềm ArcPad) chạy trên nền WinCE. Sau đó, chương 4 cũng trình bày một thử
nghiệm so sánh chất lượng giọng tổng hợp tiếng Việt giữa chương trình demo với phiên bản
VnSpeech trên WinCE và với chính hệ tổng hợp VnVoice.
Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong
dấu ngoặc vuông [].

References
Tiếng Việt
1. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Bùi Quang Trung (2002), “Chuẩn hóa và phân
tích tiếng Việt cho tổng hợp tiếng Việt”, Kỷ yếu Hội thảo quốc gia về công nghệ thông tin,
Nha Trang.

3
2. Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất lượng tổng hợp tiếng
Việt và thử nghiệm cho phần mềm VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ,

Đại học Quốc gia Hà Nội.
3. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần, Luận
án Tiến sĩ, Học viện Công nghệ Bưu chính Viễn thông.
4. Lưu Hồng Việt, Hệ thống điều khiển nhúng, bài giảng, Bộ môn Điều khiển tự động,
Trường Đại học Bách khoa Hà Nội.
5.
Tiếng Anh
6. J. Allen, M. Sharon Hunnicutt and Klatt (1987), From text To speech – The MITalk
Systems, Cambridge University Press.
7. Bamini, Praveen Kumar (2003), FPGA-based Implementation of Concatenative Speech
Synthesis Algorithm, Theses and Dissertations.
8. D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and CostelIlas (2004), An
Optimized TTS System Implementation Using a Motorola Starcore C140-Based Processor,
Proceedings of the International Conference on Acoustics, Speech, and Signal Processing
ICASSP 2004.
9. P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential Pulse Coding Modulation
(ADPCM) on the TMS320C54x DSP, Texas Instrument.
10. S. Dey, Monu Kedia, Anupam Basu (2007), Architectural Optimizations for Text to
Speech Synthesis in Embedded Systems, Proceedings of the Asia and South Pacific Design
Automation Conference (ASP-DAC '07) 2007.
11. T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech Synthesis based on an
MBE Re-Synthesis of the Segments Database", Speech Communication, Elsevier
Publisher, November, vol. 13, n°3-4.
12. M.J. LIBERMAN, K.W. CHURCH (1992), "Text analysis and word pronunciation in
text-to-speech synthesis", in Advances in Speech Signal Processing, S. Furuy, M.M.
Sondhi eds., Dekker, New York, pp.791-831.
13. J. Patton (2007), ELEC 484 Project – Pitch Synchronous Overlap-Add,
/>%20PSOLA%20Final%20Project%20Report.pdf.
14. H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider (2002), Real-Time
Speech Synthesis on An Ultra Low-Resource, Programable DSP System, Proceedings of

the International Conference on Acoustics, Speech, and Signal Processing ICASSP 2002.
15. Styger, T., Keller, E., Formant synthesis. In E.keller (ed.), Fundamental of Speech
Synthesis and Speech Recognition: Basic concepts, State of the Art, and Future
Challenges, (pp. 109-128), Chichester: Jonh Wiley. (from Internet).
16. Xuedong H. (1997), Recent Improvement on Microsoft’s Trainable Text-to-Speech
Systems, ICASSP.
17. J. Yu, Meng Zhang, Jianhua Tao, Xia Wang (2007), A Novel HMM-Based TTS System
Using Both Continuous HMMs and Discrete HMMs, Proceedings of the International
Conference on Acoustics, Speech, and Signal Processing ICASSP 2007.

4
18. H. Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW. Black,
Keiichi Tokuda (2007), The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 6th
ISCA Workshop on Speech Synthesis, Bonn, Germany.
19.
/>_an.pdf
20.
21.
22.

×