Tải bản đầy đủ (.docx) (17 trang)

SƠ LƯỢC VỀ TIẾNG NÓI VÀ CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (335.47 KB, 17 trang )

SƠ LƯỢC VỀ TIẾNG NÓI VÀ CÁC PHƯƠNG
PHÁP TỔNG HỢP TIẾNG NÓI
I. Sơ lược về tiếng nói :
I.1. Đặc t ính c hung c ủa t iếng n ói :
Tiếng nói là công cụ diễn đạt thông tin rất uyển chuyển và đặc biệt. Khi chúng ta phát
ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản…kết hợp
với nhau để tạo thành âm thanh. Âm thanh này lan truyền trong không khí để đến tai người
nhận; chính vì sự kết hợp của rất nhiều bộ phận để tạo ra âm thanh này nên âm thanh được
phát ra ở mỗi lần hầu như là khác nhau. Vì vậy việc phân chia tiếng nói thành những loại
có đặc tính riêng là rất khó. Ở đây người ta tạm chia thành ba loại:
• Voiced sound :
Khi chúng ta nói chữ
"a" hay chữ "o" thanh môn của ta rung và giãn ra, áp suất không khí ban đầu lớn và từ từ
giảm xuống, lúc này âm phát ra có dạng sóng wave đặc trưng như hình vẽ.
• Unvoiced sound :
Là âm khi ta phát ra một tiếng mà thanh môn không rung. Có hai loại cơ bản: phụ âm sát
(fricative) và âm bật hơi (aspirate). Đối với phụ âm sát (khi phát âm vần "s"), điểm co thắt
được tạo ra tại vài điểm trên bộ máy phát âm, và không khí được đẩy qua nó. Vì điểm co
thắt có khuynh hướng xảy ra gần miệng, tiếng dội của bộ máy phát âm có ảnh hưởng nhỏ
trong việc tạo nên phụ âm sát. Đối với âm bật hơi (khi phát âm vần "h") sự dao động không
khí xảy ra tại thanh môn bởi vì dây thanh âm được giữ lại một phần. Trong trường hợp này,
tiếng dội của bộ máy phát âm điều chỉnh phổ của tiếng ồn. Điều này được thấy rõ nhất khi
chúng ta nghe những âm thanh nhỏ, xì xào.
• Plosive sound :
Trong trường hợp này, bộ máy phát âm được đóng kín, áp suất không khí bị nén và được
giải thoát thình lình. Sự giải thoát nhanh chóng áp suất này tạo nên một sự kích thích ngắn
cho bộ máy phát âm. Sự kích thích ngắn này có thể xảy ra với sự có rung / không rung của
dây thanh môn để tạo nên âm thanh voice/unvoice plosive
I.2. Công nghệ Text–to–speech dùng để tổng hợp tiếng nói :
Text-to-speech là một kỹ thuật dùng để chuyển dạng văn bản (text) sang tiếng nói
(speech) . Text–to–speech được phân loại dựa vào phương pháp chuyển văn bản sang


tiếng nói :
 Concatenated word :
Với phương pháp này, những từ và ngữ phải được thu âm trước. Khi nhận được một
chuỗi cần đọc, máy sẽ tách ra thành từng từ một. Sau đó, máy sẽ tìm các từ đã được thu âm
tương ứng và ghép lại với nhau , tạo ra một chuỗi tiếng nói liên tục
 Tổng hợp :
Phương pháp này phức tạp hơn nhiều vì sẽ tổng hợp tạo âm giống như những gì được
tạo bởi giọng nói của con người phát ra. Phương pháp này cần cung cấp nhiều bộ lọc mô
phỏng chiều dài, cổ họng, khoang miệng, hình dạng môi và vị trí lưỡi. Tuy nhiên tiếng nói
được tạo bởi kỹ thuật tổng hợp này thường ít giống giọng con người , nhưng có thể đạt
được những chất lượng khác nhau của giọng bằng cách thay đổi một vài thông số.
 Hai âm tố (Diphone Concatenation) :
Phương pháp này nối những đoạn ngắn âm thanh được số hóa lại với nhau và tạo ra
âm thanh liên tục. Mỗi diphone bao gồm hai âm vị (phonemes), một âm vị bắt đầu âm ,âm
vị còn lại kết thúc âm. Ví dụ từ "hello" bao gồm những âm vị sau: " h eh l oe" .Những
diphone tương ứng là "silence - h h -eh eh -l l-oe oe-silence” .
Diphone được tạo bằng cách thu giọng người và xác định một cách cẩn thận tỉ mỉ vị
trí bắt đầu và kết thúc của những âm vị. Mặc dù kỹ thuật này có thể tạo âm giống thật, phải
tốn công sức để làm việc này và giọng không cố định bởi những âm vị chỉ đặc trưng bởi
ngôn ngữ của người phát âm.
I.3. Sự cần thiết của công nghệ Text–to–speech (TTS) :
Một ứng dụng sử dụng TTS khi nó cần chuyển dạng văn bản mang tính chất động
sang dạng tiếng nói. Đó là những văn bản có thể thay đổi thường xuyên, không cố định.
Nếu chúng ta sử dụng phương pháp ghi âm cho toàn văn bản thì trước hết là không gian
lưu trữ sẽ cần rất lớn nếu như văn bản đó dài hoặc có nhiều văn bản khác nhau. Và sau đó
nếu ta thay đổi văn bản khác thì sẽ phải tiến hành ghi âm lại.
Nói tóm lại TTS có một số lợi ích và ứng dụng như sau :
- Đọc văn bản động : TTS hữu dụng cho những văn bản thay đổi thường xuyên. Ví dụ :
sau khi nhận được e-mail, ta có thể yêu cầu máy tự đọc cho mình nghe.
- Kiểm tra văn bản : Với một văn bản chi chít chữ, ta có thể yêu cầu máy đọc để phát

hiện những từ gõ sai
- Tiết kiệm không gian lưu trữ
- Thông báo bằng giọng nói thay cho chuỗi thông báo trên màn hình
- Ứng dụng truyền thông : TTS được ứng dụng trong hộp thư thoại, hệ thống trả lời tự
động
II. Các phương pháp tổng hợp tiếng nói trong hệ thống tiếng Việt :
II.1.Sự cần thiết của việc tổng hợp tiếng nói :
Khi cần thông báo cho người sử dụng bằng tiếng nói thì những chuỗi tiếng nói này
phải được thu âm trước. Cách đơn giản nhất là mỗi câu nói ta thu âm lại thành một file.
Khi cần đọc câu nào thì ta mở file âm thanh tương ứng với câu đó. Cách làm này có ưu
điểm là trung thực và đạt độ tự nhiên cao nhưng có hai nhược điểm rất lớn là không linh
hoạt và tốn nhiều dung lượng nhớ để lưu trữ các file âm thanh. Nhằm tăng tính linh hoạt
cho hệ thống tự động và giảm dung lượng lưu trữ , ta phải dùng kỹ thuật tổng hợp tiếng
nói.
II.2.Các tiêu chuẩn cần thỏa mãn khi tổng hợp tiếng nói :
Tiếng nói tổng hợp dù sao cũng không phải là tiếng nói thực cho nên không thể giống
hoàn toàn tiếng nói tự nhiên. Tuy nhiên khi sử dụng kỹ thuật này, cần thỏa 2 tiêu chuẩn
tối thiểu:
- Đạt độ trung thực tương đối để mọi người có thể hiểu được mà không cần học hỏi
hoặc tập trung nghe cao độ. Nếu không đạt được điều này thì tiếng nói tổng hợp sẽ không
thể sử dụng được trong thực tế vì sẽ làm người nghe khó chịu.
- Khối lượng lưu trữ không quá lớn để tiện sử dụng và có thể phổ biến nhiều nơi
II.3.Các phương pháp tổng hợp tiếng nói cho tiếng Việt :
Có 2 hướng tổng hợp tiếng nói chính là tổng hợp dựa vào việc phân tích tần số và
tổng hợp dựa vào việc ghép âm. Đối với hướng phân tích tần số, ta phân tích các đặc trưng
tiếng nói để tìm ra tần số, pha. Khi tổng hợp sẽ tái tạo tiếng nói từ các đặc tính này. Theo
nghiên cứu của các chuyên gia thì hướng này rất phức tạp và chất lượng âm còn kém.
Trong khi đó, hướng tổng hợp dựa vào việc ghép âm dễ dàng được hiện thực trên máy tính
hơn.
 Ghép từng từ đơn :

Tính chất tiếng Việt là âm của từ đầu không ảnh hưởng âm các từ sau. Do đó ta
có thể ghép các từ thành một câu.
Tiếng Việt phổ thông có khoảng hơn 6000 từ. Nếu ta thu với tần số lấy mẫu
8KHz, 8 bit/mẫu, mono, nén PCM. Mỗi từ thu trong 0.8 giây thì khối lượng âm thanh cần
lưu trữ là:
6000 * 8000 * 1 * 1 * 0.8 = 38,400,000 byte
 Nhận xét :
- Phương pháp này đạt độ tự nhiên cao nhất và cách hiện thực đơn giản nhất.
- Mức độ ảnh hưởng của từ đi trước với từ đi sau là không đáng kể và có thể chấp nhận
được.
- Không thể thu âm đầy đủ các từ trong tiếng Việt vì tiếng Việt có rất nhiều từ vay
mượn từ các thứ tiếng khác, và có từ không có trong từ điển tiếng Việt nhưng vẫn có thể
phát âm ra được.
- Khối lượng dữ liệu của phương pháp này là khá lớn so với các phương pháp khác.
Tuy nhiên, với dung lượng đĩa cứng ngày nay thì vấn đề dung lượng như thế không phải là
vấn đề đáng lo ngại.
 Ghép âm theo các âm tiết cơ bản nhất:
Ví dụ: "bằng" được ghép từ [b]+[ằ]+[ng]
Phương pháp này có khối lượng lưu trữ nhỏ nhất vì chỉ có 28 phụ âm và 68 nguyên
âm cùng các biến thể thanh. Khối lượng lưu trữ:
(28+68) * 8000 * 1 * 1 * 0.8 = 614,400 byte
 Nhận xét :
- Khối lượng lưu trữ rất nhỏ
- Rất khó hiện thực vì khi phụ âm có vai trò làm phụ âm cuối, chúng được phát âm
khác với khi chúng làm phụ âm đầu. Phụ âm đầu mở ra để kết hợp với nguyên âm, phụ âm
cuối khép lại không kết hợp với nguyên âm nữa. Cần chú ý khi phát âm nguyên âm trong
trường hợp âm cuối là loại tắc (vô thanh), ví dụ như p, t, c. Khi này thanh điệu không thể
hiện trên phụ âm cuối mà thể hiện ở giai đoạn chuyển tiếp từ nguyên âm sang âm cuối.
- Chất lượng âm của phương pháp này rất thấp.
 Ghép âm từ hai âm (loại 1):

Ví dụ : "bằng" được ghép từ [b] + [ ằng] .
Một từ được tách ra làm hai phần là phụ âm đầu và vần. điều này căn cứ trên đặc điểm
tiếng Việt là phụ âm đầu ít phụ thuộc vào phần vần và thanh điệu. Trong đó, phụ âm đầu
được cắt rất ngắn chỉ còn lại âm bật. Phần vần cũng được cắt bỏ ở phần đầu một lượng
tưng ứng.
Phương pháp này cho chất lượng âm thanh tương đương so với phương pháp ghép từ
đơn. Theo phương pháp này ta tách được 28 phụ âm đầu và 650 phần vần. Với cách thu âm
như trước thì khối lượng lưu trữ sẽ là:
650 * 8000 * 1 * 1 * (0.8 - 0.15) + 28 * 8000 * 1 * 1 * 0.15 = 3,143,600 byte
Âm của phụ âm “tr”
Âm của vần “inh”
Vần “inh” sau khi được xén bớt phần thừa
Âm “tr” sau khi được xén bớt phần thừa

×