Tải bản đầy đủ (.pdf) (11 trang)

thiết kế hệ thống trả lời tự động, chương 9 pps

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (252.65 KB, 11 trang )

Chương 9: Kỹ thuật ngoại diện
1. Chuẩn hóa văn bản.
Quá trình chuẩn hóa văn bản thường không ñơn giản. Lý do là
cácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt ñòi hỏi
hiểu ñể diễn ñạt lại trong văn bản ñầy ñủ.
Trong một số ngôn ngữ, các từ có thể ñược phát âm khác nhau
từy theo ngữ cảnh.
ð
a số hệ thống tổng hợp giọng nói không tạo ra
thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có công
nghệ ñáng tin cậy. Thay vào ñó, nhiều cách lần mò ñược dùng ñể
phân biệt các cách phát âm, như tìm các từ kế cận hay dùng thống
kê về tần số xuất hiện.
Việc chọn cách phát âm số cũng là một vấn ñề. Lý do là cũng
có nhiều cách phất âm số từy theo văn cảnh. Như 1325 có thể ñọc
"một nghìn ba trăm hai mươi nhăm" nếu nó là một số tự nhiên,
nhưng cũng có thể là "một ba hai năm" nếu nó là bốn số mật mã
ngân khoản. Thường hệ thống tổng hợp giọng nói có thể ñoán văn
cảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh,
hoặc dùng trường hợp mặc ñịnh khi không thể phân ñịnh.
Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, từy
thuộc quy
ước của người viết.
2. Chuyển Văn bản sang âm vị.
Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản ñể xác
ñịnh cách phát âm cho một từ, một quá trình còn ñược gọi là chuyển
ñổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữ
dùng bởi các nhà ngôn ngữ học ñể mô tả các âm khác nhau trong
ngôn ngữ.
Cách thứ nhất, và ñơn giản nhất, là dựa vào từ ñiển, sử dụng
một từ ñiển lớn chứa tất cả các từ của một ngôn ngữ và chứa cách


phát âm ñúng tương ứng cho từng từ, lưu trong máy tính. Việc xác
ñịnh cách phát âm ñúng cho một từ chỉ ñơn giản là tra trong từ ñiển
và thay ñoạn văn bản bằng mã phát âm ñã ghi trong từ ñiển.
Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âm
ñể tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc.
Mỗi cách ñều có ưu ñiểm và nhược ñiểm. cách dựa trên từ
ñiển nhanh và chính xác, nhưng sẽ không hoạt ñộng nếu từ cần phát
âm không có trong từ ñiển và lượng từ vựng cần lưu là lớn. Cách
dùng quy tắc hoạt ñộng với mọi văn bản (miễn là phù hợp với quy
tắc) nhưng ñộ phức tạp của các quy tắc có thể tăng cao nếu ngôn
ngữ có nhiều trường hợp bất quy tắc trong phát âm. Hầu hết các
hệ thống tổng hợp giọng nói ñều dùng kết hợp cả hai cách.
Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt có
hệ thống viết dựa trên cách phát âm một cách rất có quy tắc, và
việc tiên ñoán cách phát âm từ cách viết thường có tỷ lệ thành công
cao. Các hệ thống tổng hợp giọng nói cho các ngôn ngữ này thường
dùng chủ yếu cách dựa trên quy tắc, chỉ tra từ ñiển một vài từ ñặc
biệt như tên vay mượn từ nước ngoài.
Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rất
bất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếu
trên từ ñiển và dùng các quy tắc cho những từ không có trong từ
ñiển.
2. 2. 6 Giải thuật TD-
PSOLA.
Như ñã ñề cập trong phần trước, người ta có thể tổng hợp
tiếng nói theo nhiều phương pháp như mô phỏng hệ thống phát âm
của con người, tổng hợp formant và tổng hợp ghép nối. Mỗi phương
pháp ñều có những ưu, nhược ñiểm riêng. Phương pháp mô phỏng
hệ thống phát âm của con người cho chất lượng tốt, song rất khó
mô phỏng một cách hoàn hảo bộ máy phát âm. Phương pháp

tổng hợp bằng formant lại không cho chất lượng cao. Trong ba
phương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụng
rộng rãi hơn cả. PSOLA là giải thuật dùng cho phương pháp ghép
nối. Trước hết tiếng nói ñược phân tích thành các tín hiệu thành
phần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tín
hiệu tiếng nói tổng hợp. Phương pháp này thao tác trực tiếp với tín
hiệu trên miền thời gian nên có chi phí tính toán thấp. Người ta kéo
dãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tín
hiệu thành phần.
PSOLA có thể hiểu như
sau:
• Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thành
phần có một tần số cơ bản.
• Tổng hợp dựa trên mô hình nguồn-lọc (source-filter). Với
phương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thích
hợp cho việc phân tích thành các tín hiệu thành phần khi sử dụng
cửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trung
xung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ.
a. Phân tích PSOLA
Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t)
thành các tín hiệu thành phần s
i
(t) bằng cách sử dụng cửa sổ h(t) :
s
i
(t) =h( t −
m
i
)s(t)
trong ñó m

i
ñược gọi là các ñiểm mốc (markers) phải thoả mãn các ñiều
kiện
sau:
m
i
− m
i-1
phải gần với chu kỳ cơ bản.
Phải gần với ñiểm có biên ñộ cực ñại (maxima energy).
ð
iều
kiện này ñược ñưa ra ñể tránh làm hỏng tín hiệu khi lấy cửa sổ. Sau
khi tìm ñược chu kỳ cơ bản T 0(t) và hàm năng lượng e(t).
b. Tổng hợp PSOLA
Tổng hợp PSOLA ñược thực hiện bằng cách cộng xếp chồng các tín hiệu
thành phần si(t) ñược sắp xếp theo các thời ñiểm
m
i
ở ñây mi là các ñiểm mốc gần nhất với tín hiệu vào. Chu kỳ
cơ bản ñược ñiều chỉnh từ T 0(t ) tới T (t) bằng cách thay ñổi
khoảng cách giữa các ñoạn tín hiệu liên tiếp m j − m j−1=T (t).
Với PSOLA việc co dãn trên miền thời gian ñược thực hiện bằng
cách lặp lại các ñoạn tín hiệu.
Hình 2. 6. Cộng xếp chồng các ñoạn tín hiệu
Tuy nhiên, khi thời gian ñược kéo giãn nhiều bằng cách lặp
lại các tín hiệu thành phần có thể làm cho tín hiệu tổng hợp không
liên tục. Giải thuật
TD – PSOLA (Time Domain PSOLA)ñược trình bày ở phần tiếp
theo sẽ khắc phục nhược ñiểm này. Hiện nay TD-PSOLA còn ñược

mở rộng ñể sử dụng cho các phương pháp tổng hợp ghép nối khác,
bởi vì nó là phương pháp tổng hợp chất lượng cao và chạy tốt ở cả
những máy tính tốc ñộ thấp (tổng hợp
thời gian thực có thể ñược thực hiện với bộ vi xử lý Intel 386).
c. Giải Thuật TD-PSOLA.
Giả sử rằng s(n) là tín hiệu tuần hoàn, S(n ) là tín hiệu s(n) sau
khi ñã thay ñổi tần số bằng cách lấy tổng của các khung OLA của
si(n). w(n) là cửa sổ, sự thay ñổi chu kỳ tần số gốc T0 tới chu kỳ
tần số T tạo ra sự thay ñổi của s
i
(
n), s
~
(n) :
1
Nếu T≠T
0
thì ta phải làm hài hoà lại s
i
(n) với tần số cơ
bản là
T
Công thức trên rất hiệu quả khi muốn thay ñổi tần số của tín hiệu tuần
hoàn.
Hình 2. 7 Quá trình làm thay ñổi tần số của
tín hiệu
Nếu T=T
0
và cửa sổ phân tích ñủ hẹp, tín hiệu tổng hợp gần như
trùng với tín hiệu gốc

Trong trường hợp ñặc biệt với cửa sổ tam giác thì kích thước
của cửa sổ ñược chọn bằng 2 lần chu kỳ cơ bản, khi ñó dấu gần
ñúng của biểu thức trên sẽ tịnh tiến tới dấu bằng với K=1. Rõ ràng,
với giải thuật này, cơ sở dữ liệu phải ñược lưu trữ dưới dạng
danh sách tham số (một danh sách cho mỗi ñoạn). Trên thực tế,
ñối với TD-PSOLA, thì các danh sách này chứa chuỗi các ñiểm mốc
(markers) là tâm các cửa sổ xếp chồng ηi
. V
ị trí các ñiểm mốc này
ñược sắp xếp ñồng bộ với tần số cơ bản của phần hữu thanh
trong
ño
ạn
tín hiệu, nhờ vào một thuật toán xác ñịnh tần số cơ bản nào ñó.
ðối
với phần vô thanh thì khoảng

×