Tải bản đầy đủ (.pptx) (11 trang)

báo cáo tìm hiểu về môn xử lý tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (91.31 KB, 11 trang )

XÂY DỰNG BỘ TỔNG HỢP
TIẾNG VIỆT

Tạo cơ sở dữ liệu tiếng nói
Ghép nối âm vị kép
Tổng hợp thanh điệu







I.Tạo cơ sở dữ liệu tiếng nói:
Tiến hành ghi âm các âm vị kép đảm bảo các yêu cầu về chiều dài, biên độ, tần số cơ
bản để phục vụ cho ghép nối.
Tần số cơ bản chênh lệch tại điểm ghép nối của 2 âm vị kép nhỏ
Biên độ tại điểm ghép nối phải đảm bảo chuyển tiếp trơn giữa hai âm vị kép được
ghép nối.
Chiều dài của các âm vị kép phải đảm bảo thích hợp để tiếng nói tổng hợp được tự
nhiên nhất


PP Hạn chế chênh lệch tần số tại điểm ghép nối của hai âm
vị kép




Đường biểu diễn tần số cơ bản của từng âm vị kép càng bằng phẳng càng tốt.
tần số cơ bản của các âm vị kép được chọn là 165Hz, dải tần số của các âm vị kép


trong khoảng 160-170 Hz là phù hợp cho bộ tổng hợp


PP Hạn chế sự chênh lệch năng lượng (biên độ)



Các âm vị kép được ghi âm sau đó sẽ được chuẩn hóa biên độ cực đại về một giá
trị nhất định.



Không ghép nối trực tiếp điểm với điểm bằng cách cộng chồng khung cuối của
âm vị kép thứ nhất với khung đầu đầu của âm vị kép thứ hai => làm giảm tối
thiểu sự chênh lệch tại điểm ghép nối


Chiều dài của các âm vị kép




Chiều dài của âm vị kép phải được ghi âm với chiều dài phù hợp.
Chiều dài trung bình trong mọi ngữ cảnh không quá dài cũng không quá ngắn.


II.Ghép nối các âm vị kép
Thực hiện thuật toán TD-PSOLA cần xác định:







Sự chênh lệch về năng lượng tại điểm ghép nối.
Sự chênh lệch tần số cơ bản tại điểm ghép nối.
Sự lệch pha giữa 2 chu kỳ tại điểm ghép nối.
Sự chênh lệch trên miền tần số


Sự chênh lệch về năng lượng tại điểm ghép nối.



Chuẩn hóa các âm vị kép trong cơ sở dữ liệu được tiến hành cho năng lượng cực
đại của toàn bộ âm vị kép, chứ không phải cho điểm ghép nối các


Sự chênh lệch tần số cơ bản tại điểm ghép nối.



Nếu ghép ngay âm vị kép sau khi lấy từ cơ sở dữ liệu sẽ dẫn đến sự chênh lệch
về tần số cơ bản tại điểm ghép nối =>dẫn đến sự không tự nhiên của tiếng nói
tổng hợp vì tai người rất nhạy cảm đối với sự không trơn của tần số cơ bản.


Sự lệch pha giữa 2 chu kỳ tại điểm ghép nối




Do vị trí các điểm đánh dấu pitch của hai chu kỳ này không được xác định tại các
vị trí tương ứng với nhau nhau (tức là giá trị tương quan chéo của hai chu kỳ này
với gốc tại các điểm đánh dấu pitch tương ứng chưa phải là giá trị cực đại)


III.Tổng hợp âm thanh điệu có dấu




Việc tổng hợp âm thanh điệu có dấu thường được tiến hành bằng cách biến đổi
tần số cơ bản của âm thanh điệu không dấu theo đường biểu diễn tần số cơ bản
của các thanh đã được mô hình hóa
Tất cả các âm có cùng một thanh đều được biến đổi tần số cơ bản theo mô hình
tần số cơ bản chung của thanh đó.


Khó khăn khi thực hiện trong thực tế




Xác định đường biểu diễn tần số cơ bản chung cho tất cả các âm của cùng một
thanh điệu là rất khó và chưa có một chuẩn đường biểu diễn tần số cơ bản nào
được công bố cho việc sử dụng rộng rãi.
Ngoài tần số cơ bản ra, còn có các yếu tố khác như chiều dài phát âm, sự phân
bố năng lượng theo chiều dài âm (đường bao biên độ),… cũng ảnh hưởng đến
thanh điệu




×