Tải bản đầy đủ (.pdf) (32 trang)

Hệ thống cung cấp thông tin qua mạng điện thoại và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 32 trang )

1
Hệ thống cung cấp thông tin qua
mạng điện thoại và ứng dụng
0612568 : Nguyễn Trần Vọng
0612481 : Trần Minh Trường
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
GVHD: TS. Vũ Hải Quân
Đề tài:
2
Nội dung
 Mục tiêu của đề tài
 Mô hình tổng quát của ứng dụng
 Nhận dạng
 Tổng kết
 Demo
3
Mục tiêu của đề tài
 Xây dựng một ứng dụng
thử nghiệm nhận dạng
tiếng nói tiếng Việt.

 Thông qua xây dựng một
Voice Server nhằm cung
cấp thông tin chứng khoán
qua mạng điện thoại.
4
Nội dung
 Mục tiêu của đề tài
 Mô hình tổng quát của ứng dụng


 Nhận dạng
 Tổng kết
 Demo
5
Mô hình tổng quát của ứng dụng

Giao
tiếp
Nhận
dạng
Xử lý
Tổng
hợp
DB
Voice Server
6
Hoạt động

Giao
tiếp
Nhận
dạng
Xử lý
Tổng
hợp
DB
Voice Server
DHA: wav
“DHA”
“Thông

tin”
Thông
tin:wav
7
Nội dung
 Mục tiêu của đề tài
 Mô hình tổng quát của ứng dụng
 Nhận dạng
 Tổng kết
 Demo
8
Nhận dạng: Nội dung
 Kiến trúc tổng quát
 Trích đặc trưng
 Mô hình ngữ âm
 Mô hình ngôn ngữ
 Đồ thị nhận dạng
 Hướng nghiên cứu và kết quả đạt được.
9
Kiến trúc tổng quát
 Kiến trúc tổng quan của một hệ thống nhận dạng
tiếng nói điển hình

10
Kiến trúc tổng quát (tt)
 Bộ trích đặc trưng: thực hiện rút trích đặc trưng từ tín hiệu âm thanh
trước khi đưa vào nhận dạng.
Mô hình ngữ âm: liên quan đến
việc biểu diễn tri thức cho tín
hiệu ngữ âm, âm vị, ngữ

điệu…
Mô hình ngôn ngữ: liên quan
đến việc biểu diễn tri thức của
các từ, chuỗi từ, hình thành nên
câu.
11
Nhận dạng: Nội dung
 Kiến trúc tổng quát
 Trích đặc trưng
 Mô hình ngữ âm
 Mô hình ngôn ngữ
 Đồ thị nhận dạng
 Hướng nghiên cứu và kết quả đạt được.
Trích đặc trưng
12
Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh

MFCC: Mel-Frequency Cepstral Coefficients
Mục tiêu của bộ trích đặc trưng là tham số
hoá tín hiệu tiếng nói thành chuỗi vector đặc
trưng, chứa thông tin liên quan đến âm
thanh của câu nói.
13
Nhận dạng: Nội dung
 Kiến trúc tổng quát
 Trích đặc trưng
 Mô hình ngữ âm
 Mô hình ngôn ngữ
 Đồ thị nhận dạng
 Hướng nghiên cứu và kết quả đạt được.

Mô hình ngữ âm
14
Mô hình ngữ âm dựa trên HMM biểu diễn cho từ “kiếng”
 Mô hình hóa cách phát âm và ngữ
điệu của các vị, âm tiết, các từ v.v…

 Có 2 hướng tiếp cận chính để xây
dựng mô hình ngữ âm là:

o Qui hoạch thời gian động (DTW)

o Mô hình Markov ẩn (HMM –
Hiden markov Model)
15
Nhận dạng: Nội dung
 Kiến trúc tổng quát
 Trích đặc trưng
 Mô hình ngữ âm
 Mô hình ngôn ngữ
 Đồ thị nhận dạng
 Hướng nghiên cứu và kết quả đạt được.
Mô hình ngôn ngữ
16
 Mô hình ngôn ngữ cung cấp thông tin
về cú pháp, ngữ nghĩa, trật tự từ của
câu.

 Thành phần này giúp hệ thống lựa
chọn ra kết quả nhận dạng tốt nhất
trong danh sách các ứng viên chọn

lọc được bởi tiến trình nhận dạng.
17
Nhận dạng: Nội dung
 Kiến trúc tổng quát
 Trích đặc trưng
 Mô hình ngữ âm
 Mô hình ngôn ngữ
 Đồ thị nhận dạng
 Hướng nghiên cứu và kết quả đạt được.
Đồ thị nhận dạng
18
Việc xây dựng đồ thị nhận dạng bao gồm ba
bước chính:
o Xây dựng bộ khung từ mô hình ngôn
ngữ.
o Biểu diễn chi tiết đồ thị thông qua từ
điển phát âm.
o Kết ghép các mô hình ngữ âm-HMM vào
đồ thị.
19
Nhận dạng: Nội dung
 Kiến trúc tổng quát
 Trích đặc trưng
 Mô hình ngữ âm
 Mô hình ngôn ngữ
 Đồ thị nhận dạng
 Hướng nghiên cứu và kết quả đạt được
Hướng nghiên cứu và kết quả
Thử nghiệm ba mô hình ngữ âm:


 Mô hình tổng quát (Mô hình 0):
Mô hình ESAT SPRAAK.
 Mô hình cải tiến thứ 1 (Mô hình 1):
Thay đổi mô hình ngữ âm và từ điển phát âm.
 Mô hình cải tiến thứ 2 (Mô hình 2):
Thay đổi từ điển phát âm.
20
Mô hình tổng quát (Mô hình 0)
21
Các thành phần và cơ chế hoạt động của ESAT SPRAAK
Mô hình cải tiến thứ 1 (Mô hình 1)
22
Mô hình cải tiến thứ 1
Mô hình cải tiến thứ 1 (Mô hình 1)
23
Mô hình cải tiến thứ 2
Thực nghiệm
 Dữ liệu chuẩn bị cho quá trình huấn luyện:





 Dữ liệu chuẩn bị cho quá trình test:


24
Mô hình Số giọng nam Số giọng nữ Số mã / người Thời gian (phút)
0 50 60 50 240
1 50 60 50 240

2 50 60 50 240
Mô hình Số giọng nam Số giọng nữ Số mã / người Thời gian (phút)
0 6 6 50 7
1 6 6 50 7
2 6 6 50 7
Kết quả thực nghiệm
Mô hình Độ chính xác (%)
0 47,35
1 57,60
2 87,65
25
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
0 1 2
Độ chính xác(%)

×