i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
------------
VŨ THANH HUẾ
NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
ii
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
iii
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN
THÔNG
------------
Vũ Thanh Huế
NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
iv
Ngành
: Công nghệ thông tin
Chuyên ngành : Khoa học máy tính
Mã số
: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học: TS Phùng Trung Nghĩa
Thái Nguyên, năm 2015
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
v
LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Sinh ngày: 25/03/1985
Học viên lớp cao học K12I - Trƣờng Đại học Công nghệ thông tin và
Truyền thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài đƣợc trình bày
trong luận văn là bản thân tôi tìm hiểu và nghiên cứu, dƣới sự hƣớng dẫn
khoa học của Thầy giáo Tiến sĩ Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng nhƣ nội dung trong đề cƣơng và yêu
cầu của thầy giáo hƣớng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trƣớc hội đồng khoa
học và trƣớc pháp luật.
Tác giả luận văn
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
vi
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, đƣợc sự động
viên, giúp đỡ và hƣớng dẫn tận tình của Thầy giáo hƣớng dẫn Tiến sĩ Phùng
Trung Nghiã , với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc
độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hƣớng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ d ẫn,
giúp đỡ em hoàn thành luận văn này.
Bộ phận sau Đại học Trƣờng Đại học công nghệ thông tin và truyền
thông đã giúp đỡ em trong quá trình học tập cũng nhƣ thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động
viên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện
và hoàn thành luận văn này.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2015
Học viên
Vũ Thanh Huế
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
vii
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN .......................................................................................................... vi
MỤC LỤC ............................................................................................................... vii
LỜI MỞ ĐẦU……………………………………………………………………... 1
1. Lý do chọn đề tài ............................................................................................1
2. Mục tiêu của đề tài .........................................................................................2
3. Đối tƣợng và phạm vi nghiên cứu ..................................................................2
4. Phƣơng pháp nghiên cứu ................................................................................3
5. Ý nghĩa khoa học và thực tiễn ........................................................................3
CHƢƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI .....................................4
1.1. Thông tin và tín hiệu tiếng nói ....................................................................4
1.2. Quá trình tạo tiếng nói .................................................................................5
1.3. Khả năng cảm thụ tiếng nói của con ngƣời .................................................9
1.4. Mô hình hóa tiếng nói ...............................................................................13
1.5. Mã hóa tiếng nói ........................................................................................16
1.6. Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa
tiếng nói ............................................................................................................20
CHƢƠNG 2: PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .......................................................23
2.1. Phƣơng pháp của Atal ...............................................................................23
2.2. Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD ...................26
2.3. Phƣơng pháp MRTD .................................................................................29
2.4. Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT...........................34
2.4.1. Sơ lƣợc về phƣơng pháp mã hóa TD-STRAIGHT ........................34
2.4.2. Tính tham số phổ đƣờng LSF từ phổ STRAIGHT ........................36
2.4.3. Lƣợng tử hóa vector LSF ...............................................................37
2.4.4. Lƣợng tử hóa vector sự kiện ..........................................................37
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
viii
2.4.5. Lƣợng tử hóa hàm sự kiện .............................................................37
2.4.6. Lƣợng tử hóa tham số tần số cơ bản F0.........................................38
2.4.7. Lƣợng tử hóa tham số độ lợi..........................................................38
2.4.8. Lƣợng tử hóa tham số nhiễu ..........................................................38
CHƢƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP MÃ HÓA
TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT ...............................40
3.1. Ngữ âm tiếng Việt .....................................................................................40
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .............................................................42
3.3. Cài đặt các phƣơng pháp mã hóa tiếng nói dùng MRTD trên MATLAB.44
3.4. Tiêu chí đánh giá khách quan và chủ quan ..............................................46
3.5. Kết quả khách quan và chủ quan các phƣơng pháp. …………………….49
3.6. Đánh giá các kết quả .................................................................................51
KẾT LUẬN ..............................................................................................................52
TÀI LIỆU THAM KHẢO ......................................................................................53
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
ix
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
Viết đầy đủ
Ý nghĩa
PCM
Pulse Code Modulation
Mã hóa theo dạng xung
LPC
Linear Predictive Coding
Mã hóa dự đoán tuyến tính
Code-Excited Linear Prediction
Mã hóa dự đoán tuyến tính
coder
kích thích mã
CELP
Kỹ thuật phân rã theo thời
TD
Temporal Decomposition
LSF
Line Spectral Frequency
Đặc trƣng phổ đƣờng
Modified Restricted Temporal
Kỹ thuật phân rã theo thời
Decomposition
gian giới hạn cải tiến
Restricted Temporal
Kỹ thuật phân rã theo thời
Decomposition
gian giới hạn
Perceptual evaluation of speech
Phƣơng pháp đánh giá chất
quality
lƣợng tiếng nói cảm thụ
MRTD
RTD
PESQ
Số hóa bởi Trung tâm Học liệu - ĐHTN
gian
/>
x
DANH MỤC CÁC BẢNG
Bảng 3.1. Cấu trúc âm tiết tiếng Việt .............................................................. 42
Bảng 3.2. Sáu thanh điệu tiếng Việt................................................................ 42
Bảng 3.3. Thang điểm Scheffe ........................................................................ 47
Bảng 3.4. Thang điểm PESQ .......................................................................... 49
Số hóa bởi Trung tâm Học liệu - ĐHTN
/>
Luận văn đầy đủ ở file: Luận văn full