Tải bản đầy đủ (.pdf) (66 trang)

Nghiên cứu phương pháp nén tiếng nói tốc độ bít thấp bằng kỹ thuật phân rã tiếng nói theo thời gian (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (633.3 KB, 66 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
------------

VŨ THANH HUẾ

NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN


THÔNG
------------

Vũ Thanh Huế

NGHIÊN CỨU PHƢƠNG PHÁP NÉN TIẾNG NÓI
TỐC ĐỘ BÍT THẤP BẰNG KỸ THUẬT PHÂN RÃ TIẾNG
NÓI
THEO THỜI GIAN

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

Ngành

: Công nghệ thông tin

Chuyên ngành : Khoa học máy tính
Mã số

: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: TS Phùng Trung Nghĩa

Thái Nguyên, năm 2015


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

LỜI CAM ĐOAN
Tên tôi là: Vũ Thanh Huế
Sinh ngày: 25/03/1985
Học viên lớp cao học K12I - Trƣờng Đại học Công nghệ thông tin và
Truyền thông - Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài đƣợc trình bày
trong luận văn là bản thân tôi tìm hiểu và nghiên cứu, dƣới sự hƣớng dẫn
khoa học của Thầy giáo Tiến sĩ Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng nhƣ nội dung trong đề cƣơng và yêu
cầu của thầy giáo hƣớng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trƣớc hội đồng khoa
học và trƣớc pháp luật.
Tác giả luận văn

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, đƣợc sự động
viên, giúp đỡ và hƣớng dẫn tận tình của Thầy giáo hƣớng dẫn Tiến sĩ Phùng

Trung Nghiã , với đề tài luận văn “Nghiên cứu phương pháp nén tiếng nói tốc
độ bit thấp bằng kỹ thuật phân rã tiếng nói theo thời gian” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hƣớng dẫn Tiến sĩ Phùng Trung Nghĩa đã tận tình chỉ d ẫn,
giúp đỡ em hoàn thành luận văn này.
Bộ phận sau Đại học Trƣờng Đại học công nghệ thông tin và truyền
thông đã giúp đỡ em trong quá trình học tập cũng nhƣ thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động
viên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện
và hoàn thành luận văn này.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2015
Học viên

Vũ Thanh Huế

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN .......................................................................................................... vi
MỤC LỤC ............................................................................................................... vii
LỜI MỞ ĐẦU……………………………………………………………………... 1
1. Lý do chọn đề tài ............................................................................................1
2. Mục tiêu của đề tài .........................................................................................2
3. Đối tƣợng và phạm vi nghiên cứu ..................................................................2

4. Phƣơng pháp nghiên cứu ................................................................................3
5. Ý nghĩa khoa học và thực tiễn ........................................................................3
CHƢƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI .....................................4
1.1. Thông tin và tín hiệu tiếng nói ....................................................................4
1.2. Quá trình tạo tiếng nói .................................................................................5
1.3. Khả năng cảm thụ tiếng nói của con ngƣời .................................................9
1.4. Mô hình hóa tiếng nói ...............................................................................13
1.5. Mã hóa tiếng nói ........................................................................................16
1.6. Kỹ thuật phân rã tiếng nói theo thời gian TD và ứng dụng trong mã hóa
tiếng nói ............................................................................................................20
CHƢƠNG 2: PHƢƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN .......................................................23
2.1. Phƣơng pháp của Atal ...............................................................................23
2.2. Phƣơng pháp phân rã tiếng nói theo thời gian giới hạn RTD ...................26
2.3. Phƣơng pháp MRTD .................................................................................29
2.4. Mã hóa tiếng nói với TD kết hợp sử dụng STRAIGHT...........................34
2.4.1. Sơ lƣợc về phƣơng pháp mã hóa TD-STRAIGHT ........................34
2.4.2. Tính tham số phổ đƣờng LSF từ phổ STRAIGHT ........................36
2.4.3. Lƣợng tử hóa vector LSF ...............................................................37
2.4.4. Lƣợng tử hóa vector sự kiện ..........................................................37

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

viii

2.4.5. Lƣợng tử hóa hàm sự kiện .............................................................37
2.4.6. Lƣợng tử hóa tham số tần số cơ bản F0.........................................38
2.4.7. Lƣợng tử hóa tham số độ lợi..........................................................38

2.4.8. Lƣợng tử hóa tham số nhiễu ..........................................................38
CHƢƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM PHƢƠNG PHÁP MÃ HÓA
TIẾNG NÓI MRTD VỚI CƠ SỞ DỮ LIỆU TIẾNG VIỆT ...............................40
3.1. Ngữ âm tiếng Việt .....................................................................................40
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .............................................................42
3.3. Cài đặt các phƣơng pháp mã hóa tiếng nói dùng MRTD trên MATLAB.44
3.4. Tiêu chí đánh giá khách quan và chủ quan ..............................................46
3.5. Kết quả khách quan và chủ quan các phƣơng pháp. …………………….49
3.6. Đánh giá các kết quả .................................................................................51
KẾT LUẬN ..............................................................................................................52
TÀI LIỆU THAM KHẢO ......................................................................................53

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ix

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt

Viết đầy đủ

Ý nghĩa

PCM

Pulse Code Modulation


Mã hóa theo dạng xung

LPC

Linear Predictive Coding

Mã hóa dự đoán tuyến tính

Code-Excited Linear Prediction

Mã hóa dự đoán tuyến tính

coder

kích thích mã

CELP

Kỹ thuật phân rã theo thời

TD

Temporal Decomposition

LSF

Line Spectral Frequency

Đặc trƣng phổ đƣờng


Modified Restricted Temporal

Kỹ thuật phân rã theo thời

Decomposition

gian giới hạn cải tiến

Restricted Temporal

Kỹ thuật phân rã theo thời

Decomposition

gian giới hạn

Perceptual evaluation of speech

Phƣơng pháp đánh giá chất

quality

lƣợng tiếng nói cảm thụ

MRTD

RTD

PESQ


Số hóa bởi Trung tâm Học liệu - ĐHTN

gian

/>

x

DANH MỤC CÁC BẢNG
Bảng 3.1. Cấu trúc âm tiết tiếng Việt .............................................................. 42
Bảng 3.2. Sáu thanh điệu tiếng Việt................................................................ 42
Bảng 3.3. Thang điểm Scheffe ........................................................................ 47
Bảng 3.4. Thang điểm PESQ .......................................................................... 49

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Luận văn đầy đủ ở file: Luận văn full

















×