Tải bản đầy đủ (.pdf) (125 trang)

Ứng dụng của xử lý số tín hiệu trong phân tích và mã hoá tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.41 MB, 125 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
----WX----

LUẬN VĂN THẠC SĨ KHOA HỌC

ỨNG DỤNG CỦA XỬ LÝ SỐ TÍN HIỆU TRONG
PHÂN TÍCH VÀ MÃ HÓA TIẾNG NÓI
NGÀNH : ĐIỆN TỬ VIỄN THÔNG

TRẦN NGỌC TUẤN

Người hướng dẫn khoa học: PGS.TS. NGUYỄN QUỐC TRUNG

Hà Nội 2008


Luận văn cao học ĐTVT 2006 - 2008

LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các tài liệu đã ghi
rõ trong luận văn, các phần trình bày trong luận văn này là do chính tôi thực
hiện và chưa có phần nội dung nào của luận văn này đã được nộp để lấy một
bằng cấp nào.
Hà Nội, ngày 17 tháng 11 năm 2008.
Trần Ngọc Tuấn

i

Trần Ngọc Tuấn



Luận văn cao học ĐTVT 2006 - 2008

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS. Nguyễn Quốc Trung
đã tận tình chỉ bảo hướng dẫn và cho tôi những kiến quý báu để tôi có thể
hoàn thành được luận văn này.
Xin chân thành cảm ơn các thầy cô giáo trong khoa Điện Tử - Viễn Thông
trường đại học Bách Khoa Hà Nội đã giúp tôi hoàn thành nhiệm vụ môn học
trong suốt thời gian học tại trường, cảm ơn các anh chị và các bạn đồng
nghiệp tại bộ môn Kỹ Thuật Thông Tin khoa Điện Tử Viễn Thông ĐHBKHN
đã giúp đỡ tôi trong quá trình học tập.

ii

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................. i
LỜI CẢM ƠN ..................................................................................................ii
DANH MỤC CÁC BẢNG ............................................................................. vi
DANH MỤC CÁC HÌNH VẼ ......................................................................vii
CÁC THUẬT NGỮ VIẾT TẮT.................................................................... ix
CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI ............................................................. 1
1.1 Cơ sở nghiên cứu và mục đích của luận văn........................................... 1
1.2 Nội dung và cấu trúc của luận văn. ......................................................... 2
CHƯƠNG 2. TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA TIẾNG NÓI .. 3

2.1. Giới thiệu................................................................................................ 3
2.2. Các kỹ thuật mã hóa tiếng nói. ............................................................... 3
2.2.1. Mã hóa theo tham số........................................................................ 4
2.2.2. Mã hóa dạng sóng............................................................................ 6
2.2.3. Mã hóa lai. ....................................................................................... 6
2.3. Các mục tiêu và yêu cầu của thuật toán mã hóa. ................................... 7
2.3.1. Chất lượng và dung lượng. .............................................................. 7
2.3.2. Trễ mã hóa. ...................................................................................... 8
2.3.3. Độ bền bỉ (Robustness).................................................................... 9
2.3.4. Độ phức tạp và chi phí..................................................................... 9
2.3.5. Ghép nối và chuyển mã. ................................................................ 10
2.3.6. Xử lý dữ liệu dải tần tiếng nói. ...................................................... 10
2.4. Các chuẩn mã hóa tiếng nói. ................................................................ 11
2.4.1. Chuẩn mã hóa của ITU-T. ............................................................. 11
2.4.2. Chuẩn điện thoại số celluar châu Âu. ............................................ 12
2.4.3. Chuẩn điện thoại số Bắc Mỹ.......................................................... 13
2.4.4. Điện thoại bảo mật. (Chuẩn của bộ quốc phòng Mỹ). .................. 14

iii

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

2.4.5. Điện thoại vệ tinh........................................................................... 15
2.4.6. Đánh giá chất lượng các bộ mã hóa............................................... 15
CHƯƠNG 3. PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG PHƯƠNG
PHÁP DỰ ĐOÁN TUYẾN TÍNH................................................................ 18
3.1. Giới thiệu.............................................................................................. 18

3.2. Phân tích phổ thời gian ngắn. ............................................................... 19
3.2.1. Biến đổi Fourier thời gian ngắn..................................................... 19
3.2.2. Vai trò của cửa sổ. ......................................................................... 19
3.3. Mô hình dự đoán tuyến tính tín hiệu tiếng nói..................................... 25
3.3.1. Mô hình bộ máy phát âm. .............................................................. 26
3.3.2. Xác định hệ số của mô hình LPC. ................................................. 28
3.3.3. Quá trình phân tích và mã hóa LPC trên thực tế. .......................... 37
3.3.4. Dãy sai số trong phân tích LPC. .................................................... 39
3.4. Dự đoán chu kỳ Pitch. .......................................................................... 41
3.4.1. Tính chu kỳ trong tín hiệu tín hiệu tiếng nói. ................................ 41
3.4.2. Dự đoán chu kỳ Pitch. (Dự đoán thời gian dài)............................. 41
3.5. Xác định chu kỳ tín hiệu (tần số cơ bản).............................................. 48
3.5.1. Tách chu kỳ trong miền thời gian.................................................. 49
3.5.2. Tách chu kỳ trong miền tần số....................................................... 54
3.5.3. Các kỹ thuật tiền và hậu xử lý. ...................................................... 56
CHƯƠNG 4. LƯỢNG TỬ HÓA CÁC THAM SỐ LPC BẰNG CÁC TẦN
SỐ PHỔ VẠCH LSF..................................................................................... 67
4.1. Giới thiệu.............................................................................................. 67
4.2. Các bộ tham số có thể thay thế tham số LPC....................................... 67
4.3. Biến đổi qua lại LPC và LSF. .............................................................. 70
4.3.1. Tính toán các hệ số LSF. ............................................................... 72
4.3.2. Biến đổi LSF sang LPC. ................................................................ 77
4.4. Các tính chất của LSF. ......................................................................... 81

iv

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008


CHƯƠNG 5. CÁC BỘ MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN TÍCH NHỜ TỔNG HỢP AbS. ........................................................ 84
5.1. Giới thiệu.............................................................................................. 84
5.2. Tổng quan về mã hóa AbS. .................................................................. 85
5.2.1. Bộ lọc biến đổi............................................................................... 88
5.2.2. Thủ tục tối thiểu hóa sai số............................................................ 88
5.2.3. Tín hiệu kích thích. ........................................................................ 91
5.3. Mã hóa dự đoán tuyến tính kích thích bằng mã CELP. ....................... 94
5.3.1. Dự đoán LPC (Dự đoán thời gian ngắn). ...................................... 96
5.3.2. Dự đoán pitch (Dự đoán thời gian dài).......................................... 97
5.3.2. Bảng mã kích thích. ..................................................................... 101
CHƯƠNG 6. THIẾT KẾ CHƯƠNG TRÌNH MÔ PHỎNG QUÁ TRÌNH
PHÂN TÍCH LPC. ...................................................................................... 105
6.1. Giới thiệu............................................................................................ 105
6.2. Giao diện chính của chương trình. ..................................................... 105
6.3. Các chức năng chính. ......................................................................... 107
6.4. Các kết quả thực nghiệm. ................................................................... 107
KẾT LUẬN .................................................................................................. 112
TÀI LIỆU THAM KHẢO .......................................................................... 114

v

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

DANH MỤC CÁC BẢNG
Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp của ITU-T. .......................... 11

Bảng 2.2 Các chuẩn mã hóa của ETSI cho truyền thông di động GSM......... 13
Bảng 2.3 Các chuẩn mã hóa của TIA/EIA cho CDMA/TDMA của Mỹ........ 14
Bảng 2.4 Các chuẩn mã hóa của DoD (Bộ quốc phòng Mỹ).......................... 14
Bảng 2.5 Các chuẩn mã hóa tiếng nói INMARSAT....................................... 15
Bảng 2.6 Thang điểm đánh giá trung bình MOS. ........................................... 16
Bảng 2.7 So sánh các chuẩn mã hóa tiếng nói. ............................................... 17
Bảng 3.1 So sánh các phương pháp tìm tham số LPC.................................... 37
Bảng 3.2 Phối hợp của các hàm cắt khác nhau ............................................... 59
Bảng 4.1 Ưu nhược điểm của các hệ số PARCOR và LSF. ........................... 81
Bảng 4.2 Điều kiện thực nghiệm khảo sát sự tương quan của các hệ số LSF.82
Bảng 4.3 Tương quan giữa các hệ số LSF trong khung (ma trận Ω).............. 82
Bảng 4.4 Tương quan giữa các hệ số LSF liên khung (ma trận Ψ). ............... 83
Bảng 5.1 Các tham số thiết lập để so sánh các loại mã kích thích. .............. 104
Bảng 5.2 Kết quả so sánh hoạt động của 4 loại bảng mã.............................. 104

vi

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

DANH MỤC CÁC HÌNH VẼ
Hình 2.1 Chất lượng tại các tốc độ của các kỹ thuật mã hóa tiếng nói............. 4
Hình 2.2 Chất lượng tiếng nói của các chuẩn mã hóa .................................... 16
Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh................. 18
Hình 3.2 Các loại cửa sổ trong miền thời gian ............................................... 21
Hình 3.3 Đáp ứng tần số của các loại cửa sổ. ................................................. 21
Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh ........ 22
Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh ......... 23

Hình 3.6 Tác động của cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu thanh..... 25
Hình 3.7 Mô hình phát âm (tạo tiếng nói)...................................................... 26
Hình 3.8 Dự đoán tiến và dự đoán lùi............................................................. 33
Hình 3.9 Bộ lọc mắt cáo dùng các hệ số PARCOR ki .................................... 35
Hình 3.10 Bộ lọc mắt cáo đảo tổng hợp tín hiệu tiếng nói từ tín hiệu sai số.. 35
Hình 3.11 Quan hệ giữa bậc của bộ lọc và tăng ích dự đoán ......................... 38
Hình 3.12 Đường bao phổ của tín hiệu qua các bộ lọc LPC bậc khác nhau... 39
Hình 3.13 Tín hiệu gốc và tín hiệu sai số LPC ............................................... 40
Hình 3.14 So sánh phổ của tín hiệu gốc và tín hiệu sai số.............................. 40
Hình 3.15 Mô hình tính toán pitch-LPC ......................................................... 42
Hình 3.16 Đồ thị thời gian của tín hiệu sai số LPC và sai số Pitch ................ 46
Hình 3.17 Biến thiên của β trong một đoạn tín hiệu tiếng nói điển hình........ 47
Hình 3.18 Biến thiên của τ trong một đoạn tín hiệu tiếng nói điển hình....... 47
Hình 3.19 Xác định chu kỳ dùng hàm tự tương quan và hàm AMDF ........... 51
Hình 3.20 Hàm tự tương quan trực tiếp và chuẩn hóa.................................... 53
Hình 3.21 Phát hiện đỉnh sử dụng bộ lọc răng lược........................................ 55
Hình 3.22 Phổ tín hiệu với phương pháp phổ đồng dạng. .............................. 56
Hình 3.23 Các hàm cắt giữa. ........................................................................... 58
Hình 3.24 Theo dõi chu kỳ tiến....................................................................... 60
Hình 3.25 Phương pháp theo dõi 2 đường ...................................................... 61
Hình 3.26 Các khoảng tìm kiếm chu kỳ chồng nhau...................................... 63
Hình 3.27. Những khoảng tìm kiếm chồng nhau............................................ 64
Hình 4.1 Mô hình dạng ống không tổn hao của bộ máy phát âm................... 71
vii

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008


Hình 4.2 Bộ lọc tổng hợp LPC bằng cấu trúc PARCOR................................ 71
Hình 4.3 Các tham số LSF cho 1 đoạn tiếng nói điển hình ............................ 75
Hình 4.4 Phân bố các tham số LSF................................................................. 76
Hình 4.5 Sơ đồ cấu trúc của bộ lọc tổng hợp LSF thực tế.............................. 80
Hình 5.1 Sơ đồ khối kỹ thuật phân tích bằng tổng hợp dùng vòng kín .......... 85
Hình 5.2 Sơ đồ khối kỹ thuật mã hóa AbS-LPC............................................. 86
Hình 5.3 Đồ thị so sánh phổ tín hiệu gốc và tín hiệu sau lọc trọng số ........... 90
Hình 5.4 Bộ mã hóa AbS-LPC biến đổi.......................................................... 91
Hình 5.5 Bộ mã hóa AbS-LPC với nhiều loại tín hiệu kích thích khác nhau. 92
Hình 5.6 Cấu trúc xung kích thích đều của RPELPC ..................................... 94
Hình 5.7 Sơ đồ khối thuật toán mã hóa CELP chuẩn ..................................... 96
Hình 5.8 Phương pháp lặp lại pitch trong trường hợp Dmin < L .................... 100
Hình 6.1 Giao diện chính của chương trình.................................................. 106
Hình 6.2 Tín hiệu sai số với bộ lọc LPC bậc 1. ............................................ 108
Hình 6.3 Tín hiệu sai số với bộ lọc LPC bậc 10. .......................................... 108
Hình 6.4 So sánh kết quả phổ tín hiệu với các bộ lọc LPC bậc khác nhau. . 109
Hình 6.5 Tín hiệu tổng hợp của một đoạn tiếng nói nguyên âm "a". ........... 109
Hình 6.6 Các tham số LTP theo thời gian sau phân tích. ............................. 110
Hình 6.7 Các tham số LTP sau phân tích một đoạn tiếng nói tổng hợp. ...... 111

viii

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

CÁC THUẬT NGỮ VIẾT TẮT
AaS
AbS

ACELP

Analysis-and-Synthesis
Analysis-by-Synthesis
Algebraic CELP

ADPCM

Adaptive Differential PCM

AMDF

Average Magnitude Difference
Function
Application-Specific Integrate
Circuit
Adaptive Transform Coding
Code Excited Linear Predictive

ASIC
ATC
CELP
CVSDM
DMR
ETSI
DSI
ETSI
FEC
ITU
ITU-T

LAR
LPC
LSF

Continuous Variable Slope
Delta Modulation
Digital Mobile Radio
European Telecommunications
Standards Institute
Digital Speech Interpolation
European Telecommunications
Standards Institute
Forward Error Correction
International
Telecommunication Union
ITU-Telecommunication
Standardization Sector
Log Area Ratio
Linear Predictive Coding
Line Spectral Frequency

ix

Phân tích và tổng hợp
Phân tích bằng cách tổng hợp
Dự đoán tuyến tính kích thích
bằng mã đại số.
Điều chế xung mã vi sai tự
thích nghi
Hàm vi sai biên độ trung bình

Mạch tích hợp chuyên dụng
Mã hóa biến đổi tự thích nghi
Dự đoán tuyến tính kích thích
bằng mã
Điều chế delta độ dốc biến đổi
liên tục
Di động số vô tuyến
Viện tiêu chuẩn viễn thông
châu Âu
Nội suy tiếng nói kỹ thuật số
Viện tiêu chuẩn viễn thông
châu Âu
Mã sửa lỗi trước
Liên minh viễn thông quốc tế
Bộ phận tiêu chuẩn hóa viễn
thông quốc tế thuộc ITU.
Tỉ số miền Loga
Mã hóa dự đoán tuyến tính
Tần số phổ vạch

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

LSP
LTP
MELP
MOS
MPLPC

PAME
PARCOR
PCM
PDA
PSTN
RPELPC
SBC
SELP
SIVP
SNR
STP
VAD
VSELP

Line Spectrum Pair
Long-Term Prediction
Mixed Excitation Linear
Prediction
Mean Opinion Score
Multi-Pulse LPC
Pitch Adaptive Mixed
Excitation
Partial Correlation Coefficient
Pulse Code Modulation
Pitch Detection Algorithm
Public Switched Telephone
Network
Regular Pulse Excited LPC
Sub-Band Coding
Self-Excitation Linear

Prediction
Switched-adaptive Inter-frame
Vector Prediction
Signal-to-Noise Ratio
Short-Term Prediction
Voice Activity Detector
Vector Sum Excited Linear
Prediction

x

Cặp phổ vạch
Dự đoán thời gian dài
Dự đoán tuyến tính kích thích
hỗn hợp
Điểm đánh giá trung bình
Mã hóa dự đoán tuyến tính
kích thích đa xung
Kích thích bằng mã hỗn hợp
tự thích ứng với chu kỳ
Hệ số tương quan riêng
Điều chế xung mã
Thuật toán tách chu kỳ
Mạng chuyển mạch thoại công
cộng
Mã hóa LPC kích thích bằng
các xung đều
Mã hóa dải con
Dự đoán tuyến tính tự kích
thích

Dự đoán véctơ liên khung biến
đổi tự thích ứng
Tỷ số tín hiệu trên tạp âm
Dự đoán thời gian ngắn
Bộ dò hoạt động thoại
Dự đoán tổng véctơ tuyến tính
tồn tại.

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI
1.1 Cơ sở nghiên cứu và mục đích của luận văn.
Trong các loại tín hiệu trong tự nhiên, tiếng nói là một trong những tín
hiệu được nghiên cứu nhiều nhất và sớm nhất do mục đích cơ bản nhất của
các hệ thống thông tin là truyền đi tiếng nói. Ngày nay dịch vụ viễn thông
được sử dụng nhiều nhất và thiết yếu nhất là điện thoại, nhất là điện thoại di
động không thể thiếu được trong cuộc sống hiện đại. Ngoài ra còn rất nhiều
dịch vụ khác nhau liên quan đến truyền tiếng nói. Để truyền tiếng nói thì cần
phải mã hóa tiếng nói, do đó các kỹ thuật mã hóa tiếng nói hoạt động ổn định
và hiệu quả là rất cần thiết. Đã có rất nhiều công trình nghiên cứu và nhiều kỹ
thuật mã hóa tiếng nói ra đời. Mục đích chính của mã hóa tiếng nói là cho
tiếng nói chất lượng tốt và tốc độ thấp. Vì tài nguyên kênh là hữu hạn nhất là
đối với các kênh vô tuyến, với băng thông thấp, chịu ảnh hưởng lớn của nhiễu
nên nếu có thể giảm được tốc độ dữ liệu, tiết kiệm dung lượng và băng thông
là điều rất quý giá. Hơn nữa nếu kỹ thuật mã hóa tiếng nói tốc độ càng thấp ta
có thể thêm vào dung lượng tiết kiệm đó là mã kênh để chống nhiễu thì chất
lượng dịch vụ sẽ tốt hơn rất nhiều. Từ đó ta thấy tầm quan trọng của mã hóa

tiếng nói trong các hệ thống thông tin số ngày nay.
Để nghiên cứu về mã hóa tiếng nói trước hết ta phải nghiên cứu về tín hiệu
tiếng nói, bản chất tiếng nói là một loại tín hiệu vì vậy sẽ phải dựa trên cơ sở
là lý thuyết tín hiệu. Tuy nhiên tiếng nói là một loại tín hiệu với nhiều đặc
trưng riêng có băng thông từ 0,3-3,4KHz nên các kỹ thuật mã hóa được
nghiên cứu để phù hợp và tận dụng được các đặc trưng này.
Để có thể phân tích được tiếng nói ta cần mô hình hóa bộ máy phát âm,
nghiên cứu cơ chế tạo ra tiếng nói của con người. Trước hết phải dựa trên cơ
sở cấu trúc sinh học của bộ máy phát âm con người, gồm thanh quản (gồm 2
dây thanh), tuyến âm (ống dẫn thanh), khoang mũi và vòm miệng. Sau đó là
cơ chế hoạt động của bộ máy phát âm để tạo ra tiếng nói. Để mô hình hóa bộ
máy phát âm dùng trong mã hóa tiếng nói người ta coi như một bộ lọc, do đó
phải dựa trên cơ sở của các bộ lọc số trong xử lý tín hiệu. Cuối cùng để thiết

1

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

kế được các bộ mã hóa trong các hệ thống số, phải dựa trên cơ sở lý thuyết xử
lý số tín hiệu DSP.
Dựa trên những cơ sở lý thuyết nêu trên, luận văn nghiên cứu các kỹ thuật
mã hóa tiếng nói, cơ sở lý thuyết và các phương tiện để phân tích tiếng nói.
Tập trung vào kỹ thuật mã hóa theo tham số, kỹ thuật được ứng dụng phổ
biến trong các bộ mã hóa ngày nay vì làm việc với tốc độ thấp và chất lượng
tiếng nói đảm bảo. Sau đó xây dựng một chương trình để mô phỏng quá trình
phân tích tiếng nói bằng các phương tiện trên, để minh họa cho lý thuyết.


1.2 Nội dung và cấu trúc của luận văn.
Luận văn được chia làm 6 chương, với nội dung được tóm tắt như sau:
Chương 1 trình bày về cơ sở nghiên cứu và mục đích của luận văn.
Chương 2 giới thiệu tổng quan về các kỹ thuật mã hóa tiếng nói. Các chỉ
tiêu kỹ thuật chính của các kỹ thuật mã hóa và các chuẩn mã hóa do các tổ
chức hợp chuẩn thiết lập.
Chương 3 trình bày phương pháp phân tích và mã hóa tiếng nói bằng
phương pháp mã hóa dự đoán tuyến tính LPC, một phương pháp hiệu quả và
được ứng dụng rộng rãi hiện nay. Chương 3 đề cập đến mô hình bộ máy phát
âm, kỹ thuật phân tích phổ của tín hiệu tiếng nói thời gian ngắn, cở sở và mô
hình phân tích LPC, dự đoán thời gian ngắn STP, dự đoán thời gian dài LTP
và các phương pháp để xác định chu kỳ cơ bản của tín hiệu tiếng nói.
Chương 4 nói về các vấn đề trong lượng tử hóa các tham số LPC, một
khâu cuối cùng và rất quan trọng trước khi truyền tín hiệu đi. Nêu các bộ
tham số có thể thay thế tham số LPC, trong đó các tần số phổ vạch LSF tỏ ra
hiệu quả nhất để dùng cho lượng tử hóa tín hiệu.
Chương 5 trình bày một kỹ thuật mã hóa phân tích bằng tổng hợp AbS,
một kỹ thuật mã hóa tiếng nói hiệu quả với tốc độ thấp. Cụ thể là kỹ thuật dự
đoán tuyến tính kích thích bằng mã CELP mà hiện nay được ứng dụng rộng
rãi nhất trong các hệ thống thông tin số.
Chương 6 xây dựng một chương trình mô phỏng quá trình phân tích LPC,
chương trình có thể thay đổi các thông số của các bộ lọc LPC và LTP để quan
sát sự thay đổi của tín hiệu sai số (trong miền thời gian và tần số).

2

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008


CHƯƠNG 2. TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA
TIẾNG NÓI
2.1. Giới thiệu.
Kỹ thuật điều chế xung mã PCM (Pulse Code Modulation) được phát minh
năm 1938 bởi Alec H.Reeves đã đánh dấu cho sự khởi đầu của truyền thông
số. Khác với các hệ thống tương tự, hệ thống PCM có thể khôi phục tín hiệu
hoàn hảo tại các trạm lặp của hệ thống thông tin bằng cách bù suy hao trong
điều kiện mức tạp âm của kênh chưa đủ lớn để gây ảnh hưởng làm sai lệch
dòng bit truyền. Vào những năm đầu thập kỷ 60, khi các hệ thống số bắt đầu
phổ biến, PCM được sử dụng trong các mạng điện thoại chuyển mạch nội bộ
và công cộng. Ngày nay, hầu hết tất cả các mạng điện thoại chuyển mạch
công cộng PSTN (Public Switched Telephone Networks) đều hoạt động trên
nền tảng PCM, và nhiều mạng sử dụng công nghệ cáp quang vì đặc biệt thích
hợp với truyền dữ liệu số. Thêm vào đó, ưu thế của kỹ thuật PCM so với các
hệ thống tương tự là sự thuận lợi khi thực hiện các kỹ thuật phức tạp như sửa
lỗi, mã hóa, ghép kênh, chuyển mạch và nén tín hiệu.
Nhược điểm chính của PCM là băng thông đường truyền lớn hơn băng
thông yêu cầu của tín hiệu tương tự. Đây là điều rất bất lợi khi sử dụng những
kênh có chi phí cao và băng thông hạn chế như các hệ thống thông tin vệ tinh
hay hệ thống điện thoại di động. Để khắc phục điều đó, đã có rất nhiều công
trình về mã hóa tiếng nói được nghiên cứu, và đến nay đã đạt được nhiều
thành tựu với nhiều phương pháp mã hóa tiếng nói khác nhau đã được ứng
dụng và phát triển. Trong từng ứng dụng cụ thể sẽ có những chuẩn mã hóa
riêng, trong chương này sẽ trình bày tổng quan về các kỹ thuật và chuẩn mã
hóa tiếng nói và sự khác nhau và ưu nhược điểm của chúng.

2.2. Các kỹ thuật mã hóa tiếng nói.
Các bộ mã hóa được chia làm 2 loại chính là mã hóa dạng sóng và mã hóa
tham số như sau:


3

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

• Bộ mã hóa xấp xỉ dạng sóng: Duy trì dạng sóng của tín hiệu gốc. Tạo ra
tín hiệu chất lượng càng cao, càng giống với tín hiệu gốc khi ta giảm
sai số lượng tử hóa.
• Bộ mã hóa tham số: Các bộ mã hóa tạo ra tín hiệu tiếng nói nhưng sẽ
không hội tụ về tín hiệu gốc khi giảm sai số lượng tử hóa.
Rất tốt
Mã hóa xấp xỉ dạng sóng
Tốt
Chất lượng

Mã hóa theo tham số

Trung Bình

Kém

1

2

4
8

16
32
64
Tốc độ bit (kb/s)
Hình 2.1 Chất lượng tại các tốc độ của các kỹ thuật mã hóa tiếng nói.

Trên hình 2.1 là đồ thị mô tả chất lượng của các bộ mã hóa với các tốc độ
bit khác nhau. Trước đây các bộ mã hóa tiếng nói được chia thành 3 loại là
mã hóa dạng sóng, mã hóa nguồn (vocoder) và mã hóa lai (hybrid coder). Mã
hóa dạng sóng gồm các bộ mã hóa tiếng nói trực tiếp như PCM hay ADPCM,
mã hóa nguồn gồm những bộ tổng hợp tiếng nói tốc độ bit rất thấp. Cuối cùng
là mã hóa lai là các bộ mã hóa sử dụng cả hai kỹ thuật của mã hóa nguồn và
mã hóa dạng sóng ví dụ như CELP, MBE... . Tuy nhiên hiện tại tất cả các bộ
mã hóa tiếng nói sử dụng một trong các dạng mô hình tiếng nói trên thì tín
hiệu đầu ra của nó có 2 trường hợp là có thể hội tụ về tín hiệu gốc nếu tăng
tốc độ bit hoặc không thể. Vì vậy hiện nay người ta có thể phân loại các bộ
mã hóa tiếng nói một cách thích hợp hơn thành 2 nhóm như trên, khi mà thuật
ngữ cũ mã hóa dạng sóng không còn thích hợp.
2.2.1. Mã hóa theo tham số.
Các bộ mã hóa theo tham số sử dụng một tập các tham số mô hình để mô
hình hóa tín hiệu tiếng nói. Các tham số sau khi được tính toán tại bộ mã hóa

4

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

sẽ được lượng tử hóa và truyền đến bộ giải mã tại phía thu. Bộ giải mã tổng

hợp lại tín hiệu dựa trên mô hình với các tham số nhận được. Mô hình bộ máy
phát âm (nguồn âm) không tính đến tạp âm lượng tử hóa, không tính đến việc
duy trì dạng sóng của tín hiệu tổng hợp giống với tín hiệu tiếng nói gốc (trái
với mã hóa dạng sóng). Việc ước lượng các tham số mô hình có thể sử dụng
vòng mở (open loop) không có phản hồi từ bộ lượng tử hóa hoặc tổng hợp
tiếng nói. Những bộ mã hóa này chỉ có thể bảo toàn những đặc trưng được xét
đến trong mô hình nguồn âm như đường bao phổ, chu kỳ, hay năng lượng tín
hiệu... Chất lượng tiếng nói tổng hợp của các bộ mã hóa theo tham số không
thể đạt đến chất lượng tốt mặc dù có lượng tử hóa các tham số mô hình chính
xác hơn (hình 2.1). Hạn chế này là do việc sử dụng mô hình nguồn âm. Hơn
nữa chúng không bảo toàn được dạng sóng của tín hiệu, và tỷ số tín hiệu trên
tạp âm SNR (Signal-to-Noise Ratio) trong trường hợp này là vô nghĩa vì tỷ số
này sẽ thường là âm khi tính bằng đơn vị dB (vì dạng sóng của tín hiệu vào và
ra không đồng pha). Tỷ số SNR không phản ánh được chất lượng tiếng nói
tổng hợp và chất lượng được đánh giá bằng chủ quan (hoặc cảm giác).
a. Các bộ mã nguồn (Vocoder) dựa trên kỹ thuật dự đoán tuyến tính.
Mô hình dự đoán tuyến tính được thiết kế để mô hình hóa cơ chế phát âm
của con người. Tuyến âm được mô hình hóa thành một bộ lọc dự đoán. Các
xung thanh môn và dòng khí từ thanh môn trong mô hình lần lượt là các xung
tuần hoàn và tạp âm Gauss, là tín hiệu kích thích của bộ lọc dự đoán. Các hệ
số của bộ lọc dự đoán tuyến tính, công suất tín hiệu, sự lựa chọn tín hiệu kích
thích (là xung tuần hoàn hay tạp âm) và chu kỳ tín hiệu của đoạn tín hiệu
tiếng nói được ước lượng và truyền đến bộ giải mã. Nhược điểm chính của
các bộ vocoder dựa trên kỹ thuật dự đoán tuyến tính này là việc quyết định
lựa chọn tín hiệu kích thích là dãy xung tuần hoàn hay tạp âm, mà không thể
mô hình hóa hỗn hợp cả 2 loại tín hiệu với cả 2 thành phần có chu kỳ và tạp
âm được. Ngày nay, nhờ các kỹ thuật quyết định tiếng nói trong miền tần số
đã cải thiện được chất lượng của các bộ vocoder này.
b. Bộ mã hóa điều hòa (Harmonic Coder).
Mã hóa điều hòa hay mã hóa dạng Sin biểu diễn tín hiệu tiếng nói thành

tổng của các hàm Sin. Các tham số mô hình ở đây là biên độ, tần số và pha

5

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

của hàm Sin thường được ước lượng từ phổ của tín hiệu. Tần số được xác
định từ các đỉnh của phổ tín hiệu, và các biên độ, tần số được nội suy trong
quá trình tổng hợp tín hiệu để được tín hiệu tổng giống tín hiệu tiếng nói ban
đầu. Việc tăng tốc độ lấy tham số sẽ làm dạng sóng của tín hiệu tổng hợp
giống hơn với tín hiệu gốc nếu các tham số này chưa bị lượng tử hóa. Tuy
nhiên, với mã hóa tốc độ thấp thì người ta không truyền đi pha của tín hiệu,
mà giá trị của pha được nội suy tại bộ giải mã. Vì vậy dạng sóng của tín hiệu
gốc cũng không được bảo tồn trong trường hợp này.
2.2.2. Mã hóa dạng sóng.
Các bộ mã hóa dạng sóng tối thiểu hóa sai số giữa dạng sóng của tín hiệu
tổng hợp và tín hiệu gốc. Các bộ mã hóa dạng sóng đầu tiên sử dụng các kỹ
thuật điều chế xung mã PCM và điều chế xung mã vi sai thích ứng ADPCM
truyền đi các giá trị đã lượng tử hóa cho từng mẫu. Tuy nhiên, ADPCM sử
dụng một bộ dự đoán các điểm cực và không thích ứng và lượng tử hóa tín
hiệu sai số, với bước lượng tử biến đổi thích nghi. Các hệ số dự đoán
ADPCM và các bước lượng tử biến đổi thích nghi lùi và phù hợp với tốc độ
mẫu.
Gần đây, những bộ mã hóa dựa trên phương pháp phân tích nhờ tổng hợp
trong miền thời gian như dự đoán tuyến tính kích thích bằng mã CELP (Code
Excited Linear Prediction), sử dụng mô hình ống dẫn thanh và dự đoán thời
gian dài LTP (Long-Term Prediction) để mô hình hóa sự liên kết giữa các

mẫu tín hiệu. Bộ mã hóa CELP lưu tín hiệu vào bộ đệm và xử lý phân tích
theo từng khối, sau đó truyền đi các hệ số của mô hình bộ lọc dự đoán cùng
với chỉ số của vectơ kích thích. Kỹ thuật này còn sử dụng bộ lọc nhấn cảm
nhận để nhấn mạnh các formant tín hiệu, và khi đó tạp âm lượng tử hóa sẽ bị
tín hiệu che khuất.
2.2.3. Mã hóa lai.
Hầu hết tất cả các bộ mã hóa đều áp dụng cùng một nguyên lý mã hóa để
mã hóa toàn bộ đoạn tín hiệu tiếng nói, bất chấp có những thay đổi lớn trong
tín hiệu tiếng nói, như sự chuyển đổi giữa các khoảng hữu thanh, vô thanh,
pha trộn, quá độ như các kỹ thuật ADPCM, CELP, IMBE. Khi giảm tốc độ

6

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

bit, chất lượng của các bộ mã hóa này lại càng giảm nhất là với một số dạng
tín hiệu. Điều đó cho thấy một nguyên lý mã hóa không thích hợp để mã hóa
tất cả các dạng tín hiệu tiếng nói. Để khắc phục điều này, các bộ mã hóa lai đã
kết hợp các phương pháp mã hóa khác nhau để mã hóa dạng tín hiệu tiếng nói
trong các đoạn tín hiệu khác nhau.
Bộ mã hóa lai có thể chuyển đổi các chế độ mã hóa khác nhau đã định sẵn,
vì vậy chúng là những bộ mã hóa đa chế độ. Bộ mã hóa lai còn gọi là bộ mã
hóa thích ứng, có thể chuyển đổi kỹ thuật hay chế độ mã hóa theo tín hiệu
nguồn, lựa chọn chế độ tốt nhất để mã hóa từng đoạn tín hiệu tiếng nói. Việc
quyết định chọn chế độ nào dựa vào mạng hoặc kênh cho phép bộ mã hóa
thích ứng với tải của mạng hoặc xác suất lỗi kênh, bằng cách thay đổi chế độ
mã hóa và tốc độ bit, thay đổi sự phân phối các bit của mã nguồn và mã kênh.

Còn với quyết định chế độ dựa vào nguồn, việc phân loại tiếng nói dựa vào
các khung với kích thước cố định hoặc biến đổi. Số lượng bit phân phối cho
các khung ở các chế độ khác nhau có thể giống hoặc khác nhau. Tốc độ bit
của bộ mã hóa lai cũng có thể cố định hoặc biến đổi. Mã hóa tốc độ bit biến
đổi được coi là kỹ thuật mã hóa lai mở rộng.

2.3. Các mục tiêu và yêu cầu của thuật toán mã hóa.
Việc thiết kế các thuật toán mã hóa khác nhau tùy thuộc vào từng ứng
dụng cụ thể. Do vậy trong quá trình thiết kế thuật toán phải cân nhắc rất kỹ
các trọng số của các nhân tố ảnh hưởng khác nhau để có thể cân bằng được
giữa các nhân tố đối lập nhau. Sau đây ta xét đến các nhân tố chính của các
ứng dụng mạng mà có thể ảnh hưởng đến việc lựa chọn thuật toán cho từng
ứng dụng cụ thể.
2.3.1. Chất lượng và dung lượng.
Chất lượng và tốc độ thoại là 2 thông số có quan hệ trực tiếp và trái ngược
nhau. Nếu bộ mã hóa nguồn có tốc độ càng thấp nghĩa là khả năng nén tín
hiệu cao thì chất lượng thoại sẽ càng khó tránh khỏi bị tổn thất ở một mức độ
nào đó (các bộ vocoder). Với các hệ thống kết nối với mạng thoại công cộng
PSTN và các hệ thống liên đới khác thì những yêu cầu về chất lượng rất
nghiêm ngặt và phải tương thích với các chuẩn và hướng dẫn đã được các tổ

7

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

chức hợp chuẩn thiết lập ra, ví dụ như ITU (tiền thân là CCITT). Những hệ
thống như vậy đòi hỏi chất lượng mã hóa rất cao (chất lượng thực). Tuy nhiên

với các hệ thống đóng như các mạng nội bộ và các hệ thống quân sự, thì yêu
cầu về chất lượng có thể giảm bớt. Mặc dù chất lượng tuyệt đối thường được
xác định rõ nhưng vẫn có thể sử dụng những chuẩn chất lượng thấp hơn nếu
một số nhân tố khác cần tốc độ cao hơn (mã hóa lai). Chẳng hạn như trong hệ
thống di động vô tuyến thì chất lượng tổng thể trung bình thường là nhân tố
quyết định. Chất lượng trung bình thường được đưa vào tính toán trong cả hai
điều kiện truyền dẫn tốt và xấu.
2.3.2. Trễ mã hóa.
Trễ mã hóa trong các hệ thống truyền dẫn thoại là một yếu tố có liên quan
chặt chẽ với yêu cầu về chất lượng. Trễ mã hóa bao gồm các yếu tố về thuật
toán (bộ nhớ đệm các đoạn tiếng nói dùng trong phân tích), tính toán (thời
gian để bộ xử lý lưu trữ các mẫu tín hiệu) và các yếu tố truyền dẫn. Trong số
đó hai yếu tố đầu tiên liên quan đến phân hệ mã hóa, mặc dù bộ mã hóa
thường được điều chỉnh để quá trình truyền dẫn được khởi tạo (thậm chí)
trước khi hoàn tất quá trình xử lý các thông tin trong khung đang phân tích
của thuật toán, ví dụ trong hệ thống di động châu Âu Pan-European (GSM) bộ
mã hóa sẽ truyền các tham số phổ ngay khi tính toán xong. Đối với các ứng
dụng của mạng chuyển mạch thoại công cộng PSTN yêu cầu độ trễ nhỏ nếu
vấn đề chính của mạng là giảm thiểu tiếng vọng. Còn với các ứng dụng của hệ
thống di động và thông tin vệ tinh, cần triệt tiếng vọng khi có trễ lan truyền.
Tuy nhiên với hệ thống PSTN khi trễ là rất nhỏ thì việc triệt tiếng vọng sẽ đòi
hỏi cao hơn nếu sử dụng bộ mã hóa có độ trễ lớn, như vậy sẽ tăng chi phí hoạt
động của hệ thống. Hầu hết các thuật toán tốc độ thấp đều được so sánh về độ
trễ mã hóa với hệ thống tiêu chuẩn 64 kb/s PCM. Chẳng hạn như hệ thống
GSM có giới hạn trên ban đầu là 65 ms với cấu hình back-to-back (nối trực
tiếp bộ phát và bộ thu), trong khi đó với chuẩn 16kb/s G.728 trễ tối đa là 5ms
với tiêu chí là 2ms.

8


Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

2.3.3. Độ bền bỉ (Robustness).
Tính bền bỉ trong thông tin là khả năng chống lại các yếu tố tác động từ
kênh. Trong nhiều ứng dụng, mã hóa nguồn chỉ chiếm một phần trong tổng số
dung lượng kênh, phần còn lại giành cho mã sửa lỗi trước FEC (Forward
Error Correction) và báo hiệu. Trong các kết nối di động chịu ảnh hưởng
nhiều bởi các lỗi ngẫu nhiên và lỗi cụm thì khả năng chống lỗi kênh của kỹ
thuật mã hóa rất cần thiết cho hoạt động với chất lượng tiếng nói trung bình
có thể chấp nhận được. Với việc tăng cường độ bền bỉ (ví dụ phân tập tín
hiệu, phát đi 1 tín hiệu với nhiều bản sao) thì có thể sử dụng các mã sửa lỗi
FEC ít hơn, vì vậy phần mã nguồn có dung lượng cao hơn và cho ta chất
lượng tốt hơn. Tuy nhiên sự cân bằng giữa độ bền bỉ và chất lượng rất khó đạt
được, đây là một yêu cầu phải xét đến khi bắt đầu thiết kế thuật toán. Với các
ứng dụng sử dụng các kênh chất lượng tốt hơn như các liên kết cáp quang, thì
các lỗi kênh giảm thiểu đi nhiều thì độ bền bỉ có thể đánh đổi dung lượng lấy
chất lượng. Đây là một đặc điểm khác nhau lớn giữa các hệ thống di động, vệ
tinh và đường truyền cố định.
Ngoài nhiễu kênh, các bộ mã hóa còn phải làm việc trong môi trường có
nhiễu nền. Nhiễu nền có thể ảnh hưởng đến quá trình tính toán các tham số
của tín hiệu tiếng nói vì vậy bộ mã hóa cần phải được thiết kế để có thể duy
trì hoạt động tốt trong mọi điều kiện. Như việc duy trì được chất lượng tiếng
nói tốt trong môi trường có tạp âm, việc duy trì chất lượng trong điều kiện
nhiễu nền của các bộ mã hóa cũng rất quan trọng (trừ khi sử dụng bộ triệt
nhiễu thích ứng trước mã hóa).
2.3.4. Độ phức tạp và chi phí.
Các thuật toán ngày càng được cải tiến và tinh vi hơn kéo theo độ phức tạp

tính toán tăng lên. Sự ra đời của các chip xử lý tín hiệu DSP và các chip tích
hợp mạch chuyên dụng ASIC đã làm cho chi phí xử lý giảm xuống đáng kể.
Tuy nhiên độ phức tạp/chi phí xử lý vẫn là một vấn đề lớn, đặc biệt trong các
hệ thống mà sự cơ động của phần cứng (có thể di chuyển được) là nhân tố
chính. Một kỹ thuật để khắc phục được sự tiêu thụ năng lượng trong khi vẫn
tăng hiệu suất kênh là kỹ thuật nội suy tiếng nói kỹ thuật số DSI (Digital

9

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

Speech Interpolation). Trên thực tế trong một cuộc đàm thoại chỉ khoảng một
nửa là các tín hiệu tiếng nói tích cực, vì vậy trong khoảng thời gian không tích
cực (khoảng lặng) thì kênh có thể được sử dụng cho những mục đích khác,
thường dùng để hạn chế hoạt động của máy phát vì vậy tiết kiệm được công
suất. Một bộ phận quan trọng của DSI là bộ dò hoạt động thoại VAD (Voice
Activity Detector) với chức năng đảm bảo tín hiệu thoại không bị nhầm với
khoảng lặng và ngược lại. Rõ ràng là lỗi nhầm khoảng lặng với tiếng nói thì
có thể chấp nhận được, nhưng điều ngược lại thì sẽ gây khó chịu.
2.3.5. Ghép nối và chuyển mã.
Với các ứng dụng cuối-đến-cuối (end-to-end) mà kết nối phải qua nhiều
trung gian thì chất lượng tiếng nói rất quan trọng đối với người dùng cuối
(end user), một yếu tố quan trọng của thuật toán là khả năng khi hệ thống kết
nối với chính nó hoặc với các hệ thống mã hóa khác. Sự suy giảm qua các kết
nối thường có tính tích lũy, nếu thuật toán phụ thuộc nhiều vào các yếu tố kết
nối này thì có thể gây ra nhiều suy giảm nghiêm trọng. Để khắc phục trong
những trường hợp này chưa có phương pháp nào thực sự hiệu quả, thường sử

dụng thêm một bộ lọc phía sau để lọc tín hiệu tiếng nói đầu ra. Chuyển mã
sang một dạng khác (thường là PCM) cũng gây suy giảm chất lượng và tăng
chi phí thực hiện.
2.3.6. Xử lý dữ liệu dải tần tiếng nói.
Khi các kết nối truyền tiếng nói dùng trong truyền dẫn các dạng tín hiệu số
khác ví dụ như modem, fax thì một yêu cầu quan trọng của thuật toán là tính
năng truyền dữ liệu trên dải tần tiếng nói. Các đặc điểm thống kê của dạng
sóng và phổ tần số của dữ liệu dải tần tiếng nói không giống với tín hiệu thoại
vì vậy thuật toán phải tương thích với cả hai dạng. Việc tính đến sự tương
thích với dữ liệu dải tần tiếng nói thường được để lại đến giai đoạn cuối trong
giai đoạn phát triển thuật toán, thường xảy ra lỗi trong các hệ thống mạng
công cộng, khi người dùng cuối cần truyền những dữ liệu không phải là tiếng
nói. Hầu hết những bộ mã hóa tiếng nói tốc độ thập đều không thể xử lý các
dữ liệu này, vì được thiết kế chỉ giành cho tiếng nói. Để khắc phục điều này,
thường phải sử dụng các giải pháp khác. Một trong số đó là phát hiện các dữ

10

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

liệu trên dải tần tiếng nói và sử dụng một giao diện để có thể bỏ qua các bộ
mã hóa và giải mã.

2.4. Các chuẩn mã hóa tiếng nói.
Việc tiêu chuẩn hóa để định ra các chuẩn là rất thiết yếu để giải quyết
những vấn đề về tính tương thích và phù hợp giữa các hệ thống, thiết bị của
những nhà sản xuất khác nhau. Việc định chuẩn cho phép những thiết bị mã

hóa tiếng nói của hãng này có thể làm việc với các thiết bị, hệ thống của hãng
khác. Trong phần này sẽ trình bày về các chuẩn mã hóa được phát triển cho
những hệ thống thông tin cụ thể.
2.4.1. Chuẩn mã hóa của ITU-T.
Liên minh viễn thông quốc tế bộ phận chuẩn hóa về viễn thông ITU-T
(tiền thân là CCITT) đã chuẩn hóa các phương pháp mã hóa chủ yếu cho điện
thoại PSTN với băng thông đầu vào 3,4kHz và tần số lấy mẫu 8kHz, với định
hướng tăng dung lượng mạng viễn thông bằng các mạch ghép kênh số. Ngoài
ra ITU-T có những hướng dẫn cho các bộ mã hóa tiếng nói băng rộng để hỗ
trợ băng thông tín hiệu tiếng nói đầu vào 7kHz với tần số lấy mẫu 16kHz, chủ
yếu cho các ứng dụng ISDN.
Chuẩn mã hóa

Tốc độ
(kb/s)

Bộ dò
thoại VAD

Triệt
nhiễu

Trễ
(ms)

Chất lượng

G.711 (Luật A/W
64
Không

Không
0
Thực
PCM)
G.726 (ADPCM)
40/32/24/16
Không
Không 0,25
Thực
G.728 (LD-CELP)
16
Không
Không 1,25
Thực
G.729 (CSA-CELP)
8

Không 25
Thực
G.723.1
6,3/5,3

Không 67,5
Thực/
(MP-MLQ/ACELP)
Gần thực
G.4k
4

~55

Thực
Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp của ITU-T.

Năm
1972
1990
1992
1996
1995
2001

Năm 1972, ITU-T đưa ra chuẩn G.711, là chuẩn PCM luật A/µ cho mã hóa
tiếng nói tốc độ 64kb/s được thiết kế dựa trên thang lôga với từng biên độ của
xung mẫu trước khi được mã hóa thành 8 bit. Là hệ thống điện thoại số đầu

11

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

tiên, G.711 được triển khai trong nhiều mạng PTSN trên khắp thế giới. Tiếp
theo đó ITU-T đã tăng cường tập trung vào chuẩn hóa những phương pháp
mã hóa phức tạp hơn, như họ G.72x. ITU-T đã ban hành chuẩn G.721 là
chuẩn điều chế xung mã vi sai thích nghi ADPCM tốc độ 32kb/s, theo sau đó
là các phiên bản mở rộng (40/32/24/16 kb/s), G.726. Phiên bản ADPCM mới
nhất là G.726 để thay thế các phiên bản trước. Mỗi chuẩn mã hóa của ITU-T
ngoại trừ G.723.1 đều đuợc phát triển với mục tiêu giảm đi một nửa tốc độ bit
với các chuẩn trước. Ví dụ chuẩn mã hóa tiếng nói G.728 và G.728 hoàn

thành vào năm 1992 và 1996 được khuyến nghị với tốc độ lần lượt là 16kb/s
và 8kb/s. Ngoài ra ITU-T còn ban hành chuẩn G.723.1 mã hóa với 2 tốc độ
5,3/6,3 kb/s cho các hệ thống điện thoại truyền hình. Các chuẩn G.728, G.729
và G.723.1 đều có nguyên lý dựa trên kỹ thuật dự đoán tuyến tính kích thích
bằng mã CELP. Với truyền dẫn không liên tục DTX (Discontinuous
Transsmission), ITU-T ban hành 2 phiên bản mở rộng của G.729 và G.723.1
lần lượt là G.729B và G.723.1A. Chúng được sử dụng rộng rãi trong thông tin
dùng chuyển mạch gói dùng các phương pháp nén tín hiệu. Mới hơn nữa xuất
hiện các chuẩn hoạt động với tốc độ 4kb/s. Hiện nay có 2 bộ mã hóa là ứng cử
cho chuẩn này, một bộ mã hóa dựa trên mô hình CELP và một là bộ mã hóa
lai giữa mô hình CELP và nguyên lý mã hóa tiếng nói dạng sin. Các chuẩn
mã hóa tiếng nói băng hẹp của ITU-T được tóm tắt trên bảng 2.1.
Ngoài các chuẩn băng hẹp, ITU-T còn ban hành hai chuẩn mã hóa băng
rộng là G.722 và G.722.1 chủ yếu giành cho truyền thông đa phương tiện đòi
hỏi chất lượng âm thanh cao. G.722 hỗ trợ 3 tốc độ 64, 56 và 48 kb/s dựa trên
kỹ thuật ADPCM băng con (SB-ADPCM). Kỹ thuật này sử dụng bộ lọc
gương cầu phương chia tín hiệu vào thành dải cao và dải thấp, sau đó tín hiệu
sau lọc thông dải được lượng tử hóa sử dụng ADPCM với bước lượng tử biến
đổi tùy thuộc vào dải con. Chuẩn G.722.1 hoạt động với tốc độ 32 và 24 kb/s
dựa trên kỹ thuật biến đổi. Hiện nay, một bộ mã hóa băng rộng mới với tốc độ
13/16/20/24 kb/s đang được tiêu chuẩn hóa.
2.4.2. Chuẩn điện thoại số celluar châu Âu.
Với sự xuất hiện và phát triển của điện thoại di động số, có nhiều chuẩn đã
được viện tiêu chuẩn viễn thông châu Âu ETSI (European

12

Trần Ngọc Tuấn



Luận văn cao học ĐTVT 2006 - 2008

Telecommunications Standards Institute) đưa ra. Chuẩn đầu tiên được ETSI
ban hành là bộ mã hóa GSM toàn tốc FR (Full-Rate) làm việc với tốc độ
13kb/s. Sau đó ETSI đưa ra chuẩn GSM bán tốc HR (Half-Rate) 5,6kb/s và
GSM tốc độ đầy đủ tăng cường EFR (Enhanced Full-Rate) 12,2kb/s. Tiếp
theo đó ETSI đưa ra một chuẩn mã hóa mới, gọi là mã hóa đa tốc độ thích
nghi AMR (Adaptive Multi-Rate), hoạt động với 8 tốc độ từ 12,2 đến
4,75kb/s (4 tốc độ cho kênh toàn tốc và 4 tốc độ cho kênh bán tốc). Bộ mã
hóa AMR đưa ra với mục đích cung cấp chất lượng tiếng nói tốt hơn bằng
cách chọn lựa tối ưu giữa phương pháp (và tốc độ) mã nguồn và mã kênh. Với
môi trường nhiễu vô tuyến cao, AMR sẽ phân phối cho mã kênh (mã sửa lỗi)
nhiều bit hơn đồng thời giảm tốc độ mã nguồn và ngược lại.
Các chuẩn mã hóa của ETSI còn có khả năng nén các khoảng lặng (thời
gian không đàm thoại) sử dụng các bộ dò hoạt động thoại VAD (Voice
Activity Detection), nhờ đó có thể giảm được nhiễu vô tuyến và tiết kiệm
được năng lượng cho các máy di động. Các chuẩn mã hóa cho truyền thông di
động châu Âu được tổng kết trên bảng 2.2.
Chuẩn mã hóa

Tốc độ (kb/s)

FR (RPE-LTP)
HR (VSELP)
EFR (ACELP)
AMR
(ACELP)

13
5,6

12,2
12,2/10,2/7,95
7,4/6,7/5,9/5,15/4,75

Bộ dò
thoại VAD





Triệt
nhiễu
Không
Không
Không
Không

Trễ
(ms)
40
45
40
40/45

Chất
lượng
Gần thực
Gần thực
Thực

Thực
--

Năm
1987
1994
1998
1999

Bảng 2.2 Các chuẩn mã hóa của ETSI cho truyền thông di động GSM.

2.4.3. Chuẩn điện thoại số Bắc Mỹ.
Tại Bắc Mỹ, hiệp hội công nghiệp viễn thông TIA (Telecommunication
Industries Association) thuộc hiệp hội công nghiệp điện tử EIA (Electronic
Industries Association) đưa ra các chuẩn thông tin di động dựa trên kỹ thuật
đa truy nhập phân chia theo mã CDMA và đa truy nhập phân chia theo thời
gian TDMA được sử dụng tại Mỹ. TIA/EIA đã chọn kỹ thuật CELP của
Qualcomm (QCELP) cho chuẩn IS-96-A (Interim Standard-96-A), hoạt động
với tốc độ biến đổi trong khoảng 8kb/s và 0,8kb/s được điều khiển bởi một

13

Trần Ngọc Tuấn


Luận văn cao học ĐTVT 2006 - 2008

thuật toán lựa chọn tốc độ. Sau đó, TIA/EIA ban hành chuẩn IS-127 là bộ mã
hóa tốc độ biến đổi cải tiến, có chức năng mới là giảm tạp âm (triệt nhiễu) tại
bộ tiền xử lý trong module nén tiếng nói. Trong điều kiện có nhiều tạp âm

nền, bộ triệt nhiễu sẽ cho chất lượng tiếng nói tốt hơn. Với những hệ thống
thông tin cá nhân, TIA/EIA ban hành chuẩn IS-733 hoạt động với tốc độ biến
đổi giữa 14,4 và 1,8kb/s. Đối với các chuẩn TDMA bắc Mỹ, TIA/EIA ban
hành chuẩn IS-54 và IS-641-A lần lượt cho mã hóa tiếng nói toàn tốc và toàn
tốc tăng cường. Các chuẩn mã hóa cho thông tin di động Nam Mỹ được tóm
tắt trên bảng 2.3.
Bộ dò
thoại VAD
IS-96-A(QCELP)
8,5/4/2/0,8

IS-127(EVRC)
8,5/4/2/0,8

IS-733(QCELP)
14,4/7,2/3,6/1,8

IS-54(VSELP)
7,95

IS-641-A(ACELP)
7,4

Chuẩn mã hóa

Tốc độ (kb/s)

Triệt
nhiễu
Không


Không
Không
Không

Trễ
(ms)
45
45
45
45
45

Chất
lượng
Gần thực
Thực
Thực
Gần thực
Thực

Năm
1993
1995
1998
1989
1996

Bảng 2.3 Các chuẩn mã hóa của TIA/EIA cho thông tin di động CDMA/TDMA của Mỹ


2.4.4. Điện thoại bảo mật. (Chuẩn của bộ quốc phòng Mỹ).
Mã hóa tiếng nói là một trong những thành phần chủ yếu của một hệ thống
điện thoại an toàn và bảo mật, khi mà các lệnh bằng giọng nói truyền đi phải
đảm bảo bên nhận hiểu ngay được trong trường hợp khẩn cấp.
Tốc
độ
(kb/s)
2,4
4,8
2,4

Bộ dò
thoại VAD

Triệt
nhiễu

Trễ
(ms)

Chất lượng

Năm

FS-1015(LPC-10e)
Không
Không
115
Nghe hiểu
FS-1016(CELP)

Không
Không
67,5
Trung bình
DoD 2,4 (MELP)
Không
Không
67,5
Trung bình
STANAG (NATO)
2,4/1,2
Không

>67,5 Trung bình
2,4/1,2 (MELP)
Bảng 2.4 Các chuẩn mã hóa của DoD (Bộ quốc phòng Mỹ)

1984
1991
1996

Chuẩn mã hóa

2001

Việc chuẩn hóa chủ yếu do bộ quốc phòng Mỹ DoD (Department of
Defence) đảm nhận. DoD đã ban hành chuẩn FS-1015 (Federal Standard-

14


Trần Ngọc Tuấn


×