Tải bản đầy đủ (.docx) (17 trang)

Phương pháp mã hóa tiếng nói thoại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (314.89 KB, 17 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ───────

BÁO CÁO
TRUYỀN THÔNG ĐA PHƯƠNG TIỆN
ĐỀ TÀI: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI THOẠI

Giáo viên hướng dẫn

:

PGS.TS Nguyễn Thị Hoàng Lan

Sinh viên thực hiện

:

Phạm Thành Đạt - 20121503
Đỗ Xuân Cường - 20121358
Nguyễn Trung Dũng - 20121422
Doãn Tuấn Vũ - 20122814
Phạm Minh Tuấn - 20122711

Hà Nội tháng 12/2015
1


MỤC LỤC

2




LỜI NÓI ĐẦU
Hiện nay, Voice over IP (hay viết tắt là VoIP) nghĩa là truyền giọng nói trên
giao thức IP là một trong những công nghệ hỗ trợ rất đắc lực cho các doanh
nghiệp trong lĩnh vực truyền thông. Sử dụng giao thức TCP/IP, nó sử dụng các
gói dữ liệu IP trên mạng LAN, WAN hay Internet để truyền tải âm thanh dưới
dạng mã hóa. VoIP đã được ITU-T xây dựng các chuẩn luôn được cập nhật nên
ngày càng hoàn chỉnh. Chính vì vậy, chúng em đã quyết định chọn đề tài số 8 "Phương pháp mã hóa âm thanh tiếng nói thoại”.
Nội dung báo cáo gồm 3 phần chính:
Phần 1: Tìm hiểu chung về âm thanh thoại, giới thiệu các phương pháp
mã hóa tiếng nói
Phần 2: Khảo sát một số chuẩn mã hóa nén âm thanh thoại theo chuẩn
ITU - GSM và phân tích các ứng dụng thực tế của chuẩn ITU
Phần 3: Phân tích một sơ đồ nén tiếng nói thoại theo chuẩn G và nhận
xét ảnh hưởng của chất lượng âm thanh trong dịch vụ VOIP
Do thời gian nghiên cứu trình độ hiện tại của nhóm có hạn nên chắc chắn
trong quá trình thực hiện đề tài không tránh khỏi những sai lầm, thiếu sót cả về
nội dung lẫn hình thức. Trong suốt quá trình thực hiện, nhóm đã liên tục nhận
được sự nhắc nhở, góp ý từ cô Nguyễn Thị Hoàng Lan - giảng viên hướng dẫn
của nhóm.
Chúng em xin chân thành cảm ơn cô!

3


A- Các phương pháp cơ sở mã hóa âm thanh thoại và ứng dụng trong

truyền thông
1. Tìm hiểu chung về âm thanh thoại


Âm thanh (Sound) là các dao động cơ học của các phần tử, nguyên tử hay các
hạt vật chất lan truyền trong không gian, được cảm nhận trực tiếp qua tai người
bởi sự va đập vào màng nhĩ và kích thích bộ não. Sóng âm tần được đặc trưng
bởi biên độ, tần số (bước sóng) và vận tốc lan truyền. Đối với tai người, âm
thanh cảm nhận được bởi sóng có dao động trong dải tần từ 20Hz đến 20kHz.
Tín hiệu âm thanh được chia thành 2 loại dựa trên dải tần:
- Âm thanh dải tần cơ sở (âm thanh tiếng nói thoại, gọi tắt là âm thanh
thoại): có dải tần từ 300Hz đến 4kHz.
-

Âm thanh dải rộng (tiếng nói trình diễn, hát, âm nhạc…): có dải tần số từ
100Hz đến 20kHz

Audio là âm thanh được thu nhận, xử lý và tái tạo bởi các thiết bị điện tử, đối
tượng truyền thông đa phương tiện.
Âm thanh đầu vào của quá trình nén file mp3 là âm thanh dải rộng .
Trong báo cáo này chỉ đề cập đến âm thanh tiếng nói thoại. Một số đặc điểm
của âm thanh thoại được chỉ ra:
- Giới hạn dải phổ tín hiệu, như đã nói ~ 4kHz.
-

Tần số lấy mẫu fs = 8kHz tương đương với chu kỳ Te = 125µs.

-

Lượng tử hóa giá trị với mã hóa 8bit.

-


Tốc độ cần thiết = 8bit x 8kHz = 64Kbit/s

2. Các thành phần chủ yếu của hệ thống mã hóa

Tín hiệu âm thoại tương tự liên tục từ một nguồn cho trước ( speech source)
được số hóa qua bộ lọc Filter ( loại bỏ băng tần thừa ở tần số cao),bộ lấy mẫu sampler ( biến đổi thành tín hiệu rời rạc theo thời gian) và bộ biến đổi tín hiệu
tương tự sang dạng số A/D converter và sau đó được mã hóa nén: đó là quá
trình mã hóa nguồn. Sau đó, tín hiệu tiếp tục được mã hóa để thêm khả năng
chống lỗi và độ ưu tiên để truyền dẫn qua một kênh( mã hóa kênh – channel
encoder)
Sau khi qua một kênh, tại đầu thu, bộ giải mã kênh ( channel decoder) sẽ tách
và sửa những lỗi trong quá trình truyền dẫn và được giải nén bởi bộ giải mã
nguồn ( source decoder) rồi cho tìn hiệu ra thông qua D/A conventer và Filter.
Tín hiệu ra có thể không giống tín hiệu ban đầu hoặc không tùy vào quá trình
nén ( không tổn thất hoặc bị tổn thất)
4


Hình 1. Hệ thống mã hóa tiếng nói
Ứng dụng trong truyền thông:
Tín hiệu số có nhiều ưu điểm hơn so với tín hiệu tương tự trong việc truyền dẫn
và xử lí tín hiệu nhất là khả năng chống lỗi đường truyền. Do đó, Hệ thống mã
hóa dùng để nén tiếng nói thoại là cần thiết cho các ứng dụng như điện thoại di
động và các ứng dụng cho phép truyền dữ liệu tốc độ thấp, hay các ứng dụng
truyền thoại qua IP (VoIP), thoại hội nghị… để có thể giảm băng thông sử dụng
trên mạng internet
3. Các phương pháp mã hóa tiếng nói

Mã hóa tiếng nói gồm 3 phương pháp chính:
3.1 Phương pháp mã hóa tín hiệu dạng sóng (waveform),

+ Mã hóa dạng sóng là kỹ thuật duy trì hình dạng ban đầu cả các sóng tín
hiệu.
Nguyên lý của mã hóa dạng sóng : Tại phía phát sẽ nhận tín hiệu tiếng
nói tương tụ liên tục và mã hóa thành tín hiệu số. Tại phía thu, bộ giải mã
đảm nhận nhiệm vụ ngược lại để khôi phục tiếng nói, khi không có lỗi
truyền dẫn thì dạng sóng của tiếng nói khôi phục sẽ giống vơi tiếng nói
gốc
+ Bao gồm 2 loại chính:
Mã hóa trong miền thời gian: bao gồm các chuẩn từ G.710 đến G.719
o Mã hóa điều xung mã Pulse Code Modulation – PCM – lương tử

hóa đã được chuẩn hóa với chuẩn G.711
5


o Mã hóa dự đoán – điều xung mã sai phân Differential Pulse Code

Modulation - DPCM.
 Mã hóa dự đoán thích nghi – điều xung mã sai phân thích

nghi Adaptive Differential Pulse Code Modulation ADPCM với chuẩn G.726.
Mã hóa trong miền tần số:
o Mã hóa các dải tần con Subband Coding – SBC với chuẩn G.722
o Mã hóa dựa trên phép biến đổi Transform Coding.

+ Ưu điểm là có khả năng cung cấp thoại tốt như tiếng nói gốc nhưng chỉ
hiệu quả ở tốc độ bit cao
3.2 Phương pháp mã hóa nguồn:
o Nguyên lý mã hóa nguồn dựa trên bộ mô phỏng hệ thống phát âm


con người Vocoder, tạo ra âm thanh tiếng nói từ tập các tham số.
Vocoder làm việc với 2 kiểu nguồn kích thích là nguồn xung tạo ra
âm hữu thanh và nguồn nhiễu trắng tạo ra âm vô thanh. Từ đó, nó
mô phỏng hệ thống phát âm bằng hệ thống lọc dự đoán tuyến tính
LPC được kích thích bằng hai trạng thái nguồn.
o Ưu điểm của phương pháp này là đạt được tốc độ dòng bit thấp,

phân tích được các tham số nguồn kích thích, có thể sửa đổi nội
dung tiếng nói theo ý muốn. Tuy nhiên, nhược điểm của nó là tiếng
nói nhận được là tiếng nói tổng hợp không phải là giọng nói con
người.
3.3 Phương pháp mã hóa lai:
o Mã hóa lai dùng để lấp khoảng cách ranh giới giữa mã hóa dạng

sóng và mã hóa nguồn vì mã hóa dạng sóng có khả năng cung cấp
thoại tốt nhưng bị giới hạn về sử dụng tốc độ thấp hơn còn mã hóa
nguồn có thể hoạt động ở tốc độ tấp nhưng không thể tạo ra âm
thanh trung thực ở bất kì tốc độ nào
o Mã hóa lai phổ biến là mã hóa dựa trên kết hợp phân tích bằng

cách tổng hợp Analysis-by-Synthesis AbS:
+ Phương pháp này sử dụng mô hình dự đoán tuyến tính ( giống
LPC) tạo ra âm thanh tiếng nói nhờ tập các tham số nhưng không
ứng dụng mô hình ở trạng thái đơn giản ( hữu thanh- vô thanh).

6


+ Mô hình này cố gắng giảm tối đa độ sai lệch với dạng sóng của
tín hiệu vào bằng cách tìm kiếm tín hiệu kích thích ký tưởng

+ Thuật toán tìm ra sóng kích thích này quyết định độ phức tạp của
bộ mã hóa.
o Các loại mã hóa lai khác nhau theo kỹ thuật phân tích tạo ra tín

hiệu kích thích CELP, RPE-LTP, MPE…
Đánh giá chung về 3 phương pháp:
 Mã hóa dạng sóng nói chung không cho phép đạt chất lượng tiếng nói tốt

ở tốc độ bit dưới 16Kbps. Nhưng tiếng nói nhận được khá giống với tiếng
nói ban đầu
 Mã hóa Vocoder có thể đạt được tốc độ bit rất thấp nhưng tiếng nói nhận
được là tiếng nói tổng hợp không giống với tiếng nói ban đầu.
 Mã hóa lai cải thiện được các nhược điểm của mã hóa sóng và mã hóa
nguồn, nhưng tương đối phức tạp thường được dùng theo chuẩn GSM.
B- Khảo sát một số chuẩn mã hóa nén âm thanh thoại theo chuẩn ITU -

GSM và phân tích các ứng dụng thực tế của chuẩn ITU

-

Asterisk là một nền tảng mở mạnh mẽ cho việc xây dựng các ứng
dụng đa phương tiện
Viết trên ngôn ngữ C chạy trên hệ điều hành linux
Thực hiện tất cả các tính năng của tổng đài PBX và hơn nữa về các dịch
vụ gia tăng
Hiện nay Asterisk đang trên đà phát triển và được rất nhiều doanh
nghiệp triển khai ứng dụng.
SIP Asterisk hỗ trợ các codec theo chuẩn ITU: G.711 m-law/a-law,
G.722, G.723.1, G.726, G.729
Trong môi trường thực hành của bộ môn phần mềm ekiga có đỗ trợ các

chuẩn GSM 06.10, MS-GSM G.711 m-law/a-law, G.722, G.723.1, G.726,
G.729, GSM-ARM.
1. Chuẩn G.711
G.711 là 1 chuẩn nén –giãn âm thanh của ITU-T thường được sử dụng ở
điện thoại .Chuẩn được đưa sử dụng vào năm 1972.Tên chính thức của
chuẩn G.711 là phương pháp điều biến mã xung cho tần số giọng nói
“Pulse Code Modulation _PCM” có 2 phiên bản là Uu-law sử dụng cho
Bắc Mỹ và Nhật Bản và a-law sử dụng cho các quốc gia còn lại.
Chuẩn G.711 được khuyên dùng bởi nhiều công nghệ khác như H.320 ,
7


H.323. G.711 là bộ codec đặc trưng cho mã hóa dạng sóng .G.711 yêu
cầu cung cấp bang thông 64kbit/s truyền tín hiệu thoại trong khoảng từ
300-3400Hz và lấy mẫu chúng với tốc độ 8000 mẫu/s .Về sau có phát
triển thành 2 phiên bản G.711.0 và G.711.1 bổ sung về phương pháp nén
dữ liệu để giảm bang thông và tang chất lượng âm thanh.
Ứng dụng thực tế:
-

-

-

G.711 là chuẩn ITU-T dùng cho thoại cho các tổng đài , được phát hành
chính thức vào năm 1972
G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở bang
tần thoại ,tần số lấy mẫu là 8000 mẫu trong 1 s
Có 2 thuật chính thức được được định nghĩa trong chuẩn này là , giải
thuật µ-law dung cho khu vực Bắc Mỹ, Nhật và giải thuật A-law dùng

cho khu vực châu Âu và những nước còn lại
2 giải thuật được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và Alaw là 13-bit với mẫu 8-bit.Như vậy bộ mã hóa G.711 sẽ tạo được luồng
dữ liệu bit có tốc độ 64kbit/s với tần số lấy mẫu là 8kHz
G.711 thường được sử dụng trong Voice over Internet Protocol (VoIP),
còn được gọi là điện thoại Internet.
2. Chuẩn G722
G.722 là chuẩn codec âm thanh dải rộng của ITU-T hoạt động ở đa dạng
bang thông là 48 , 56 và 64kbit/s được công bố năm 1988 cải tiến sử dụng
công nghệ codec băng con ADPCM .Trong bộ mã hóa băng con tín hiệu
được chia mỗi băng tần sử dụng 1 bộ lọc và bộ mã hóa băng con sử dụng
số liệu thống kê để mã hóa tín hiệu trong mỗi băng tần sử dụng số lượng
khác nhau của các bit.
Tiêu chuẩn G.722 ITU sử dụng chủ yếu ở hội nghị qua điện thoại , ngoài
ra còn được sử dụng trong hệ thống truyền thông không dây , dịch vụ
thông tin liên lạc cá nhân

-

-

Ứng dụng thực tế:
Là chuẩn ITU-T dung cho mã hóa tiếng nói bang tần rộng hoạt động
với tốc độ truyền 32-64 kbit/giây .Công nghệ mã hóa dựa trên việc
phân chia bang tần ADPCM
Chuẩn G.722 và dữ liệu mẫu âm thanh 16kHz, gấp đôi tốc độ xử lý tại
các giao tiếp thoại truyền thông, kết quả chất lượng thoại tốt hơn
Chuẩn G.722 được các nhà cung cấp VOIP sử dụng.
8



-

Ngoài ra G.722 còn được sử dụng trong các hệ thống truyền thông
không dây, dịch vụ thông tin liên lạc cá nhân, ứng dụng hội nghị truyền
hình và General Packet Radio Service (GPRS).
3. Chuẩn G723
G.723 cũng giống như chuẩn G.722 là chuẩn mã hóa âm thoại băng tần
rộng , nó là chuẩn mở rộng của G.711 điều chế xung sai phân thích ứng
với tốc độ truyền là 24 và 40kbit/s ,nó vẫn chưa đáp ứng được mục tiêu
của ITU là chuẩn mã hóa âm thoại băng tần rộng hoạt động trên dải 16,
24 và 32 kbit/s. Nên nó không được sử dụng rộng rãi mà chỉ sử dụng cho
các thiết bị nhân mạch số lâu đời.
G.726 Là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với
các 16,24,32và 40 kbps (thay thế cho G.721(32kbps) và G.723(24vs 40
kbps)). Hoạt động với tần số 16kbps.Bốn tốc độ bit thường sử dụng cho
chuẩn G.726 tương ứng với kích thước của 1 mẫu là 2-bits, 3-bits, 4-bits,
5-bits. Tốc độ thường dùng 32kbps
Ứng dụng thực tế:

-

Là 1 chuẩn ITU-T mã hóa âm thoại bang tần rộng , là chuẩn mở rộng
của G.721 điều chế xung sai phân tương thích với tốc độ truyền 24 và
40 kbps cho các ứng dụng thiết bị nhân mạch số ( hiện nay chuẩn này
bị thay thế bới G.726 )
4. Chuẩn G.726

-

Chuẩn G.723.1 chủ yếu dung trong các ứng dụng Voice overIP( vì yêu

cầu băng thông thấp )
Là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các
16,24,32và 40 kbps(thay thế cho cả G.721(32kbps) G.723(24vs 40 kbps)
G.726 hoạt động với tần số 16kbps.Bốn tốc độ bit thường sử dụng cho
chuẩn G.726 tương ứng với kích thước của 1 mẫu là 2-bits, 3-bits, 4bits, 5-bits. Tốc độ thường dùng 32kbps
5. Chuẩn G.729
G.729 là : 1 giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén
tín hiệu âm thanh với khung 10 mili giây. Đa số dùng trong các ứng dụng
Voice overIP với yêu cầu bang tần thấp. Chuẩn G.729 hoạt động với tốc
độ 8kbps(6.4kbps vs 11.8kbps). Nó có 2 dạng là G.729a và G.729b .Cả 2
9


dạng đều hoạt động ở băng tần thấp và ngày nay người ta phát triển chuẩn
G.729.1 hoạt động ở băng tần rộng .
Ứng dụng thực tế:
- Là 1 giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín
hiệu âm thanh với khung 10 mili giây
- Đa số dung trong các ứng dụng Voice overIP với yêu cầu bang tần
thấp.Chuẩn G.729 hoạt động với tốc độ 8kbps(6.4kbps vs 11.8kbps)
- G.729a, G.729b. Những năm gần đây G.729 được nghiên cứu để mở
rộng cho tín hiệu bang tần rộng (G.729.1)
6. Chuẩn GMS
GSM là hệ thống thông tin di động toàn cầu (global system for mobile
communications) là 1 công nghệ dùng cho mạng thông tin di động .Dịch
vụ GSM được sử dụng cho hơn 2 tỷ người trên 212 quốc gia và vùng lãnh
thổ( thống kê năm 2012 ).Các mạng thông tin di động GSM cho phép
giao tiếp với nhau cho nên nó được sử dụng rộng rãi ở các vùng lãnh thổ
GSM là chuẩn phổ biến của điện thoại di động. GSM khác với các chuẩn
tiền thân của nó về cả tín hiệu , tốc độ , chất lượng cuộc gọi .Nó được

xem như hệ thống điện thoại di động thế hệ thứ 2 .GSM là chuẩn mở
được phát triển.Thuận lợi là khả năng triển khai thiết bị từ nhiều người
cung cấp .Một số đặc tính của GSM là:
-Nói chuyện quốc tế
-Chất lượng thoại cao
-Tính bảo mật cao
-Giá thành rẻ
-Tiện lợi
-Nhiều dịch vụ mới
-tương thích cao
Hiện nay có 5 bộ mã hóa của GSM bao gồm :
1 Full-Rate codec
2 Half-Rate codec
3 Enhanced Full-Rate codec
4 Adaptive Multi-Rate codec
5 Adaptive Multi Wideband –Rate codec
-Bộ FR codec là bộ mã hóa đầu tiên của GSM .Được sử dung lần đầu vào
năm 1989 nó sử dụng 13kbit/s cho mã hóa âm thoại và 9.8 kbit/s cho mã
hóa kênh .FR là bộ codec mặc định cho cung cấp dịch vụ thoại GSM.
-Bộ HR codec tiết kiệm dung lượng kênh . hoạt động ở 5.6kbit/s cho mã
hóa thoại và 5.8kbit/s cho mã hóa kênh chất lượng thoại vấn như chuẩn
codec FR.
10


-Bộ ERF codec được sử dụng đầu tiên ở Mỹ vào năm 1996 sử dụng 12.2
kbit/s mã hóa âm thoại và 10.6kbit/s mã hóa kênh
-Bộ AMR codec là sự phát triển vượt bậc của GSM đây là bộ mã hóa mặc
định cho chế độ 3G.
-Bộ AMR-WB codec là bộ mã hóa cuối cùng gần nhất đặc trưng cho

thoại 3G, băng tần rộng giúp cải tiến chất lượng âm thanh thoại
Ứng dụng thực tế:
- "libgsm" đã được phát triển 1992-1994 của Jutta Degener và
Carsten Bormann, sau đó tại Technische Universität Berlin dựa vào
chuẩn GSM 06.10.
- Các codec libgsm miễn phí có thể mã hóa và giải mã GSM Full Rate
âm thanh
- Ngoài ra còn có một plugin Winamp cho GSM 06,10 dựa trên libgsm
- Các GSM 06,10 cũng được sử dụng trong phần mềm VoIP, ví dụ như
trong Ekiga, QuteCom, Linphone, Asterisk (PBX), Ventrilo và những
phần mềm khác.

C- Phân tích một sơ đồ nén tiếng nói thoại theo chuẩn G và nhận xét

ảnh hưởng của chất lượng âm thanh trong dịch vụ VOIP

11


1. Phân tích Sơ đồ bộ mã hóa AS-ACELP và Nguyên lý của bộ giải mã

CS-ACELP
Sơ đồ bộ mã hóa AS-ACELP :

Các quá trình thực hiện mã hóa:

12


Tín hiệu đầu vào đưa qua bộ tiền xử lý, bộ này có hai chức năng: lọc thông cao

và tính toán tín hiệu.Tín hiệu đầu ra bộ tiền xử lý là tín hiệu đầu vào của các
khối tổng hợp tiếp sau đó. Sự tổng hợp dự báo tuyến tính (LP) được thực hiện
một lần trong khung 10 ms để tính các hệ số của bộ lọc dự báo tuyến tính
(LPC). Các hệ số này được biến đổi thành các cặp vạch phổ (LSP) và được
lượng tử bằng phương pháp lượng tử hóa vectơ dự báo hai bước (VQ) 18 bit.
Các tham số kích thích gồm bảng mã cố định và bảng mã thích ứng được xác
định qua từng khung con 5ms (tương đương 40 mẫu) . Các hệ số của bộ lọc LP
đã được lượng tử và chưa được lượng tử được sử dụng cho phân khung thứ 2,
còn tại phân khung thứ nhất các hệ số của bộ lọc LP đã được nội suy sẽ được sử
dụng ( trong cả hai trường hợp đã được lượng tủ và chưa). Độ trễ bước mạch
vòng hở sẽ được tính toán một lần trong một khung 10ms dựa trên độ lớn tín
hiệu thoại. Tín hiệu ban đầu x(n) được tính bằng các lọc độ dư LP thông qua bộ
lọc tổng hợp W(z)/A(z). Trạng thái ban đầu của bộ lọc này là tín hiệu lỗi hiệu
dư LP và tín hiệu kích thích. Sự phân tích bước của mạch vòng đóng sẽ thực
hiện sau đó (để tìm độ trễ mã thích ứng và độ khuếch đại) dùng tín hiệu ban đầu
x(n) và đặc tuyến xung h(n), bằng cách làm tròn giá trị độ trễ bước của mạch
vòng hở. Độ trễ bước được mã hóa bằng mã 8 bit trong phân khung thứ nhất, độ
vi sai của độ trễ được mã hóa bằng mã 5 bit trong phân khung thứ 2. Tín hiệu
x’(n) là tín hiệu của 2 tín hiệu: tín hiệu ban đầu x(n) và tín hiệu mã thích ứng –
là tín hiệu mã cố định. Tín hiệu này được dùng trong việc tìm kiếm tín hiệu kích
13


thích tối ưu. Giá trị kích thích mã cố định được mã hóa bằng mã đại số 17 bit
( trong đó chỉ số bảng mã cố định được mã hóa băng tự mã C1, C2-12 bit. Dấu
bảng mã cố định được mã hóa bằng từ mã S1, S2-3 bit ). Các bộ khuếch đại
bảng mã cố định và bảng mã thích ứng được lượng tử hóa bằng vector 7 bit,
trong đó ở bước 1 được mã hóa bằng từ mã GA1, GA2- 3bit. ở bước 2 được mã
hóa bằng từ mã GB1, GB2- 4bit. Tại đây, sự dự đoán trung bình động MA
(Moving Average) cho bộ khuếch đại mã cố định, cuối cùng, dựa vào các bộ

nhớ lọc sẽ xác định tín hiệu kích thích.
Phân tích dự đoán tuyến tính: Sử dụng bộ lọc thực hiện 10ms cho mỗi khung.
Sử dụng cửa sổ để phân tích LP:
w(n)=
Nguyên lý của bộ giải mã CS-ACELP:

Đầu tiên, các chỉ số của các tham số được trích ra từ luồng bit thu. Các chỉ số
này sẽ được giải mã để thu lại các tham số của bộ mã hóa trong 1 khung tiếng
nói 10 ms. Các tham số đó là các hệ số LSP, 2 phần độ trễ bước ( độ trễ bước và
độ vi sai của độ trễ bước), 2 vecto bảng mã cố định ( chỉ số mã cố định và chỉ số
bảng mã cố định ) và tập hợp độ khuếch đại bảng mã cố định và bảng mã thích
ứng. Các hệ số LSP được nội suy và được chuyển thành các hệ số bộ lọc LP cho
mỗi phân khung, sau đó, cứ mỗi phân khung thự hiện các bước tiếp theo. Giá trị
kích thích được khôi phục là tổng của vecto bảng mã cố định và bảng mã thích
ứng nhân với các giá trị khuếch đại tương ứng của chúng. Tiếng nói được khôi
phục bằng cách lọc giá trị kích thích này thông qua bộ lọc tổng hợp LP. Tín
hiệu tiếng nói khôi phục đưa qua bước xử lý trạm, bao gồm bộ lọc thích ứng
dựa trên cơ sở các bộ lọc tổng hợp ngắn hạn và dài hạn, sau đó qua bộ lọc thông
cao và bộ nâng tín hiệu.
Độ trễ:
Kích cỡ khung:10ms. Tiêu đề: 5ms.
2. Ảnh hưởng của chất lượng âm thanh trong dịch vụ VoIP:

2.1 Kịch bản – Thực hiện:
14


Thực hiện cuộc gọi thoại theo mô hình PC to PC trên mạng LAN, các PC được
cài đặt phần mềm X-Lite. Cấu trúc gồm 1 máy chủ Asterisk, 2 PC, tất cả được
nối cùng mạng LAN.

Cài đặt và cấu hình máy chủ Asterisk, X-Lite trên PC giống bài thực hành số 1.
Máy chủ asterisk cài thêm các bộ Codec G.723, G.729.
Trước khi thực hiện cuộc gọi, lần lượt cấu hình Softphone X-Lite:
Softphone -> Preferences.
Chuyển các chuẩn của Audio Codecs từ trạng thái Available sang trạng thái
Enabled codecs

Chọn G711 uLaw -> OK.
Sau đó thực hiện cuộc gọi giữa các Softphone với nhau, và đánh giá chất lượng
âm thanh thoại theo các chuẩn qua tai thường.
Lần lượt thực hiện với các chuẩn Audio Codecs G.722, G.726, G.729, GSM
2.2 Đánh giá chất lượng âm thanh:

Các chuẩn đều cho chất lượng âm thanh tương đối tốt
Chuẩn G.711, G.722, G.729 có chất lượng âm thanh tương đương nhau
Chuẩn GSM có chất lượng âm thanh kém hơn.
Thực hiện cuộc gọi nhiều lần phát sinh trường hợp bị nhiễu tiếng, tạp âm.
Chất lượng tiếng nói theo thang MOS của chuẩn G.711 là 4.3, chuẩn G.722 là
4.1, chuẩn G729 là 4

2.3 Các yếu tố ảnh hưởng đến chất lượng âm thanh trong VoIP

- Băng thông: Là tốc độ truyền thông tin, băng thông càng lớn càng tốt. Mạng
VoIP thực hiện việc nén thoại để giảm băng thông so với chuyển mạch kênh
15


truyền thống. Chuẩn G.729 giải quyết được vấn đề là giảm băng thông xuống
mức cho phép mà vẫn đảm bảo chất lượng thoại
- Trễ: Có thể chia trễ trong mạng VoIP thành 3 loại trễ: trễ xử lý, trễ mạng và

trễ bộ đệm. Trễ xử lý bao gồm trễ mã hoá & trễ đóng gói. Bộ xử lý thuật toán
mã hóa dự đoán tuyến tính mã đại số cấu trúc thích hợp (CS-ACELP) có độ trễ
thấp với kích thước khung là 10ms, xem trước 5ms, độ trễ thuật toán tổng cộng
là 15ms.
Trễ mạng hay là trễ truyền dẫn phụ thuộc vào khoảng cách, dung lượng và trạng
thái của liên kết trong mạng. Trễ mạng thường thay đổi và khó biết trước, phụ
thuộc vào nhiều phần tử trên mạng, khó xử lý.
Trễ bộ đệm là trễ sinh ra tại bộ đệm ở phía thu, khi các gói tranh chấp nhau để
giành quyền được đọc ra trước. Điều này được khắc phục bằng việc nâng cấp
năng lực bộ đệm.

TÀI LIỆU THAM KHẢO
16


-

-

Giáo trình Truyền thông đa phương tiện (IT 4681) – PGS.TS. Nguyễn
Thị Hoàng Lan
Tài liệu thực hành môn Truyền thông đa phương tiện
/> /> />



17




×