Báo cáo nén âm thanh thoại theo chuẩn gsm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (494.8 KB, 36 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BỘ MÔN TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH
--------o@o--------

1

BÀI TẬP LỚN

MULTIMEDIA
ĐỀ TÀI 5:

Nén âm thanh thoại theo chuẩn GSM
Gv hướng dẫn:
Sinh viên thực hiện:

PGS.TS Nguyễn Thị Hoàng Lan
Lưu Thanh Hải (*)
Trịnh Xuân Kiên
Bạch Quốc Cường
Phạm Hồng Quân
Bùi Anh Quang
Lê Hồng Hải
Phạm Thanh Tùng

Lớp:

Truyền thơng mạng K51
Hà nội,13/5/2010

MỞ ĐẦU.....................................................................................................................................................3
NỘI DUNG.................................................................................................................................................4
I. TỔNG QUAN CÁC VẤN ĐỀ LIÊN QUAN.......................................................................................4
1.1. Multimedia là gì?..........................................................................................................................4
1.2. Âm thanh, tiếng nói và tính chất...................................................................................................4
1.3. Giới thiệu vể GSM........................................................................................................................5
II. CÁC PHƯƠNG PHÁP CƠ SỞ MÃ HÓA ÂM THANH TIẾNG NĨI VÀ ỨNG DỤNG TRONG
TRUYỀN THƠNG..................................................................................................................................5
2.1. Các phương pháp cơ sở mã hóa âm thanh,tiếng nói......................................................................5
2.1.1. Phương pháp mã hóa tiếng nói kiển Waveform.....................................................................7
2.1.1.1.PCM(Pulse code Molation)-G711....................................................................................8
2.1.1.2.DM(Delta Modulation)....................................................................................................9
2.1.1.3.DPCM(Difirential PCM)..................................................................................................9
2

2.1.1.4.ADPCM (Adaptive Difirential PCM)-G.726...................................................................9
2.1.2.Phương pháp mã hóa tiếng nói kiểu vocoder..........................................................................9
2.1.3.Phương pháp mã hóa lai (Hybrid).........................................................................................10
2.2. Ứng dụng các phương pháp cơ sở mã hóa âm thanh trong truyền thơng.....................................11
2.2.1 . Các yêu cầu đối với một bộ mã hóa âm thoại......................................................................11
2.2.2. Các tham số liên quan đến chất lượng thoại.........................................................................11
2.2.3. Các phương pháp đánh giá chất lượng thoại cơ bản.............................................................12
2.2.3.1. Phương pháp đánh giá chủ quan (MOS).......................................................................12
2.2.3.2. Các phương pháp đánh giá khách quan.........................................................................12
III.CÁC CHUẨN MÃ HÓA NÉN ÂM THANH GSM........................................................................13
3.1. Một số vấn đề liên quan..............................................................................................................13
3.1.1. Giới thiệu về CELP, RPE-LTP, ACELP, VSELP................................................................13
3.1.2. Giới thiệu về các chuẩn mã hóa nén GSM...........................................................................13
3.2. Các chuẩn mã hóa nén GSM.......................................................................................................15

3.2.1 FR Codec..............................................................................................................................15
3.2.1.1 Bộ mã hóa và giải mã tồn tỉ lệ (full rate hay RPE-LPC)...............................................15
3.2.1.2 Đánh giá bộ mã hóa giải mã toàn tỉ lệ............................................................................18
3.2.2. GSM AMR codec (GSM 6.90)............................................................................................18
3.2.2.1 GSM AMR Encoder và GSM AMR Decoder................................................................18
3.2.2.2. AMR codec trong GSM................................................................................................20
3.2.2.3. Đánh giá chất lượng AMR codec..................................................................................21
IV.ẢNH HƯỞNG CỦA NÉN ÂM THANH ĐẾN CHẤT LƯỢNG DỊCH VỤ VOIP..........................21
4.1. VOIP là gì ?................................................................................................................................21
4.2. Tổng quan về chất lượng dịch vụ VOIP......................................................................................21
4.3 Ảnh hưởng của nén âm thanh đến chất lượng dịch vụ VOIP.......................................................23
V. KHẢO SÁT VÀ PHÂN TÍCH CÁC ỨNG DỤNG CỦA CHUẨN GSM.........................................25
5.1. Dịch vụ thoại qua Internet...........................................................................................................25
5.1.1. Ưu thế của dịch vụ thoại qua Internet..................................................................................25
5.1.2 Các công nghệ cơ sở.............................................................................................................26
5.1.3 Đánh giá chất lượng dịch vụ.................................................................................................27
5.1.3.1. Đánh giá theo chủ quan.................................................................................................27
5.1.3.2. Đánh giá theo khách quan.............................................................................................28
3

5.2.Chuẩn mã hóa audio mạng di động 3G dựa trên ARM-WB+......................................................30
5.2.1. Giới thiệu về mạng di động 3G và ARM-WB+..................................................................30
5.2.2. Yêu cầu dịch vụ đối với audio mạng di động.......................................................................30
5.2.3. Đánh giá về ứng dụng của ARM-WB .....................................................................................31
KẾT LUẬN...............................................................................................................................................32
TÀI LIỆU THAM KHẢO.........................................................................................................................32

4

MỞ ĐẦU
Ngày nay, khi các phương tiện truyền thông phát triển và số lượng người sử dụng các
phương tiện liên lạc tăng lên thì mã hóa tiếng nói được nghiên cứu và ứng dụng rộng rãi trong
các cuộc gọi điện thoại truyền thống, gọi điện qua mạng di động, qua Internet hay qua vệ tinh,..
Mặc dù với sự phát triển của công nghệ truyền thông qua cáp quang đã làm cho băng thơng
khơng cịn là vấn đề lớn trong các cuộc gọi điện truyền thống. Tuy nhiên, băng thông trong các
cuộc gọi đường dài, các cuộc gọi quốc tế, các cuộc gọi qua vệ tinh hay các cuộc gọi di động thì
cần phải duy trì băng thơng ở một mức nhất định. Chính vì thế việc mã hóa tiếng nói là rất cần
thiết , giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất
lượng cuộc gọi.
Xuất phát từ những yêu cầu ở trên, GSM ra đời với những ưu thế vượt trội đã chứng
minh được tính ưu việt của nó trong truyền thơng di động. Khơng có gì là khó hiểu khi dịch vụ
về GSM được sử dụng bởi hơn 2 tỷ người trên 212 quốc gia và lãnh thổ trên thế giới. Là những
sinh viên học chuyên ngành truyền thông mạng, thật khó có thể bỏ qua cơng nghệ thú vị này
nhưng chưa có cơ hội đề tìm hiểu sâu hơn trước đó.Chính vì thế, khi học mơn Multimedia chúng
em đã quyết định thực hiện đề tài :” Nén âm thanh thoại theo chuẩn GSM” nhằm có kiến thức
tổng quan cũng như đi sâu tìm hiểu các cơng nghệ nén của chuẩn GSM .
Để hoàn thành được đề tài này, chúng em có thực hiện phân chia cơng việc như sau:
1, Lưu Thanh Hải :

I + 3.1.2 + 3.2.2

2, Phạm Thanh Tùng :

2.1

3, Bùi Anh Quang :

2.2

4, Trịnh Xuân Kiên :

3.1.1 + 3.2.1

5, Phạm Hồng Quân :

IV

6, Lê Hoàng Hải :

5.1

7, Bạch Quốc Cường :

5.2.

Chúng em xin chân thành cảm ơn PGS. TS Nguyễn Thị Hoàng Lan đã giúp đỡ chúng em
hồn thành bài tập lớn này.
Hà nội, 12/11/2010
Nhóm sinh viên

5

NỘI DUNG
I. TỔNG QUAN CÁC VẤN ĐỀ LIÊN QUAN
1.1. Multimedia là gì?

Multimedia là sự tích hợp của nhiều hình thức truyền thơng. Có thể coi đó là kỹ thuật

mơ phỏng và sử dụng nhiều dạng phương tiện chuyển hóa thơng tin và các tác phẩm từ các kỹ
thuật đó.Các dữ liệu về đa phương tiện có thể là các dữ liệu về :






Văn bản
Hình ảnh
Âm thanh
Hình động,
..

Liên quan đến định nghĩa về multimedia , ta cần lưu ý các khía cạnh sau :
- Thơng tin cần phải được số hóa, phù hợp với xu thế, giá thành rẻ.
-Phải dùng mạng máy tính để đảm bảo truyền bá hay truyền tải tốt.
- Sử dụng phần mềm tương tác, có phép người dùng tương tác theo ý muốn.
- Thiết kế giao diện người máy phù hợp.
Một số ví dụ về Multimedia :





Chương trình video theo u cầu VOD.
Trị chơi điện tử.
Phim ảnh.
..

1.2. Âm thanh, tiếng nói và tính chất.

Tiếng nói là phương tiện chủ yếu mà con người sử dụng để liên lạc và giao tiếp hàng
ngày.Q trình tạo tiếng nói là sự kết hợp phức tạp của nhiều bộ phận trong cơ thể người như
thanh quản, khoang miệng, khoang mũi, lưỡi, cơ hàm, mơi,..Trong kĩ thuật mã hóa tiếng nói,
người ta chia tiếng nói thành hai dạng âm chính sau dựa trên sự dao động của các dây thanh âm:
+ Âm hữu thanh : được hình thành khi các dây thanh âm dao động đóng mở làm ngắt qng luồn
khơng khí và sự nhắt quãng này được xem gần như là tuần hoàn tác động lên cơ quan phát âm.
Theo thực nghiệm chu kì tuần hồn này khoảng từ 2 – 20ms. Do đó, với âm hữu thanh, tín hiệu
kích thích được mơ hình hóa là các xung tuần hồn.

6

+ Âm vô thanh : được tạo ra khi luồng khơng khí đi qua thanh mơn tắc động lên cơ quan phát âm
không theo một quy luật nào cả (không tuần hồn). Do đó với âm vơ thanh, tín hiệu kích thích
được mơ hình hóa tương tự như một nhiễu.
Dạng tín hiệu tiếng nói có một số tính chất hữu ích có thể khai thác được khi tiến hành
mã hóa tín hiệu. Tính chất thường dùng nhất là sự phân bố xác suất khơng đều của biên độ tiếng
nói, có sự tương quan giữa các mẫu liên tiếp, bản chất khơng phẳng của phổ tín hiệu nói , sự tồn
tại của các thành phần âm kêu và âm không kêu của các tính hiệu tiếng nói.

1.3. Giới thiệu vể GSM.

Hệ thống thơng tin di động tồn cầu (Global System for Mobile Communications; viết
tắt: GSM) là một công nghệ dùng cho mạng thông tin di động. Dịch vụ GSM được sử dụng bởi
hơn 2 tỷ người trên 212 quốc gia và vùng lãnh thổ. Các mạng thơng tin di động GSM cho phép
có thể giao tiếp với nhau do đó những máy điện thoại di động GSM của các mạng GSM khác
nhau ở có thể sử dụng được nhiều nơi trên thế giới.
GSM là chuẩn phổ biến nhất cho điện thoại di động (ĐTDĐ) trên thế giới. Khả năng phú

sóng rộng khắp nơi của chuẩn GSM làm cho nó trở nên phổ biến trên thế giới, cho phép người sử
dụng có thể sử dụng ĐTDĐ của họ ở nhiều vùng trên thế giới. GSM khác với các chuẩn tiền thân
của nó về cả tín hiệu và tốc độ, chất lượng cuộc gọi. Nó được xem như là một hệ thống ĐTDĐ
thế hệ thứ hai (second generation, 2G). GSM là một chuẩn mở, hiện tại nó được phát triển bởi
3rd Generation Partnership Project (3GPP) Đứng về phía quan điểm khách hàng, lợi thế chính
của GSM là chất lượng cuộc gọi tốt hơn, giá thành thấp và dịch vụ tin nhắn. Thuận lợi đối với
nhà điều hành mạng là khả năng triển khai thiết bị từ nhiều người cung ứng. GSM cho phép nhà
điều hành mạng có thể sẵn sàng dịch vụ ở khắp nơi, vì thế người sử dụng có thể sử dụng điện
thoại của họ ở khắp nơi trên thế giới.
Một số đặc tính của GSM :








Nói chuyện quốc tế
Chất lượng cuộc gọi cao
Tính bảo mật cao
Giá thành rẻ
Tiện lợi
Nhiều dịch vụ mới : chờ cuộc gọi, chuyển tiếp cuộc gọi,..
Tính tương thích cao.

II. CÁC PHƯƠNG PHÁP CƠ SỞ MÃ HÓA ÂM THANH
TIẾNG NÓI VÀ ỨNG DỤNG TRONG TRUYỀN THƠNG.
2.1. Các phương pháp cơ sở mã hóa âm thanh,tiếng nói.

Về cơ bản bộ mã hóa tiếng nói có 3 loại:


Mã hóa dạng sóng (waveform).



Mã hóa nguồn ( source).
7



Mã hóa lai (hybrid) là sự kết hợp của waveform và source

Ngun lý của mã hóa dạng sóng là tìm cách số hóa dạng sóng của tiếng nói theo cách
thích hợp.Tái phía phát,bộ mã hóa sẽ nhận các tín hiệu nói tương tự lien tục và chuyển thành tín
hiệu số trước khi truyền đi.Tại phái thu sẽ làm nhiệm vụ ngược lại để khơi phục tín hiệu tiếng
nói.Khi khơng có lỗi truyền dẫn thì dạng sóng của tiếng nói khơi phục rất giống với dạng sóng
của tiếng nói gốc.Ưu điểm của loại mã hóa này là:độ phức tạp,giá thành thiết kế,độ trễ và cơng
suất tiêu thụ thấp.Bộ mã hóa dạng sóng đơn giản nhất là điều chế xung mã (PCM),điều chế
Delta(DM)…Tuy nhiên,nhược điểm của bộ mã dạng sóng là khơng tạo được tiếng nói chất lượng
cao,tốc độ dưới 16kbit/s.Bộ mã hóa nguồn khắc phụ được nhược điểm này.
Nguyên lý của mã hóa là mã hóa kiểu phát âm(vocoder),ví dụ như bộ mã hóa bằng dự
đốn tuyến tính (Linear Prediction Coding-PLC) . Các bộ mã hóa này có thể thực hiện được tại
tốc độ bit > 1kbps.Hạn chế chủ yếu của mã hóa kiểu phát âm PLC là việc mơ phỏng nguồn kích
thích cịn đơn giản nên tiếng nói tái tạo được là tiếng nói dạng tổng hợp,chất lượng khơng cao và
khó có thể nhận ra giọng người nói chuyện.
Vào năm 1982,Atal đã đề xuất một mơ hình mới về kích thích,được gọi là kích thích đa
xung.Trong mơ hình này,khơng cần biết trước xem đó là âm hữu thanh hay vơ thanh.Sự kích

thích được mơ hình hóa bởi 1 số xung có biên độ và vị trí được xác đinh bằng việc cực tiểu hóa
sai lệch,có tính đến trọng số thụ cảm,giữa tiếng nói gốc và tiếng nói tổng hợp.Việc đưa ra mơ
hình này đã gây chú ý và đó là mơ hình đầu tiên của một thế hệ mới của các bộ điều chế tiêng
nói phân tích bằng tổng hợp(Analisis-by-synthesis).Chúng có khả năng cho tiếng nói chất lượng
cao tại tốc độ quang 10kbps và có thể tới tận 4,8kbps.Tín hiệu kích thích sẽ được tối ưu hóa 1
cách kỹ lưỡng và người ta sử dụng kỳ thuật mã hóa dạng sóng để mã hóa tín hiệu kích thích này
một cách có hiệu quả.

8

Hình 1:Mơ hình tổng qt của hệ điều chế tiếng nói theo phương pháp PLC
*Chỉ tiêu đánh giá thuật tốn mã hóa:
-Hai mục tiêu quan trọng đặt ra là :Tối thiểu hóa tốc độ bit và tối ưu hóa chất lượng,hai
mục tiêu này thường có mâu thuẫn với nhau.Tốc độ bit được tính bằng bps.Chất lượng được
đánh giá ở việc được tái tạo lại dạng tương tự với một sai số cang nhỏ càng tốt.Việc lấy mẫu
không ảnh hưởng đến chất lượng.Cịn lượng tử hóa thì có thể gây ra những sai số làm mất mát
thong tin so với tín hiệu ban đầu được gọi là nhiễu lượng tử.Tỷ số tín hiệu trên nhiễu (SNR)được
dung đánh giá chất lượng tiếng nói.Nếu tỉ số này thấp người nghe sẽ thu được tiếng nói khơng
tốt.
-Chất lượng chấp nhận được có SNR khoảng trên 30db.Theo tính tốn việc them 1 bit
biểu diễn giá trị lượng tử sẽ làm tăng SNR lên khoảng 6db,tương tự sẽ giảm 1 bit làm SNR giảm
xuống 6db.
-Người ta thường dung một tiêu chuẩn gọi là MOS(Mean Opinion score) để so sánh chất
lượng điều chế tiếng nói ,với thang giá trị từ 1 đến 5,cho ta biết một thuật tốn điều chế đạt được
chất lượng có gần với tiếng nói tự nhiên hay khơng.
2.1.1. Phương pháp mã hóa tiếng nói kiển Waveform
Kiểu mã hóa này cố gắng mã hóa dạng sóng của tiếng nói một cách có hiệu quả , dạng đơn giản
là điều chế xung mã PCM, ngoài ra cịn có các thuật tốn khác có thể làm giảm tốc độ bit hơn
nữa.Cơng nghệ mã hóa kiểu waveform thường cho tiếng nói chất lượng tốt với băng thơng

16kbps trở lên.
Để tránh hiện tượng chồng phổ ,tiếng nói tương tự được lọc trước khi số hóa để loại trừ các
thành phân ftaanf số cao khơng mong muốn.Phổ tiếng nói có thể gồm cả những thành phần tấn
số tới 10khz,nhưng do hầu hết các việc truyền tải được thực hiện qua mạng điện thoại nên các
thành phần tần số cao cần được loại bỏ.Bởi vì mạng điện thoại được thiết kế để loại trừ các tần
số lớn hơn 3,4khz,vì thế tín hiệu tiếng nói cũng được lọc đi để loại bỏ thành phần cao tần cỡ 3
đến 4khz.Theo định luật lấy mẫu thì tần số lấy mẫu sẽ là 6 đến 8 khz.Nói chung là tần số cắt của
các bộ lọc khơng tuyệt đối chính xác nên thỉnh thoảng vẫn xảy ra hiện tượng chồng phổ,nhưng
hầy hết chúng có năng lượng rất thấp.Kết quả ta thu được cái gọi là “chất lượng
thoại”(Telephone quality hay toll quality),là một tiêu chuẩn so sánh về tiếng nói đạt chất lượng
có thể chấp nhận được.
Hệ thống như vậy gọi là PCM(Pulse code Modulation).Phổ biến hiện nay người ta chọn
tốc độ lấy mẫu là 8khz và số bit lượng tử n=8,tức là tốc độ truyền sẽ là 64 kbps.Các bit mã hóa
được truyền tuần tự trên đường truyền.

9

Hình 2:Sơ đồ lấy mẫu,lượng tử, mã hóa
2.1.1.1.PCM(Pulse code Molation)-G711
PCM đều (uniform PCM) :Đầu vào của bộ lượng tử là tín hiệu tương tự đã được đưa
qua bộ lấy mẫu.Với một bộ lượng tử dùng n bit từ mã,miền giá trị lượng tử được chia thành 2 N
mức , mỗi từ mã N bit tương ứng với 1 giá trị.Khoảng cách giữa các mức gọi là bước lượng
tử(Step size).Bộ lượng tử quyết định xem với mỗi giá trị đầu ra là giá trị lớn nhất của miền giá
trị.Trong kiểu PCM đều ,các giá trị lượng tử cách đều nhau.Bước lượng tử phải được chọn sao
cho đủ nhỏ để có thể tối thiểu nhiễu lượng tử,nhưng lại có thể đủ lớn để miền giá trị của cả bộ
lượng tử có độ lớn thích hợp.Với một bộ lượng tử N bit có step size là S,thì miền giá trị là
R=2N*S.
Nếu N khơng đủ lớn thì việc cắt xén tín hiệu vượt qua miền giá trị sẽ xảy ra nhiều hơn
và đó là dĩ nhiên là một nguyên nhân khác của nhiễu lưỡng tử.

Phương pháp này có nhược điểm là SNR,tức là chất lượng khơng chỉ phụ thuộc vào
bước lượng tử mà cịn phụ thuộc và cả biên độ của tín hiệu lấy mẫu.
Lượng tử hóa kiểu PCM đều :Cần N cỡ 11 bit trở lên để có thể đảm bảo chất lượng tiếng
nói.Điều này làm tốc độ bit lớn nên chúng ít được sử dụng trong thực tế.
Lượng tử hóa Logarithm(logarithm PCM) :Mục tiêu của phương pháp này là duy trì một
tỷ số SNR ít thay đổi trong toán phạm vi giá trị biên độ.Thay vì lượng tử hóa giá trị tương tự của
tín hiệu lấy mẫu,trước tiên ta tính tốn hàm logarithm cảu từng giá trị rồi mới lượng tử hóa
chúng.SNR sẽ chỉ phụ thuộc vào bước lượng tử .Lượng tử logarithm là một quá trình nén , chúng
làm giảm miền giá trị đầu vào một cách đáng kể tùy thuộc vào dạng hàm logarithm được
dùng.Sau khi nén,một quá trình ngược lại là mũ hóa được sử dụng để tái tạo lại tín hiệu ngun
thủy ban đầu.Tồn bộ chu trình được gọi là Companding(Compressing/expanding).
Hai tiêu chuẩn được dùng phổ biến hiện nay là luật(dùng ở bắc Mỹ) và luật A(dùng ở
Châu Âu).Chúng đều dùng 8 bit lượng tử lagarithm(như vậy trong thang lượng tử chia thành 16
sector và mỗi sector có 16 step,tổng cộng là 256 phần nhỏ).Chú ý là kích thước mỗi sector là nhỏ
dần về phía gốc 0,càng xa về 2 phía thì kích thước của mỗi sector càng nhỏ dần về phía gốc
0,càng xa về 2 phía thì kích thước càng lớn,thơng thường chúng tăng gấp đơi kích thước giữa 2
sector kề nhau.Theo đó ta có thể thấy bit đầu tiên được gọi là bit đầu (sign bit).Trong mỗi
10

sector,các step có kích thước bằng nhau.Như vậy ta thấy bước lượng tử càng nhỏ với những đầu
vào càng nhỏ,và chúng lớn dần tương ứng với những đầu vào ở gần 2 phía cực của miền giá trị
lượng tử .
2.1.1.2.DM(Delta Modulation)
Là một trong những phương pháp điều chế vi sai,dựa trên tinh chất là tín hiệu tiếng
nói tại thời điểm có ít nhiều phụ thuộc vào tín hiệu ở các thời điểm trước đó,vì thế ta có thể dự
đốn tín hiệu tại thời điểm hiện tại,và chỉ cần lưu trữ giá trị khác biệt giữa giá trị thực và giá trị
dự đốn của tín hiệu,sự sai khác này,giúp tiết kiệm băng thông để đạt hiệu quả cao.
Ý tưởng của phương pháp điều chế Delta là chỉ truyền đi giá trị thay đồi tuyệt đối của
tín hiệu.Dựa vào sự khác nhau của tín hiệu tại thời điểm liền kề nhau mà ta tính được tín hiệu

phải truyền trên đường dây .Phương pháp này chỉ sử dụng 1 bit để mã hóa tín hiệu sai khác
đó,nghĩa là cho biết tín hiệu tại thời điểm t+1 là lớn hơn hay nhỏ hơn tín hiệu tại thời điểm t
2.1.1.3.DPCM(Difirential PCM)
Đây là phương pháp cũng dựa trên nguyên tắc chỉ truyền đi sự khác nhau của tín hiệu
tại hai thời điểm kề nhau là t và t+1.Khác với DM chỉ dùng 1 bit để giải mã,DPCM dùng N bit
để có thể biểu diễn giá trị sai khác này.Chất lượng điều chế khá tốt với lượng bit cần dùng ít hơn
nhiêu so với PCM.
2.1.1.4.ADPCM (Adaptive Difirential PCM)-G.726
Là phương pháp mở rộng của DPCM.Người ta vẫn dùng một số bit nhất định để mã
hóa sự sai khác giữa tín hiệu tại 2 thời điểm kề nhau,nhưng bước lượng tử có thể được điều chỉnh
tại các thời điểm khác nhau để tối ưu hóa việc điều chế.
Với mục tiêu làm giảm tốc độ bit hơn nữa mà chất lượng tín hiệu tương đương,người
ta sử dụng phương pháp thích nghi động giá trị của bước lượng tử trước những thay đổi của biên
dộ tín hiệu vào.Mục đích là duy trì miền giá trị lượng tử phù hợp với miền giá trị của tín hiệu
vào.Đây được gọi là phương pháp Adaptive PCM(APCM).Thích nghi bước lượng tử có thể áp
dụng cho cả kiểu lượng tử đều và không đều.Tiêu chuẩn thay đổi bước lượng tử dựa vào một số
thống kê về tín hiệu có liên quan đến biên độ của nó.Có nhiều bước tốn để tính tốn bước lượng
tử .Thong thường có 2 kiểu là feedforward APCM và feedback APCM.Trong cả 2 kiểu người ta
đều dựa trên những tính tốn liên quan đến một khối (block) mẫu thu được trong một thời gian
ngắn,về năng lượng,sự biến đổi và những đo đạc khác.Ta cịn gọi là block companding.Trong
kiểu feedback,việc tính tốn bước lượng tử được thực hiện trên mỗi câu khi nó được đưa vào xử
lý (vẫn dung giá trị bước lượng tử trước đó),thì cho ra kết quả là một giá trị bước lượng tử mới
được dùng sử lý N mẫu tiếp theo.
Feedforward theo một cách tiếp cận khác,dùng chính ngay giá trị bước lượng tử được
tính tốn ngay trên N mẫu để xử lý N mẫu đó.Như vậy qua trình xử lý phải cần tới môt bộ đệm
để chứa khối dữ liệu lấy mẫu.Trong khi kiểu feedback có ưu điểm là rất nhạy cảm với nhiễu
lượng tử vì nó có tính tốn bước lượng tử và sử dụng ngay cho chính block mà từ đó nó thực
hiện phép tính .
2.1.2.Phương pháp mã hóa tiếng nói kiểu vocoder
Vocoder là kiểu điều mã hóa nói dựa trên các tham số mơ phỏng bộ máy phát âm,khác

với mã hóa dạng sóng của tiếng nói tương tự ,gọi là mã hóa nguồn (vocoder).Nguyên lý dựa trên
11

việc cho rằng tuyến âm thanh thay đổi từ từ,trạng thái và cấu hình của chúng tại bất cứ thời điểm
nào có thể được mơ phỏng một cách gần đúng bằng một tập nhỏ các tham số.Nhờ việc tuyến âm
có tốc độ thay đổi từ từ cho phép mỗi tập tham số có thể đại diện cho trạng thái của nó qua một
quãng thời gian 25 ms.Hầu hết các Vocoder biểu diễn đặc tính của nguồn kích thích và tuyến âm
chỉ bằng một tập tham số.Nó gồm khoảng 10 đến 15 hệ số của bộ lọc để định nghĩa các đặc tính
cộng hưởng của tuyến âm,1 tham số 2 giá trị đơn giản để chỉ ra nguồn phát âm là vô thanh hay
hữu thanh,1 tham số chỉ ra năng lượng kích thích và 1 tham số chỉ ra chu kì cơ bản (âm sắc,chỉ
có với hữu âm thanh).Trạng thái của tuyến âm được suy ra bằng cách phân tích dạng sóng tiếng
nói trong khoảng thời gian 10 đến 25ms và tính tốn ra một tập mới cá tham số (một khung dữ
liệu) tại phần cuối của khoảng thời gian đó .Khung dữ liệu này được truyền đi và sau đó dùng để
điều khiển thời gian đó.Khung dữ liệu này được truyền đi và sau đó dùng để điều khiển việc tổng
hợp lại tiếng nói.Vocoder có khả năng chuyển giữa 2 kiểu nguồn kích thích là nguồn xung đối
âm hữu thanh và nhiễu trắng với âm vơ thanh .Bên phía tổng hợp sẽ dùng 1 trong 2 nguồn này
cho đi qua bộ lọc gồm các hệ số của khung dữ liệu để tổng hợp tiếng nói.
Ngồi việc đạt được tốc độ bit thấp,Vocoder cịn có ưu điểm là phân tích được các
tham số nguồn kích thích .Bit biểu thị âm sặc,âm lượng và voice /unvoice bản thân nó là các bit
trong khung dữ liệu , nên cá sự thay đổi của chúng có thể được sửa đổi trước hoặc trong khi tổng
hợp.Vì thế ta có thể biến một âm thanh hữu thanh thành một lời thì thầm khi thiết đặt lại giá trị
của bit voice/unvoice.Cũng có thể thay đổi bản thân câu nói bằng cách sửa đổi các tham số cộng
hưởng.
Nhược điểm của phương pháp này là cho tiếng nói có dạng tổng hợp, khó có khả năng
nhận dạng được người nói.
Mơ tả bộ máy phát âm của con người:Khi chúng ta nói ,âm thanh được tạo ra như sau:
-Khơng khí được đẩy vào phổi qua tuyến âm (cocal track) và miệng tạo thành câu nói.
-Đối với âm hữu thanh thì dây thanh (vocal cords) rung lên (mở và đóng).Tốc độ rung
của day thanh nhanh hay chậm quyết định âm sặc (pitch) của tiếng nói.Phụ nữa và trẻ em thường

có giọng thanh (âm sắc cao-dao động nhanh hơn),trong khi nam giới thường có giọng trầm (dao
động chậm).
-Với các âm vơ thanh ,dây thanh khơng rung mà liên tục mở.
-Hình dạng của tuyến âm quyết định âm thanh tạo ra.Khi ta nói , tuyến âm thay đổi
hình dạng để tạo ra các tiếng khác nhau ,nói chung là hình dạng của tuyến âm thay đổi một cách
từ từ,thường là từ 10ms đến 100ms.
-Lượng khơng khí từ phổi quyết định âm lượng (gain) của tiếng nói.
2.1.3.Phương pháp mã hóa lai (Hybrid)
Mã hóa Waveform nói chung khơng cho phép đạt chất lượng tiếng nói tốt ở tốc độ bit
dưới 16Kbps.Mặt khác mã hóa voicoder có thể đạt được tốc độ bit rất thấp,tuy nhiên phương
pháp này tổng hợp lại tiếng nói nên có nhược điểm là rất khó nhận diện được người nói và
thường xuyên gặp vấn đề với nhiễu nền.Mã hóa lai cố gắng tập dụng ưu điểm của cả hai phương
pháp điều chế trên .Nó mã hóa tiếng nói ở tốc độ thấp , mà lại cho kết quả tiếng nói tái tạo lại
12

tốt,có thể nhận dạng được người nói.Băng thong yêu cầu thường nằm trong khoảng 4.,8 Kbps
đến 16Kbps.
Vấn đề cơ bản đối với Voicoder là nguồn kích thích được mơ phỏng một cách đơn
giản :tín hiệu tiếng nói được coi là vơ thanh hay hữu thanh ,nó làm cho tiếng nói nhận được có
dạng được nhân tạo hơn là vẻ tự nhiên.Các phương pháp mã hóa lai có gắng cải thiện điều này
bằng cách thay đổi nguồn kích thích tiếng nói theo các cách khác.

2.2. Ứng dụng các phương pháp cơ sở mã hóa âm thanh trong truyền
thơng.
2.2.1 . Các u cầu đối với một bộ mã hóa âm thoại
Trong hầu hết các bộ mã hóa âm thoại, tín hiệu được xây dựng lại sẽ khác với tín hiệu
nguyên thủy. Nguyên nhân là do khi cố gắng làm tăng chất lương âm thoại sẽ dẫn đến việc làm
giảm các đặc tính tốt khác của hệ thống. Các yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm:
Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ lệ thuận với băng thông cần cho

truyền dữ liệu. Tốc độ bit thấp sẽ làm tăng hiệu suất của hệ thống. Tuy nhiên yêu cầu này lại
xung đột với các các đặc tính tốt khác của hệ thống như chất lượng âm thoại. Tốc độ thoại càng
cao thì địi hỏi tốc độ bit càng cao, để bảo đảm âm thoại tại phía nhận được phát ra với tốc độ
bằng với tốc độ của mơt người bình thường nói chuyện lưu lốt.
Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp
nhận được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt chất lượng bao gồm tính dễ
hiểu, tự nhiên, dễ nghe và cũng như có thể nhận dạng người nói là nam hay nữ. già hay trẻ,...
Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối với các hệ
thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất lượng của tín hiệu thoại.
Kích thước bộ nhớ thấp và độ phức tạp tính tốn thấp: nhằm mục đích sử dụng
được bộ mã hóa âm thoại trong thực tế. Chi phí thực hiện liên quan đến việc triển khai hệ thống
phải thấp, bao gồm cả chi phí cho bộ nhớ cần thiết để hỗ trợ khi hệ thống hoạt động cũng như
các yêu cầu tính tốn.
Độ trễ mã hóa thấp: trong q trình xử lý mã hóa và giải mã thoại, độ trễ tín hiệu
ln ln tồn tại. Việc trễ q mức sẽ sinh ra nhiều vấn đề trong việc thực hiện trao đổi tiếng nói
hai chiều trong thời gian thực.
Khả năng cắt bỏ khoảng lặng: khi nói chuyện khơng phải âm thoại đựoc phát ra liên
tục mà có những khoảng lặng. Đấy là những lúc đừng lại lấy hơi hay là lúc nghe người khác nói.
Những khoảng lặng này nêu có thể được nhận ra và cắt bỏ có thể giúp làm giảm tốc độ bit hệ
thống mã hóa âm thoại.
2.2.2. Các tham số liên quan đến chất lượng thoại
Các tham số truyền dẫn cơ bản liên quan đến chất lượng thoại là:


Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness Rating)

13









Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc hội
thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín hiệu
thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree.
Tiếng vọng (echo).
Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu thoại
do q trình xử lý khoảng lặng bị sai.
Các tính chất liên quan đến độ nhạy tần số.
Xuyên âm (sidetone loss).
Nhiễu nền...

2.2.3. Các phương pháp đánh giá chất lượng thoại cơ bản
Việc đánh giá chất lượng thoại trong mạng có thể được thực hiện bằng cách đánh giá
các tham số truyền dẫn có ảnh hưởng đến chất lượng thoại và xác định tác động của các tham số
này đối với chất lượng tổng thể. Tuy nhiên, việc đánh giá từng tham số rất phức tạp và tốn kém.
Hiện nay, việc đánh giá chất lượng thoại được dựa trên một tham số chất lượng tổng thể là MOS
(Mean Opinion Score). Những phương pháp sử dụng MOS đều mang tính chất chủ quan do
chúng phụ thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân chia
các phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản:
Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của người sử dụng
về mức chất lượng được thực hiện trong thời gian thực.
Các phương pháp đánh giá khách quan: sử dụng một số mơ hình để ước lượng mức
chất lượng theo thang điểm MOS.
2.2.3.1. Phương pháp đánh giá chủ quan (MOS)
Kỹ thuật này đánh giá chất lượng thoại sử dụng đối tượng là một số lượng lớn người nghe, sử

dụng phương pháp thống kê để tính điểm chất lượng. Điểm đánh giá bình quân của nhiều người
được tính là điểm Mean Opinion Scoring (MOS).
Phương thức đánh giá theo MOS có thể được thực hiện theo các bài kiểm tra hội thoại hai chiều
hoặc bài nghe một chiều. Các bài kiểm tra nghe một chiều sử dụng các mẫu thoại chuẩn. Người
nghe nghe mẫu truyền qua một hệ thống và đánh giá chất lượng tổng thể của mẫu dựa trên thang
điểm cho trước.
2.2.3.2. Các phương pháp đánh giá khách quan
a) Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền dẫn với một
tín hiệu chuẩn đã biết. Tín hiệu dùng để so sánh cũng có thể dùng chính tín hiệu âm thoại đầu
vào. So sánh có thể dựa trên dạng sóng âm thanh của hai tín hiệu hoặc so sánh đựa trên các thông
số đặc trưng cho âm thoại.
b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối chất lượng
tín hiệu thoại.
c) Các mơ hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất lượng thoại
mong muốn dựa trên những hiểu biết về mạng; vd: mơ hình ETSI Model.

14

III.CÁC CHUẨN MÃ HÓA NÉN ÂM THANH GSM.
3.1. Một số vấn đề liên quan.


3.1.1. Giới thiệu về CELP, RPE-LTP, ACELP, VSELP
RPE-LPC (Regular Pulse Excited - Linear Predictive Coder) – Mã hóa kích thích bằng
xung đều.

Đây là loại mã hóa sử dụng tín hiệu kích thích kết hợp giữa xung đều và tín hiệu sau
dự đốn từ chu kì pitch (Pitch- dự đốn thời gian dài) trước đó. (Được xác định bằng một bộ dự
đốn thời gian dài LTP để tính chu kì pitch và độ lợi pitch cho tín hiệu kích thích).



CELP (Code Excited Linear Prediction) và ACELP(Algebraic Code Excited Linear
Prediction) – Mã hóa kích thích bằng mã.

Mã hóa kích thích bằng mã hay bằng vector CELP mã hóa tiếng nói ở tốc độ bit thấp
hơn mã hóa RPE-LTP nhưng tiếng nói tổng hợp vẫn có chất lượng cao tương đương với các bộ
mã hóa dạng sóng có tốc độ bit trung bình tuy nhiên độ phức tạp của CELP cao hơn. Trong thuật
toán CELP, người ta đưa ra khái niệm codebook. Đây là nơi chứa các vecto (hay từ mã) kích
thích và mỗi vecto có độ dài cố định. Các vecto này được tạo thành từ các dãy nhiễu Gauss. Tín
hiệu kích thích cho mỗi đoạn tiếng nói sẽ được tìm kiếm trong codebook. Do đó, mỗi vecto kích
thích trong codebook sẽ có số phần tử bằng với số mẫu trong một đoạn tiếng nói.
Mã hóa kích thích bằng mã đại số ACELP cũng là một dạng mã hóa CELP. Tuy nhiên,
các vecto trong codebook ở ACELP được tạo thành từ các giá trị nhị phân (chỉ gồm 2 giá trị)
hoặc tam phân (chỉ gồm 3 giá trị).


VSELP (ector Sum Excitation Linear Prediction)- Mã hóa kích thích bằng tổng Vecto.

Thuật toán VSELP được Gerson và Jasiuk đề xuất ra ứng dụng trong truyền thơng di
động. Thuật tốn này sử dụng các codebook có cấu trúc tốt để giảm thiểu độ phức tạp trong tính
tốn. Tín hiệu kích thích trong VSELP là sự kết hợp của các vecto từ ba codebook gồm
codebook thích nghi và hai stochastic codebook có cấu trúc tốt.
3.1.2. Giới thiệu về các chuẩn mã hóa nén GSM
Hiện nay có 5 bộ codecs giọng nói được tiêu chuẩn hóa hóa cho GSM. Bao gồm






Full-Rate (FR) codec
Half-Rate(HR) codec
Enhanced Full-Rate (EFR) codec
Adaptive Multi-Rate (AMR) codec
Adaptive Multi-Rate Wideband (AMR-WB) codec

Tất cả các bộ codecs trên bao gồm mã hóa lời thoại (mã hóa nguồn) , mã hóa kênh
(bảo vệ lỗi và phát hiện các frame hỏng), che giấu lỗi hoặc mất frame, phát hiện thay đổi giọng
nói (VAD), và một chế độ điều khiển nguồn bit rate thấp cho việc mã hóa nhiễu. Các bộ codec
hoạt động hoặc ở kênh giao thông GSM full-rate với bit rate 22.8 kbit/s (FR,EFR, AMR-WB),
hoặc ở kênh half-rate với bit rate là 11.4 kbit/s (HR) hoặc ở cả 2 kênh (AMR).
15

Bộ FR codec là bộ mã hóa giọng nói đầu tiên cho GSM. Bộ mã hóa này được tiêu
chuẩn hóa năm 1989. Nó sử dụng 13 kbit/s cho mã hóa âm thanh thoại và 9.8 kbit/s cho mã hóa
kênh. FR là bộ codec mặc định cung cấp dịch vụ thoại trong GSM.
Bộ HR codec được phát triển mang đến khả năng tiếp kiệm dung lượng kênh nhờ hoạt
động ở kênh half-rate.Nó hoạt động ở bit rate 5.6 kbit/s cho mã hóa thoại và 5.8 kbit/s cho mã
hóa kênh. Chất lượng giọng nói của bộ codec này tương tự như FR codec ngoại trừ đối với tạp
âm.
Bộ ERF codec là bộ codec đầu tiên cung cấp hệ thống di động số với chất lượng giọng
nói tương đương với đường dây điện thoại. Bộ codec này mang tới những cải tiến đáng kế so với
các bộ GSM codec trước đó. EFR được tiêu chuẩn hóa lần đầu ở Mỹ năm 1995 và được chấp
nhận năm 1996. EFR sử dụng 12.2 kbit/s mã hóa kênh thoại và 10.6 kbit/s cho mã hóa kênh.
Bộ AMR codec là sự phát triển xa hơn trong chất lượng giọng thoại GSM. Được tiêu
chuẩn hóa năm 1999, ARM mang lại những cải thiện lớn so với ERF trong việc chống lỗi ở kênh
FR bằng việc thích ứng việc mã hóa kênh truyền và giọng nói phụ thuộc vào điều kiện của kênh
truyền. Dung lượng kênh truyền tăng lên bằng việc chuyển đổi để hoạt động ở kênh HR trong

điều kiện kênh truyền tốt. Bộ AMR codec bao gồm vài chế độ sử dụng cả kênh FR và kênh HR.
Bit rate mã hóa giọng thoại nằm giữa 4.75 và 12.2 kbit/s ở kênh FR (8 chế độ) và giữa 4.75 và
7.95 kbit/s trong kênh HR (6 chế độ). Đây là bộ mã hóa mặc định của hệ thống 3G WCDMA.
Bộ AMR-WB codec là bộ codec giọng nói gần đây nhất. Được chuẩn hóa năm 2001
cho cả GSM và hệ thống 3G WCDMA. AMR- WB là bộ codec tích hợp nhiều tốc độ bit như
AMR. Nó cải thiết chất lượng nhờ việc mở rộng dải tần audio. Trong khi tất cả các bộ codec
trước đó trong hệ thống di động số hoạt động ở giới hạn dải tần audio hẹp dưới 3.4 KHz, AMRWB mở rộng dải tần lên tới 7 Khz. Băng tần rộng giúp cải tiến chất lượng âm thanh thoại. AMRWB gồm 9 chế độ hoạt động với bit rate mã hóa giọng nói nằm giữa 6.6 và 23.85 kbit/s.
Phần mã hóa giọng nói trong tất cả các bộ codec đều sử dụng LPC (Linear Predictive
Coding). Tất cả ngoại trừ FR codec thuộc lớp giải thuật mã hóa giọng nói CELP. Tất cả đều hoạt
động ở tỉ lệ mẫu là 8KHz ngoại trừ AMR-WB sử dụng tỉ lệ mẫu 16KHz.

16

Hình 3: các chuẩn Voice Codec.

3.2. Các chuẩn mã hóa nén GSM.

Như ta đã biết ở phần 3.1.2 thì hiện nay có 5 bộ codec giọng nói được tiêu chuẩn hóa
cho GSM là FR, HR, ERF, AMR và AMR-WB. Tuy nhiên, trong khuôn khổ của bài tập lớn này,
do thời gian có hạn nên chúng em chỉ tập trung và 2 bộ codec là FR và AMR.
3.2.1 FR Codec.
3.2.1.1 Bộ mã hóa và giải mã tồn tỉ lệ (full rate hay RPE-LPC).
Bộ mã hóa và giải mã tồn tỉ lệ (gọi tắt là bộ mã hóa tồn tỉ lệ) hay cịn gọi là Bộ mã
hóa RPE-LPC (Regular Pulse Excited - Linear Predictive Coder) là bộ mã hóa giọng nói đầu tiên
được sử dụng cho GSM. Nó đã được lựa chọn sau khi đã thử nghiệm và so sánh với các hệ thống
mã hóa khác cùng thời. Bộ mã hóa tiếng nói này dựa trên nền tảng kích thích xung đều (regular
pulse excitation) LPC với dự đoán dài hạn và liên quan tới 2 bộ mã hóa tiếng nói khác là : RELP
(Residual Excited Linear Prediction) và MPE-LPC (Multi Pulse Excited LPC). Lợi thế của
RELP là không quá phức tạp do sử dụng mã hóa dải tần gốc. Nhưng hiệu năng của nó giới hạn

khi hệ thống gặp tiếng ồn âm. Bộ mã hóa MPE-LPC phức tạp hơn nhưng nó cung cấp mức độ
hiệu quả cao hơn. Bộ mã hóa RPE-LPC cho một kết quả khá tốt, cân bằng giữa hiệu năng và tính
phức tạp.

17

Mơ hình bộ mã hóa giọng nói này bao gồm một bộ tạo âm (Tone generator – mơ hình hóa theo
mẫu đường thanh âm của con người); và một bộ lọc để điều chỉnh âm thanh (bộ lọc này mô hình
hóa theo mẫu miệng và hốc mũi người).
Việc phân tích và lọc ngắn hạn xác định những hệ số của bộ lọc và tính tốn lỗi, dự đốn dài hạn
lượng tử hóa những họa âm của tiếng nói.

Hình 4:Sơ đồ mơ hình bộ mã hóa giọng nói tồn tỉ lệ.
Mơ hình tốn học của bộ tạo tiếng nói trong bộ mã hóa tồn tỉ lệ chỉ ra rằng năng
lượng suy giảm dần với tần số tăng dần, vì thế các mẫu được đưa qua một bộ lọc tăng cường để
cải thiện những tần số cao hơn, kết quả là cho hiệu quả truyền tốt hơn. Và có một bộ lọc mạch
giảm tương đương ở điểm kết thúc để khôi khục âm thanh.
Bộ phân tích ngắn hạn (dự đốn tuyến tính ngắn hạn) thực hiện hàm tự tương quan và
phép đệ quy Schur trên những tín hiệu đầu vào để xác định hệ số phản xạ của bộ lọc ((1) trong
hình minh họa trên). Hệ số phản xạ của bộ lọc được biến đổi thành LARs (log area ratios) và
được truyền qua không gian với 8 thông số gồm 36 bit thông tin. Những hệ số phản xạ này
thường được sử dụng để cho lọc ngắn hạn (short-term filter) những tín hiệu đầu vào, kết quả là
cho 160 mẫu tín hiệu dư thừa (residual signal – độ sai khác giữa tín hiệu dự đốn với tín hiệu
thực tế).
Tín hiệu dư thừa từ việc lọc ngắn hạn được phân chia thành 4 khung nhỏ 40 mẫu. Bộ
lọc dự đốn dài hạn mơ hình những họa âm tốt của tiếng nói bằng cách kết hợp những khung con
hiện tại và trước đó. Tham số khuếch đại (gain) và độ trễ (lag) cho bộ lọc dự đoán dài hạn (LTP)
được xác định bằng cách thành lập một tương quan chéo giữa khung con hiện tại và khung con
dư thừa trước đó. Đỉnh của mối tương quan chéo này xác định độ trễ tín hiệu, độ khuếch đại

được tính tốn bằng cách chuẩn hóa hệ số tương quan chéo. Những tham số này được đưa đến bộ
lọc dài hạn, để dự đoán số dư ngắn hạn hiện thời. Lỗi giữa tín hiệu dư thừa ước lượng và tín hiệu
ngắn hạn thực tế được đưa tới phân tích RPE để thực hiện nén dữ liệu.
18

Giai đoạn kích thích xung đều bao gồm việc giảm 40 mẫu dư thừa dài hạn xuống thành
4 bộ chuỗi con 13-bit thông qua sự kết hợp của kỹ thuật đan xen và chia nhỏ mẫu. Những chuỗi
con tối ưu được xác định sao cho có ít lỗi nhất và được mã hóa sử dụng APCM thành 45-bit.
Tín hiệu kết quả được đưa trở lại thông qua một bộ giải mã RPE và được kết hợp với
ước lượng dư thừa ngắn hạn để bắt đầu bộ lọc phân tích dài hạn cho khung tiếp theo, bằng cách
đó hồn thành một vòng lặp nối tiếp.
Table 2 – Những tham số đầu ra của bộ mã hóa tồn tỉ lệ.

Parameter

Number of parameters

Total bits per frame

LARs

8 per frame

36bits

LTP lag

1 per subframe(7 bits)

28bits

LTP gain

1 per subframe(2 bits)

8bits

RPE grid position

1 per subframe(2 bits)

8bits

Block amplitude

1 per subframe(6 bits)

24bits

RPE pulses

13 per subframe (3 bits each)

156bits

Total

260bits per frame

a. Bộ mã hóa tồn tỉ lệ
Khung tiếng nói đầu vào gồm 160 mẫu tín hiệu (định dạng mẫu 13 bit PCM) được tiền
xử lý để cho một tín hiệu khơng lệch (offset-free signal). Tín hiệu này sau đó được đưa tới bộ lọc
thông cao đầu tiên. 160 mẫu này sau đó được phân tích để xác định các thơng số cho bộ lọc phân
tích ngắn hạn (LPC analysis). Những thơng số này sau đó được sử dụng để lọc 160 mẫu tương tự
khác. Kết quả là cho 160 mẫu của tín hiệu dư thừa ngắn hạn. Những thơng số bộ lọc, hay hệ số
phản xạ, được chuyển đổi thành những LAR (log area ratio) trước khi được truyền đi. Những
khung tiếng nói được chia thành 4 khung con 40 mẫu tín hiệu dư thừa ngắn hạn.
Trước khi xử lý mỗi khối con gồm 40 mẫu dư thừa ngắn hạn, các thơng số của bộ lọc
phân tích dài hạn gồm độ trễ LTP và độ khuếch đại LTP được tính tốn và cập nhật vào trong
khối phân tích LTP trên cơ sở khối con hiện tại và một chuỗi được lưu lại của 120 mẫu dư thừa
ngắn hạn được tái tạo trước đó.
Một khối với 40 mẫu tín hiệu dư thừa dài hạn thu được bằng cách trừ đi 40 ước lượng
tín hiệu dư thừa ngắn hạn của chính tín hiệu dư thừa ngắn hạn đó. Khối kết quả của 40 mẫu tín
hiệu dài hạn này được đưa tới phân tích kích thích xung đều để thực hiện chức năng nén dữ liệu
cơ bản của giải thuật.
Kết quả của bộ phân tích RPE là khối 40 mẫu dư thừa dài hạn đầu vào được biểu diễn
bởi một trong 4 chuỗi con ứng cử của mỗi bộ 13 xung. Những chuỗi con đã lựa chọn được xác
định bởi vị trí lưới RPE (M). 13 xung RPE được mã hóa sử dụng mơ-đun mã hóa xung linh hoạt
19

(Adaptive Pulse Code Modulation – APCM) với ước lượng biên độ của khối con, cái mà được
truyền tới bộ giải mã như một thông tin bên lề. Những thông số RPE cũng được đưa tới một bộ
giải mã RPE cục bộ và mô-đun tái tạo, mô-đun này sản xuất ra một khối 40 mẫu tín hiệu dư thừa
dài hạn đã được lượng tử.
Bằng cách cộng 40 mẫu được lượng tử của dư thừa dài hạn vào khối trước đó của ước
lượng tín hiệu dư thừa ngắn hạn, một mẫu tín hiệu dư thừa ngắn hạn hiện tại được tái tạo lại.
Khối mẫu tín hiệu dư thừa ngắn hạn này sau đó được đưa tới bộ lọc phân tích dài hạn (LTP
analysis), bộ lọc này sẽ tạo ra một khối mới 40 ước lượng tín hiệu dư thừa ngắn hạn để sử dụng

cho những khối con tiếp theo, bằng cách đó hồn thành một vịng lặp nối tiếp.
b. Bộ giải mã toàn tỉ lệ
Bộ giải mã bao gồm cấu trúc tương tự như vịng lặp nối tiếp của bộ mã hóa. Trong
truyền dẫn không lỗi, đầu ra của giai đoạn này sẽ là những mẫu dư thừa ngắn hạn được tái tạo.
Những mẫu này sau đó được đưa vào bộ lọc tổng hợp ngắn hạn sau đó là tới bộ lọc giảm nhẹ, kết
quả là những mẫu tín hiệu tiếng nói được tái tạo.
3.2.1.2 Đánh giá bộ mã hóa giải mã tồn tỉ lệ
GSM 06.60 mơ tả chi tiết ánh xạ giữa những khối đầu vào 160 mẫu tiếng nói trong định dạng
PCM 13 bit tới những khối 260 bit được mã hóa và từ những khối 260 bít được mã hóa này tới
khối đầu ra gồm 160 mẫu tiếng nói được tái tạo. Tỉ lệ mẫu là 8000 mẫu/s đưa tới một tỉ lệ bít
trung bình cho dịng bít được mã hóa là 13 kbits/s.
Mặc dù thế bộ mã hóa RPE-LPC đã khơng đưa ra hiệu năng tối ưu, nó cho chất lượng giọng nói
kém. Vì thế các bộ mã hóa âm thanh tồn tỉ lệ khác đã ra đời và chúng đã được tích hợp chung
vào trong hệ thống.
3.2.2. GSM AMR codec (GSM 6.90).
3.2.2.1 GSM AMR Encoder và GSM AMR Decoder.
GSM ARM đưa ra ánh xạ từ các khối 160 mẫu thoại trong định dạng 13 bit PCM thành
khối 95,103,118,134,148,159,204, và 244 bits. Và từ khối mã hóa trên thành các khối ra của 160
mẫu thoại được dựng lại. Tỉ lệ mẫu là 8000 mẫu/ s dẫn tới tốc độ bit cho luồng bit đã mã hóa là
4.75, 5.15,5.90,6.7, 7.4, 10.2, 12.2 kbit/s. ARM hoạt động ở băng tần hẹp (200 – 3400 Hz).
Việc mã hóa cho các chế độ mã hóa mult-rate sử dụng ACELP . Multi- rate ACELP
cũng còn được biết đến là MR-ACELP. Chiều dài mỗi frame 20ms được chia thành 4 khung con
5 ms.Lời thoại được mã hóa ở nơi vào của bộ mã hóa được chuyển tới một đơn vị mã hóa kênh.
Ở nơi nhận, các hoạt động được đảo ngược lại.
a, GSM AMR Encoder.
AMR codec sử dụng 8 nguồn codec với các bit- rate là 12.2, 10.2, 7.95, 6.7, 5.9, 5.15, và
4.75 kbit/s . Các codec dựa trên mơ hình mã hóa CELP . Một bộ dự đốn tuyến tuyến tính bậc 10
( 10th order linear prediction - LP), hoặc bộ lọc các ký tự ngắn , tổng hợp được sử dụng. Bộ lọc
tổng hợp pitch được thực hiện sử dụng phương pháp so – calledadaptive codebook.

Báo cáo nén âm thanh thoại theo chuẩn gsm

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về