Tải bản đầy đủ (.pdf) (123 trang)

tín hiệu tiếng nói và các phương pháp mã hoá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (747.96 KB, 123 trang )

Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
1
Mục lục

Lời nói đầu 1

Chơng I . Tín hiệu tiếng nói 6
1. Quá trình phát âm của con ngời: 6
2. Đặc tính thống kê của tín hiệu tiếng nói: 9
2.1, Hàm phân bố mật độ xác suất(pdf) 10
2.2, Hàm tự tơng quan(ACF) 10
2.3, Hàm mật độ phổ công suất PSD 11
3. Các mô hình biểu diễn 13
a. Cơ quan phát âm (vocal tract) 13
b. Mô hình sự kích thích 14
Chơng II . Mã hoá vùng thời gian. 18
1. Công nghệ PCM: 18
1.1 Cấu hình cơ bản của kiểu truyền tin PCM: 18
1.2 Lấy mẫu: 19
1.3 Lợng tử hoá: 21
1.4 Sự nén và giãn: 22
1.5 Mã hoá và Giải mã: 25
2.Các phơng pháp mã hoá khác: 27
2.1 phơng pháp mã hoá DPCM ( Điều xung mã vi sai): 27
2.2 Phơng pháp DM ( điều chế delta): 29
2.3. Điều chế Deta tự thích nghi (ADM): 31
3 Phơng pháp mã hoá ADPCM (Điều chế xung mã vi sai thích ứng)
(DAPTIVE DIFFERENTIAL PULSE CODE MODULATION ): 32

3.1. Tổng quan: 32


3.1.1. Mã hoá ADPCM(ADPCM encoder): 34
3.1.2 Giải mã ADPCM (ADPCM decoder): 34
3.2. Nguyên lý mã hóa ADPCM( ADPCM encoder principles): 35
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
2
3.2.1. Biến đổi định dạng đầu vào(Input PCM format conversion): 35

3.2.2. Tính toán tín hiệu vi sai (Difference signal computation): 35
3.2.3. Bộ lợng tử tơng thích (Adaptive quantizer): 35
3.2.3.1. Tốc độ 40 kbps(Operation at 40 kbit/s): 35
3.2.3.2. Tốc độ 32 kbps(Operation at 32 kbit/s): 36
3.2.3.3. Tốc độ 24kbps(Operation at 24 kbit/s): 37
3.2.3.4. Tốc độ 16 kbps(Operation at 16 kbit/s): 38
3.2.4. Bộ lợng tử hoá tơng thích ngợc( Inverse adaptive quantizer): 38
3.2.5. Tơng thích hệ số phân thang bộ lợng tử (Quantizer scale
factor adaptation): 39

3.2.6. Điều khiển tơng thích tiếng nói(Adaptation speed control): 40
3.2.7. Bộ tinh toán tín hiệu hồi phục và bộ phỏng đoán tơng thích
(Adaptive predictor and reconstructed signal calculator): 42

3.2.8 Bộ phát hiện truyền và tone (Tone and transition detector): 43
3.3. Nguyên lý giải mã ADPCM(ADPCM decoder principles): 43
3.3.1. Bộ lợng tử thích ứng đảo (Inverse adaptive quantizer): 43
3.3.2.Bộ lợng tử tơng thích hệ số thang (Quantizer scale factor
adaptation): 44

3.3.3. Điều khiển tốc độ thích ứng ( Adaptation speed control): 44
3.3.4. Bộ tính tín hiệu hồi phục và bộ tiến đoán tơng thích (Adaptive

predictor and reconstructed signal calculator): 44

3.3.5. Phát hiện truyền và tone (Tone and transition detector): 45
3.3.6. Biến đổi định dạng đầu ra PCM (Output PCM format
conversion): 45

3.3.7. Điều chỉnh mã hoá đồng bộ (Synchronous coding adjustment): 45
Chơng III . Mã hoá vùng tần số 46
1. Mã hoá dải nhỏ(Sbc). 47
2. Mã hoá biến đổi thích nghi (ATC) 53
chơng IV. Phơng pháp mã hoá tham số nguồn (resourd parameters method) .55
1. Bộ mã hoá nguồn theo kênh: 57
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
3
2. Bộ mã nguồn tiếng nói formant 57

3. Bộ mã nguồn tiếng nói phổ tách 58
4 Phơng pháp dự đoán tuyến tính LPC 58
5. Bộ mã hoá nguồn tiếng nói âm thanh đợc kích thích 64
Mã hoá CELP 65
A. RPE- LPT (Bộ lập mã và giải mã tiên đoán thời hạn dài kích thích
xung đều đặn) 68

B. V-CELP (mã hoá tiên đoán kích thích xung tổng hợp): 70
C. Phơng pháp LD-CELP(mã hoá tiên đoán kích thích xung có độ trễ
nhỏ) 73

D. Phơng pháp CS-ACELP 90
Chơng V. Phơng pháp đánh giá: 107

I. Kiểm tra định lợng 109
1. Tính tỉ số tín hiệu trên nhiễu(SNR): 109
2 Chỉ số độ rõ AI (articulation index): 111
3. Khoảng phổ Log 112
II. Phơng pháp đánh giá định tính : 113
1. Kiểm tra độ dễ hiểu : 113
2. Kiểm tra chất lợng: 116
Kết luận 120
Mục lục 121






Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
4
Lời nói đầu

Vào năm 1892 Alexander Graham Bell khai trơng tuyến điện thoại
thơng mại đầu tiên trên thế giới và cho tới gần đây con ngời coi điện thoại
là một công cụ truyền tin hữu hiệu. Nhờ điện thoại mà con ngời có khả năng
trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ
dàng. Ngoài u thế nh khả năng truyền thông tin theo thời gian thực và dễ sử
dụng, mạng điện thoại ngày nay còn có các u điểm rất cơ bản, đó là đợc
phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu nh mọi điểm trên trái
đất, thời gian đáp ứng ngắn và thuận tiện cho ngời sử dụng. Cũng từ đó tín
hiệu tiếng nói trở thành một đối tợng và cũng là một nguồn tải lớn nhất của
mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán

dẫn thì các phơng pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh, lý
thuyết mà các nhà khoa khọc đa ra từ nhiều thập kỷ trớc đã đợc thực hiện.
Đặc biệt khoảng 10 năm trở lại đây với sự phát triển mạnh của mạng viễn
thông toàn cầu, mạng Internet các dịch vụ viễn thông tích hợp thoại, hình , số
liệu thì băng tần truyền dẫn ngày càng trở nên hạn chế, ngoài việc phát triển
các công nghệ truyền dẫn có hiệu năng cao nh SDH,VLSI , thì xu hớng
làm giảm băng tần truyền dẫn từ chính nguồn tín hiệu đợc xem là biện pháp
khả thi và kinh tế, các hãng liên tiếp đa ra các cải tiến, và đề xuất các phơng
thức mã hoá mới nh MPX, Q-CELP, LD-CELP,V-CELP, SBC . ở Việt nam
lĩnh vực này còn khá mới mẻ, vì vậy nghiên cứu các đặc tính của tín hiệu tiếng
nói và các phơng pháp xử lý mã hoá là một công việc hết sức cần thiết.
Trong đề tài tôt nghiệp, em đợc giao nhiệm vụ nghiên cứu đặc tính
của tín hiệu tiếng nói và các phơng pháp mã hoá. Em xin đợc trình bày
luận án tốt nghiệp của mình với các nội dung sau:
Ch
ơng 1 :Nghiên cứu quá trình phát âm và các đặc tính của âm thanh.
Chơng 2 :Phơng pháp mã hoá vùng thời gia
n.
Chơng 3 :Phơng pháp mã hoá vùng tần số.
Chơng 4 :Các kỹ thuật mã hoá đang đợc sử dụng phổ biến cho các
dịch vụ tiên tiến.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
5
Chơng 5 :Tổng quan các phơng thức đánh giá phơng thức mã hoá
tín hiệu tiếng nói.

Cuối cùng em xin chân thành cảm ơn các thầy cô trong khoa Điện -
Điện Tử, Trờng đại học giao thông vận tải Hà nội, và đặc biệt xin chân thành
cảm ơn thầy giáo Tiến sỹ Trần Quốc Thịnh đã giúp đỡ em hoàn thành đề tài

của mình.
Do trình độ, và thời gian hạn chế cho nên đề tài không thể tránh khỏi
những thiếu sót, em rất mong nhận đợc sự đóng góp của các thầy cô.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
6
Chơng I . Tín hiệu tiếng nói

1. Quá trình phát âm của con ngời:
Quá trình phát âm của con ngời đợc mô tả nh sau:
áp lực tạo ra từ phổi làm cho các thanh quản phát ra các rung động.
Lỗ giãn giữa các thanh quản gọi là thanh môn, thanh môn giống nh một nút
cổ chai, không khí đi qua đây sẽ có áp suất thay đổi đột ngột tạo thành xung
lực, ảnh hởng của thanh môn chính là sự phóng các chuỗi không khí bị nén
đến các hốc cộng hởng âm với tần số thay đổi theo sự giãn nở này(do thần
kinh điều khiển).
Luồng khí xuyên qua các hốc, phản xạ lên các vật chắn (là các bộ
phận giới hạn cơ quan phát âm nh các cơ), đi qua các hốc cộng hởng cuối
cùng phát ra ở môi và lỗ mũi dới dạng sóng áp lực, còn gọi là sóng áp lực
âm thanh tiếng nói.
Thanh quản có thể bị làm cứng, hoặc nới lỏng (do thần kinh điều khiển
các cơ) để thay đổi tốc độ dãn.
Cơ quan chắn giữa khoang mũi và khoang miệng hoạt động nh một
cổng giữa hốc âm mũi và hốc âm miệng, nó có thể đóng để cô lập hay mở để
kết hợp với hốc âm miệng một cách hài hoà trong các tình huống khác nhau
(ví dụ nh khi hát, khi nói chuyện, khi nói thầm) và trong các ngôn ngữ khác
nhau (ví dụ tiếng Pháp thờng phát ra nhiều âm mũi hơn tiếng Việt).
Lỡi, quai hàm, răng, môi đợc thay đổi vị trí không gian để thay đổi
hình dạng (tức là thay đổi tần số cộng hởng) của hốc âm miệng, sóng áp lực
âm thanh phát ra từ miệng phụ thuộc vào sự liên kết giữa các âm phát ra và sự

suy hao trên các cơ quan phản xạ.
Sóng áp lực âm thanh tồn tại dới dạng sự di chuyển liên tục của các
luồng khí, khi đến cơ quan thính giác thì đợc phản ánh qua các thông số: độ
rõ, âm sắc, độ cao, độ lớn của âm.
Cơ quan phát âm đợc kích thích bởi luồng khí từ phổi, nguồn kích
thích này có thể tạo ra âm kêu hoặc không kêu. âm kêu ứng với quá trình sau:
Thanh đới dao động tại tần số gọi là tần số căn bản, hay còn gọi là độ cao
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
7
của âm, có thể trực tiếp kiểm tra bằng cách đặt ngón tay vào cổ họng khi nói,
nếu có sự rung động sang tay thì đó là âm kêu.
Còn âm không kêu ứng với quá trình sau: Khi thanh đới không dao
động, tức là bị làm cứng bởi các cơ, luồng khí hoặc cũng đợc phát ra cơ
quan phát âm hoặc bị thanh môn chặn lại hiệu ứng của chúng là có sự hỗn
loạn của các luồng khí đi qua các cơ quan.
Bởi vậy trong thời gian xem xét sóng âm thanh phát ra là sự kết hợp
của âm thanh và âm vô thanh.









Liên quan đến quá trình phát âm, ta có khái niệm formant, một đặc
điểm hết sức quan trọng trong lĩnh vực xử lý tín hiệu tiếng nói, nó đợc hiểu
nh sau:

Formant là tần số cổng hởng cơ bản của cơ quan phát âm, nó phụ
thuộc vào cỡ, hình dạng của toàn bộ cơ quan phát âm. Năng lợng của những
tần số này đợc tăng cờng do có sự phản xạ đồng thời của các thành phần
khác, còn năng lợng ở những thành phần tần số khác có khuynh hớng suy
h1. Cấu tạo cơ quan phát âm
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
8
giảm đặc biệt là tại các tần số triệt tiêu, năng lợng bị làm nhụt. Quan sát trên
máy phân tích phổ tần số cổng hởng này(formant) xuất hiện nh một cái
bớu nh hình vẽ .














Ngôn ngữ khác nhau trên thế giới chỉ là ở sự khác nhau giữa các tần số
formant cho nên để xây dựng một hệ thống mã hoá tham số nguồn hiệu quả
thì cần phải gắn cả yếu tố dân tộc, ngôn ngữ vào đó.
Phân tích bản chất của quá trình phát âm không những giúp cho việc
mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng

hợp tiếng nói, và nhận dạng tiếng nói. Cả ba lĩnh vực công nghệ này đang
đợc Việt nam rất quan tâm.
Thính giác :
Sản phẩm của các quá trình xử lý tín hiệu tiếng nói phải đợc phản ánh
bởi chính con ngời thông qua cơ quan thính giác. Các thông tin của thính
giác liên quan đến vấn đề mã hoá tín hiệu là:
Hình 1-1 : Dạng sóng âm của tiếng nói
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
9
Thính giác có tính quán tính : Đáp ứng của thính giác với tác động của
âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm
đã cho kết quả với môi trờng truyền âm bình thờng sau khi bắt đầu
khoảng 200ms thính giác mới xác định âm lợng của nó khi âm ngừng
cảm nhận còn âm kéo dài chừng 150-200 ms thính giác không phân
biệt đợc hai âm giống nhau đi liền nhau khoảng nhỏ hơn 50 ms, tức là
có hiện tợng che lấp của âm, phải qua tác động vài chu kỳ thì tai
ngời mới quen với cao độ của âm (tần số cao hay thấp).
Hiệu ứng không gian (stereo) của tai ngời là hiệu ứng cảm ứng hai tai
với hai nguồn âm tơng quan, điều này có ảnh hởng đến độ rõ của âm
khi tiến hành kiểm tra hệ thống .
Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu
không phải là tỉ lệ thuận với độ dộng dải tần, ảnh hởng của nó là méo
âm thanh do thêm thành phần sóng hài, không gây ra sai lệch cho
ngời nghe bằng do thêm thành tần số không bội, khi mã hoá phải chú
ý đến thành phần tần số không bội.
Đặc điểm về giới tính, lứa tuổi thậm trí cả yếu tố dân tộc : tức là những
yếu tố trên là khác nhau không những âm thanh phát ra có khác nhau
mà cả việc cảm thụ về âm thanh cũng khác nhau, cho nên phải có sự
kiểm tra trên diện rộng trớc khi đa ra đánh giá.


2. Đặc tính thống kê của tín hiệu tiếng nói:
Dạng sóng tín hiệu tiếng nói có một số tính chất hữu ích có thể khai thác
đợc khi tiến hành mã hoá tín hiệu. Tính chất thờng dùng nhất là sự phân bố
xác suất không đều của biên độ tiếng nói, có sự tự tơng quan giữa các
mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại
của các thành phần âm kêu và âm không kêu và tính chất tựa tuần hoàn
của các tín hiệu tiếng nói. Tính chất quan trọng nhất mà tất cả các bộ mã
hoá khai thác đó là 0. Một độ rộng dải tần giới hạn có nghĩa là nó có thể đợc
rời rạc hoá về mặt thời gian với một tốc độ giới hạn và đợc khôi phục lại
hoàn toàn đầy đủ từ các mẫu của nó với điều kiện thoả mãn điều kiện lấy mẫu
Nyquiet. Còn các tính chất khác nói lên khả năng cho phép lợng tử hoá.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
10
2.1, Hàm phân bố mật độ xác suất(pdf).
Hàm mật độ không đều của biên độ tiếng nói, nói chung đợc đặc trng
bởi xác suất cao của các biên độ gần giá trị không, một xác suất đáng kể ở
các biện độ rất lớn và một hàm giảm không tăng đều của các biên độ gần các
cực trị này. Tuy nhiên sự phân bố chính xác lại phụ thuộc vào độ rộng dải tần
lối vào và điều kiện thu âm thanh, hàm đăc trng pdf:


=


/|x|2exp(
2
1
)(xp



Hàm này gần giống phân bố Gauss chuẩn, các bộ lợng tử hoá không
đều (PCM) và các bộ lợng tử hoá vectơ (CELP) cố gắng hoà hợp sự phân bố
các pdf tín hiệu tiếng nói lối vào bằng cách dùng nhiều mức lợng tử hơn ở
vùng có xác suất cao và ít ở mức lợng tử hơn ở vùng có xác suất nhỏ.
2.2, Hàm tự tơng quan(ACF).
Tính chất có ích khác của tín hiệu tiếng nói khi phân tích là tính có một
sự tơng quan đáng kể (tức là sự giống nhau) giữa các mẫu tiếng nói kế cận
nhau của một đoạn tiếng nói.
Tức là trong mỗi mẫu của tín hiệu tiếng nói có một bộ phận lớn có thể dự
đoán từ các giá trị của các mẫu trớc với một sai số ngẫu nhiên nhỏ nào đó
các phơng pháp AD, ADPCM, APCM, CELP, LPC dựa trên tính chất này.
Hàm tự tơng quan:

n
()= E[(x
a
(t) x
a
(t-) ]=
))-(t x(t)(x
aa

+



x
a

(t) biểu diễn mẫu tiếng nói hiện tại x
a
(t-) là tín hiệu trớc đó với
khoảng thời gian là .
Hàm này thờng đợc chuẩn hoá theo phơng sai của tín hiệu tiếng
nói do đó nó bị hạn chế trong khoảng [1, 1], trong các phép tính dùng thực tế
giá trị hàm tự tơng quan chỉ tính cho giới hạn các mẫu (trong phần LD-
CELP, CS-ACELP).

Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
11










2.3, Hàm mật độ phổ công suất PSD
Đặc tính không phẳng của mật độ phổ công suất của tiếng nói làm cho
nó có thể thu đợc một hiệu suất nén đáng kể bằng việc mã hoá tiếng nói vùng
tần số. Bản chất không phẳng của PSD là thể hiện trong vùng tần số của tính
chất tự tơng quan là khác không. PSD tính trung bình trong một thời gian dài
của tiếng nói chứng tỏ các thành phần tần số cao đóng góp rất ít vào năng
lợng tiếng nói tổng cộng. Điều này chứng tỏ rằng sự mã hoá tiếng nói tách
biệt trong các dải tấn số khác nhau có thể đa đến bộ khuyếch đại mã hoá

đáng kể, tuy nhiên không thể bỏ qua đợc các thành phần này vì chúng có ý
nghĩa là các phần tải thông tin quan trọng.
Phổ công suất của tín hiệu tơng tự là kết quả của phép biến đổi Furier
của
n
():

n
() =


dea




)(

Tín hiệu rời rạc về mặt thời gian đợc tính bằng việc lấy mẫu các tín hiệu
ngẫu nhiên x
a
(t) có hàm tự tơng quan :
TÝn hiÖu tiÕng nãi vµ c¸c ph−¬ng ph¸p m∙ ho¸
Tr−êng §HGTVT - Hµ Néi
12
Φ(m) = E[x(n)x(n+m)]= E[x
a
(nT)x
a
(nT+mT)] = Φ(mT)

Phæ c«ng suÊt cña Φ(m) ®−îc tÝnh:
Φ(e
j
Ω
T
) =
m
Tj
em
Ω−

∞−
Φ

)( = )
2
(
1
k
TT
a
Π
+ΩΦ


∞−




















TÝn hiÖu thùc
GAMMA
LAPLACE
-3 -2 -1 0 1 2 3
X
1.0
















0.1





0.05




p(x)
MËt ®é
p
hæ c«n
g
suÊt LAPLACE, GAMMA
vµ tÝn hiÖu thùc cña tÝn hiÖu tiÕng nãi thùc tÕ.

Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
13
3. Các mô hình biểu diễn
a. Cơ quan phát âm (vocal tract)

Sự cộng hởng của tiếng nói (formant) là tơng ứng với điểm cực của
hàm truyền V(z).

=


=
N
k
k
k
za
G
zv
1
1
)(

Mô hình toàn cực của hàm truyền là mô hình mô tả tốt nhất cho thành
phần âm kêu, tuy nhiên các ảnh hởng của mũi, và kẽ răng lại yêu cầu mô
hình phải có cả hai sự cổng hởng và sự triệt tiêu trong trờng hợp này, cần
phải thêm các điểm không vào mô hình. Các hệ số của mẫu phơng trình trên
phải là hoặc thực hoặc cặp phức.
Tần số cộng hởng điển hình của cơ quan phát âm:
k
*
,
Fj2=
k
k

k
ss


tơng ứng rời rạc về thời gian là:
fTjefTezz
TT
k
k
kk
=

sin2.2cos.
*
,










Băng tần của formant tơng ứng là 2
k
và tần số trung tâm là 2F
k
.

Trong mặt phẳng Z đờng kính trung tâm đến cực sẽ quyết định băng tần
nghĩa là :
|Z|=e
-

kT

k
=2F
k
T
-
k

/T

2F
s



-/T

-2F
s


|Z
k
|


m

t
p
hẳn
g
S m

t
p
hẳn
g
Z
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
14
Bởi vậy nếu V(z) tìm đợc thì tần số cộng hởng và băng tần cũng đợc
tính, nh chỉ ra trên hình vẽ trên tần số thực phức của cơ quan phát âm tất cả
thuộc nửa bên trái mặt phẳng s vì vậy nó là hệ thống ổn định của phép biến
đổi s, do đó
k
>0 và |Z
k
|<1 nghĩa là tất cả các điểm cực tơng ứng của mô
hình rời rạc thời gian phải nằm bên trong vòng tròn đơn vị để đảm bảo tính ổn
định của hệ thống.















b. Mô hình sự kích thích
Nh đã phân tích phần lớn âm thanh tiếng nói có thể chia thành kêu và
không kêu, mô hình cho nó dạng sóng kích thích phải xuất hiện "một chút".
ở mô hình này máy phát chuỗi xung tạo ra chuỗi xung đơn vị quãng
cách là chu kỳ cơ bản (chu kỳ cao độ). Tín hiệu này kích thích một hệ thống
tuyến tính mà có đáp ứng xung h(n) là dạng sóng "thanh môn-glottal" kích
thích.
Máy
phát
chuỗi
xung
Chế độ
xung
kích
thích
+
chu kỳ cao độ
điều khiển biên đ



Các xung âm kêu
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
15
Điều chỉnh biên độ G
v,
điều khiển một mạch kích thích âm kêu, các
nghiên cứu chỉ ra rằng dạng sóng "thanh môn" có thể đợc thay bằng dạng
sóng của xung tổng hợp theo dạng:
h(n) = 0,5(1-cos(n/N
1
)) khi 0nN
1

= cos((n-N
1
)/2N
2
) khi N
1
n N1+N2

= 0 với những trờng hợp khác.
N
1
, N
2
là khoảng giới hạn của cửa sổ phân tích với âm vô thanh chỉ cần
một nguồn nhiễu và thông số về biên để điều chỉnh mật độ kích thích của nó,

máy phát ngẫu nhiên tạo một nguồn nhiễu bằng phẳng, xác xuất hiện không
quan trọng.
Tổng hợp hai cách trên ta có mô hình hoàn thiện:







Nh trên đã phân tích các bản chất của tín hiệu tiếng nói với mô hình
cho cơ quan phát âm, nhìn chung xử lý tín hiệu tiếng nói trong viễn thông có
thể dùng điều biến tơng tự, tuy nhiên kỹ thuật này đã trở nên lỗi thời, hiện
nay chúng ta đều dùng kỹ thuật số cho tất cả các loại tín hiệu do vậy tín hiệu
tiếng nói cũng phải xem xét trong mô hình số. Nh vậy bản chất của mã hoá
tín hiệu thoại chỉ là xử lý số thông thờng. Các phơng pháp tiếp cận đối
tợng khác nhau cho ta các phơng pháp mã hoá khác nhau, căn cứ vào cách
tiếp cận đối tợng ta chia các phơng pháp mã hoá nh hình vẽ:

chuỗi xung
Nguồn
nhiễu
+
Bộ lọc
tham số
biến đổi
Khuyếch đại
chu kỳ cao độ
s
(

n
)
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
16




























Bộ m hoá tiếng nói
Bộ mã hoá nguồn
Lĩnh vực thời gian Lĩnh vực tần s


LPC
Bộ mã hoá
nguồn tiếng nói
Không
vi phân
Vi
phân

SBC ATC CELP FORMANT

ADPCM

PCM
Q-
CELP
V-
CELP
CS -
ACELP
LD-
CELP
APCM,
DA,APC

Sự phân tầng bộ mã hoá tiếng nói
RPE-
LTP
Bộ mã hoá dạng
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
17
Bộ mã hoá tiếng nói đợc phân thành hai loại lớn :bộ mã hoá dạng sóng
và bộ mã hoá tham số nguồn. Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng
thời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng đợc thiết kế
độc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệu
khác) nên chất lợng không phụ thuộc nhiều vào nguồn tín hiệu chúng có u
điểm là chất lợng ổn định với phạm vi rộng của các đặc trng tiếng nói, và
các môi trờng ồn khác nhau. Còn các bộ mã hoá nguồn tiếng nói thì lại có u
thế trong việc tiết kiệm băng tần nhng lại rất phức tạp và có độ ổn định
không cao tuy nhiên chúng ngày càng đợc khắc phục, để phục vụ cho các
công nghệ viễn thông hiện tại và trong tơng lai. Nội dung cụ thể sẽ đợc
trình bày trong các chơng tiếp theo .



Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
18

Chơng II . M hoá vùng thời gian.
1. Công nghệ PCM:
1.1 Cấu hình cơ bản của kiểu truyền tin PCM:
Mã hoá là quá trình biến đổi các giá trị rời rạc thành các mã tơng ứng.
Nhìn chung, việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tục

thành các tín hiệu rời rạc của trờng thời gian gọi là PAM (điều chế biên độ
xung). Việc mã hoá là quá trình lợng tử hoá các giá trị mẫu này thành các giá
trị rời rạc của trờng biên độ và sau đó biến đổi chúng thành mã nhị phân hay
các mã ghép kênh. Khi truyền thông tin mã, nhiều xung đợc yêu cầu cho mỗi
giá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải đợc
mở rộng. Đồng thời xuyên âm, tạp âm nhiệt, biến dạng mẫu, mất xung mẫu,
biến dạng nén, tạp âm mã hoá, tạp âm san bằng đợc sinh ra trong lúc tiến
hành lấy mẫu và mã hoá. Việc giải mã là quá trình khôi phục các tín hiệu đã
mã hoá thành các tín hiệu PAM đợc lợng tử hoá. Quá trình này tiến hành
theo thứ tự đảo đúng nh quá trình mã hoá. Mặt khác quá trình lợng tử hoá,
nén và mã hoá các tín hiệu PAM đợc gọi là quá trình mã hoá và quá trình
chuyển đổi các tín hiệu PCM thành D/A, sau đó, lọc chúng sau khi giãn để
đa về tiếng nói ban đầu gọi là quá trình giải mã. Cấu hình cơ sở của hệ thống
truyền dẫn PCM đối với việc thay đổi các tín hiệu tơng tự thành các tín hiệu
xung mã để truyền dẫn đợc thể hiện ở hình (pcm1). Trớc tiên các tín hiệu
đầu vào đợc lẫy mẫu một cách tuần tự, sau đó đợc lợng tử hoá thành các
giá trị rời rạc trên trục biên độ. Các giá trị lợng tử hoá đặc trng bởi các mã
nhị phân. Các mã nhị phân này đợc mã hoá thành các dạng mã thích hợp tuỳ
theo đặc tính của đờng truyền dẫn.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
19











Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin nh tiếng nói
thành các tín hiệu số nh PCM. Khi các tín hiệu thông tin là các tín hiệu tơng
tự, việc chuyển đổi A/D đợc tiến hành và việc chuyển đổi D/D đợc tiến hành
ở trờng hợp của các tín hiệu số. Đôi khi, quá trình nén và mã hoá băng tần
rộng đợc tiến hành bằng cách triệt sự d thừa trong quá trình tiến hành
chuyển đổi A/D hoặc D/D).
1.2 Lấy mẫu:
Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệu
liên tục nh tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành
thông tin ban đầu. Để tiến hành việc này, các phần tử thông tin đợc rút ra từ
các tín hiệu tơng tự một cách tuần tự. Quá trình này đợc gọi là công việc lấy
mẫu.
(a) Tín hiệu tiếng nói m(t)
(b) Xung lấy mẫu s(t)
(c) Chức danh lấy mẫu
(d) Tín hiệu PAM đã lấy mẫu

hoá
Tái tạo
và trễ
Lấy
mẫu

Lọc
Giải

Phần phát
Tái tạo và

truyền dẫn
Phần thu
Đầu vào
tơng tự
Đầu vào số Đầu ra số
Đầu ra
tơng tự
Cấu hình cơ bản của phơng pháp thông tin PCM.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
20









Quá trình lấy mẫu.
Theo thuyết lấy mẫu của Shannon, các tín hiệu ban đầu có thể đợc khôi
phục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu đợc truyền đi
ở chu kỳ hai lần nhan hơn tần số cao nhất. Nói cách khác, khi độ rộng dải tần
của tín hiệu đợc truyền đi gọi là BW, tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitst
trở thành Rmax = 2 x BW. Các tín hiệu xung lấy mẫu là tín hiệu dạng sóng
chu k, là tổng các tín hiệu sóng hài có đờng bao hàm số sin đối với các tần
số. Vì thế, phổ tín hiệu tiếng nói tạo ra sau khi đã qua chức năng lấy mẫu thể
hiện ở hình sau.











Phổ trớc và sau quá trình lẫy mẫu
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
21
Có hai kiểu lấy mẫu tuỳ theo dạng của đỉnh độ rộng xung, lấy mẫu tự
nhiên và lấy mẫu đỉnh bằng phẳng. Lấy mẫu tự nhiên đợc tiến hành một cách
lý tởng khi phổ tần số sau khi lấy mẫu trùng với phổ của các tín hiệu ban
đầu. Tuy nhiên trong các hệ thống thực tế, điều này không thể có đợc. Khi
tiến hành lấy mẫu đỉnh bằng phẳng, một sự nén gọi là hiệu ứng biên độ lấy
mẫu làm xuất hiện méo. Ngoài ra, nếu các phần tử tín hiệu đầu vào vợt quá
độ rộng dải tần 4 KHz, xuất hiện sự nén quá nếp gấp. Vì vậy, việc lọc băng
rộng các tín hiệu đầu vào phải đợc tiến hành trớc khi lấy mẫu.
1.3 Lợng tử hoá:
PAM với biên độ tơng tự chuyển đổi thành các tín hiệu số là các tín
hiệu rời rạc sau khi đi qua quá trình lợng tử hoá. Khi chỉ thị biên độ của tiếng
nói liên tục với số lợng hạn chế, nó đợc đặc trng với dạng sóng xấp xỉ của
bớc. Tạp âm lợng tử NQ = Q - S tồn tại giữa dạng sóng ban đầu (S) và dạng
sóng đã lợng tử (Q); nếu bớc nhỏ tạp âm lợng tử đợc giảm đi nhng số l-
ợng bớc đầu cần thiết cho lợng tử toàn bộ dải tín hiệu đầu vào trở nên rộng
hơn. Vì thế số lợng các dãy số mã hoá tăng lên.













Tạp âm tạo ra khi biên độ của các tín hiệu đầu vào vợt quá dãy lợng tử
gọi là tạp âm quá tải hay tạp âm bão hoà. S/NQ đợc sử dụng nh một đơn vị
Tạp âm lợng tử theo biên độ tín hiệu đầu vào
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
22
để đánh giá những u điểm và nhợc điểm của phơng pháp PCM. Khi số
lợng các dãy số mã hoá trên mỗi mẫu tăng lên 1 bit, S/NQ đợc mở rộng
thêm 6 dB.
1.4 Sự nén và gin:
Nh phơng pháp tiến hành mã hoá hoặc giải mã, mã đờng, mã không
phải mã đờng và mã đánh giá có thể đợc lựa chọn theo các kiểu của nguồn
thông tin. Mã đờng là một quá trình triệt số lợng tạp âm lợng tử sinh ra
trên thông tin đợc gửi đi bất chấp mức đầu vào. Nó đợc sử dụng trong một
hệ thống ở đó giá trị tuyệt đối của số lợng tạp âm là tới hạn hơn S/NQ. Mã
không phải là mã đờng đợc sử dụng rộng dãi trong một hệ thống ở đó S/N
của hệ thống thu đợc quan trọng hơn số lợng tuyệt đối của tạp âm nh tiếng
nói. Khi bớc lợng tử là một hằng số, S/N thay đổi theo mức tín hiệu. Chất
lợng gọi trở nên xấu hơn khi mức tín hiệu thấp. Vì thế đối với các tín hiệu

mức thấp, bớc lợng tử đợc giảm và đối với các tín hiệu mức cao nó đợc
tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào. Những vấn đề
trên đợc tiến hành bằng cách nén biên độ. Một cách lý tởng, đối với các tín
hiệu mức thấp đờng cong nén và giãn là truyến tính. Đối với các tín hiệu mức
cao chúng đặc trng bởi đờng cong đại số. Hiện nay, ITU-T khuyến nghị luật
( =255) là phơng pháp 15 đoạn(các hệ thống của Hoa Kỳ và Nhật) và luật
(A= 87,6) (các hệ thống của châu âu, trong đó có Việt nam) là phơng pháp
13 đoạn nh là phơng pháp nén đoạn mà các hàm đại số đợc biểu diễn gần
đúng với một vài đờng tuyến tính.
y=y
ma
A
xxA
ln1
)/(
max
+

với 0(x/x
max
)1/A
=y
ma
A
xAx
ln1
)/ln(1
max
+
+


với 1/A (x/x
max
)1
y= y
ma


ln1
))/(1ln(
max
+
+ xx

với 0 x x
max
= -y
ma


ln1
))/(1ln(
max
+
xx

với -x
max
x 0
Tín hiệu tiếng nói và các phơng pháp m hoá

Trờng ĐHGTVT - Hà Nội
23
y
max,
x
max:
là các biên độ lớn nhất tại đầu vào






Đặc tính nén và giãn.
Dới đây là bảng đặc tuyến nén giãn:
Các bit nhị phân I
7
I
6
I
5
I
4
I
3
I
2
I
1
I

0

Đoạn bít dấu
chọn đoạn bít thứ
2-4
vị trí trong đoạn bit
5-9
O-A(`) 1/(0) 000 0000-1111
A-B(`) 1/(0) 001 0000-1111
B-C(`) 1/(0) 010 0000-1111
C-D(`) 1/(0) 011 0000-1111
D-E(`) 1/(0) 100 0000-1111
E-F(`) 1/(0) 101 0000-1111
F-G(`) 1/(0) 110 0000-1111
G-A(`) 1/(0) 111 0000-1111
số bit dùng 1 3 4
Với việc sử dụng công nghệ nén đợc mô tả ở trên, những đặc tính tạp
âm ở các tín hiệu mức thấp có thể đợc giảm đến mức hầu nh giống với mức
của mã tuyến tính 13 bits. Một bộ nén - giãn đôi khi đợc nói tới nh là một từ
viết tắt kết hợp nén và bộ dãn.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
24












Cả hai phơng pháp mã hoá và phơng pháp nén là đồng thời đợc tiến
hành qua bớc nén số - số hoặc tự mã hoá mà không thêm những mạch riêng
rẽ khác bởi sử dụng tính chất tuyến tính của phơng pháp nén đoạn trong số.
Một bảng giá trị với phơng pháp mã hoá và cách nén mã =255 đợc chỉ ra
trên bảng dới đây.
Bảng mã hoá =255 Bảng giải mã = 255
Mã vào hớng tuyến tính Mã nén Mã ra hớng tuyến tính
0 0 0 0 0 0 0 1 w x y z a
0 0 0 0 0 0 1 w x y z a b
0 0 0 0 0 1 w x y z a b c
0 0 0 0 1 w x y z a b c d
0 0 0 1 w x y z a b c d e
0 0 1 w x y z a b c d e f
0 1 w x y z a b c d e f g
1 w x y z a b c d e f g h
0 0 w x y z
0 0 w x y z
0 1 w x y z
0 1 w x y z
1 0 w x y z
1 0 w x y z
1 1 w x y z
1 1 w x y z
0 0 0 0 0 0 0 1 w x y z 1
0 0 0 0 0 0 1 w x y z 1 0
0 0 0 0 0 1 w x y z 1 0 0

0 0 0 0 1 w x y z 1 0 0 0
0 0 0 1 w x y z 1 0 0 0 0
0 0 1 w x y z 1 0 0 0 0 0
0 1 w x y z 1 0 0 0 0 0 0
1 w x y z 1 0 0 0 0 0 0 0
Bảng. =255 Mã hoá và Giải mã
Các đặc tính S/NQ của các phơng pháp mã hoá.
Tín hiệu tiếng nói và các phơng pháp m hoá
Trờng ĐHGTVT - Hà Nội
25
1.5 M hoá và Giải m:
Mã hoá là một quá trình so các giá trị rời rạc nhận đợc bởi quá trình
lợng tử hoá với các xung mã.
Thông thờng các mã nhị phân đợc sử dụng cho việc mã hoá là các mã
nhị phân tự nhiên, các mã Gray (các mã nhị phân phản xạ), và các mã nhị
phân kép. Phần lớn các kí hiệu mã so sánh các tín hiệu vào với điện áp chuyển
để đánh giá xem có các tín hiệu nào không. Nh vậy, một bộ phận chuyển đổi
D/A hoặc bộ giải mã là cần thiết cho việc tạo ra điện áp chuẩn. Trong liên lạc
công cộng PCM, tiếng nói đợc biểu diễn với 8 bits. Tuy nhiên trong trờng
hợp của luật , các từ PCM đợc lập nên nh sau (8 bits).
Bit phân cực = 0,1
Bit phân đoạn = 000, 001, , 111
Bit phân bớc = 0000, 0001, , 1111
Từ đoạn thứ nhất của tín hiệu "+" và tín hiệu "-" là các đờng thẳng, có 15
phân đoạn. Cực "+" của dạng sóng tín hiệu tơng ứng với bit phân cực 0 và
cực "-", với "1".












Mã hoá từ PCM.

×