Tải bản đầy đủ (.pdf) (4 trang)

Báo cáo khoa học: "mã tín hiệu điện thoại" ppt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (173.35 KB, 4 trang )

mã tín hiệu điện thoại


KS. đào thanh toản
Bộ môn Kỹ thuật Điện tử - ĐH GTVT

Tóm tắt: Mã hoá PCM truyền thống tốc độ bít l 64Kbps l phơng pháp mã hoá đợc sử dụng
từ lâu, đây l phơng pháp có chất lợng mã hoá cao song băng tần truyền dẫn lại lớn. Mã hoá tham
số nguồn hiện nay đã đến giai đoạn hon thiện về mặt kỹ thuật với tốc độ bit rất thấp khoảng từ 4
đến13 Kbps đã v đang ứng dụng cho các dịch vụ viễn thông hiện đại nh VoIP, thông tin di động,
đIện thoại internet, iPAS Bi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính
chất của tín hiệu tiếng nói v phơng pháp lợng tử hoá vector.
Summary: The conventional coding method PCM - 64 Kbps has long been in use. It has high
coding quality but its transmission bandwidth is great. The source parameter vocoder is perfect in
terms of technology with very low bit speed of 4 to 13 Kbps, which is being applied in advanced
telecoms services, such as VoIP, mobile information, Internet Telephony, iPAS The newspaper
presents the principles of source parameter coding based on characteristics of voice signal and
vector quantification method.
1. Mô hình cơ quan phát âm v các
tính chất của tín hiệu tiếng nói
Quá trình phát âm đợc mô hình hoá là một
mạch cộng hởng có tần số cộng hởng khác
nhau, đợc kích thích bằng chuỗi xung tuần hoàn
hay nguồn nhiễu ngẫu nhiên (hình 1).
Hàm truyền mạch lọc:
H(z) =

=


p


1k
k
k
za1
G
(1)
G - tham số khuếch đại của bộ lọc;
a
k
- các tham số của bộ lọc;
P - bậc của bộ lọc thông thờng giá trị này là
10 (GSM, LD-CELP). Bộ lọc này còn có tên là bộ
lọc dự đoán tuyến tính LPC[1,3].
Tín hiệu tiếng nói có một số tính chất có thể
khai thác đợc khi tiến hành mã hoá tín hiệu nh
sau:
-
Tính chất quan trọng nhất mà tất cả các
bộ mã hoá khai thác đó là tính chất dải
tần hạn chế:16 Hz - 20 kHz [1]. Một độ
rộng dải tần giới hạn có nghĩa là nó có
thể đợc rời rạc hoá về mặt thời gian với
một tốc độ giới hạn và đợc khôi phục lại
hoàn toàn đầy đủ từ các mẫu của nó với
điều kiện thoả mãn điều kiện lấy mẫu
Nyquiet, áp dụng cho phơng pháp mã
hoá vùng thời gian (PCM, ADPCM).
-
Tính chất thờng dùng nhất là sự phân
bố xác suất không đều của biên độ tiếng

nói, có sự tự tơng quan giữa các mẫu
liên tiếp, bản chất không phẳng của phổ
tín hiệu tiếng nói sự tồn tại của các thành
phần âm kêu (voiced) và âm không kêu
(unvoiced) và tính chất tựa tuần hoàn của
các tín hiệu tiếng nói, áp dụng cho
phơng pháp mã hoá tham số nguồn
(CELP) [1], [2].
Phân tích bản chất của quá trình phát âm
không những giúp cho việc mã hoá tín hiệu tiếng
nói mà còn đóng vai trò quan trọng trong quá
trình tổng hợp tiếng nói, và nhận dạng tiếng nói.

Cả ba lĩnh vực công nghệ này đang đợc các nhà
khoa học rất quan tâm.
2. Phân loại
Bộ mã hoá tiếng nói đợc phân thành hai
loại lớn: bộ mã hoá dạng sóng và bộ mã hoá
tham số nguồn.
Bộ mã hoá dạng sóng nhằm tạo ra dạng
sóng thời gian của tín hiệu tiếng nói càng giống
với tín hiệu ban đầu càng tốt nh PCM (điều chế
xung mã), ADPCM (PCM vi sai thích nghi ),
chúng đợc thiết kế độc lập với nguồn tín hiệu (có
nghĩa là có thể áp dụng cho cả loại tín hiệu khác)
nên chất lợng không phụ thuộc nhiều vào nguồn
tín hiệu.
u điểm là chất lợng ổn định với phạm
vi rộng của các đặc trng tiếng nói và các môi
trờng có độ ồn khác nhau. Tuy nhiên băng tần

truyền dẫn lại lớn, cho nên sẽ không khả thi trong
môi trờng mạng viễn thông có giới hạn về băng
tần.
Phơng pháp mã hoá tham số nguồn: đây là
phơng pháp mã hoá dựa trên bản chất của tín
hiệu tiếng nói, các phơng pháp hay dùng:
LD-CELP, CS-ACELP, Q-CELP. Nhìn chung các
phơng pháp này đạt đợc hiệu quả về mặt băng
tần tuy nhiên chất lợng của chúng phụ thuộc
nhiều vào ngời nói, và các bộ vi xử lý phảI có
tốc độ thì mới thực hiện đợc, kỹ thuật mã hoá
vẫn đang trong quá trình hoàn thiện.

Còn mã hoá tham số nguồn, các bộ mã hoá
và giải mã có cùng chung một quyển sách mã
(codebook) đã xác định trớc, đợc đánh chỉ số
(giống nh có một quyển từ điển) chữa thông tin
đơn vị gọi là các vector, một vector bao gồm: tín
hiệu ngẫu nhiên (nhiễu trắng) (unvoiced), chuỗi
xung (voiced), thông tin về cao độ của âm (pitch),
thông tin về các tham số bộ lọc (tham số a
3. Phơng pháp mã hoá tham số nguồn
Các hệ thống xử lý tín hiệu tiếng nói nói
chung gồm các quá trình chính:
Số hoá -> xử lý tín hiệu số -> bit truyền
Phơng pháp lợng tử hoá truyền thống nh
PCM: rời rạc hoá với tần số 8 kHz, sau đó lợng
tử với mỗi mẫu 8 bit theo các luật nén giãn A hay

i

),
thông tin về biên độ (G) các thông tin này có
đợc là nhờ quá trình luyện tập, thống kê với
nhiều ngời và nhiều ngôn ngữ khác nhau, vector
giống nh một từ trong quyển từ điển [4], [5].
Trong mỗi khoảng lợng tử hoá, bộ mã hoá
tìm trong sổ mã (codebook) của nó một mã, mà
mã này cho cảm nhận tốt nhất hoà hợp với âm
Cơ vòng
Miệng
Buồng cộng
hởng
Thanh quản
Bức xạ
Loa
Khuếch
đại:
G
Cộng hởng
Nguồn nhiễu
ngẫu nhiên
Bộ dao động
tích thoát
Nguồn
âm
Nguồn không
âm
răng
Qúa trình phát âm
Mô phỏng quá trình pháp âm


Địa chỉ đợc số hoá và truyền đi
Hình 1. Mô hình cơ quan phát âm v một mẫu âm thanh:
"A" giai đoạn kết thúc âm thu đợc từ chơng trình
nghiên cứu của tác giả.

thanh, khi dùng nh một bộ kích thích đầu vào
của bộ lọc dự đoán tuyến tính LPC (Linear
Prediction Code), chỉ số sổ mã khi có hoà hợp tốt
nhất, thì chỉ số của vector này
sẽ đợc mã hoá và phát đi. Phía
thu căn cứ vào các chỉ số này
để "lấy" ra các tham số của
vector tơng ứng và đa đến bộ
tổng hợp để tạo ra tín hiệu hồi
phục (hình 2).
Các phơng pháp mã hoá
tham số nguồn khác có điểm
khác chính là phơng pháp tìm
vector trong sổ mã. Để tìm các
giá trị tối u, ta thực hiện việc
tìm giá trị đó sao cho sai số
trung bình bình phơng MSE
(Mean Square Error) là nhỏ
nhất (cực tiểu hoá). Có nhiều đề
xuất cho giải thuật tìm giá trị tối
u này nh sử dụng phơng
thức tự tơng quan, phơng thức
đồng phơng sai tuy nhiên
phơng thức tự tơng quan với

giải thuật
Levinson - Durbin hay
đợc dùng hơn cả vì nó phù hợp
với phơng pháp lập trình cấu
trúc.
Nội dung nh sau:
Ma trận của tham số phỏng đoán tuyến tính
LPC có dạng:
(

=

p
1k
nk
kiRa
)
= R
n
(i) (2)
với i = 1, , p
Khởi tạo: E
0
= R(0) (3)
k =
(4)
1i
1i
1j
1i

j
E/)ji(Ra)i(R


=











với i = 1, , p
i
i
a
= k
i
(5)
= - k
i
j
a
1i
j
a


i
1i
ji
a


(6)
E
i
=
(
)
1i2
i
Ek1


(7)
quá trình trên lặp đi lặp lại cho đến khi:
a
j
=
với j =1, , p (8)
p
j
a
(Xem tiếp trang 72)
R(i) =
, tơng quan của mẫu

phỏng đoán và mẫu cần mã hoá.

=

N
in
)in(S)n(S
Kết quả phép tính tìm đợc a
k
của (1). Lý do
băng tần giảm đợc bởi khung thời gian quan sát
tín hiệu của nó thờng từ (10 - 30) ms, khác với
PCM là 10
-3
ms, số bit lập mã trung bình một mẫu
thấp hơn phơng pháp vùng thời gian nhiều lần
nh GSM, QCELP (13 Kbps): 260/160 = 1,625
bít/mẫu < 8bit/mẫu (PCM).
4. Phơng pháp thực hiện
Dạng tín hiệu rời rạc
t
Một vectơ
j

Hình 2. Mô hình hoá của lợng tử hoá vector.
Địa chỉ đợc
số hoá và
truyền đi
i


Nh đã phân tích mã hoá tốc độ thấp có ứng
dụng trong rất nhiều dịch vụ viễn thông, chúng
đợc chia làm hai mảng lớn.
Với các đầu cuối của thiết bị cầm tay, xử lý
tín hiệu tiếng nói do một chip đảm nhận, sổ mã
sẽ đợc nạp vào bộ nhớ chỉ đọc (ROM) của vi xử
lý, thuật toán phức tạp và ý nghĩa thực tiễn của
truyền tiếng nói là thời gian thực cho nên các chip
phải đạt tốc độ nào đó mới thực hiện đợc thông
thờng khoảng (10 - 30) MIPS (đơn vị triệu phép
tính trên giây).
Với các hệ thống đi cùng các ứng dụng khác
nh đồ gia dụng nối mạng, máy tính tín hiệu
tiếng nói đợc số hoá nhờ cạc âm thanh hay thiết
bị giao tiếp, và thuật toán thực hiện chủ yếu bằng
phần mềm dựa trên các hàm hệ thống của hệ
điều hành nh hệ điều hành Window đã co sẵn
hàm cho nén theo chuẩn GSM, hoặc cũng có thể
xây dựng các modul riêng tạo thành chơng trình
ứng dụng cụ thể.
Hiện nay trên mạng có rất nhiều các mhóm
làm việc chuyên về xử lý tín hiệu tiếng nói nh Tổ
chức Freely speak, Nhóm làm việc của microsoft,
nhóm làm việc của ITU-T, các sản phẩm đợc
dùng phổ biến hiện nay, tất cả đều miễn phí sử
dụng:
Yahoo messenger (www.messenger.yahoo.com)
IP telephony(www.iptelphone.com),
Freelyspeak(www.freelyspeak.org).
5. Kết luận

Với sự phát triển mạnh của công nghệ chế
tạo phần cứng xử lý tín hiệu số nói chung và xử lý
tín hiệu tiếng nói riêng cũng đạt đợc rất nhiều
thành tựu, giúp cho thực hiện đợc các thuật toán
tinh vi phức tạp. Kết quả này không những thực
hiện đợc cho các thiết bị đầu cuối đa năng mà
còn góp phần quyết định cho các lý thuyết viễn
thông đi vào thực tế chẳng hạn nh điện thoại di
động thế hệ thứ ba (3G), điện thoại IP đa dịch vụ
qua vệ tinh, hệ thống thông tin truy nhập cá nhân
(iPAS) Gần đây ngời ta còn chú ý nhiều đến
việc áp dụng kỹ thuật phân tích Walets vào lĩnh
vực xử lý tín hiệu số trong đó có tín hiệu tiếng nói
(các phơng thức đã trình bày chỉ là áp dụng các
biến đổi Furier truyền thống), góp phần hoàn
thiện cho kỹ thuật mã hoá này, tốc độ mã hoá
ngày càng thấp hơn và chất lợng ngày càng tốt
hơn.

Tài liệu tham khảo
[1]. R. W Schafer & L. R. Rabiner Digital Processing of
Speech Signals. ISBN Editor,1976.
[2]. Biing Hwang Juang. Fundamentals of Speech
Recognition. ISBN Editor,1990.
[3]. www.lab-bells.com
[4]. www.itu-t.int
[5]. www.eee.wasshington.eduĂ



×