Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (759.73 KB, 32 trang )

Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Mục Lục
3.5. Thiết kế mạch lọc 29
3.5 1 Lấy mẫu dới 30
3.4.2 Lấy mẫu trên 33
3.6. Kết luận 34
Lời nói đầu
Hiện nay, việc số hoá các hệ thống thông tin liên lạc đã và đang đợc thực hiện mạnh
mẽ ở trên thế giới cũng nh ở Việt nam. Chính vì vậy mà xử lý tín hiệu và lọc số đã trở
thành một lĩnh vực khoa học khá quan trọng. Nó đợc phát triển nhanh chóng bởi sự ra đời
các vi mạch điện tử cỡ lớn VLSI làm nền tảng cho sự phát triển của phần cứng số chuyên
dụng giá thành rẻ, kích thớc nhỏ gọn, tốc độ tính toán cao, mềm dẻo linh hoạt, đáng chú
ý là các chip chuyên cho xử lý số tín hiệu. ứng dụng của lĩnh vực khoa học này là rất to
lớn, nh xử lý tiếng nói, xử lý ảnh,
Từ lâu, lĩnh vực nén tín hiệu tiếng nói đã đợc các nhà khoa học rất quan tâm nghiên
cứu để ứng dụng cho mục đích quân sự, sau này phát triển cho cả các mục đích chung
khác. Những kiến thức cơ bản về xử tín hiệu và lọc số là rất cần thiết để tiếp cận với
ngành khoa học này. Nội dung của tiểu luận sẽ đề cập đến vấn đề nén tín hiệu tiếng nói và
ứng dụng xử lý số để nén tín hiệu tiếng nói, bao gồm các phần sau:
Chơng1: Cơ sở lý thuyết nén tín hiệu
Chơng 2: Nén và xử lý số tín hiệu tiếng nói.
Chơng 3: Nén tín hiệu tiếng nói bằng phơng pháp mã hoá băng con
Em xin chân thành cảm ơn thầy giáo TS.Nguyễn Ngọc Minh đã nhiệt tình, tận tụy giúp
đỡ nhóm em hoàn thành tiểu luận này.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- I -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Chơng I. Cơ sở lý thuyết nén tín hiệu
1.1 Giới thiệu:
Trong một vài thập kỷ qua sự phát triển của khoa học và kỹ thuật truyền tin thực sự là
một cuộc cách mạng đối với phơng tiện truyền thông. Đáng kể nhất là các mạng internet,

mạng viễn thông di động, và truyền thông video. Trong thực tế sẽ không mô tả đợc các
hình ảnh, cha nói gì đến audio và video hay các website nếu chúng ta không có các
thuật toán nén dữ liệu. Các mạng điện thoại tế bào không thể không nén khi số lợng đầu
cuối tăng, tín hiệu truyền hính số không thể thiếu quá trình nén, thực hiện một cuộc liên
lạc đờng dài cũng cần nén, rồi các dịch vụ tuyền hình vệ tinh, đều cần nén. Trong một
thời gian khá dài kỹ thuật nén dữ liệu chỉ nhận đợc sự quan tâm của một nhóm nhỏ các
nhà khoa học và kỹ s, ngày nay là một lĩnh vực rất quan trọng và đợc đông đảo mọi ngời
quan tâm.
Nh vậy, nén dữ liệu là gì? và tại sao lại thực sự cần thiết? Ta đã quen nghe JPEG
( Joint Photographic Expert Group) và MPEG ( Moving Picture Expert Group ), đó là các
chuẩn nén ảnh tĩnh ( picture ) và ảnh động ( video ). Các thuật toán nén dữ liệu đợc sử
dụng trong các chuẩn này đều giảm số các bít yêu cầu đối với một bức ảnh hay một chuỗi
các ảnh. Tóm lại, nén dữ liệu là một nghệ thuật hay một khoa học đa ra dạng thông tin
cô đọng. Chúng ta tạo ra dạng cô đọng này bằng cách nhận dạng và sử dụng các cấu trúc
tồn tại trong dữ liệu. Dữ liệu có thể là ký tự trong một file text, dãy số của các mẫu trong
tín hiệu tiếng nói hay các tín hiệu dạng sóng của ảnh, hoặc chuỗi các số đợc sinh ra từ các
nguồn khác Lý do cần nén dữ liệu rất nhiều và cũng rất nhiều thông tin sinh ra ở dạng
số theo các byte dữ liệu. Số các byte yêu cầu để cho dữ liệu xử lý là rất lớn. Ví dụ, để có
đợc các số trong một giây tín hiệu video mà không có nén, chúng ta cần hơn 20Mbyte
( hay 160Mbit ). Nếu xét thời gian xử lý trong vài giây ta sẽ hiểu tại sao cần nén.
Sự phát triển bùng nổ của dữ liệu đòi hỏi phải đợc truyền và đợc lu giữ, tại sao không
tập trung phát triển các kỹ thuật truyền và lu giữ? Điều này vẫn đang xảy ra, nhng cha
đủ. Đã có rất nhiều tiến bộ quan trọng cho phép truyền thông tin đợc truyền vàlu giữ với
dung lợng lớn không có nén nh CD-ROM, hệ thống cáp quang, ADSL (Đờng thuê bao
số không đối xứng), modem Với các công nghệ mới, hai nội dung lu giữ và truyền có
khả năng tăng lên đáng kể, dù quá trình truyền dữ liệu chịu rất nhiều tác động không
mong muốn, khả năng cải tiến chậm hơn so vớilu dữ liệu. Tuy vậy sự nhảy vọt về công
nghệ mới trong lu giữ dữ liệu cũng chỉ là một mặt của vấn đề. Thực tế cho thấy sự đầu t
về công nghệ mới cho cơ sở vật chất tốn kém hơn gia công và nén tín hiệu để dùng trên cơ
sở hạ tầng cũ.

1.2. Các kỹ thuật nén:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 1 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Kỹ thuật nén và thuật toán nén. Trên thực tế thuộc về hai thuật toán. Đó là thuật toán
nén đầu vào là X và đa ra yêu cầu một số bít nào đó, và một thuật toán khôi phục lại,
hoạt động trên cơ sở tín hiệu đã đợc nén để khôi phục lại Y. Ta qui ớc gọi hai thuật toán
này là thuật toán nén.
Dựa trên các yêu cầu về khôi phục dữ liệu. Các sơ đồ nén có thể chia ra làm hai loại,
đó là các sơ đồ nén không tiêu hao, theo đó Y giống hệt X và các sơ đồ nén tiêu hao, mức
nén cao hơn nhiều so với nén không tiêu hao (lossless) nhng Y khác X.
1.2.1. Kỹ thuật nén không tiêu hao:
Các kỹ thuật nén không tiêu hao, có hàm ý là không mất thông tin. Nếu nh dữ liệu
đã đợc nén, thì ở phía thu có thể khôi phục chính xác dữ liệu gốc. Các kỹ thuật nén này sử
dụng cho các ứng dụng cần khôi phục chính xác so với tín hiệu gốc ban đầu.
Nén văn bản, là thí dụ điển hình của nén không tiêu hao. Sau khi khôi phục văn bản
thu đợc phải giống hệt văn bản gốc, nh vậy chỉ cần một khá biệt nhỏ cũng có thể dẫn đến
kết quả sai hẳn về ý nghĩa của câu. Nhiều loại dữ liệu đòi hỏi khắt khe đối với dữ liệu
khôi phục và dữ liệu gốc.
Có rất nhiều ứng dụng yêu cầu nén khôi phục chính xác nguyên gốc. Song cũng có
một số ứng dụng chỉ có các yêu cầu đơn giản là nén đợc nhiều dữ liệu. Đó là kỹ thuật nén
có tiêu hao.
1.2.2. Kỹ thuật nén có tiêu hao:
Các kỹ thuật nén có tiêu hao đòi hỏi mất một số thông tin, dữ liệu đã đợc nén bằng kỹ
thuật tiêu hao thì không thể khôi phục hay xây dựng lại đợc chính xác. Sự sai lệch này coi
nh phải chấp nhận khi khôi phục lại. Nén có tiêu hao có thể đạt đợc tỷ lệ nén cao hơn rất
nhiều so với nén không tiêu hao .
Trong nhiều ứng dụng, sự sai lệch giữa dữ liệu gốc và dữ liệu khôi phục là không quá
phải quan tâm. Ví dụ khi lu dữ và truyền tiếng nói, giá trị chính xác của mỗi frame tín
hiệu tiếng nói là không cần thiết. Giả sử có mất một lợng tín hiệu thông tin đáng kể trong

mỗi mẫu tín hiệu tiếng nói thì chất lợng tiếng nói sau khi khôi phục vẫn có thể chấp nhận
đợc do sự nhạy cảm đặc biệt của tai ngời . Nếu nh chất lợng tiếng nói sau khôi phục
nghe đợc nh trong điện thoại, thì việc mất tín hiệu thông tin là có thể bỏ qua. Tuy nhiên
khi yêu cầu chất lợng tiếng nói sau khôi phục hoàn hảo, thì lợng thông tin bị mất phải
thấp.
Khi xem lại một đoạn Video nhận đợc, thực tế nó khác với bản gốc, nhng không
quan trọng lắm, miễn là sự khác nhau đó không gây cảm giác khó chịu. Do đó video đợc
sử dụng kỹ thuật nén có tiêu hao.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 2 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Nếu xây dựng đợc lu đồ nén, cần đánh giá khả năng thực hiện. Vì phạm vi các ứng
dụng rất khác nhau.
1.3. Đánh giá khả năng thực hiện:
Một thuật toán nén có thể đợc đánh giá theo một nhiều phơng pháp khác nhau. Có thể
đánh giá độ phức tạp của thuật toán nén, yêu cầu bộ nhớ để thực hiện thuật toán, chu kỳ
máy để thực hiện thuật toán, tỷ lệ nén, dữ liệu sau khôi phục so với dữ liệu gốc .
Một cách rất logic đánh giá thuật toán nén là xét tỷ lệ các bit yêu cầu của dữ liệu
trớc và sau khi nén. Tỷ lệ này đợc gọi là tỷ lệ nén.
Một cách khác để mô tả khả năng nén là đa ra số bít yêu cầu trung bình cho một
mẫu. Tham số mô tả này gọi là tốc độ, ví dụ tín hiệu tiếng nói đợc lấy mẫu ở tần số 8khz,
mỗi mẫu cần dùng là 4 bit để mã, thì tốc độ là 32kbps.
Trên đây là tính u việt của kỹ thuật nén dữ liệu nói chung. Trong hai xu hớng nén cơ
bản thấy qua các cách đánh giá khả năng thực hiện thuật toán nén. Trong Chơng sau sẽ đề
cập đến các phơng pháp nén tiếng nói chung và các phơng pháp mã hoá tiếng nói.
1.4. Kết luận:
Trong chơng này đã khái quát tầm quan trọng của nén dữ liệu, các kỹ thuật nén cơ
bản và cách đánh giá khả năng thực hiện mộtlu đồ nén.
CHƯƠNG 2. nén và xử lý số tín hiệu tiếng nói
2.1. Nén tín hiệu tiếng nói

2.1.1 Giới thiệu chung
Trong các hệ thống liên lạc (analog và digital) vấn đề hạn chế phổ tần tín hiệu là rất
đáng quan tâm. Nó hiệu quả trong xử lý, lu trữ và truyền dẫn tín hiệu. Sự phát triển của
công nghệ tích hợp IC đã cho ra đời các vi mạch cỡ rất lớn VLSI và xử lý tín hiệu số DSP
làm xu hớng phát triển của các hệ thống thông tin là số hoá, chúng thực hiện một quá
trình biến đổi tín hiệu từ nguồn tin liên tục (nh tiếng nói, hình ảnh, âm nhạc, ) thành
chuỗi tín hiệu số, chuỗi tín hiệu số này dễ xử lý theo các thuật toán khác nhau, góp phần
nâng cao chất lợng tín hiệu và hiệu quả sử dụng phổ tần trong truyền dẫn. Sau khi xử lý,
lọc, truyền dẫn, hệ thống thông tin số sẽ chuyển đổi ngợc tín hiệu sang tơng tự để phù
hợp với tín hiệu tự nhiên.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 3 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.1 Minh hoạ hệ thống mã hoá tiếng nói.
Các bộ nén phổ tín hiệu tiếng nói bao gồm đầy đủ các bớc trên. Cơ bản của một bộ
nén tín hiệu tiếng nói là tỷ lệ giữa tốc độ bit đợc truyền đi và chất lợng tiếng nói đạt
đợc. Tuỳ theo từng ứng dụng cụ thể mà điều chỉnh tốc độ bít thấp nhất nhng tiếng nói
vẫn phải đạt chất lợng theo yêu cầu.
Hình 2.2 minh hoạ mối quan hệ này
Ta biết là giới hạn phổ tần tín hiệu tiếng nói là 200 3400Hz, theo tiêu chuẩn
Nyquist thì tần số lấy mẫu là 8KHz và nh vậy khi số hoá tín hiệu thì phổ tần sẽ mở rộng.
(Theo CCITT dùng bộ mã PCM 8 bit, tốc độ sẽ là 64000bps). Khi nén tín hiệu tiếng
nói các mẫu sẽ đợc thể hiện bằng một số ít bít có thể. Khi khôi phục lại chất lợng tiếng
nói tơng tự nh không mã hoặc gần nh thế. [3,4].
Để đơn giản các kỹ thuật nén tín hiệu tiếng nói có thể chia ra làm ba loại:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 4 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
(Hình 2.3) là: các bộ mã hoá dạng sóng ( Waveform Codes ), các bộ mã nguồn
( source codes ) và các bộ mã hoá lai ( hybrid codes ).

Hình 2.3. Phân loại các phơng pháp mã hoá tiếng nói
Trong Chơng này sẽ tổng hợp một số phơng pháp trong kỹ thuật nén và mã hoá tiếng
nói này. Các bộ mã dạng sóng đợc dùng Khi cần chất lợng tiếng nói rất tốt và không cần
tốc độ bít thấp. Các bộ mã nguồn ( source codes ) có thể đạt đợc tốc độ bít rất thấp, tiếng
nói đạt đợc bằng cách tổng hợp các âm ( hữu thanh và vô thanh). Các bộ mã hoá lai là sự
kết hợp của hai kỹ thuật mã hoá dạng sóng và mã hóa nguồn, chất lợng tiếng nói là tốt
và tốc độ bít trung bình. Trong các kỹ thuật nén lại có rất nhiều phơng pháp khác nhau để
thực hiện, chẳng hạn trong kỹ thuật mã hoá dạng sóng có các phơng pháp nh : PCM_
điều chế xung mã, DM_ điều chế delta, DPCM_ điều chế xung mã vi phân, ADPCM_
điều chế xung mã vi phân thích nghi,
Kỹ thuật mã nguồn có các phơng pháp Vocoder, mã dự đoán tuyến tính, Chơng này
sẽ giới thiệu các phơng pháp cụ thể mà hiệu quả nén và chất lợng tiếng nói là chấp nhận
đợc nh Vocoder, mã dự đoán tuyến tính, lợng tử hoá vector,
2.2. Một số phơng pháp nén cơ bản:
2.2.1 Các phơng pháp mã hoá dạng sóng
Đối với các phơng pháp mã hoá dạng sóng, Không nhất thiết phải biết tín hiệu cần
mã đợc sinh ra nh thế nào, khi khôi phục lại tín hiệu dạng sóng có thể đạt gần nh tín
hiệu gốc ban đầu. Về lý thuyết tín hiệu này là độc lập, và chúng có thể làm việc với cả các
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 5 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
tín hiệu không phải là tín hiệu tiếng nói. Nói chung đó là những phơng pháp mã đơn giản,
chất lợng tiếng nói tốt khi tốc độ khoảng trên 16kbps. Khi tốc độ dữ liệu yêu cầu thấp hơn
mức này thì khi khôi phục lại chất lợng tiếng nói suy giảm rất nhanh ( nh hình 2.2)
Dạng đơn giản nhất của mã hoá dạng sóng là điều chế xung mã, tín hiệu dạng sóng
đầu vào đợc lấy mẫu, lợng tử. Với tiếng nói dải tần hẹp, giới hạn là 4kHz, tần số lấy mẫu
là 8kHz. Nếu sử dụng lợng tử hoá tuyến tính, tiếng nói đạt chất lợng tốt cần khoảng 12
bit cho mỗi mẫu, Khi đó tốc độ bit ra là 96kbit/s. Tốc độ bít này có thể giảm xuống đáng
kể bằng cách lợng tử không đều cho các mẫu theo tín hiệu, tuy nhiên đây là một việc làm
rất khó, trong thực tế ngời ta có giải pháp lấy xấp xỉ. Trong mã hoá tiếng nói gần đúng,

thờng dùng lợng tử hoá logarit. Lợng tử hoá logarit là lợng tử hoá đều các tín hiệu đợc
nén, nh thế sẽ đạt tỷ lệ S/N là một hằng số, với 8 bit/mẫu tốc độ đạt đợc là 64kbps và khi
khôi phục, sự sai khác với tín hiệu nguyên thuỷ hầu nh không phân biệt đợc. Các luât
nén logarit đợc chuẩn hoá từ những năm 1960, nhng cho đến nay vẫn đợc dùng. ở Mỹ
dùng theo luật , trong khi đó ở Châu Âu dùng luật A
Theo CCITT : A= 87,6, =255 hoặc 100
Phơng pháp trên có u điểm là đơn giản, tiếng nói khôi phục đạt chất lợng cao, tuy
vậy yêu cầu tốc độ bít vừa phải, và dễ nhạy cảm lỗi đờng truyền. [4] Một kỹ thuật
chung hay đợc sử dụng trong mã hoá tiếng nói là dự đoán trớc giá trị của mẫu
tiếp theo từ các mẫu trớc. Điều này là thực hiện đợc dựa vào độ tơng quan giữa các
mẫu tiếng nói là khá lớn, sai lệch giữa hai mẫu kề nhau khá nhỏ so với giá trị của từng
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 6 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
mẫu [4]. Khi dự đoán này là hợp lý thì sai lệch tín hiệu giữa các mẫu dự đoán và các mẫu
tín hiệu thực tế sẽ có sự khác nhau thấp hơn các mẫu tín hiệu nguyên thuỷ. Do đó thay vì
mã hoá các giá trị mẫu của tín hiệu tiếng nói vào ta chỉ cần mã sai lệch giữa các mẫu với
một số ít bit hơn tín hiệu tiếng nói nguyên thuỷ. Đây chính là nguyên tắc cơ bản của điều
chế xung mã vi sai DPCM_ Differential Pulse Code Modulation. Sơ đồ khối cách điều chế
DPCM với bộ dự đoán nh hình vẽ 2.4
Hình 2.4: Sơ đồ khối điều chế xung mã vi sai có dự đoán
Các phơng pháp mã trên có thể đợc cảI tiến nếu các quá trình dự doán và lợng tử đợc
thực hiện một cách thích nghi để chúng thay đổi thích hợp với đặc điểm của tín tiệu tiếng
nói cần mã. Đó là phơng pháp ADPCM_ điều chế xung mã vi sai thích nghi. Vào giữa
năm 1980, CCITT đã chuẩn hoá tốc độ của bộ mã ADPCM là 32kbps, với tốc độ này chất
lợng tiếng nói đạt rất gần với bộ mã
Tất cả các phơng pháp mã hoá dạng sóng đợc mô tả trên có thể đợc thực hiện trên
miền thời gian. Trong miền tần số cũng có thể thực hiện và nó có đôi chút thuận lợi. Ví dụ
nh trong cách mã hoá băng con ( SBC _ SubBand Coding ) tín hiệu tiếng nói đầu vào đ-
ợc chia thành một số băng tần (gọi là các băng con), mỗi băng tần con đợc mã độc lập

bằng các bộ mã nh ADPCM. ở bên thu, các tín hiệu băng con đợc giải mã và kết hợp lại
sau đó lọc và khôi phục lại tín hiệu tiếng nói. Lợi ích của việc chia băng này là nhiễu ở
mỗi băng con là độc lập, và chỉ đợc mã trong băng đó. Do đó có thể cấp phát nhiều bit
hơn cho các băng con mà cảm thấy là quan trọng để nhiễu trong các vùng băng tần này
thấp, trong khi ở các băng tần khác chúng ta có thể cho phép mức độ nhiễu là cao hơn, vì
nhiễu ở các vùng băng tần này ít quan trọng. Trong tơng lai cách tổ chức cấp phát bit
thích nghi nh vậy có thể sẽ đợc sử dụng để khai thác ý tởng này. Trong các hệ thống
truyền thông, các thuật toán mã băng con cho chất lợng tiếng nói đạt chuông ở dải tốc độ
16 32kbps. Do việc cần các bộ lọc để chia tín hiệu tiếng nói thành các băng con, nên
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 7 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
chúng phức tạp hơn các phơng pháp DPCM và gây ra độ trễ lớn hơn. Tuy nhiên độ phức
tạp và độ trễ đó vẫn có mức độ thấp khi so sánh với hầu hết các phơng pháp mã hoá lai.
Ngoài ra trong miền tần số, có các kỹ thuật mã hoá dạng sóng khác nh ATC_ Mã
biến đổi thích nghi, sử dụng biến đổi nhanh ( ví dụ nh DCT_ biến đổi cosin rời rạc,
KLT_ biến đổi Kalmal, Walsh Hadamark Transform, DFT _biến đổi rời rạc nhanh ) để
chuyển các khối ( hay các frame ), tín hiệu tiếng nói thành các số cụ thể của các băng tần.
Mục tiêu trong việc lựa chọn chuyển tín hiệu từ miền thời gian sang miền tần số nhằm
giành đợc các đoạn phổ không tơng quan. Để đạt đợc hiệu quả khi mã, số các bit đợc
dùng để mã mỗi một hệ số chuyển đổi, phải cấp phát nhiều hơn cho các đoạn phổ quan
trọng, và ngợc lại là cấp phát ít bít hơn cho các đoạn phổ kém quan trọng. Thêm vào đó,
bằng cách sử dụng việc cấp phát động trong việc phân chia số bít trong các hệ số của phổ,
ta có thể thích nghi theo sự thay đổi có thống kê của tín hiệu tiếng nói. Chất lợng tiếng
nói cơ bản có thể đạt đợc ở tốc độ bít thấp hơn 16kbps.
2.2.2 Các phơng pháp mã hoá nguồn âm ( source codes )
Các phơng pháp mã hoá nguồn âm hoạt động trên cơ sở phân tích bộ máy phát âm
của con ngời và quá trình tạo ra âm thanh tiếng nói, từ đó rút ra các tham số tín hiệu bên
mã, sau đó đợc gửi tới bên giải mã. Các phơng pháp mã hoá nguồn âm đợc gọi là các ph-
ơng pháp vocoder làm việc nh sau: Bộ máy phát âm đợc mô tả nh là một bộ lọc biến

đổi theo thời gian mà đợc kích thích bởi nguồn nhiễu trắng đối với đoạn âm vô thanh
( unvoice ), hoặc là một chuỗi các xung độc lập, chuỗi xung này đợc quyết định bởi chu
kỳ pitch đối với âm hữu thanh ( voice ). Thông tin này phải đợc gửi tới bên giải mã để bộ
lọc định rõ đâu là vô thanh, đâu là hữu thanh, nhất thiết phải thay đổi tín hiệu kích thích
và chu kỳ pitch của âm thoại, cứ khoảng 10 20ms lại phải cập nhật theo sự thay đổi tự
nhiên của tiếng nói.
Các tham số kiểu này có thể đợc xác định theo một số cách, dùng các kỹ thuật xử lý
trong miền thời gian hay miền tần số. Cũng nh vậy, các tham số có thể đợc mã hoá và
truyền đi theo nhiều cách khác nhau. Các phơng pháp Vocoder chủ yếu hoạt động ở
khoảng tốc độ 2400bps hoặc thấp hơn.
2.2.2.1. Phơng pháp Vocoder:
Không giống nh các phơng pháp dạng sóng, các phơng pháp vocoder sẽ làm suy
yếu các tín hiệu không phải là hữu thanh và dựa vào đặc trng của tiếng nói để phân tích
nó, chủ yếu nh là dựa vào kiểu hệ nguồn phát âm. Thử nghe một ngời phát âm một vần,
sau đó nghe ngời khác phát âm lại. Ta thấy ngời giọng cao (high-pitch), ngời giọng thấp
( low-pitch), ngời nói rõ , ngời luyến nhng ta vẫn hiểu đợc nội dung. Phơng pháp
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 8 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Vocoder phân tích phổ tiếng nói thành các tham số đặc trng ( các tham số của mô hình tạo
tiếng nói ), sau đó các tham số này để tổng hợp thành tín hiệu hữu thanh có đầy đủ nội
dung nh ban đầu mà tai ngời có thể hiểu đợc. Tuy nhiên kết qủa của dạng sóng tín hiệu
sau khi tổng hợp có thể không đợc nh tín hiệu lúc đầu.
Hình 2.5: Hai nguồn âm tạo ra tiếng nói
Đánh giá về phơng pháp vocoder thì hiệu quả phổ tần tốt ( tốc độ bit 2,4-9,6kbps ),
tuy nhiên chất lợng tiếng nói còn nhiều hạn chế và chỉ thích hợp cho các ứng dụng trong
an ninh và quân sự. Tuy nhiên trong những năm gần đây, công nghệ DSP phát triển, các
thuật toán mới cũng dựa vào phơng pháp này, tất cả sử dụng các phép cộng, phép nhân để
xử lý chuỗi các giá trị số liệu và các hệ số , Có rất nhiều kiểu vocoder khác nhau nh
Vocoder kênh, H Vocoder homomorphic, Vocoder pha. Tuy nhiên tất cả đều chia tín hiệu

ra thành đoạn ngắn để xử lý ta gọi đó là các cửa sổ. [1,2]
2.2.2.2 Phơng pháp vocoder kênh:
Phơng pháp vocoder kênh sử dụng các bộ hạn băng nanalog để phân tích tín hiệu
tiếng nói thành các băng con khoảng 100 300Hz, độ rộng của các băng con qua các bộ
lọc đợc thiết kế tăng dần tỷ lệ thích hợp với phản ứng của tai con ngời, số lợng các băng
con đợc chia khoảng 16- 20 cho một băng tiếng nói 0-4000Hz, tơng ứng với nó là từng ấy
các bộ lọc FIR, các bộ lọc băng dải hẹp hơn dùng cho các băng tần thấp, các bộ lọc băng
dải rộng hơn dùng cho các băng tần cao. Đầu ra của các băng con đợc đa vào các bộ sửa
và lọc thông thấp nhằm xác định đờng bao. Độ rộng băng của các bộ lọc thông thấp đợc
lựa chọn phù hợp với thời gian biến đổi theo đặc điểm của bộ máy phát âm, Ví dụ nh độ
lớn của phổ thay đổi ở tốc độ 50Hz ( mỗi giá trị mẫu là 20ms) thì độ rộng bộ lọc thông
thấp đợc chọn trong dải 20 - 25Hz. Khi đó đầu ra của nó có thể đợc lấy mẫu ở tốc độ
50Hz, đợc lợng tử và truyền tới nơi nhận.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 9 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hơn nữa tiếng nói cũng phải đợc phân tích ra các cao độ (pitch) trong các cửa sổ tín
hiệu. Tần số các pitch cho biết tiếng nói là hữu thanh hay vô thanh, Hình 2.6 là bộ lọc
băng chia kênh cho mục đích phân tích tín hiệu tiếng nói. Đây là phần quan trọng trong
phơng pháp Vocoder và phần lớn các thuật toán tách Pitch đã đợc phát minh từ những
năm trớc. Đầu ra phần tách hu thanh khi mã cần một bit cho mỗi khung (frame) tín hiệu
tiếng nói. Để biểu diễn đợc cho cả chu kỳ pitch của tín hiệu voice cần khoảng 6 bit cho
mỗi khung (frame). Nếu chúng ta sử dụng một bộ vocoder 16 kênh và tốc độ lấy mẫu là
50Hz cho mỗi bộ lọc, ở đây mỗi mẫu đợc mã bởi 3 hay 4 bit, khi đó kết quả đợc tốc độ
giải bit ra là 2400 3200 bps. Trong tơng lai tốc độ này có thể giảm còn 1200bps bằng
cách tận dụng tần số tơng quan của độ lớn phổ tín hiệu. Trong thực tế ta có thể dùng mã
PCM cho băng đầu và DPCM để mã cho các mẫu phổ phía bên kia băng tần trong mỗi
khung (frame).
Các bộ vocoder đầu tiên sử dụng các mạch analog cho các mạch lọc hạn băng. Với kỹ
thuật cùng với công nghệ DSP ngày nay chúng ta có thể làm việc với các bộ vocoder kỹ

thuật số.
Hình 2.6 Bộ lọc băng chia kênh đẻ phân tích tín hiệu nói
ở phần nhận, tín hiệu tiếng nói đợc tổng hợp ( nh hình 2.7 ). Các mẫu tín hiệu cho
qua bộ chuyển đổi DAC, khi đó các đầu ra sẽ đợc dồn lại theo các tín hiệu voice và
unvoice sau đó các tín hiệu đợc cho qua các bộ hạn băng, đầu ra các bộ hạn băng đợc
cộng lại và tổng hợp thành tín hiệu tiếng nói.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 10 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.7 Nhận , tổng hợp và khôi phục lại tiếng nói
Tóm lại: thông tin về pitch và các thông số hữu thanh đợc nén với các thông tin về
băng con và đợc truyền đi, phía nhận tổng hợp và khôi phục lại nh Hình 2.7
2.2.2.3 Phơng pháp vocoder pha:
Phơng pháp này tơng tự nh phơng pháp vocoder kênh ở phạm vi các bộ lọc đợc sử
dụng để ớc lợng đờng bao phổ tần trong một đoạn ngắn của tín hiệu tiếng nói. Tuy nhiên
, thay vì dự đoán cao độ (pitch), phơng pháp vocoder pha dự đoán pha của tín hiệu từ đầu
ra của mỗi bộ lọc. Khi mã và truyền pha loại vocoder này sẽ phá hỏng các thông tin về
pha trong số các tín hiệu điều hoà khác nhau của tín hiệu tiếng nói. Hình 2.8 là sơ đồ
phân tích của hệ thống vocoder phase.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 11 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.8 Sơ đồ phân tích của hệ thống vocoder pha
2.2.2.4. Phơng pháp mã dự đoán tuyến tính (LPC):
Giả sử có tín hiệu liên tục theo thời gian s(t), để áp dụng phơng pháp xử lý số tín
hiệu, s(t) cần phải rời rạc với tần số lấy mẫu là F
s
thoả mãn định lý lấy mẫu của Shannon.
Nh vậy tín hiệu s(t) chỉ lấy các giá trị rời rạc tại các điểm theo thời gian có chu kỳ T=
1/Fs. Kết quả của phép rời rạc này là chuỗi tín hiệu {s(nT)}, trong đó n= 1, 2, Để đơn

giản hoá ta đặt s(nT) = s(n). Tín hiệu s(n) có thể đợc coi là tín hiệu ra của một hệ thống
nào đó mà tín hiệu vào là chuỗi u(n), các tín hiệu này thoả mãn phơng trình sai phân hệ số
hằng có dạng:
trong đó : { } i=1, 2, p ; { } j = 0, 1, , q; và G là các tham số của hệ thống tuyến
tính đang đề cập đến.
Nh vậy s(n) có thể đợc dự đoán từ một tổ hợp tuyến tính các giá trị của các mẫu tín
hiệu vào xảy ra trớc cũng nh tại thời điểm n. Ta gọi s(n) là tín hiệu nhận đợc bằng phơng
pháp dự đoán tuyến tính.
Phơng pháp LPC rất đợc a dùng, xuất phát từ thực tế là trong các ứng dụng đòi hỏi tốc
độ bít cực thấp. Thêm vào đó thì các tham số LPC đảm bảo đầy đủ thông tin về tín hiệu
tiếng nói, do đó LPC có thể đợc sử dụng cho nhận dạng tiếng nói. Bộ phát âm trong LPC
có thể đợc coi nh là bộ lọc toàn cực ( mô hình tạo tiếng nói) IIR , Hình 2.9
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 12 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.9. Mô hình tạo tiếng nói
Nếu kể cả độ lợi G, thì hàm truyền của mạch lọc là:
Trong đó: p là bậc của bộ lọc, e(n) là hàm kích thích, s(n) là đáp ứng đầu ra của bộ
tổng hợp tiếng nói, các hệ số a
i
của bộ lọc (bộ dự đoán) thay đổi theo từng frame của tín
hiệu.
Trong miền thời gian : s(n) = Ge(n) a
1
s(n-1) - a
p
s(n-p) (2.9)
Đầu ra của các mẫu khác kết hợp tuyến tính với các mẫu trớc đó cộng với tín hiệu
kích thích nên có tên là LPC_ mã dự đoán tuyến tính. Chú ý rằng các hệ số a
i

của bộ lọc
thay đổi theo mỗi frame.
ở phần phân tích tiếng nói, cửa sổ đầu vào đầu tiên thờng là cửa sổ Hamming
(khoảng 20 40ms). Các cửa sổ sẽ đợc lặp lại sau 10 30ms, nh vậy các cửa sổ liên tục
đợc chồng lên nhau. Sự lựa chọn hai tham số này phụ thuộc vào tốc độ bít ra mong muốn
sao cho nhỏ hơn hai giá trị, lớn hơn tốc độ bít để đạt chất lợng tiếng nói yêu cầu.
Nh ta đã biết trong phần trớc âm thoại có đặc trng là chỉ tập chung thông tin ở vùng
tần số thấp. Để đảm bảo rằng bộ Vocoder LPC làm việc chính xác trên tất cả các tần số,
thì tín hiệu đầu tiên phải cho qua bộ lọc thông cao để loại bỏ các tần số cao, phần tổng
hợp sau đó sẽ dùng bộ lọc để bù lại.
Các hệ số lọc âm đợc xác định bằng cách dự đoán tín hiệu s(n) kết hợp với p mẫu tr-
ớc đó:
s(n) = -a
1
s(n-1) - - a
p
s(n-p) (2.10)
Khi đó xác định các giá trị của a
i
theo các sai số dự đoán trung bình bình phơng:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 13 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
(s(n) s(n))
2
(2.11)
n
Tổng này càng nhỏ thì s(n) càng chính xác với s(n)
cuối cùng ta có các phơng trình:
a

1
r(0) + a
2
r(1) + + a
p
r(p-1) = -r(1) (2.12)
a
1
r(1) + a
2
r(0) + + a
p
r(p-2) = -r(2)
.
.
a
1
r(p-1) + a
2
r(p-2) + + a
p
r(0) = -r(p)
N-i-1
ở
đây: r(i) = r(-i) = s(n).s(n+i) (2.13)
n=0
Các giá trị r(i) đợc gọi là các hệ số tơng quan.
2.2.3 Phơng pháp mã hoá lai ( Hybrid codes)
Phơng pháp mã hoá lai là lấp đầy khoảng giữa ( hay nằm giữa ) các phơng pháp mã
nguồn âm và mã hoá dạng sóng. Nh đã mô tả ở trên, các phơng pháp mã hoá dạng sóng

có khả năng cho chất lợng tiếng nói tốt đến tốc độ bit 16kbps, nhng đây là giới hạn dới
đối với phơng pháp này. Các phơng pháp Vocoder có thể cho chất lợng tiếng nói có thể
hiểu đợc ở tốc độ 2400bps hoặc thấp hơn, nhng chất lợng không đợc tự nhiên ở bất cứ tốc
độ nào. Mặc dù các phơng pháp khác với các phơng pháp mã Hybrid đã có, hầu hết là th-
ờng đợc phân tích theo tổng hợp trên miền thời gian ( AbS: phân tích qua tổng hợp ). Nh
là Phơng pháp LPC xây dựng các bộ lọc dự đoán tuyến tính giống nh bộ máy phát âm.
Tuy nhiên thay vì chỉ đơn giản đa vào hai trạng thái hữu thanh và vô thanh, các phơng
pháp này tìm các giá trị đầu vào cần thiết cho bộ lọc cũng nh tín hiệu kích thích đợc chọn
sao cho thích hợp với quá trình tái tạo lại dạng sóng tín hiệu tiếng nói gần nhất có thể với
dạng sóng tín hiệu nguyên thuỷ. Các loại mã Hybrid điển hình nh MPE_ kích thích đa
xung, RPE_ kích thích xung đều, CELP_ dự đoán tuyến tính mã kích thích. Dới đây ta sẽ
tóm lợc qua các phơng pháp này.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 14 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.10 Sơ đồ tổng quát các mã dạng AbS
Trong sơ đồ trên: Bộ lọc tổng hợp, là một bộ lọc toàn cực (nh trong các bộ mã hoá
kiểu phát âm LPC), biến đổi theo thời gian để mô hình hoá đờng bao phổ ngắn hạn của
dạng sóng tiếng nói. Nó thờng đợc gọi là các bộ lọc tơng quan ngắn hạn, do các hệ số
của nó đợc tính bằng cách dự đoán một mẫu tiếng nói từ một vài (8-16) mẫu trớc đó.
Các phơng pháp AbS chia tín hiệu tiếng nói đầu vào để mã thành từng frame 10
30ms. Các tham số của mỗi frame đợc xác định bởi một bộ lọc tổng hợp và sau đó xác
định nguồn kích thích cho bộ lọc này. Tín hiệu kích thích đợc tối u hoá kỹ lỡng và đợc mã
một cách có hiệu quả nhờ sử dụng các kỹ thuật mã hoá dạng sóng. Thực chất của việc làm
này là tìm nguồn kích thích nào mà khi cấp cho bộ lọc tổng hợp nó cực tiểu hoá đợc sai số
giữa tiếng nói tái tạo và tiếng nói đầu vào, khoảng thời gian cho tối u hoá kích thích là
quãng 4,5 7ms. Cuối cùng mỗi frame ở phía mã truyền đi các thông tin mô tả các tham
số của bộ lọc tổng hợp và nguồn kích thích, và ở bên nhận đa nguồn kích thích đã giải mã
vào bộ lọc tổng hợp để tái tạo lại tiếng nói.
Nh đã nói ở trên, các bộ lọc tổng hợp thờng là bộ lọc toàn cực ngắn hạn bộ lọc tuyến

tính có dạng
H(z) = 1/A(z) (2.14)
Với
: Là bộ lọc dự đoán sai số đợc xác định bằng cách
tối thiểu hoá năng lợng tín hiệu còn d khi một đoạn tín hiệu tiếng nói nguyên thuỷ đi qua
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 15 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
nó. Bậc p của bộ lọc có giá trị khoảng 10.
Bộ lọc tổng hợp cũng có thể bao gồm một bộ lọc cao độ (pitch) có chu kỳ dài hạn cho
tín hiệu tiếng nói. Sự lựa chọn các chu kỳ dài hạn này cũng có thể lợi dụng một bảng mã
thích nghi trong nguồn kích thích để mà tạo tín hiệu kích thích u(n) bao gồm cả thành
phần dự đoán chu kỳ pitch. Nói chung các phơng pháp MPE và RPE vẫn sẽ làm việc khi
không có bộ lọc pitch mặc dù chúng sẽ đợc cải tiến đáng kể nếu có. Nhng với phơng pháp
CELP một bộ lọc pitch là vô cùng quan trọng.
Khối tính trọng số sai số đợc dùng sắp xếp phổ của sai số tín hiệu để làm giảm tiếng
ồn chủ quan của sai số này (phổ trơn). Vì sai số tín hiệu ở trong các vùng tần số (formant)
mà nơi nào tín hiệu tiếng nói có năng lợng cao nó sẽ bị che đi ít nhất một phần bởi tiếng
nói. Bộ lọc trọng số nâng tạp âm trong các vùng tần số mà ở đó nội dung tiếng nói thấp
hay nói cách khác phần lớn tạp âm nhận đợc trong bộ mã sinh ra từ các vùng tần số ở đó
mức tín hiệu thấp. Do đó tối thiểu hoá trọng số sai số là tập trung năng lợng của sai số tín
hiệu ở các vùng tần số ở đó tiếng nói có năng lợng cao. Do đó sai số tín hiệu sẽ bị che đi (
một phần hay toàn phần) bởi tiếng nói. Nh vậy việc tìm ra trọng số sai số là hết sức có ý
nghĩa trong việc khôi phục tiếng nói cho các bộ mã AbS .
Một đặc trng dễ thấy của các phơng pháp AbS là bộ lọc tổng hợp chọn nguồn kích
thích là dạng sóng u(n). Nguồn kích thích đợc tối thiểu hoá trọng số sai số giữa tín hiệu
nguyên thuỷ và tín hiệu sau tái tạo phía mã hoá và nguồn kích thích này đợc gửi sang bên
giải mã để dùng lại cho bộ lọc tổng hợp. Đây là một vòng kín xác định nguồn kích thích
giúp cho các bộ mã dạng AbS đạt chất lợng tiếng nói tốt ở tốc độ thấp. Tuy nhiên độ phức
tạp của tín hiệu kích thích cho bộ lọc tổng hợp có thể là rất lớn.

Sự khác nhau giữa các phơng pháp MPE, RPE và CELP xuất phát từ tín hiệu kích
thích u(n) đợc sử dụng. Trong các cách mã đa xung (Multi Pulse) u(n) đợc cố định bởi
một số xung non-zero cho mỗi frame tiếng nói. Vị trí và biên độ của các xung này trong
mỗi frame phải đợc xác định bởi bên mã ( trong mạch vòng tối thiểu hoá theo từng xung
một ) rồi gửi sang bên giải mã. Trong lý thuyết nó có thể tìm các giá trị chính xác nhất
cho tất cả các vị trí và các biên độ của các xung, nhng trong thực tế đây là một việc làm
không thể vì thực hiện nó là rất phức tạp. Trong thực tế có một vài phơng pháp tối u nhỏ
để tìm các vị trí và các biên độ cho các xung đợc sử dụng. Theo cách này ngời ta dùng cứ
5ms khoảng 4 xung, và nh thế tốc độ để cho chất lợng tiếng nói tốt sau khôi phục quãng
10kbps.
Giống nh mã MPE, giải pháp mã RPE cũng sử dụng một số các xung khác không để
tạo tín hiệu kích thích u(n). Tuy nhiên trong cách mã RPE dãy các xung kích thích đối với
một khung độ dài N bao gồm M xung đợc phân bố đều với khoảng cáchvà cố định D
trong đó M= N div D, tuỳ thuộc vào vị trí xung đầu sẽ có D mẫu kích thích khác nhau, vị
trí các xung là
m
i
(k)
= k + iD (2.15) Trong đó k= 0, 1, , D-1 là vị trí của xung đầu tiên hay còn
gọi là pha đầu.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 16 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
i= 0, 1, , M-1
ở bên mã chỉ cần xác định vị trí xung đầu tiên và biên độ của tất cả các xung. Do đó
cần ít thông tin hơn về các vị trí xung khi truyền sang bên giải mã, và do đó các cách RPE
có thể dùng nhiều xung khác không hơn phơng pháp MPE. Với RPE ở tốc độ 10kbps cứ
mỗi 5ms cần khoảng 10 xung, điều này cho phép chất lợng tiếng nói sau khôi của RPE là
tốt hơn MPE. Tuy nhiên đi theo nó là độ phức tạp nhiều hơn. Hệ thống điện thoại di động
châu Âu sử dụng một cách mã đơn giản RPE với bộ dự đoán dài hạn, hoạt động ở tốc độ

13kbps đạt chất lợng tiếng nói chuông.
Mặc dù các cách mã MPE và RPE có thể cho chất lợng tiếng nói tốt ở tốc độ quãng
10kbps hoặc cao hơn, chúng không thích hợp ở tốc độ thấp hơn tốc độ này. Vì chúng phải
truyền một lợng lớn các thông tin về vị trí các xung kích thích và biên độ của chúng tới
bên nhận. Nếu chúng ta cố gắng giảm tốc độ bit bằng cách dùng ít hơn vài xung hoặc l-
ợng tử không đúng các biên độ của chúng, thì khi tái tạo lại chất lợng tiếng nói giảm rất
nhanh. Hiện tại thuật toán đợc sử dụng chung nhất cho chất lợng tiếng nói tốt ở tốc độ dới
10kbps là CELP đợc Schroeder và Atal đề xuất năm 1985. Không giống nh các phơng
pháp MPE và RPE, đối với CELP tín hiệu kích thích là do lợng tử hoá vector. Nguồn kích
thích có đơc từ hai nguồn là bảng mã (codebook) lợng tử hoá vector lớn và độ lợi G. Kích
cỡ của codebook là 1024 ( chỉ số codebook = 10bit) và mã độ lợi G khoảng 5 bit. Do đó
cần truyền quãng 15 bit tới bên giải mã, so với mã RPE thì nó giảm rất lớn. Nhờ đó mà
tốc độ nén của CELP có thể đạt 1:16 trong khi chất lợng tiếng nói vẫn rất tốt.
Hình 2.12 là thuật toán ( mã và giải mã) của phơng pháp mã CELP. Trong sơ đồ đầu
vào tín hiệu tiếng nói đợc lấy mẫu ở tần số 8khz đợc chia và cất trong các frame có kích
thớc 240 mẫu tơng ứng với một của sổ 30ms, thuật toán dung một lọc dự doán ngắn hạn
bậc 10, các tham số LPC đợc tính toán theo phơng pháp tơng quan.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 17 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Hình 2.11 Thuật toán phơng pháp CELP
2.3. Xử lý số tín hiệu tiếng nói
2.3.1 Các đặc trng của xử lý tín hiệu số
2.3.1.1. Xử lý tín hiệu số ( DSP ) là gì:
Trong môi trờng quanh ta có rất nhiều tín hiệu mà ta có thể cảm nhận đợc, nh âm
thanh, ánh sáng, nhiệt độ,
Trong trờng hợp âm thanh, chúng ta sẽ dùng tai của mình để chuyển chúng thành các
xung điện rồi chuyển đến não. Khi đó ta phân tích chúng thành các đặc tính nh biên độ,
tần số và pha để phân loại âm thanh giúp ta xác định chúng là âm nhạc, tiếng nói, tiếng
chó sủa,

Nếu là nhiệt độ, thì các dây thần kinh ngoài ra có trách nhiệm cảm nhận rồi đa lên
não phân tích rồi có những đáp ứng thích hợp. Với ánh sáng cũng vậy, nhng là do mắt
cảm nhận. Nói chung loài ngời đợc trang bị đầy đủ và giải quyết đợc hầu hết các sự kiện
cảm nhận đợc. Tuy nhiên không phải lúc nào, công việc gì con ngời cũng trực tiếp xử lý,
càng ngày ngời ta dùng máy móc để xử lý thay cho bộ não ngời. Yêu cầu các máy là phải
có các bộ cảm nhận (sensor) để nó làm nhiệm vụ thu nhận và chuyển thành tín hiệu thích
hợp. Khi đó cần có một bộ phận tính toán, xử lý giống nh bộ não con ngời. Tuy nhiên bộ
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 18 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
não con ngời làm việc với các tín hiệu có trong thực tế là các tín hiệu biến thiên liên tục,
các tín hiệu kiểu này gọi chung là tín hiệu Analog. Cũng theo cách của con ngời, nhng
chúng ta dùng các sensor để chuyển thành các tín hiệu điện, nhng phải đổi chúng thành
các số, quá trình này gọi là chuyển từ tơng tự ( analog ) sang số ( digital) hay A/D. Sau
đó đầu ra đợc đa qua bộ tính toán số để xử lý và nh vậy đợc gọi là xử lý tín hiệu số hay
DSP (Digital Signal Processing). Bộ xử lý số ở đây thờng đợc thiết kế đặc biệt chuyên cho
các thuật toán xử lý tín hiệu số.
2.3.1.2. Lợi ích của xử lý tín hiệu số: có rất nhiều thuận lợi khi dùng xử lý tín hiệu
số nói chung. Các thuận lợi của xử lý tín hiệu số nh sau:
- Dễ chơng trình hoá
- Độ ổn định cao
- Tính lặp lại cao
- Dễ dàng thực hiện các thuật toán thích hợp
- Có khả năng thực hiện các thuật toán sửa sai phức tạp
- Khả năng truyền và lu trữ dữ liệu tốt
- Có thể thực hiện nén dữ liệu
- Có nhiều các chức năng đặc biệt khác
+/ Tính dễ chơng trình hoá ở đây đợc hiểu là trong cùng một cấu trúc phần cứng, có
thể cho ra rất nhiều các ứng dụng khác nhau bằng các chơng trình khác nhau, hoặc có thể
nâng cao tính năng sản phẩm mà không phải thay đổi lại cấu trúc phần cứng, trong khi đó

với mạch tơng tự chỉ còn cách thay linh kiện mới. Nói tóm lại là rất mềm dẻo.
+/ Một số tính năng đặc biệt mà chỉ có thể thực hiện trên kỹ thuật số, nh các
bộ lọc pha tuyến tính, nén tín hiệu,
2.3.1.3. Các thuật toán cho DSP:
Các phép toán cơ bản cho xử lý tín hiệu liên tục là dựa trên các phép biến đổi
Fourier và Laplace. Chuỗi Fourier là công cụ cơ bản để phân tích tín hiệu có tính chu kỳ (
tính lặp lại ) và Biến đổi Fourier cho các tín hiệu không có chu kỳ. Các biến đổi Fourier
và Laplace nh DFT, FFT, Z, Z
-1
sẽ thờng xuyên dùng, các phép biến đổi này làm giảm
đáng kể số các phép tính nhân trong quá trình tính toán.
2.4. Kết luận:
Trong chơng này đã giới thiệu khái quát đợc một số thuật toán nén tín hiệu tiếng,
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 19 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
đánh giá đợc những u điểm của tín hiệu số cũng nh hệ thống xử lý tín hiệu số, đa ra mô
hình lý tởng và mô hình số tạo tín hiệu tiếng nói. Từ đó sẽ phân tích và dự đoán các tham
số của tín hiệu tiếng nói theo phơng pháp tự tơng quan.
Trong chơng 3 báo cáo đi vào tìm hiểu và nghiên cứu cụ thể phơng pháp mã hoá băng
con, tìm hiểu các mạch lọc băng, cách lấy mẫu lên, lấy mẫu xuống,
Chơng 3. Nén tín hiệu tiếng nói bằng phơng pháp
Mã hoá băng con
3.1. Giới thiệu chung
Dới đây là cách tiếp cận về nén tín hiệu theo phơng pháp mã hoá băng con (SBC _
SubBand Coding). Mã băng con đợc sử dụng trong rất nhiều ứng dụng, nh trong các hệ
thống nén tiếng nói, truyền thông, nén ảnh, nó đợc biết đến nh một phơng pháp đơn
giản và kinh tế về phần cứng yêu cầu về băng thông nhỏ, ít chịu ảnh hởng lỗi đờng
truyền, chất lợng lợng tiếng nói tốt, , Với các ứng dụng yêu cầu tốc độ bit là trung bình.
Trong phơng pháp mã băng con tín hiệu tiếng nói đợc chia thành một số băng con ( thờng

từ 4-8 băng con ) bởi các bộ lọc băng. Mỗi băng con đó đợc mã theo nhiều phơng pháp
khác nhau, thờng là mã hoá thích nghi nh ADM, ADPCM, APC , bằng cách mã riêng
từng băng con, tạp âm lợng tử sẽ đợc hạn chế trong băng đó khó xuyên sang các băng
khác. Số các bít đợc dùng để mã hoá các băng con là không đều nhau và đợc cấp phát
theo tiêu chuẩn cảm giác. Thật vậy, ta thấy rằng phổ tần năng lợng tín hiệu tiếng nói tập
chung chủ yếu ở dải tần khá thấp, khi đó một số bit lớn sẽ đợc tập chung mã hoá các băng
tần này và ở các băng tần số cao thì chỉ dùng một số ít bít
3.2. Cơ sở kỹ thuật mã hoá băng con
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 20 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Trong thực tế chúng ta có rất nhiều phơng pháp nén khác nhau. Mỗi phơng pháp có
hiệu quả khác nhau. Một phơng pháp mã khác có hiệu quả khi sự khác nhau giữa các mẫu
kề nhau nhỏ. Nếu nguồn đầu vào là thực sự ngẫu nhiên tốt nhất là sử dụng lợng tử hoá vô
hớng hoặc lợng tử hoá vector lới. Do vậy, nếu một nguồn biểu diễn đúng các đặc tính đã
định nghĩa, chúng ta nên chọn một lợc đồ nén với đầy đủ các đặc tính đó. Nhng hầu hết
các nguồn đa ra tổ hợp rất khó chọn một lợc đồ nén chính xác phù hợp với nguồn đầu ra.
Ta sẽ xem xét công nghệ phân tích nguồn đầu ra với các dải tần số khác nhau sử
dụng các khối biến đổi. Các hệ số biến đổi không có sự đồng nhất giữa các phép thống
kê và nhận thức cảm giác. Có thể sử dụng sự khác nhau phục vụ cấp phát các bits mã hoá
với hệ số khác nhau. Việc thay đổi cách cấp phá làm giảm số lợng bits trung bình đã yêu
cầu để mã nguồn đầu ra. Một trong những hạn chế của mã biến đổi là sự phân chia
không tự nhiên của nguồn đầu ra, dẫn dến sự sinh mã dạng khối hoặc tạo thành khối.
Một phơng pháp để loại bỏ sự đóng khối này là biến đổi trực giao LOT (Lapped
Orthogonal Transform). Ta xét một cách tiếp cận phổ biến để phân tích ảnh thành các
băng tần số khác nhau. Khi đầu vào đã đợc phân tích thành các thành phần riêng có thể
sử dụng kỹ thuật mã phù hợp nhất cho từng thành phần để tăng khả năng nén. Hơn nữa,
mỗi thành phần của nguồn đầu ra có thể có các đặc tính theo cảm giác khác nhau. Ví dụ,
lỗi lợng tử hoá là cảm giác khó chịu trong một thành phần nhng lại có thể chấp nhận đợc
trong một thành phần khác của nguồn đầu ra. Do vậy, một bộ lợng tử hoá sử dụng một số

ít các bits có thể đợc dùng để mã thành phần có cảm giác kém quan trọng hơn.
Hình 3.1: Một nguồn ra biến đổi nhanh chứa các thành phần dài hạn biến đổi chậm
Xét dãy {x
n
} vẽ đờng đồ thị trong hình 3.1. Khi có một số lợng đáng kể của dao động
mẫu tới mẫu (sample-to-sample), thì cũng có dạng ổn định biểu diễn bằng chấm gạch ( )
biến đổi khá chậm.
Xét chính xác dạng ổn định là thực hiện lấy trung bình các giá trị mẫu trong một của sổ.
Thực hiện tính trung bình sẽ làm phẳng các biến đổi nhanh, làm cho các biến đổi chậm
trở nên rõ rệt hơn. Lấy một cửa sổ có kích thớc là 2 và sinh ra một dãy mới {y
n
} bằng
cách tính giá trị trung bình lân cận của x
n
:
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 21 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Các giá trị liền kề nhau của y
n
sẽ chặt hơn từng giá trị liên tiếp của x
n
. Do vậy, dãy {y
n
} có
thể đợc mã hiệu quả nhờ các cách mã khác nhau hơn là chúng ta sử dụng dãy {x
n
}. Tuy
nhiên, ta muốn mã dãy {x
n

}, mà không phải dãy {y
n
}. Do vậy, dới đây thực hiện việc mã
dãy trung bình {y
n
} bởi một dãy khác là {z
n
}:
Các dãy {y
n
} và {z
n
} có thể đợc mã độc lập với nhau. Có thể sử dụng các lợc đồ nén phù
hợp với từng dãy. Với y
n
và z
n
đã nhận đợc, có thể khôi phục x
n
bằng biểu thức:
x
n
= y
n
+ z
n
(3.3)
Nh thế lỗi lợng tử hoá lớn nhất của dãy sẽ nhỏ hơn nếu ta mã hoá dãy {x
n
} trực tiếp.

Mặc dù ta sử dụng cùng số lợng bits cho từng giá trị y
n
và z
n
, số lợng phần tử trong từng
dãy {y
n
} và {z
n
} nh dãy ban đầu {x
n
}. Mặc dù đang sử dụng số lợng bits cho một mẫu
giống nhau, có thể truyền số lợng mẫu tăng gấp hai lần, và hậu quả là số bits tăng gấp đôi.
Có thể khắc phục bằng cách gửi tất cả các giá trị khác của y
n
và z
n
. Chia dãy {y
n
} thành
các dãy con {y
2n
} và {y
2n-1
}, nghĩa là một dãy con chỉ bao gồm các phần tử có chỉ số lẻ
{y
1
, y
3
, }, và một dãy con chỉ bao gồm các phần tử có chỉ số chẵn {y

2
, y
4
, }. Tơng tự,
ta chia dãy {z
n
} thành các dãy con {z
2n
} và {z
2n-1
}. Nếu truyền đi các dãy con chỉ số chẵn
hoặc các dãy con chỉ số lẻ, thì chỉ cần truyền số lợng phần tử bằng với lợng phần tử của
dãy ban đầu. Để thể hiện cách khôi phục dãy {x
n
} từ các dãy con này, ta giả sử chỉ truyền
đi nhng dãy con {y
2n
} và {z
2n
}:
Để khôi phục các phần tử có chỉ số chẵn của dãy {x
n
}, ta đa vào hai dãy con. Để nhận đợc
các phần tử có chỉ số lẻ của dãy {x
n
}, ta tính sự khác biệt sau:
y
2n
+z
2n

=x
2n
(3.4)
y
2n
-z
2n
=x
2n-1
(3.5)
Do vậy, có thể khôi phục lại đợc toàn bộ dãy ban đầu {x
n
}, chỉ cần gửi số lợng bits nh khi
truyền dãy ban đầu mà mắc phải sự sai lệch nhỏ hơn.
Việc phân tích một tín hiệu có thể thực hiện theo nhiều cách khác nhau khi xem
xét các bài toán nén, Thêm tính mềm dẻo tăng khả năng nén.
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 22 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
Việc phân tích, và tổng hợp. Dãy đầu vào {x
n
} thành 2 dãy con {y
n
} và
{z
n
} qua phép
toán:
Có thể thực hiện các phép toán sử dụng các bộ lọc thời gian rời rạc dới đây
3.3. Các bộ lọc

Lọc số bao gồm cả việc tính tổng của đầu vào hiện thời và đầu vào trớc đó tới bộ
lọc, và trong một số trờng hợp bao gồm cả những đầu ra trớc đđó của bộ lọc. Dạng tổng
quát của quan hệ đầu vào và đầu ra của bộ lọc nhận đợc là:
với dãy {x
n
} là đầu vào của bộ lọc, dãy {y
n
} là đầu ra của bộ lọc, và các giá trị {a
i
}
và {b
i
} đợc gọi là các hệ số bộ lọc.
Nếu đầu vào là dãy chỉ có một giá trị 1 và theo sau là toàn 0, thì dãy đợc gọi là
đáp ứng xung của bộ lọc. Nếu b
i
là các giá trị 0, thì đáp ứng xung sẽ tắt sau N mẫu. Gọi
là các bộ lọc đáp ứng xung hữu hạn (FIR filter). Số N đôi khi đợc gọi là số bớc (taps)
trong bộ lọc. Nếu một số b
i
có giá trị khác 0, thì đáp ứng xung có thể là vô hạn (trong lý
thuyết). Gọi là bộ lọc đáp ứng xung vô hạn ( IIR filter).
Chú ý rằng nếu biết đáp ứng xung, thì cũng có thể biết các giá trị a
i
và xác định đ-
ợc bộ lọc. Hơn nữa, vì đáp ứng xung trở về 0 sau một số hữu hạn mẫu (trong trờng hợp
này là 2 mẫu), bộ lọc là một bộ lọc FIR filter. Với IIR không thật rõ ràng nh FIR, biết tất
cả các đáp ứng xung sẽ xác định bộ lọc. Mỗi khi ta biết về đáp ứng xung của bộ lọc, biết
về quan hệ giữa đầu vào và đầu ra của bộ lọc. Nếu {x
n

} và {y
n
} tơng ứng là đầu vào và
đầu ra của bộ lọc với đáp ứng xung {h
n
}
n
M
0
, thì {y
n
} có thể có đợc từ {x
n
} và {h
n
} thông
qua quan hệ:
với M là hữu hạn cho bộ lọc FIR và vô hạn cho bộ lọc IIR
Vì các bộ lọc FIR đơn giản ít bị ảnh hởng, nên chúng luôn ổn định. Khi nói một bộ
lọc ổn định tức là chỉ cần đầu vào hữu hạn, thì đầu ra cũng hữu hạn. Điều này không đúng
với các bộ lọc IIR. Thực vậy, các bộ lọc IIR có thể nhận đợc đầu ra vô hạn thậm trí khi
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 23 -
Tiu Lun: Nộn v x lý tớn hiu s GVHD: T.S Nguyn Ngc Minh
đầu vào là hữu hạn.
3.3.1 Một số bộ lọc sử dụng trong m băng con:
Hầu hết tần số sử dụng các nhánh bộ lọc trong mã băng tần gồm một tầng phân
lớp, mỗi lớp bao gồm một bộ lọc dải thấp và một bộ lọc dải cao, nh Hình 3.2 là một bộ
lọc băng có 8 băng. Bộ lọc phổ biến nhất là bộ lọc gơng trực giao (hay lọc cầu phơng)
(Quadrature Mirror Filters - QMF). Những bộ lọc này có tính chất, nếu đáp ứng xung của

bộ lọc dải thấp nhận đợc là {h
n
}, thì đáp ứng xung dải cao nhận đợc là {(-1)
n
h
N-1-n
}. Các
bộ lọc QMF thiết kế bởi Johnston đợc sử dụng trong một số ứng dụng. Chú ý rằng các bộ
lọc là đối xứng, tức là:
h
N-1-n
= h
N
, với n = 0, 1, , N/2 - 1. (3.10)
Hình 3.2. Mô tả sự phân lớp của bộ lọc băng
Với các bộ lọc có ít bớc trong phân tích sẽ kém hiệu quả hơn là các bộ lọc nhiều b-
ớc. Tuy nhiên, từ biểu thức (3.9) có thể thấy rằng số các bớc khống chế số lợng các phép
tính cộng và nhân cần thiết để tạo ra các đầu ra bộ lọc. Do vậy, muốn có các phân tích
hiệu quả hơn, thì bằng cách nào đó tăng khả năng tính toán.
3.4. Thuật toán mã băng con cơ bản
Hình 3.3 là một ví dụ thể thể hiện thuật toán mã hoá băng con
SVTH: Nhúm 12 Lp: M12CQTE 02B
- 24 -

Tiểu luận môn xử lý số nâng cao Nén tín hiệu tiếng nói bằng phương pháp mã hóa băng con

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về