Tải bản đầy đủ (.pdf) (54 trang)

bài giảng môn học xử lí tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.11 MB, 54 trang )

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 1

CNT45DH
GROUP
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM
KHOA CÔNG NGHỆ THÔNG TIN


BÀI GIẢNG MÔN HỌC
XỬ LÝ TIẾNG NÓI




















BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 2

CNT45DH
GROUP
MỤC LỤC

MỞ ĐẦU 2
CHƯƠNG I: NHẬP MÔN
§1. TÍN HIỆU TIẾNG NÓI 3
§2. XỬ LÝ TÍN HIỆU 4
§3. XỬ LÝ TÍN HIỆU SỐ 5
§4. XỬ LÝ TIẾNG NÓI BẰNG SỐ 6

CHƯƠNG II: CƠ SỞ XỬ LÝ TÍN HIỆU SỐ
§1. CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC 9
§2. BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU 11
§3. CƠ BẢN VỀ CÁC LỌC SỐ 15
§4. LẤY MẪU 19

CHƯƠNG III: CÁC MÔ HÌNH SỐ CHO TÍN HIỆU TIẾNG NÓI
§1. NHẬP MÔN 22
§2. QUÁ TRÌNH TẠO TIẾNG NÓI 23
§ 3. LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG NÓI 29
§4. CÁC MÔ HÌNH ỐNG MẤT ÍT 40
§5. CÁC MÔ HÌNH SỐ CHO CÁC TÍN HIỆU TIẾNG NÓI 48

TÀI LIỆU THAM KHẢO 52
BÀI GIẢNG XỬ LÝ TIẾNG NÓI


CAO QUYẾT THẮNG Trang 3

CNT45DH
GROUP
MỞ ĐẦU

Tiếng nói là phƣơng tiện giao tiếp cơ bản nhất của loài ngƣời, nó hình thành và
phát triển song song với quá trình tiến hóa của loài ngƣời. Đối với con ngƣời, sử dụng lời
nói là một cách diễn đạt đơn giản và hiệu quả nhất. Ƣu điểm của việc giao tiếp bằng tiếng
nói trƣớc tiên là ở tốc độ giao tiếp, tiếng nói từ ngƣời nói đƣợc ngƣời nghe hiểu ngay lập
tức sau khi đƣợc phát ra. Bên cạnh đó, tiếng nói là cách giao tiếp đƣợc sử dụng rộng rãi
nhất – bất cứ ai (dĩ nhiên là trừ những ngƣời khuyết tật) cũng có thể nói đƣợc. Ngày nay,
nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay
chân. Tuy nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều
thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử dụng
các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy móc thiết bị
bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng
bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di động, PC,…
Để cho máy tính có thể nghe đƣợc nhiều ngƣời đã vật lộn với tín hiệu âm thanh
trong hơn nửa thế kỷ qua trong lĩnh vực nhận dạng tiếng nói. Quá trình này đƣợc đánh
dấu bằng các kết quả nghiên cứu đặc sắc trong lĩnh vực phân tích và xử lý tiếng nói, các
ứng dụng thực tế khá hữu ích. Nhƣng dù sao, khả năng của máy vẫn vẫn còn trong
khoảng giới hạn, còn cần phát triển hơn nữa để có thể thật sự đáp ứng nhu cầu thực sự
của cuộc sống.



BÀI GIẢNG XỬ LÝ TIẾNG NÓI


CAO QUYẾT THẮNG Trang 4

CNT45DH
GROUP
CHƯƠNG 1
NHẬP MÔN

Trong bài giảng này ta sẽ xét cách các kỹ thuật xử lý tín hiệu số có thể áp dụng
vào các bài toán liên quan đến việc truyền tiếng nói. Do vậy, ở phần nhập môn này ta sẽ
nói đến các vấn đề nhƣ bản chất của tín hiệu tiếng nói, các kỹ thuật xử lý tín hiệu số đóng
vai trò thế nào trong việc học xử lý tín hiệu tiếng nói và một vài lĩnh vực áp dụng quan
trọng của việc truyền tiếng nói mà kỹ thuật xử lý tín hiệu số đƣợc sử dụng trong đó.

§1. TÍN HIỆU TIẾNG NÓI

Mục đích của tiếng nói là truyền thông tin. Có một số cách đặc trƣng cho việc
truyền tiếng nói. Một cách tiếp cận có chất lƣợng cao là dùng các quan điểm của lý thuyết
thông tin đƣa ra bởi Shannon năm 1968. Theo lý thuyết thông tin, tiếng nói có thể biểu
diễn dƣới dạng nội dung thông báo hoặc thông tin. Một cách đặc trƣng khác là tiếng nói
biểu diễn dƣới dạng tín hiệu mang thông tin thông báo. Mặc dù các quan điểm lý thuyết
của thông tin đóng vai trò chủ đạo trong các hệ thống truyền tin phức tạp, ta sẽ thấy là
biểu diễn tiếng nói dựa trên dạng sóng hoặc mô hình tham số đƣợc sử dụng chính trong
các ứng dụng thực tế.
Để xét quá trình thông tin tiếng nói, đầu tiên nên coi thông báo nhƣ một dạng trừu
tƣợng nào đó trong óc ngƣời nói. Qua quá trình phức tạp tạo âm, thông tin trong thông
báo này đƣợc chuyển trực tiếp thành tín hiệu âm học. Thông tin thông báo có thể đƣợc
biểu diễn dƣới một số dạng khác nhau trong quá trình tạo tiếng nói. Chẳng hạn, thông tin
thông báo lúc ban đầu đƣợc chuyển thành tập hợp các tín hiệu thần kinh điều khiển cơ
chế phát âm (đó là chuyển động của lƣỡi, môi, dây thanh âm, v. v ). Bộ máy phát âm
chuyển động tƣơng ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết

quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc.
Thông tin đƣợc thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn
bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có
thể đƣợc phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị
riêng của nó, con số mẫu mực là khoảng từ 30 đến 50. Ví dụ, tiếng Anh có thể biểu diễn
bằng khoảng 42 âm vị (chƣơng 3); tiếng Việt khoảng 33 âm vị (a, ă, â, b, c, d, đ, e, ê, f, g,
h, i, j, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ƣ, v, w, x, y, z; 12 nguyên âm, 21 phụ âm).
Trong lý thuyết thông tin ngƣời ta còn xét tốc độ truyền thông tin. Với tiếng nói, lƣu
ý đến các giới hạn vật lý của tốc độ chuyển động của bộ máy phát âm, đánh giá thô của
tốc độ thông tin là con ngƣời tạo ra tiếng nói với tốc độ trung bình khoảng 10 âm vị trong
1 giây. Nếu mỗi âm vị biểu diễn bằng một số nhị phân thì mã số 6 bit là quá đủ để biểu
diễn tất cả các âm vị tiếng Anh. Với tốc độ trung bình 10 âm vị trên giây và bỏ qua tƣơng
tác giữa các cặp âm vị liền kề, ta có ƣớc lƣợng 60 bit/giây cho tốc độ thông tin trung bình
của tiếng nói. Nói cách khác là lƣợng viết ra của tiếng nói chứa thông tin tƣơng đƣơng
với 60 bit/gy ở tốc độ nói chuẩn. Dĩ nhiên, cận dƣới của nội dung thông tin xác thực trong
tiếng nói đƣợc coi là cao hơn tốc độ này. Ƣớc lƣợng trên không tính đến các nhân tố nhƣ
trạng thái của ngƣời nói, tốc độ nói, âm hƣởng của tiếng nói, v. v .
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 5

CNT45DH
GROUP
Trong hệ thống truyền tiếng nói, tín hiệu tiếng nói đƣợc truyền đi, lƣu giữ và xử lý
bằng nhiều cách. Các giải pháp kỹ thuật cho ta nhiều cách biểu diễn tín hiệu tiếng nói. Có
2 cách chính:
- Lƣu giữ nội dung thông báo trong tín hiệu tiếng nói
- Biểu diễn tín hiệu tiếng nói dƣới dạng thuận tiện để truyền đi hoặc lƣu giữ, hoặc
dƣới dạng linh động để có thể sửa chữa mà không ảnh hƣởng đến nội dung thông báo.
Biểu diễn tín hiệu tiếng nói phải làm sao cho nội dung thông tin có thể dễ dàng lĩnh

hội đƣợc bởi ngƣời nghe hoặc bằng máy tự động. Trong bài giảng này ta sẽ thấy các
biểu diễn của tín hiệu tiếng nói (chứ không phải là nội dung thông báo) có thể yêu cầu từ
500 đến trên 1 triệu bit/gy. Trong việc thiết kế và xử lý các biểu diễn này, các phƣơng
pháp xƣ lý tín hiệu đóng vai trò cơ bản.

§2. XỬ LÝ TÍN HIỆU

Các bài toán chung của thao tác và xử lý thông tin đƣợc vẽ ở hình 1.1. Trong
trƣờng hợp các tín hiệu tiếng nói, ngƣời ta coi nguồn thông tin, đo đạc hoặc quan sát, nói
chung, là có dạng sóng âm. Xử lý tín hiệu bao gồm trƣớc hết là nhận đƣợc biểu diễn tín
hiệu dựa trên mô hình đã cho và sau đó là dùng biến đổi ở mức cao hơn để đặt tín hiệu
vào dạng tiện dụng hơn. Bƣớc cuối cùng của xử lý là trích ra và sử dụng thông tin thông
báo. Bƣớc này có thể thực hiện hoặc bởi ngƣời nghe hoặc tự động bằng máy. Lấy ví dụ
là hệ thống có chức năng nhận biết tự động ngƣời nói từ một tập hợp ngƣời đã cho, có
thể sử dụng biểu diễn phổ phụ thuộc thời gian của tín hiệu tiếng nói. Một biến đổi tín hiệu
có thể dùng là phổ trung bình ở một câu đầy đủ, so sánh phổ trung bình với phổ trung
bình đã lƣu trữ của mỗi ngƣời nói, rồi sau đó dựa trên số đo tƣơng tự của phổ mà nhận
biết ngƣời nói. Ở ví dụ này, thông tin trong tín hiệu dùng để nhận dạng ngƣời nói.















Hình 1.1. Các bài toán thao tác và xử lý thông tin

Nhƣ vậy, xử lý các tín hiệu tiếng nói, nói chung, gồm 2 việc. Thứ nhất là phƣơng
tiện để nhận đƣợc biểu diễn tín hiệu tiếng nói nói chung, hoặc dƣới dạng sóng âm hoặc
dƣới dạng tham số. Thứ hai là xử lý tín hiệu, thực hiện việc chuyển tín hiệu thành các
dạng khác ít tổng quan hơn nhƣng thích hợp hơn cho các ứng dụng.
Nguồn Thông tin
Trích ra và Sử dụng Thông tin
Đo đạc hoặc Quan sát
Biểu diễn tín hiệu
Biến đổi tín hiệu
h iÖuTÝn
lýXö

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 6

CNT45DH
GROUP
§3. XỬ LÝ TÍN HIỆU SỐ

Mục đích của môn học là khám phá vai trò của kỹ thuật số trong xử lý các tín hiệu
tiếng nói. Xử lý tín hiệu số tập trung vào 2 việc là nhận đƣợc các biểu diễn rời rạc của tín
hiệu và lý thuyết, thiết kế, thực hiện các thủ tục số để xử lý các biểu diễn rời rạc này. Đối
tƣợng của xử lý tín hiệu số là nhận biết các đối tƣợng trong xử lý tín hiệu tƣơng tự. Vì
vậy, một câu hỏi có lý là vì sao các kỹ thuật xử lý tín hiệu số lại đƣợc dùng để nghiên cứu
thông tin tiếng nói? Có thể nêu ra nhiều lý do để trả lời. Đầu tiên và quan trọng nhất là các

hàm xử lý tín hiệu phức tạp có thể thực hiện bằng cách dùng kỹ thuật số. Các thuật toán
sẽ xét trong bài giảng là các thuật toán cho các hệ thống thời gian rời rạc. Ở nhiều trƣờng
hợp, không thể coi các hệ thống này là hệ thống xấp xỉ của các hệ thống tƣơng tự.
Các kỹ thuật xử lý tín hiệu số lúc đầu đƣợc dùng trong xử lý tiếng nói nhƣ mô
phỏng các hệ thống tƣơng tự phức tạp. Quan điểm lúc ban đầu là phải mô phỏng các hệ
thống tƣơng tự trên máy tính để tránh việc xây dựng các hệ thống để thực nghiệm. Khi
các mô phỏng số của các hệ tƣơng tự đƣợc sử dụng, các tính toán đòi hỏi nhiều thời
gian, chẳng hạn, cần khoảng 1 giờ để xử lý vài phút nói! Đến khoảng giữa những năm
1960 nổ ra cách mạng trong xử lý tín hiệu số. Các xúc tác chính là sự phát triển của máy
tính nhanh hơn và các tiến bộ nhanh trong lý thuyết kỹ thuật xử lý tín hiệu số. Nhƣ vậy, rõ
ràng là các hệ thống xử lý tín hiệu số đã có hiệu lực hơn ở khả năng mô phỏng các hệ
thống tƣơng tự. Cộng thêm với các phát triển lý thuyết, các phát triển đồng thời trong
phạm vi phần cứng số cũng làm mạnh lên ƣu thế của các kỹ thuật xử lý tín hiệu số so với
các hệ thống tƣơng tự. Các hệ thống số đáng tin cậy và rất chặt chẽ. Công nghệ mạng
tổng thể đã phát triển đến trạng thái mà các hệ thống cực kỳ phức tạp có thể hoạt động
trên một chip đơn. Các thành công của lôgic là đủ nhanh để số lớn các tính toán thực tế
trong nhiều hàm xử lý tín hiệu có thể thực hiện trong thời gian thực và ở tốc độ mẫu tiếng
nói.
Có nhiều lý do khác để dùng kỹ thuật số trong các hệ thống thông tin tiếng nói.
Chẳng hạn, nếu mã hoá đƣợc dùng, tiếng nói dƣới dạng số hoá có thể truyền đi một cách
tin cậy trên các kênh rất ồn. Cũng vậy, nếu tín hiệu tiếng nói ở dạng số thì nó đồng nhất
với dữ liệu của các dạng khác. Do vậy, một lƣới thông tin có thể dùng để truyền cả tiếng
nói và các dữ liệu khác mà không cần phân biệt chúng trừ việc giải mã. Ngoài ra, về yêu
cầu bảo mật việc truyền các tín hiệu giọng nói, biểu diễn số có ƣu thế khác biệt so với các
hệ thống tƣơng tự. Để bảo mật, các bit thông tin có thể đổi đi để cuối cùng có thể tái hiện
lại ở ngƣời nhận. Với các lý do nêu trên và nhiều lý do khác nữa mà các kỹ thuật số đƣợc
sử dụng ngày càng nhiều trong các bài toán truyền tiếng nói.











BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 7

CNT45DH
GROUP
§4. XỬ LÝ TIẾNG NÓI BẰNG SỐ

Khi xem xét ứng dụng của ký thuật xử lý tín hiệu số vào các bài toán truyền tiếng
nói, ta phải chú ý đến 3 chủ đề chính: biểu diễn các tìn hiệu tiếng nói dƣới dạng số, thực
hiện các kỹ thuật xử lý phức tạp và các lớp các ứng dụng dựa chủ yếu vào Xử lý tín hiệu
số.
Dĩ nhiên, việc biểu diễn các tín hiệu tiếng nói dƣới dạng số là chủ đề cơ bản. Về
việc này, chúng ta đƣợc hƣớng dẫn bằng định lý lấy mẫu (Sampling Theorem, H. Nyquist,
1928) phát biểu là: tín hiệu giới hạn dải (bandlimited) có thể được biểu diễn bởi các mẫu
lấy tuần hoàn theo thời gian, miễn là các mẫu được lấy ở tỷ lệ đủ cao. Nhƣ vậy, việc xử
lý mẫu nằm trọn trong lý thuyết và ứng dụng của xử lý tiếng nói bằng số. Có nhiều cách
biểu diễn rời rạc các tín hiệu tiếng nói. Nhƣ biểu diễn ở hình vẽ, các biểu diến này có thể
phân thành 2 nhóm lớn gọi là biểu diễn dạng sóng (waveform representation) và biểu
diễn tham số (parametric representation). Biểu diễn dạng sóng, nhƣ tên gọi chỉ ra,
quan tâm đến việc bảo toàn đơn giản "dạng sóng" của tín hiệu tiếng nói tƣơng tự
qua mẫu và xử lý về lƣợng. Các biểu diễn tham số, mặt khác, biểu diễn tín hiệu tiếng nói
nhƣ đầu ra của mô hình tạo tiếng nói. Bƣớc thứ nhất để nhận đƣợc biểu diễn tham số

thƣờng là biểu diễn dạng sóng bằng số, tín hiệu tiếng nói đƣợc lấy mẫu và lƣợng hoá, rồi
sau đó đƣợc xử lý tiếp tục để nhận đƣợc các tham số của mô hình tạo tiếng nói. Các
tham số của mô hình này đƣợc phân loại thích hợp thành các tham số kích thích
(excitation parameter, liên quan đến nguồn của các âm tiếng nói) hoặc các tham số đáp
ứng vết thanh âm (vocal tract response parameter, liên quan đến các âm tiếng nói đơn
lẻ).




Biểu diễn Tín
hiệu tiếng nói



































Các biểu diễn
Dạng Sóng




Các biểu diễn
Tham số






































Tham số
Kích thích




Tham số Đáp
ứng vết Thanh
âm

Hình 1. 2. Các cách biểu diễn Tín hiệu tiếng nói

Tốc độ dữ liệu (bits/giây)
200000
60000
20000
10000
500
75



Các phƣơng pháp
Phân tích - Tổng hợp
Tổng hợp từ
Văn bản in
(Không mã hoá nguồn)
Biểu diễn Dạng Sóng
(Mã hoá nguồn)
Các biểu diễn Tham số

Hình 1. 3. Thứ hạng các tốc độ bits cho một số kiểu biểu diễn tiếng nói.

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 8

CNT45DH
GROUP
Hình 1. 3 so sánh bằng số các biểu diễn khác nhau của tín hiệu tiếng nói theo tốc
độ dữ liệu. Đƣờng ngăn cách là ở tốc độ dữ liệu khoảng 15000 tách biểu diễn dạng sóng
tốc độ cao với các dạng tham số tốc độ thấp.



Các ứng dụng của
Thông tin tiếng nói




































Truyền và
Lƣu giữ
bằng số

Tổng hợp
tiếng nói

Kiểm tra và
Nhận biết

ngƣời nói

Thừa
nhận tiếng
nói

Giúp đỡ
ngƣời
Tàn tật

Tăng cƣờng
chất lƣợng
tín hiệu số

Hình 1. 4. Vài ứng dụng của việc truyền tiếng nói.

Hình 1. 4 cho một vài trong nhiều lĩnh vực ứng dụng của việc truyền tiếng nói. Sau đây là
một trình bày ngắn gọn về mỗi phạm vi này.

4.1. Truyền và lưu giữ tiếng nói bằng số (Digital transmission and storage of speech):
Một trong những ứng dụng sớm nhất và quan trọng nhất của xử lý tiếng nói là VOCODER
hay mã hoá tiếng nói (voice coder) đƣa ra bởi Homer Dudlay vào năm 1930. Mục đích
của VOCODER là thu gọn độ rộng băng cần thiết để truyền tín hiệu tiếng nói. Sự cần thiết
phải thu hẹp độ rộng dải ở nhiều tình huống là do độ rộng dải đƣợc cung cấp bởi vệ tinh,
bởi sóng âm và các hệ thống thông tin quang học bị tăng lên.
4.2. Hệ thống Tổng hợp tiếng nói (Speech synthesis system): Ngƣời ta dành nhiều chú ý
cho các hệ thống tổng hợp tiếng nói là vì cần lƣu giữ tiếng nói bằng số cho các hệ thống
đáp ứng tiếng nói của máy tính (computer voice response) một cách tiết kiệm. Hệ thống
đáp ứng này do R. L. Rabiner và R. W. Schafer đề nghị năm 1976. Một hệ thống đáp ứng
tiếng nói cơ bản là một dịch vụ thông tin tự động, số hoá hoàn toàn, có thể bị kích thích

bởi ngƣời dùng bàn phím hoặc dữ liệu và đáp ứng với thông tin đòi hỏi bằng tiếng nói.
4.3. Các hệ thống kiểm tra và nhận biết người nói (Speaker verification and indentification
systems): đƣợc B. S. Atal dề nghị năm 1976. Các kỹ thuật kiểm tra và nhận biết ngƣời nói
dùng để nhận dạng tiếng nói hoặc nhận ra ngƣời nói trong một tập hợp lớn những ngƣời
nói có thể có. Khi có một tiếng nói phát ra, ngƣời ta dựa vào các dữ liệu đã có để kiểm tra
và nhận biết nguồn hoặc ngƣời phát ra tiếng nói.
4.4. Các hệ thống đoán nhận (recognition) tiếng nói: đƣợc D. R. Reddy đề nghị năm
1976. Việc đoán nhận tiếng nói, dƣới dạng chung nhất của nó, là chuyển đổi từ dạng
sóng âm thành bản viết của thông tin thông báo. Bài toán đoán nhận tiếng nói phụ thuộc
rất nhiều vào các ràng buộc đặt cho ngƣời nói, tình trạng nói và nội dung thông báo. Các
ứng dụng lớn của các hệ thống đoán nhận tiếng nói rất nhiều và đa dạng, chẳng hạn nhƣ
máy chữ điều khiển bằng tiếng nói, thông tin nói với các máy tính, v. v Một hệ thống
đoán nhận tiếng nói kết hợp với một hệ thống tổng hợp tiếng nói tạo ra một hệ thống
truyền thông có tỉ lệ bit thấp tối đa (the ultimate low bit rate communica- tion system).
4.5. Các hệ thống giúp đỡ người tàn tật (Aids-to-the handicapped): Ứng dụng này tập
trung vào quá trình xử lý tín hiệu tiếng nói làm thông tin có dạng thích hợp với các ngƣời
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 9

CNT45DH
GROUP
tàn tật, nhƣ ghi âm cho ngƣời mù; hiển thị hình ảnh của TTin tiếng nói để dạy cho ngƣời
điếc do H. Levitt đề nghị năm 1973.
4.6. Tăng cường chất lượng tín hiệu (Enhancement of signal quality): Ở nhiều tình huống,
tín hiệu tiếng nói bị suy giảm theo hƣớng hạn chế hiệu quả việc truyền đi, hoặc phải loại
bỏ tiếng vang, tiếng ồn khi nói. Ở các tình huống này các kỹ thuật xử lý tín hiệu số đƣợc
sử dụng để cải thiện chất lƣợng tiếng nói. Các ví dụ là khử bỏ nhiễu (hay tiếng ồn, tạp
âm) trong tiếng nói hoặc khôi phục các âm.















BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 10

CNT45DH
GROUP
CHƯƠNG 2
CƠ SỞ XỬ LÝ TÍN HIỆU SỐ

§1. CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC

Trong hầu nhƣ mỗi tình huống xử lý hoặc truyền thông tin, ngƣời ta phải bắt đầu
bằng việc biểu diễn tín hiệu nhƣ mẫu biến đổi liên tục. Sóng âm phát ra cũng có bản chất
nhƣ vậy. Về mặt toán học, có thể biểu diễn các mẫu biến đổi liên tục nhƣ vậy là hàm của
biến liên tục t biểu diễn thời gian. Trong bài giảng này, ta sẽ dùng ký hiệu x
a
(t) cho dạng

sóng thời gian biến đổi liên tục (hoặc tƣơng tự). Cũng có thể biểu diễn tín hiệu tiếng nói
nhƣ dãy các số. Nói chung, ta dùng ký hiệu x(n) để biểu diễn dãy số. Nếu dãy có thể coi
là dãy các mẫu tín hiệu tƣơng tự xảy ra tuần hoàn với chu kỳ mẫu T thì ta sẽ dùng ký
hiệu x
a
(nT). Hình 2.1 cho ví dụ tín hiệu tiếng nói biểu diễn ở cả 2 dạng tín hiệu tƣơng tự
(analog) và dạng dãy các mẫu (samples) có tỉ lệ mẫu 8 kHz.



Hình 2.1. Các biểu diễn của tín hiệu tiếng nói.

Khi nghiên cứu các hệ thống xử lý tín hiệu tiếng nói ta sẽ sử dụng một số dãy số
đƣợc vẽ ở hình 2.2. Mẫu đơn vị (unit sample) hay dãy xung đơn vị (unit impulse
sequence) đƣợc định nghĩa (định nghĩa) là: (n) =
00
01
n
n

Dãy bước đơn vị (unit step sequence) là: u(n) =
00
01
<n
n

Dãy luỹ thừa (exponential sequence) có dạng: x(n) = a
n

Nếu a là số phức, t. l. a = r.

0
j
e
thì x(n) = r
n
.
nj
e
0
= r
n
(cos
0
n + j.sin
0
n)
Nếu r = 1 và
0
0 thì x(n) là sinusoid phức; nếu
0
= 0, x(n) là số thực; còn nếu r < 1 và
0
0 thì x(n) là dãy dao động phân rã (exponentially decaying oscillatory sequence). Dãy
kiểu này xuất hiện khi biểu diễn các hệ thống tuyến tính và khi mô hình dạng sóng tiếng
nói.

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 11


CNT45DH
GROUP


Xử lý tín hiệu đòi hỏi biến đổi tín hiệu thành dạng mong muốn theo một nghĩa nào
đó. Ta sẽ tập trung xét các hệ thống rời rạc, hay nói tƣơng đƣơng là các biến đổi dãy vào
thành dãy ra. Ta sẽ mô tả các phép biến đổi ấy bằng lƣợc đồ nhƣ ở hình 2.3a.



x(n) y(n)*T[x(n)] x(n)
y(n)*T[x(n)]
(a) (b)

Hình 2.3. Lược đồ biểu diễn: (a) Hệ thống vào/ra đơn; (b) Hệ thống vào/nhiều ra.

Lớp các hệ thống bất biến-dịch chuyển tuyến tính (LSI - Linear Shift Invariant)
thƣờng đƣợc dùng trong xử lý tiếng nói. Các hệ thống này đƣợc đặc trƣng hoàn toàn bởi
đáp ứng của chúng cho cái vào mẫu đơn vị. Với các hệ thống này, cái ra, y(n), có thể tính
đƣợc từ cái vào, x(n), và đáp ứng của mẫu đơn vị, h(n), theo tích chập:
y(n) =
k
knhkx )()(
= x(n)*h(n), (1)
ở đây * là ký hiệu tích chập rời rạc (discrete convolution). Biểu thức tƣơng đƣơng là:
y(n) =
k
knxkh )()(
= h(n)*x(n),
Các hệ thống LSI thƣờng dùng để lập các phép lọc trên các tín hiệu tiếng nói và,

có lẽ quan trọng hơn là, chúng rất có ích cho các mô hình tạo ta tiếng nói.









T[ ] T[ ] T[ ]
T[ ]
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 12

CNT45DH
GROUP
§2. BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU

Phân tích và thiết kế các hệ thống tuyến tính đƣợc thực hiện dễ dàng nhờ các
biểu diễn miền tần số (frequency-domain representation) của cả các tín hiệu và hệ thống.
Do vậy, cần xét các biểu diễn của biến đổi Fourier (Fourier Transform, FT) và của biến đổi
Z (Z - Transform, ZT) của các tín hiệu và hệ thống rời rạc.
1. Biến đổi Z (ZT) : Biểu diễn ZT của dãy đƣợc xác định bởi 2 phƣơng trình:
X(z) =
n
n
znx ).(
(2a)

x(n) =
C
n
dzzX
j
1
)(
2
1
(2b)
"Biến đổi Z" (ZT) hay "biến đổi trực tiếp" của x(n) đƣợc xác định bởi (2a). Tổng quan, có
thể thấy X(z) là chuỗi luỹ thừa vô hạn theo biến z
-1
, trong đó dãy các giá trị, x(n), đóng vai
trò các hệ số trong chuỗi luỹ thừa. Nói chung, các chuỗi luỹ thừa này sẽ hội tụ đến giá trị
hữu hạn chỉ với các giá trị xác định của z. Điều kiện đủ của hội tụ là:
n
n
znx )(
(3)
Tập hợp các giá trị mà chuỗi hội tụ xác định một miền trên mặt phẳng phức Z gọi là miền
hội tụ. Nói chung, miền này có dạng:
R
1
< z < R
2
(4)
Để thấy quan hệ của miền hội tụ với bản chất của dãy, ta xét vài ví dụ.
Ví dụ 1: Cho x(n) = (n-n
0

) (xung đơn vị tại n
0
). Thế vào (1a) ta đƣợc: X(z) =
0
n
z
.

Ví dụ 2 : Cho x(n) = u(n) - u(n-N) (bước đơn vị trên đoạn [0, N-1]). Khi đó
X(z) =
1
0
)1(
N
n
n
z
=
1
1
1
z
z
N
.
Ở cả hai trƣờng hợp này, x(n) có độ dài hữu hạn. Vì vậy X(z) là đa thức của biến z
-1

miền hội tụ là mọi nơi trừ tại z = 0. Tất cả các dãy có độ dài hữu hạn đều có miền hội tụ ít
nhất là miền 0 < z < .

Ví dụ 3: Giả sử x(n) = a
n
.u(n). Khi đó X(z) =
0
nn
n
az
=
1
1
1
az
, a < z .
Trong trƣờng hợp này, chuôĩ luỹ thừa là chuỗi số nhân có tổng. Kết quả này là mẫu mực
cho các dãy vô hạn khác 0 với n > 0. ở trƣờng hợp tổng quát này miền hội tụ có dạng Z
> R
1
.
Ví dụ 4 : Giả sử x(n) = - b
n
u(-n-1). Khi đó X(z) =
1
n
nn
zb
=
1
1
1
bz

, z < b .
Đây là dãy độ dài vô hạn mẫu khác 0 với n < 0, có miền hội tụ nói chung là z < R
2
.
Trƣờng hợp tổng quát nhất, trong đó x(n) 0 với - < n < , có thể xem nhƣ tổng hợp
của các trƣờng hợp nêu ở ví dụ 3 và ví dụ 4. Nhƣ vậy, trong trƣờng hợp tổng quát, miền
hội tụ có dạng R
1
< z < R
2
.
Phép "biến đổi Z ngược" (Inverse Z- Transform, IZT) đƣợc định nghĩa bởi tích
phân đƣờng kín (2b), trong đó C là chu tuyến kín bao quanh gốc của mặt phẳng Z và nằm
trong miền hội tụ của X(Z).
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 13

CNT45DH
GROUP
Có nhiều định lý và tính chất của biểu diễn ZT tiện dụng cho việc nghiên cứu các
hệ thống thời gian rời rạc. Danh sách các định lý quan trọng cho trong bảng 1. Về hình
thức, các định lý này giống với các định lý tƣơng ứng của biến đổi Laplace cho các hàm
thời gian liên tục. Tuy nhiên, điều này không có nghĩa là ZT là một dạng xấp xỉ nào đó của
biến đổi Laplace. biến đổi Laplace là biểu diễn chính xác của các hàm thời gian liên tục,
còn ZT là biểu diễn chính xác của dãy các số. Các nét tƣơng tự liên kết các biểu diễn liên
tục và biểu diễn rời rạc của tín hiệu thể hiện ở định lý mẫu xét ở §3.


Dãy

ZT
1. Tuyến tính (Linear)
ax
1
(n) + bx
2
(n)
aX
1
(Z) + bX
2
(Z)
2. Dịch chuyển (Shift)
x(n + n
0
)
0
n
Z
X(Z)
3. Trọng số luỹ thừa
a
n
x(n)
X(a
-1
Z)
4. Trọng số tuyến tính
nx(n)
- Z

dZ
ZdX )(

5. Đảo ngƣợc thời gian
x(-n)
X(Z
-1
)
6. Tích chập
x(n)*h(n)
X(Z)H(Z)
7. Nhân dãy
x(n)w(n)
C
d
z
WX
j
1
)()(
2
1

Bảng 1. Các dãy và các ZT tương ứng

2. Biến đổi Fourier (Fourier Transform, FT): Biểu diễn biến đổi Fourier (FT) của tín hiệu
thời gian rời rạc cho bởi các Phƣơng trình
X(e
j
) =

n
nj
enx )(
, (5a)
x(n) =
C
njj
deeX
j
)(
2
1
. (5b)
Dễ thấy các phƣơng trình này là các trƣờng hợp riêng của (2a, 2b), biểu diễn FT
nhận đƣợc bằng cách hạn chế ZT về đƣờng tròn đơn vị của mặt phẳng Z,bằng cách đặt z
=
j
e
. Nhƣ vẽ ở hình 2.2, biến tần số, , cũng có biểu diễn nhƣ góc trong mặt phẳng Z.

Điều kiện đủ để tồn tại biểu diễn FT có thể nhận đƣợc bằng cách đặt z = 1 trong (3), .
n
nx )(
(6)
Ta có thể sử dụng các Ví dụ ở §2.1 và thay z = e
j
trong biểu thức đã cho để làm các Ví
dụ FT mẫu. Ở hai Ví dụ đầu, kết quả rõ ràng là FT vì miền hội tụ của X(Z) chứa vòng tròn
đơn vị. Tuy nhiên ở các Ví dụ 3 và 4, FT chỉ tồn tại nếu a < 1 và b > 1 tƣơng ứng. Dĩ
nhiên, các điều kiện này ứng với các dãy thoả mãn điều kiện (6).

Điều quan trọng là FT của dãy, X(e
j
), là hàm tuần hoàn của với chu kỳ 2 . Dễ
dàng kiểm tra điều này bằng cách thay + 2 vào (5a). Mặt khác, do X(e
j
) là hạn chế
của X(z) trên đƣờng tròn đơn vị, ta thấy là X(e
j
) phải lặp lại mỗi lần đi hết 1 vòng quanh
đƣờng tròn đơn vị,khi chạy qua 2 radian.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 14

CNT45DH
GROUP
Bằng cách thay z = e
j
trong mỗi định lý ở bảng 1, ta đƣợc tập hợp các định lý cho
FT. Dĩ nhiên, các kết quả này chỉ có giá trị nếu các FT xét đến tồn tại.
2.2.3. Biến đổi Fourier rời rạc (Discrete Fourier Transform, DFT): Cũng nhƣ trong trƣờng
hợp các tín hiệu tƣơng tự, nếu dãy tuần hoàn với chu kỳ N, .
~
x
(n) =
~
x
(n + N) - < n < (7)
thì
~

x
(n) có thể biểu diễn bởi tổng rời rạc của các đƣờng hình sin hơn là bởi dạng tích
phân nhƣ ở (5b). Các biểu diễn dạng chuỗi Fourier cho dãy tuần hoàn là:
~
X
(k) =
1
0
2
~
)(
N
n
kn
N
j
enx
(8a)
~
x
(n) =
1
0
2
~
)(
1
N
k
kn

N
j
ekX
N
(8b)
Đó là biểu diễn chính xác của dãy tuần hoàn. Tuy nhiên, ngƣời ta hay dùng biểu diễn
khác của (8). Xét dãy độ dài hữu hạn, x(n), bằng 0 ngoài đoạn 0 n N-1. Biến đổi ZT
của x(n) là
X(z) =
1
0
)(
N
n
n
Znx
(9)
Nếu ta đánh giá X(z) tại N điểm cách đều nhau trên đƣờng tròn đơn vị,z
k
= e
j 2 k/N
, k = 0
(N-1), thì có
X(
k
N
j
e
2
) =

1
0
2
)(
N
n
kn
N
j
enx
, k = 0 (N-1) (10)
Nếu ta xây dựng dãy tuần hoàn là dãy vô hạn các bản sao của x(n),
~
x
(n) =
1
0
)(
N
n
rNnx
(11)
thì các mẫu X(
k
N
j
e
2
), theo (8a) và (10), là các hệ số Fourier của dãy tuần hoàn
~

x
(n) ở
(11). Nhƣ vậy, dãy có độ dài N có thể biểu diễn chính xác bằng biến đổi Fourier rời rạc
(Discrete Fourier Transform, DFT) dƣới dạng
X(k) =
1
0
2
)(
N
n
kn
N
j
enx
, k = 0 (N-1) (12a)
x(n) =
1
0
2
)(
1
N
k
kn
N
j
ekX
N
, n = 0 (N-1) (12b)

Rõ ràng là giữa (12) và (8) chỉ có khác biệt một chút về ký hiệu (bỏ dấu ~ chỉ sự tuần
hoàn) và hạn chế vào các khoảng hữu hạn: 0 k N-1 và 0 n N-1. Tuy nhiên, điều rất
quan trọng phải nhớ khi dùng DFT là tất cả các dãy đƣợc coi là tuần hoàn khi biểu diễn
bởi DFT. Nhƣ vậy, DFT thực sự là biểu diễn của dãy tuần hoàn cho bởi (11). Một quan
niệm khác là khi dùng biểu diễn DFT thì dãy chỉ số phải đƣợc coi là modulo N. Điều này
rút ra từ sự kiện là nếu x(n) có độ dài là N thì
~
x
(n) =
k
rNnx )(
= x( n mod N) = x((n))
N
.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 15

CNT45DH
GROUP
Ký hiệu ngoặc 2 lần biểu diễn việc tuần hoàn nội tại (build-in periodicity) của DFT. Sự
tuần hoàn nội tại này có tác động lên các tính chất của biểu diễn DFT. Một số định lý
quan trọng đƣợc nêu ở bảng 2. Điều nổi bật nhất là các dãy dịch chuyển theo modulo N.
Điều này dẫn đến các thay đổi rõ ràng trong phép chập rời rạc.


Dãy
DFT N-điểm
1. Tuyến tính (Linear)
ax

1
(n) + bx
2
(n)
aX
1
(k) + bX
2
(k)
2. Dịch chuyển (Shift)
x((n + n
0
))
N

)(
0
2
kXe
kn
N
j

3. Đảo ngƣợc thời gian (Time Reversal)
x((-n))
N

X*(k)
4. Chập (Convolution)
1

0
))(()(
N
m
N
mnhmx

X(k)H(k)
5. Nhân dãy (Multiplication of Sequence)
x(n)w(n)
1
0
))(()(
1
N
r
N
rkWrX
N

Bảng 2. Các dãy và DFT tương ứng của chúng.

Biểu diễn DFT với tất cả các nét riêng của nó là quan trọng do một số lý do:
Biến đổi DFT, X(k), có thể coi là bản mẫu của biến đổi ZT (hoặc biến đổi
FT) của dãy có độ dài hữu hạn.
Biến đổi DFT có các tính chất rất giống (có các sửa đổi do sự tuần hoàn
nội tại) với nhiều tính chất hữu ích của biến đổi ZT và FT.
N giá trị của X(k) có thể tính toán rất hiệu quả (với thời gian tỷ lệ với
NlogN) bằng tập hợp các thuật toán tính toán đƣợc biết chung là biến đổi
Fourier nhanh (Fast Fourier Transform, FFT).

DFT đƣợc dùng rộng rãi để tính các ước lượng phổ (Spectrum estimate), hàm
tương quan (Correlation function) và để thực hiện các lọc số.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 16

CNT45DH
GROUP

§3. CƠ BẢN VỀ CÁC LỌC SỐ

Lọc số là hệ thống bất biến dịch chuyển tuyến tính thời gian rời rạc (Discrete-Time
Linear Shift-Invariant System). Nhớ rằng với hệ thống nhƣ vậy, cái vào và cái ra có quan
hệ theo biểu thức tích chập (1). Quan hệ tƣơng ứng giữa biến đổi ZT của cái vào và cái
ra cho ở bảng 1,
Y(z) = H(z)X(z)
Biến đổi ZT của đáp ứng mẫu đơn vị, H(z), đƣợc gọi là hàm hệ thống (system
function) của hệ, biến đổi FT của đáp ứng xung đơn vị, H(e
j
), đƣợc gọi là đáp ứng tần số
(frequency response). H(e
j
) nói chung là hàm phức của biến , có thể viết dƣới dạng
phần thực và phần ảo
H(e
j
) = H
r
(e
j

) + j.H
j
(e
j
)
hoặc dạng môđun (độ lớn, magnitude) và argument (góc pha, phase angle)
H(e
j
) = H(e
j
) .
)](arg[
j
eHj
e
.
Một hệ thống bất biến dịch chuyển tuyến tính nhân quả (causal) là hệ có h(n) =
0 khi n < 0. Một hệ thống ổn định (stable) là hệ thống mà mỗi cái vào bị chặn sinh ra một
cái ra bị chặn. Điều kiện cần và đủ để hệ thống bất biến dịch chuyển là ổn định là
n
nh )(
< .
Điều kiện này đồng nhất với (6) và do vậy là đủ để tồn tại H(e
j
). Cùng với biểu thức tích
chập (1), có thể nói là tất cả các hệ thống bất biến dịch chuyển tuyến tính đƣợc dùng làm
lọc có tính chất là cái vào và cái ra thoả mãn phương trình sai phân (difference equation)
tuyến tính dạng
y(n) -
N

k
k
knya
1
)(
=
M
r
r
rnxb
0
)(
(13)
Lấy ZT hai vế của phƣơng trình này ta có thể chứng tỏ rằng
H(z) =
)(
)(
zX
zY
=
N
k
k
k
M
r
r
r
za
zb

1
0
1
(14)
So sánh (13) và (14) ta có kết luận hữu ích sau: cho phƣơng trình sai phân dạng (13) ta
có thể nhận đƣợc H(Z) trực tiếp bằng cách đặt các hệ số của cái vào bị làm chậm
(delayed input) ở phƣơng trình (13) (các b
r
) cùng luỹ thừa tƣơng ứng của Z
-1
ở tử số và
các hệ số của cái ra bị làm chậm (các a
i
) với luỹ thừa tƣơng ứng của Z
-1
ở mẫu số.
Hàm hệ thống, H(z), nói chung là hàm hữu tỷ của z
-1
. Nhƣ vậy, nó đƣợc đặc trƣng
bởi các vị trí cực (pole) và không điểm (zero) trên mặt phẳng z. Đặc biệt, H(z) có thể viết

H(z) =
N
jk
k
M
i
i
zd
zcA

1
1
1
1
)1(
)1(
(15)
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 17

CNT45DH
GROUP
Khi xét các ZT, ta biết rằng các hệ thống nhân quả có miền hội tụ dạng z > R
1
. Nếu hệ
thống cũng là ổn định thì R
1
phải nhỏ hơn 1 nên miền hội tụ chứa đƣờng tròn đơn vị. Do
vậy, tất cả các cực của H(z) phải nằm trong đƣờng tròn đơn vị đối với hệ thống ổn định
và nhân quả.
Bây giờ ta định nghĩa hai lớp hệ thống bất biến dịch chuyển tuyến tính (Linear
Shift -Invariant). Đó là lớp các hệ thống đáp ứng xung dài hữu hạn (Finite duration
Impulse Response, FIR) và lớp các hệ thống đáp ứng xung dài vô hạn (Infinite duration
Impulse Response, IIR). Các lớp này có các tính chất đặc biệt đƣợc tóm tắt sau đây.
1. Các hệ thống FIR : Nếu tất cả các hệ số a
k
trong (13) bằng 0 thì phƣơng trình sai phân

y(n) =

M
r
r
rnxb
0
)(
(16)
So sánh (16) với định nghĩa tích chập ta thấy
h(n) =
.,00
,0,
Mnn
Mnb
n

Các hệ thống FIR có hai tính chất quan trọng. Đầu tiên, ta lƣu ý là H(z) là đa thức
theo z
-1
và do vậy H(z) chỉ có cực 0, không có cực khác 0. Mặt khác, các hệ thống FIR chỉ
có thể có pha đúng tuyến tính (exactly linear phase). Nếu h(n) thoả mãn
h(n) = ± h(M-n) (17)
thì H(e
j
) có dạng
H(e
j
) = A(e
j
)e
-j (M/2x)


trong đó, A(e
j
) hoặc là thực hoặc thuần ảo phụ thuộc vào việc (17) thoả mãn với dấu +
hoặc dấu - tƣơng ứng.
Khả năng pha đúng tuyến tính thƣờng rất hữu ích trong xử lý tiếng nói vì việc
dóng thời gian chính xác là cốt yếu. Tính chất này của các lọc FIR cũng có thể làm rất
đơn giản bài toán xấp xỉ vì nó chỉ cần để tập trung vào việc xấp xỉ đáp ứng biên độ mong
muốn. Hình phạt phải chịu để thiết kế các lọc có đáp ứng pha đúng tuyến tính là ở chỗ
cần phải kéo dài đáp ứng xung rộng để xấp xỉ tốt các lọc có ngƣỡng chính xác.
Dựa trên các tính chất của lọc FIR pha tuyến tính, ngƣời ta đã phát triển 3
phƣơng pháp thiết kế để xấp xỉ tập hợp các đặc trƣng bất kỳ với lọc FIR, đó là:
1. Thiết kế Windows. 2. Thiết kế mẫu tần số. 3. Thiết kế tối ưu.
Chỉ có phƣơng pháp thứ nhất trong các kỹ thuật này là kỹ thuật thiết kế giải tích, có tập
hợp dạng đóng các phƣơng trình có thể giải đƣợc để nhận đƣợc các hệ số lọc. Các
phƣơng pháp thiết kế thứ hai và thứ ba là các phƣơng pháp tối ƣu dùng cách tiếp cận
bằng lọc để nhận đƣợc lọc mong muốn (chứ không có dạng đóng). Mặc dù phƣơng pháp
Windows dễ áp dụng, phƣơng pháp thứ ba cũng đƣợc dùng nhiều. Điều này một phần
thể hiện ở các nghiên cứu tính chất của các lọc FIR tối ƣu, phần khác là ở nhiều tài liệu
thiết kế chƣơng trình dùng để xấp xỉ các tập hợp các chỉ dẫn mong muốn.

2. Các hệ thống IIR Nếu hàm hệ thống ở (15) có các cực cũng nhƣ có không điểm thì
phƣơng trình sai phân (13) có thể viết là:
y(n) =
N
k
k
knya
1
)(

+
M
r
r
rnxb
0
)(
(13b)
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 18

CNT45DH
GROUP
Đây là một công thức đệ quy có thể sử dụng từng bƣớc để tính các giá trị của dãy cái ra
từ các giá trị quá khứ của nó và từ các giá trị hiện tại và quá khứ của cái vào. Nếu
M < N trong phƣơng trình (15) thì H(z) có thể khai triển thành tổng các phân thức tối giản
H(z) =
N
k
k
k
zd
A
1
1
1
. (15b)
Với các hệ thống nhân quả, có thể chứng minh
h(n) =

N
k
n
kk
nudA
1
)()(

là đáp ứng xung. Nhƣ vậy h(n) có độ dài vô hạn. Tuy nhiên, theo công thức đệ quy (13b),
thƣờng có thể thực hiện một lọc IIR xấp xỉ các chỉ định đã cho hiệu quả hơn (dùng ít tính
toán hơn) so với lọc FIR. Điều này đúng riêng cho các lọc có ngƣỡng chính xác.
Nhiều phƣơng pháp thiết kế có thể dùng cho các lọc IIR. Các phƣơng pháp thiết
kế cho các lọc lựa chọn tần số (thông thấp (lowpass), thông dải (bandpass), v.v )nói
chung là các biến dạng của các thủ tục thiết kế tƣơng tự cổ điển thực hiện trực tiếp. Các
thủ tục này là:
1. Các thiết kế Butterworth (biên độ phẳng cực đại (maximally flat amplitude)).
2. Các thiết kế Bessel (làm chậm nhóm phẳng cực đại (maximally flat group
delay)).
3. Các thiết kế Tsebysev (rì rầm đều (equiripple) hoặc ở thông dải hoặc thông
dừng (stopband)).
4. Các thiết kế Elliptic (rì rầm đều ở cả thông dải và thông dừng).
Tất cả các phƣơng pháp trên có bản chất là giải tích và đều đƣợc dùng rộng rãi
để thiết kế các lọc số IIR. Ngoài ra còn có nhiều phƣơng pháp tối ƣu IIR đã đƣợc xét đến
cho các loại thiết kế gần đúng không thích hợp với một trong những phƣơng pháp nêu
trên.
Điều khác biệt chính giữa các lọc FIR và IIR là ở chỗ các IIR không được thiết kế
để có pha đúng tuyến tính, trong khi FIR có tính chất ấy. Tuy nhiên, lọc IIR thƣờng sắp
xếp biên độ hiệu quả trong việc thực hiện các lọc ngưỡng chính xác (sharp cutoff filter)
hơn là các lọc FIR.


Có sự yển chuyển rõ ràng khi thực hiện các hệ thống IIR. Biểu diễn này thƣờng
đƣợc gọi là thực hiện dạng trực tiếp (direct form implementation). Việc tổng quát cho M và
N tuỳ ý là hiển nhiên. Phƣơng trình sai phân (13b) có thể viết ở nhiều dạng tƣơng đƣơng,
thƣờng dùng là tập hợp các phƣơng trình
w(n) =
N
k
k
knwa
1
)(
+ x(n);
y(n) =
M
r
r
rnwb
0
)(
. (13c)
Tập hợp các phƣơng trình này có thể thực hiện nhƣ ở hình 2.6b có lƣu trữ bộ nhớ cần
thiết để lƣu các giá trị dãy làm chậm.
phƣơng trình (15) chứng tỏ là H(z) có thể biểu diễn nhƣ tích của các cực và các
không điểm. Các cực và các không điểm này xuất hiện trong các cặp số phức liên hợp vì
các hệ số a
k
, b
r
là các số thực. Bằng cách nhóm các cực và không điểm liên hợp phức
vào, có thể biểu diễn H(z) là tích các hàm hệ thống bậc hai sơ cấp

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 19

CNT45DH
GROUP
H(z) =
K
k
kk
kk
zaza
zbzb
A
1
2
2
1
1
2
2
1
1
1
1

trong đó K là phần nguyên của
2
1N
.

Việc khai triển phân thức tối giản (15b) gợi ý một cách tiếp cận khác. Bằng cách gộp các
số hạng chứa các cực liên hợp phức, H(z) có thể viết là
H(z) =
K
k
kk
kk
zaza
zcc
1
2
2
1
1
1
10
1
.
Công thức này gợi ý cách xử lý dạng song song nhƣ vẽ ở hình 2.7b cho N = 4.
Tất cả các cách thực hiện đã nêu đều đƣợc dùng trong Xử LÝ TIếNG NÓI. Nói
chung, với các ứng dụng lọc tuyến tính, dạng xếp chồng (cascade form) thể hiện cách xử
lý cao cấp cho ồn đã gọt dũa (roundoff noise), cho các không chính xác của hệ số và cho
sự ổn định.


BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 20

CNT45DH

GROUP
§4. LẤY MẪU

Để dùng các phƣơng pháp xử lý tín hiệu số trên tín hiệu tƣơng tự nhƣ tiếng nói,
cần biểu diễn tín hiệu là dãy các số. Điều này đƣợc thực hiện bằng cách lấy mẫu tín hiệu
tương tự (sampling the analog signal), ký hiệu là x
a
(t). Mẫu này sinh ra dãy số tuần hoàn
x(n) = x
a
(nT), - < n < (16)
trong đó n chỉ nhận giá trị nguyên. Hình 2.1 cho dạng sóng tiếng nói và tập hợp các mẫu
tƣơng ứng với chu kỳ T = 1/8000 giây.
1. Định lý lấy mẫu (Sampling Theorem): Nếu tín hiệu x
a
(t) có FT giới hạn dải X
a
(j ) mà
X
a
(j ) = 0 khi 2 F
N
, thì x
a
(t) có thể xây dựng lại duy nhất từ các mẫu tuần hoàn
x
a
(nT), - < n < , nếu 1/T > 2F
N
.

Định lý này đƣợc suy ra từ lập luận sau: Nếu FT của x
a
(t)
X
a
(j ) =
()
jt
a
x t e dt

và FT của dãy x(n) xác định ở (5a), ta có: nếu X
a
(e
j
) đƣợc tính cho các tần số = T,
thì X(e
j T
) đƣợc tính từ X
a
(j ) theo công thức (xem A.V. Oppenheim and R.W. Schafer,
Digital Signal Processing, Prentice-Hall, Inc., Englewood Cliffs, N.J., 1975):
X
a
(e
j T
) =
12
()
a

k
X j j k
TT
(17)
Để thấy rõ công thức (17), ta giả sử X
a
(j ) có dạng ở hình 2.8a,giả sử X
a
(j ) = 0 với >
N
= 2 F
N
. Tần số F
N
gọi là tần số Nyquist. Theo (17), X
a
(e
j T
) là tổng của vô hạn các
mẫu của X
a
(j ), mỗi mẫu có tâm tại bội số nguyên lần
2
T
. Hình 2.8b mô tả trƣờng hợp
1/T > 2F
N
mà các ảnh của FT không đè vào thông thấp < 2 F
N
. Hình 2.8c cho trƣờng

hợp 1/T < 2F
N
. Trong trƣờng hợp này, ảnh có tâm tại 2 /T đè vào thông thấp. Điều kiện
này, khi tần số cao có vẻ chiếm phần của tần số thấp, đƣợc gọi là lấy bí danh (aliasing).
Rõ ràng có thể tránh đƣợc việc lấy bí danh nếu FT giới hạn dải và nếu tần số mẫu (1/T)
bàng ít nhất là 2 lần tần số Nyquist (1/T > 2F
N
).

Với điều kiện 1/T > 2F
N
thì FT của dãy các mẫu tỉ lệ với FT của tín hiệu tƣơng tự
trong dải cơ sở,
X
a
(e
j T
) =
1
()
a
k
Xj
T
, <
T
.
Sử dụng kết quả này có thể chứng minh rằng tín hiệu gốc có thể liên quan đến dãy các
mẫu bằng công thức nội suy
x

a
(t) =
sin[ ( )
()
( )/
a
n
t nT T
x nT
t nT T
(18)
Nhƣ vậy, các mẫu của tín hiệu tƣơng tự giới hạn dải lấy tại tỉ lệ ít nhất 2 lần tần số
Nyquist đã cho, có thể dùng để xây dựng lại tín hiệu tƣơng tự gốc theo công thức (18).
Các máy chuyển đổi số thành tƣơng tự (Digital - to - Analog Converter, DAC) đèu tìm
cách xấp xỉ (18).
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 21

CNT45DH
GROUP
2. Cắt bỏ (decimation) và thêm vào (interpolation) các dạng sóng mẫu: ở nhiều ví dụ sẽ
xét, ta phải thay đổi tỉ lệ mẫu của tín hiệu thời gian rời rạc. Chẳng hạn, khi tiếng nói là
mẫu dùng lƣợng tử vi phân 1-bit tại tỷ lệ mẫu cao (điều biến delta) đƣợc chuyển thành
biểu diễn điều biến mã xung (Pulse Code Modulation, PCM) đa bit ở tỷ lệ mẫu thấp, lúc
đó phải giảm tỉ lệ mẫu. Trái lại, khi tham số nào đó của tín hiệu tiếng nói là mẫu ở tỉ lệ
thấp cho mã hoá hiệu quả và sau đó phải dùng tỉ lệ cao để xây dựng lại tín hiệu, lúc đó
phải tăng tỉ lệ mẫu. Quá trình tăng và giảm tỉ lệ mẫu nhƣ vậy gọi là cắt bỏ và thêm vào.
Khi nói về cả hai trƣờng hợp, giả sử ta có dãy các mẫu
x(n) = x

a
(nT), (19)
ở đây hàm tƣơng tự x
a
(t) có FT giới hạn dải mà X
a
(j ) = 0 khi > 2 F
N
. Khi đó, theo
định lý lấy mẫu, nếu 1/T > 2F
N
thì FT của x(n) thoả mãn
X(e
j T
) =
1
()
a
Xj
T
, <
T
.
2a. Cắt bỏ Giả sử ta muốn rút gọn tỉ lệ mẫu bằng nhân tử M,ta muốn tính một
dãy mới ứng với các mẫu của x
a
(t) lấy với chu kỳ T' = MT, .
x(n) = x
a
(nT') = x

a
(nTM).
Theo (19)
x(n) = x(Mn), - ∞ < n < ∞.
Đó là x(n) nhận đƣợc đơn giản bằng cách giữ tuần hoàn chỉ một cái ra của mỗi mẫu M.
Theo định lý lấy mẫu, nếu 1/T' > 2F
N
thì các mẫu x(n) cũng đủ để biểu diễn duy nhất tín
hiệu tƣơng tự nguyên mẫu. Biến đổi FT của x(n) và y(n) liên quan với nhau bằng biểu
thức
Y(e
j T
) =
( ' 2 )
1
0
1
()
j T k
M
M
k
Xe
M
(20)
Từ (20) có thể thấy là để không có các ảnh của X(e
j t
) đè lên nhau, ta phải có 1/T' > 2F
N
.

Nếu điều kiện này thoả mãn thì
Y(e
j T
) =
'
1
()
jT
M
Xe
M
=
11
()
a
Xj
MT
=
1
()
'
a
Xj
T
, -
'T
< <
'T
.


2b. Thêm vào: Giả sử có các mẫu dạng sóng tƣơng tự x(n) = x
a
(nT). Nếu ta muốn
tăng tỉ lệ mẫu bằng một nhân tử nguyên L thì ta phải tính dãy mới tƣơng ứng với các mẫu
của x
a
(t) lấy với chu kỳ T' = T/L, .
x(n) = x
a
(nT') = x
a
(nT/L) (21)
Rõ ràng x(n) = x(n/L) với n = 0, L, 2L, , nhƣng ta phải điền vào các mẫu chƣa biết cho
mọi giá trị khác của n bằng quá trình thêm vào. Để biết cách làm bằng cách dùng lọc số,
ta xét dãy
v(n) =
n khac
n
x( ) n 0, L, 2L,
L
0

FT của v(n) là
V(e
j T'
) = X(e
j T' L
) = X(e
j T
).

Vậy V(e
j T'
) tuần hoàn với chu kỳ 2 /T = 2 /(LT'), cũng nhƣ với chu kỳ 2 /T' trong trƣờng
hợp tổng quát cho các dãy liên hợp có chu kỳ mẫu T'.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 22

CNT45DH
GROUP

Hệ thống thêm vào tổng quát vẽ ở hình 2.4.

x(n) v(n) y(n)


Hình 2.4. Sơ đồ khối biểu diễn việc thêm vào.

2c. Các thay đổi tỷ lệ mẫu không nguyên: Dễ thấy là các mẫu ứng với chu kỳ mẫu
T' = MT/L có thể nhận đƣợc bằng cách tổ hợp thêm vào nhân tử L sau đó cắt bỏ nhân tử
M. Bằng cách chọn các số nguyên M và L thích hợp, ta có thể thực hiện bất cứ tỷ lệ mẫu
nào. Tổ hợp các hình 2.4 và 2.5 ta thấy lọc thông thấp đơn là đủ để thực hiện cả hai lọc
thêm vào và cắt bỏ. Điều này biểu diễn:

x(n) y(n)



2d. Ưu điểm của các lọc FIR Một chú ý rất quan trọng trong việc thực hiện cắt bỏ và
thêm vào là chọn kiểu của lọc thông thấp. Với các hệ thống này, việc tiết kiệm đáng kể

trong tính toán trên các kiểu lọc có thể có đƣợc bằng cách dùng các lọc đáp ứng xung
hữu hạn FIR. Việc tiết kiệm trong tính toán là do ngƣời ta thấy rằng khi cắt bỏ chỉ cần tính
toán một mẫu M cái ra, còn khi thêm vào thì L-1 cái ra của mỗi L mẫu bằng không nên
không tác động đến việc tính toán.
TĂNG TỶ LỆ
MẪU BỞI L


LỌC
THÔNG
THẤP
TĂNG TỶ
LỆ MẪU
BỞI L


LỌC
THÔNG
THẤP


GIẢM TỶ
LỆ MẪU
BỞI M


BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 23


CNT45DH
GROUP
CHƯƠNG 3
CÁC MÔ HÌNH SỐ CHO TÍN HIỆU TIẾNG NÓI

§1. NHẬP MÔN

Để áp dụng các kỹ thuật xử lý tín hiệu số vào các bài toán truyền tiếng nói, phải
hiểu thực chất của việc tạo, xử lý cũng nhƣ cơ sở của xử lý tín hiệu số. Chƣơng này xét
khái quát về lý thuyết âm học của việc tạo tiếng nói và đƣa ra cách biểu diễn trong lý
thuyết này. Đặc biệt, ta sẽ chú trọng việc lập các mô hình thời gian rời rạc (thời gian rời
rạc) để biểu diễn các tín hiệu mẫu. Các mô hình này đƣợc dùng làm cơ sở cho việc áp
dụng các kỹ thuật xử lý số.
Chƣơng này đóng vai trò tƣơng tự nhƣ chƣơng 2, dùng làm tổng quan các kiến
thức cần có. Việc nghiên cứu âm học tạo ra tiếng nói đƣợc bắt đầu từ những năm 70 của
thế kỷ trƣớc. Có một số tài liệu nói chi tiết hơn về nội dung của chƣơng, đặc biệt là
[1] G. Fant, Acoustic Theory of Speech Production, Mouton, The Hague, 1970.
[2] J. L. Flanagan, Speech Analysis, Synthesis & Perception, 2nd Ed. Springer - Verlag,
New York, 1972.
Sách của Fant đầu tiên nghiên cứu âm học tạo ra tiếng nói và có dữ liệu phong
phú về đo đạc và mô hình của hệ thống âm. Sách của Flanagan có phạm vi rộng hơn,
chứa các mô hình vật lý về quá trình tạo ra và cách các mô hình này đƣợc sử dụng để
biểu diễn và xử lý các tín hiệu. Các tài liệu này là cần thiết cho các sinh viên học cẩn thận
môn học truyền tiếng nói.
Trƣớc khi nghiên cứu lý thuyết âm học và các mô hình toán học cần thiết cho việc
tạo ra tiếng nói, ta cần phải xét các kiểu âm khác nhau tạo ra tiếng nói của con ngƣời. Do
vậy, chƣơng này bắt đầu bằng nhập môn ngắn gọn vào việc phát âm, dƣới dạng tổng kết
các âm vị của tiếng Anh Mỹ và thảo luận về vị trí và cách thức phát âm cho mỗi lớp âm vị
(phoneme) chính. Sau đó xét đến cơ sở của lý thuyết âm học tạo tiếng nói. Các mục
đƣợc xét đến bao gồm việc âm thanh đƣợc lan truyền trong bộ máy phát âm (vocal tract),

các tương tự đường truyền (transmission line analogues) và biểu hiện trạng thái vững
chắc của Hệ thống phát âm trong việc tạo ra âm kéo dài đơn. Lý thuyết này tạo cơ sở cho
cách xem xét cổ điển mô hình tín hiệu nhƣ cái ra của Hệ thống tuyến tính thay đổi theo
thời gian (bộ máy phát âm) bị kích thích bởi tiếng ồn ngẫu nhiên hoặc dãy gần tuần hoàn
(quasi - periodic) các xung. Cách tiếp cận này đƣợc dùng để nhận đƣợc các mô hình thời
gian rời rạc cho các tín hiệu. Các mô hình này đƣợc chứng minh là đúng theo lý thuyết
âm học và đƣợc phát biểu theo các nguyên lý lọc số, dùng làm cơ sở để thảo luận về các
kỹ thuật xử lý.

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 24

CNT45DH
GROUP
§2. QUÁ TRÌNH TẠO TIẾNG NÓI

Các tín hiệu tiếng nói là tập hợp của dãy các âm. Các âm này và các chuyển
giọng (transitions) giữa chúng dùng làm biểu diễn ký hiệu thông tin. Việc sắp xếp các âm
(các ký hiệu) này tuân theo các quy tắc của ngôn ngữ. Nghiên cứu các quy tắc này và sử
dụng chúng trong thông tin là lĩnh vực ngôn ngữ học (linguistics). Việc nghiên cứu và
phân loại các âm của ngôn ngữ gọi là ngữ âm học (phonetics). Ta sẽ không xét chi tiết về
ngữ âm và ngôn ngữ học. Tuy nhiên, việc xử lý các tín hiệu ngôn ngữ để tăng cƣờng và
trích xuất thông tin là điều cần xét để có kiến thức về cấu trúc của ký hiệu,về cách thông
tin đƣợc mã hoá thành ký hiệu. Nhƣ vậy, phải thảo luận về các lớp chính của âm trƣớc
khi xem xét chi tiết các mô hình toán học của việc tạo ra các tín hiệu. Đó là tất cả những
điều ta sẽ xét về ngữ âm học và ngôn ngữ, nhƣng nhƣ vậy không có nghĩa là ta sẽ làm
nhỏ đi tầm quan trọng của chúng, đặc biệt là ở các lĩnh vực nhận biết (recognition) và
tổng hợp (synthetics) tiếng nói.
2.1. Cơ chế tạo tiếng nói (The mechanism of speech production): Hình 3.1 là ảnh X

quang trình bày các nét quan trọng của Hệ thống phát âm (vocal system) của con ngƣời.
Bộ máy phát âm (vocal tract) chỉ ra bằng hình nét đứt ở hình, bắt đầu tại khe hở giữa các
dây thanh âm, hay thanh môn (glottis), và kết thúc ở môi (lips). Nhƣ vậy, bộ máy phát âm
bao gồm cổ họng (pharynx), nối từ thực quản (oesophagus) đến miệng (mouth), hay
khoang miệng (mouth cavity). ở ngƣời đàn ông trung bình, độ dài của bộ máy phát âm
chừng 17 cm. Diện tích mặt cắt ngang (cross-sectional) của bộ máy phát âm, xác định bởi
lƣỡi, môi, hàm và vòm miệng mềm (velum) thay đổi từ 0 (hoàn toàn đóng) đến khoảng 20
cm
2
. Bộ máy mũi (nasal tract) bắt đầu ở vòm miệng mềm đến các lỗ mũi (nostril). Khi vòm
miệng mềm hạ xuống, bộ máy mũi gắn về mặt âm học với bộ máy phát âm tạo ra các âm
mũi (nasal) của tiếng nói.


Hình 3. 1. ảnh X quang bộ máy phát âm

Trong việc nghiên cứu các quá trình tạo tiếng nói, ngƣời ta đã trừu tƣợng các nét
quan trọng của hệ thống vật lý để đƣa đến mô hình toán học thực tế và dễ xử lý. Bộ máy
dƣới thanh môn này coi nhƣ là nguồn năng lƣợng để tạo ra tiếng nói. tiếng nói coi đơn
giản là sóng âm đƣợc phát ra từ hệ thống này khi không khí bị tống ra từ phổi và dòng kết
quả của không khí đƣợc xáo trộn bởi việc thắt lại ở một chỗ nào đó của bộ máy phát âm.
BÀI GIẢNG XỬ LÝ TIẾNG NÓI

CAO QUYẾT THẮNG Trang 25

CNT45DH
GROUP
Các nét chung của dạng sóng này có thể giải thích dễ dàng bằng cách xét chi tiết hơn cơ
cấu tạo âm.


Âm tiếng nói có thể phân loại thành 3 lớp khác nhau theo cách kích thích (mode of
excitation). Các âm hữu thanh (âm kêu, voiced sound) đƣợc tạo ra bằng cách ép buộc
không khí đi qua thanh môn với dây thanh âm căng đến mức chúng rung động ở dạng
dao động dừng, do vậy tạo ra các xung gần tuần hoàn của không khí kích thích bộ máy
phát âm. Các âm vô thanh (âm xát hay âm điếc, fricative or unvoiced sound) đƣợc tạo ra
do việc thắt lại ở một số điểm trong bộ máy phát âm (thƣờng là ở cuối miệng) và bắt
không khí qua chỗ hẹp ở tốc độ đủ cao để tạo ra sự náo động. Điều này tạo ra nguồn ồn
phổ rộng (broad-spectrum noice source) để kích thích bộ máy phát âm.
Theo Từ điển Tiếng Việt thì âm hữu thanh là âm mà trong quá trình tạo âm có sự
tham gia của dây thanh âm (các dây thanh âm rung lên đều đặn khi phát âm). Ví dụ các
âm b, đ, g, là các phụ âm hữu thanh. Các âm vô thanh là các âm mà trong quá trình tạo
âm không có sự tham gia của dây thanh âm (các dây thanh âm không rung lên khi phát
âm). Ví dụ các âm p, t, k, là các phụ âm vô thanh.
Các âm bật (plosive sound) là kết quả của việc tạo ra bao đóng hoàn toàn (thƣờng
là ở phía trƣớc của bộ máy phát âm), gây nên áp lực sau bao đóng và bất ngờ làm thoát
ra. Việc bật xảy ra khi tạo âm t∫ . Chú ý chỗ trống (gap, vùng biên độ rất nhỏ) đi trƣớc
tiếng nổ của dạng sóng nhƣ tiếng ồn. Chỗ trống này tƣơng ứng với thời điểm đóng hoàn
toàn của bộ máy phát âm.
Bộ máy phát âm và bộ máy mũi nhƣ các ống có diện tích mặt cắt ngang không
đều. Âm truyền xuống các ống này có phổ tần số hình thành bởi độ chọn lọc tần số của
ống. Điều này rất giống với việc cộng hưởng (resonance) ở các đàn ống hoặc nhạc khí
thổi. Khi tạo ra tiếng nói, các tần số cộng hưởng (resonance frequency) của bộ máy phát
âm đƣợc gọi là các tần số tăng cường (formant frequency) hay gọi đơn giản là các tăng
cường (formant). Các tăng cƣờng phụ thuộc vào hình dạng và các kích thƣớc của bộ máy
phát âm; mỗi hình dạng đƣợc đặc trƣng bởi một tập hợp các tần số tăng cƣờng. Các âm
khác nhau đƣợc tại ra bằng cách thay đổi hình dạng của bộ máy phát âm. Nhƣ vậy, các
tính chất phổ của tín hiệu tiếng nói thay đổi theo thời gian cũng nhƣ các thay đổi hình
dạng của bộ máy phát âm.
Các đặc trƣng phổ thay đổi theo thời gian của tín hiệu tiếng nói có thể biểu diễn
đồ thị bằng cách dùng các máy ghi phổ âm (Sound Spectrograph). Máy này tạo ra mẫu 2

chiều gọi là ảnh phổ (Spectrogram), trong đó chiều đứng tƣơng ứng với tần số còn chiều
ngang là thời gian. Phần thẫm mầu của mẫu tỷ lệ với năng lƣợng của tín hiệu. Nhƣ vậy
các tần số cộng hƣởng của bộ máy phát âm thể hiện ở các dải đậm của ảnh phổ. Các
vùng hữu thanh đƣợc đặc trƣng bởi đƣờng sọc dọc theo tuần hoàn của dạng sóng theo
thời gian, còn các khoảng âm vô thanh đƣợc tô màu dày hơn.
Đã từ lâu ảnh phổ của âm là công cụ chủ yếu trong nghiên cứu tiếng nói và mặc
dù có các biểu diễn mềm dẻo hơn của kỹ thuật Xử lý tín hiệu số, các nguyên tắc cơ bản
của nó vẫn còn đƣợc sử dụng rộng rãi. Một cuốn sách có từ lâu nhƣng vẫn còn hữu ích,
nói về cách biểu diễn ảnh phổ của tiếng nói là tiếng nói nhìn thấy được (Visible Speech)
của các tác giả R.K. Potter, G.A. Kopp và H.C. Green, nhà xuất bản D. Van Nostrand Co.
New York 1947 và đƣợc tái bản năm 1966 ở nhà xuất bản Dover Publications Inc. Cuốn

×