ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
BỘ MÔN CÔNG NGHỆ TRI THỨC
LUẬN VĂN TỐT NGHIỆP
CỬ NHÂN CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨU
CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT
ÁP DỤNG VÀO NHẬN DẠNG
TIẾNG NÓI TIẾNG VIỆT
Giáo viênhướng dẫn:
Th.S Thái Hùng Văn
Sinh viên thực hiện:
Đỗ Xuân Đạt –9912540
Võ Văn Tuấn –9912737
Thành phố Hồ Chí Minh, tháng 7 năm 2003
i
LờiCảmƠn
Hoàn thành luận văn này, chúng em xin chân thành cảm
ơn thầy Thái Hùng Văn ñã trực tiếp hướng dẫn và tạo ñiều kiện
cho chúng em tiếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh
vực vô cùng lý thú.
Chúng em xin gởi lời cảm ơn ñến các thầy cô trong
trường, ñặc biệt là các thầy cô bộ môn Công Nghệ Tri Thức, và
thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật ñã truyền ñạt
cho chúng em nhiều kiến thức bổ ích.
Chúng tôi cũng không thể không nhắc ñến sự ñộng viên
chăm sóc của gia ñình, sự cộng tác giúp ñỡ và ủng hộ tinh thần
của bạn bè, ñặc biệt là bạn Nguyễn Tấn Dũng và anh Đặng
Hoàng Vũ. Chúng tôi xin ghi ơn tất cả.
Thành phố Hồ Chí Minh, tháng 7 năm 2003.
Đỗ Xuân Đạt-Võ Văn Tuấn
ii
LờiGiớiThiệu
Trong quá trính tiến hoá, con người ñã trở thành ñộng vật mạnh nhất, cao
cấp nhất nhờ vào hai thứ: lao ñộng và tiếng nói. Lao ñộng tạo ra tư duyvà tiếng
nói giúp con người kết hợp với nhau. Cùng với thời gian, các phương tiện giao
tiếp-thông tin của con người ñã phát triển rất phong phú ña dạng. Tuy nhiên, dù
ña dạng ñến ñâu cũng không thể thay thế ñược vai trò của tiếng nói. Tiếng nói là
một phương tiện giao tiếp ñặc biệt hiệu quả và cực kỳ phổ dụng, là một chức năng
vô cùng quý giá của con người [L.V.Lợi-99]. Sự phát triển vượt bậc của con người
chính là nhờ ở tốc ñộ và khả năng giao tiếp phong phú của tiếng nói.
Ngày nay, nhờ sự phát triển củakhoa học kỹ thuật, máy móc dần dần thay
thế các lao ñộng tay chân. Tuy nhiên ñể ñiều khiển máy móc, con người phải làm
khá nhiều thao tác tốn nhiều thời gian và cần phải ñược ñào tạo. Điều này gây trở
ngại không ít ñối với việc sử dụng các máy móc, thànhtựu khoa học kỹ thuật.
Chúng ta hãy tưởng tượng trong nhà có một người máy giúp việc. Khi ta muốn
người máy làm việc, ta phải lục tìm ñĩa chương trình tương ứng, phải nạp chương
trình, … phải chạy lăng xăng làm một danh sách các công việc trong khi lúc ñóta
ñang ngồi bên bàn làm việc, ñang phải tập trung suy nghĩ vào một vấn ñề cần giải
quyết. Và ta hãy tưởng tượng xem nếu người máy ñó “nghe hiểu” ñược những gì
ta nói. Lúc ñó ta chỉ cần “nhờ vả” một câu, mọi việc sẽ trở nên dễ dàng!
Đi tìm giải pháp giúpcho máy có thể “nghe hiểu” ñược, con người ñã bước
vào lĩnh vực nhận dạng tiếng nói. Hơn nửa thế kỷ trôi qua, con người ñã thu ñược
những thành tựu ñáng kể, có những ứng dụng khá hữu ích vào ñời sống. Nhưng dù
sao, khả năng “nghe hiểu” của máy vẫn còn mộtkhoảng cách khá xa so với thực
tế. Mặt khác, các hệ thống nhân dạng hiện nay cũng chỉ ñược phát triển tương ñối
tốt ñối với một số ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Hoa,… Còn ñối với
nước ta, nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ. Đến nay tuy
cũng ñã ñạt ñược một số thành tựu và ñã có những ứng dụng nhất ñịnh, nhưng
nhìn chung, nhận dạng tiếng Việt vẫn chưa ñạt ñược kết quả cần thiết ñể có thể tạo
ra một sản phẩm thực tế hoàn chỉnh. Khó khăn nằm ở tính phức tạp của vấn ñề và
mức ñộñầu tư cũng như kế thừa chưa cao. Các nghiên cứu chủ yếu vẫn là nhận
iii
dạng tiếng nói chung chung chứ chưa có nhiều phân tích kỹ các ñặc tính riêng của
tiếng Việt. Các hệ nhận dạng trước ñây hầu hết không phân biệt ñược từ ñồng âm
như: a, á, à, ả,ã, ạ… Hơnnữa kích thước từ ñiển (số từ nhận biết ñược) còn nhỏ,
thời gian học mẫu khá lâu, và nhận dạng mang tính phụ thuộc người nói khá cao.
Vấn ñề còn khó khăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.Văn-
00]. Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thống
các ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật
lý học, toán học, âm học, tâm lý học, lý thuyết thông tin và truyền tin… và dĩ
nhiên có cả công nghệ thông tin.
Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chế
trên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiều
ñặc trưng âm học tiếng Việt hơn, từ ñó dùng nhiều ñặc trưng hơn ñể nhận dạng
giúp nâng cao ñộ chính xác và phân biệt ñược các từ ñồng âm góp phần nâng kích
thước từ ñiển lên lớn hơn.
Nội dung luận văn ñược trình bày thành các chương như sau:
Chương 1: Tiếng nói và ngữ âm tiếng Việt. Chương thứ nhất tóm tắt về
tiếng nói và trình bày một số ñặc ñiểm ngữ âm tiếng Việt. Trong số ñó, luận văn
quan tâm nhiều ñến thanh ñiệu, là ñặc ñiểm khác biệt của tiếng Việt so với nhiều
ngôn ngữ khác.
Chương 2: Xử lý tín hiệu số -phân tích tiếng nói: Trình bày một số kiến
thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói.
Chương 3: Nhận dạng tiếng nói. Chương này mô tả một hệ nhận dạng
tiếng nói tổng quát, và ñi cụ thể vào hệ nhận dạng tiếng nói sử dụng mô hình
Markov ẩn liên tục.
Chương 4: Một số khảo sát về thanh ñiệu tiếng Việt. Đây là các khảo sát
của người viết về thanh ñiệu tiếng Việt. Kết quả khảo sát sẽ ñược kết hợp, so sánh
với các nghiên cứu về ngữ âm tiếng Việt trước ñây ñể rút ra các ñặc ñiểm ngữ âm
tiếng Việt, làm cơ sở cho việc xây dựng một hệ nhận dạng tiếng Việt theo mô tả
của luận văn.
Chương 5: Xây dựng môhình nhận dạng thanh ñiệu tiếng Việt. Nhận
dạng thanh ñiệu là bước ñầu tiên ứng dụng các nghiên cứu nói trên vào một hệ
iv
nhận dạng tiếng Việt của luận văn. Bắt ñầu từ ñặc tính ñặc trưng của tiếng Việt là
thanh ñiệu.
Chương 6: Thiết kế mô hình nhận dạng tiếng Việt. Phần này là thiết kế
của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh. Ứng dụng mô ñun nhận
dạng thanh ñiệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh.
Chương 7: Hiện thực hoá mô hình nhận dạng tiếng Việt. Chương cuối
cùng là các cài ñặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt.
Phần phụ lục 1: giới thiệu về một số ñặc ñiểm ngữ âm tiếng Việt. Trong
ñó, luận văn chú ý nhiều ñến ñặc ñiểm thanh ñiệu ñược dùng ñể ứng dụng trong
phân lớp tiếng Việt.
Phần phụ lục 2: Giới thiệu vai trò củatần số cơ bản trong tiếng nói và một
số phương pháp rút trích tần số cơ bản.
v
Mục Lục
Lời Cảm Ơn i
Lời Giới Thiệu ii
Mục Lục v
Chương 1.Tiếng nói và ngữ âm tiếng Việt 1
1.1.Giới thiệu tiếng nói 1
1.1.1.Sự phân bố về biên ñộ 1
1.1.2.Sự phân bố về tần số 2
1.1.3.Sự biến ñổicác tần số cơ bản 2
1.1.4.Tỷ số tiếng nói 2
1.2.Ngữ âm tiếng Việt (Tham khảo phụ lục 1) 2
1.2.1.Thanh ñiệu 2
1.2.2.Âm vị 3
1.2.3.Trường ñộ 3
Chương 2.Xử lý tín hiệu số -phân tích tín hiệu tiếng nói 7
2.1.Xử lý tín hiệu số 7
2.1.1.Lấy mẫu tín hiệu 7
Hàm lấy mẫu: 7
2.1.1.1.Phổ của các tín hiệu ñược lấy mẫu 8
2.1.1.2.Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín
hiệu liên tục theo thời gian thời gian 9
2.1.2.Dãy xung 10
2.1.3.Biến ñổi Fourier rời rạc 11
2.1.3.1.Biến ñổi Fourier rời rạc 12
vi
2.1.3.2.Biến ñổi Fourier nhanh 13
2.1.4.Biến ñổi cosin rời rạc 13
2.1.5.Các bộ lọc 14
2.1.6.Cửa sổ tín hiệu 15
2.2.Phân tích tín hiệu tiếng nói 20
2.2.1.Phương pháp dãy bộ lọc 20
2.2.2.Trích ñặc trưng MFCC 28
2.2.3.Phương pháp mã hóa dự báo tuyến tính (LPC) 32
2.2.3.1.Làm rõ tín hiệu 34
2.2.3.2.Phân ñoạn thành các frame 34
2.2.3.3.Lấy cửa sổ 35
2.2.3.4.Phân tích tự tương quan 36
2.2.3.5.Phân tích LPC 36
2.2.3.6.Chuyển các hệ số LPC thành các hệ số cepstral 37
2.2.3.7. Đặt trọng số cho các hệ số cepstral 37
2.3.Phát hiện chu kỳ tiếng nói–phương pháp tìm tần số cơ bản (Tham
khảo phụ lục 2) 38
2.3.1.Các kỹ thuật theo miền thời gian 39
2.3.2.Các kỹ thuật phân tích phổ hữu hạn 39
2.3.3.Mô tả tín hiệu 40
2.3.3.1.Tiếng nói thô 40
2.3.3.2.Lỗi dự báo tuyến tính 40
2.3.4.Một số phương pháp cài ñặt các kỹ thuậttrích F0: 41
2.3.4.1.Phương pháp dùng cepstral: 41
2.3.4.2.Phương pháp tự tương quan: 41
2.3.4.3.Phương pháp CLIP (center clipping pitch detector) 42
vii
2.3.4.4.Phương pháp SIFT (Simplified Inverse Filter Tracking)43
2.3.4.5.Hàm AMDF (Average Magnitude Difference Function)43
2.3.4.6.Phương pháp so khớp biên ñộ 43
Chương 3.Nhận dạng tiếng nói 46
3.1.Tổng quan một hệ nhận dạng: 46
3.2.Tổng quan một hệ nhận dạng tiếng nói: 46
3.3.Những thuận lợi và khó khăn của nhận dạng tiếng nói: 49
3.4.Nhận dạng tiếng nói sử dụng mô hình Markov ẩn 50
3.4.1.Mô hình Markov ẩn và các bài toán cần giải quyết: 50
3.4.1.1.Giải quyết bài toán thứ nhất: 51
3.4.1.2.Giải quyết bài toán thứ hai: 52
3.4.1.3.Giải quyết bài toán thứ ba: 52
3.4.2.Mô hình Markov ẩn liên tục (CDHMM-Continuous Densities
Hidden Markov Model) 55
Chương 4.Một số khảo sát về thanh ñiệu tiếng Việt 59
4.1.Thanh 1 (Thanh ngang) 59
4.2.Thanh 2 (Thanh huyền) 60
4.3.Thanh 3 (Thanh ngã) 61
4.4.Thanh 4 (Thanh hỏi) 63
4.5.Thanh 5 (Thanh sắc) 64
4.6.Thanh 6 (Thanh nặng) 66
Chương 5.Xây dựng môhình nhận dạng thanh ñiệu tiếng Việt 66
5.1.Tiền xử lý 66
5.2.Trích F0 từ tín hiệu tiếng nói (pitch extraction) 69
5.3.Tạo vector ñặc trưng từ vector V(F0) 71
5.4.Huấn luyện cho mô hình 72
viii
5.5.Nhậndạng 73
5.6.Một số kết quả nhận dạng thanh ñiệu tiếng Việt 74
Chương 6.Thiết kế mô hình nhận dạng tiếng nói tiếng Việt 77
6.1.Công ñoạn huấn luyện 77
6.2.Công ñoạn nhận dạng 79
Chương 7.Hiện thựchoá mô hình nhận dạng tiếng Việt 80
7.1.Nhận dạng tiếng ñơn 80
7.2.Nhận dạng câu 82
Chương 8.Kết luận 84
8.1.Kết luận 84
8.2.Hướng phát triển: 85
Tài liệu tham khảo 86
Phụ lục 1: Ngữ âm tiếng Việt 87
Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tầnsố cơ .100
1
Chương 1. Tiếng nói và ngữ âm tiếng Việt
1.1.Gii thiu ting nói
Tiếng nói là một loại sóng âm. Khi ta nói, tiếng nói ñược truyền ñi mang
theo thông tin dưới dạng các dao ñộng cùng phương truyền ñến tai người nhận.
Mức ñộ truyền tin của tiếng nói ñược xem là nhanh nhất trong các khả năng tự
nhiên của con người.
Khác với sách báo, thư tín… chỉ tryền tin một chiều, tiếng nói giúp ta
truyền tin cả hai chiều. Sách báo giúp ta ghi lại thông tin ñể sau này ñọc lại, nhưng
tiếng nói giúp ta thể hiện bản thân hơn. Thông qua cách nói chuyện, khả năng ứng
xử, ta có thể ñánh giá ñược trình ñộ và nhân cách của môt người. Tiếng nói là
phương tiện truyền tin nhanh nhất và hiệu quả nhất của con người.
Tiếng nói có rất nhiều ñặc tính:
Đặc tínhcủa sóng âm gồm các ñặc tính sinh lý, vật lý như: cường
ñộ, tần số, biên ñộ, năng lượng, âm sắc, ñộ cao, ñộ to…
Đặc tính xã hội như: ngữ ñiệu, sắc thái tình cảm, ñịa phương…
Số từ ñược sử dụng thường xuyên trong giao tiếp hằng ngày của một người
dao ñộngtrong khoảng từ 2000 ñến 3000 từ. Số từ người ta sử dụng trung bình
khoảng 5000 ñến 10000 từ. [5]
Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu ñến
tần số, biên ñộ (hay năng lượng). Tiếng nói có miền tần số cơ bản nằm trong
khoảng80–8000 Hz. [11]
1.1.1.Sự phân bố về biên ñộ
Khi thống kê với khoảng 80 người (4 người/ ngôn ngữ), người ta nhận
thấy rằng biên ñộ tối ña ñạt ñược của một tiếng nói có thể lớn hơn 50dB [5].
Trong một chuỗi tiếng nói, biên ñộ tiếng nói sẽ phân bố liên tục theodạng hình
sin.
2
1.1.2.Sự phân bố về tần số
Khi phát âm các từ với tần số từ thấp ñến cao, người ta thấy rằng việc tăng
dần tần số gắn liền với việc giảm dần biên ñộ. Thực nghiệm cho thấy với nam
cũng như nữ, phổ tiếng nói của chúng ta theo tần số là một ñường cong có ñộ dốc
khoảng -10dB/Octave.
1.1.3.Sự biến ñổi các tần số cơ bản
Thống kê theo thời gian về sự biến ñổi các tần số trong giọng nói con người
cho thấy giá trị trung bình và ñộ lệch tần số cơ bản trong giọng nói nữ thường gấp
ñôi nam.
Quá trình khảo sát cũng cho thấy 18% trong số các biến ñổi về tần số cơ
bản là biến ñổi tăng, và 50% là giảm. Người ta cũng nhận thấy trong chuỗi tiếng
nói của con người, các khoảng lặng chèn vào giữa các từ có tác dụng làm cho
tiếng nói của chúng ta ngheêm hơn, và tần số của chúng ổn ñịnh trong miền có ñộ
biến thiên khoảng 10 Hz.
1.1.4.Tỷ số tiếng nói
Trong chuỗi tiếng nói của chúng ta, có thể dễ dàng nhận thấy ngoại trừ các
tiếng, còn có các khoảng trống ñược chèn vào, và tỷ số giữa ñoạn có tiếng nói thực
sự so với khoảng thời gian tổng cộng của chuỗi âm ñược gọi là tỷ số tiếng nói.
Thực nghiệm chứng minh khi chúng ta tăng tốc ñộ nói thì khoảng trống
giữa các tiếng bị giảm nhiều. Và ngược lại, khi giảm tốc ñộ nói thì các khoảng
trống giữa các từ bị dài ra.
1.2.Ng âm ting Vit (Tham kho ph lc 1)
1.2.1.Thanh ñiệu
Thanh ñiệu là ñặc tính ñặc trưng của tiếng Việt nói riêng và các ngôn ngữ
có thanh ñiệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…
Thanh ñiệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân
biệt các từ ñồng âm. Đây là ñặc ñiểm mà ña số các hệ nhận dạng tiếng Việt trước
ñây chưa xử lý.
3
Trong tiếng Việt, thanh ñiệu cũng là một ñặc ñiểm mang ñậm tính ñịa
phương. Tổng cộng có 6 thanh, nhưng tuỳ vào từng ñịa phương mà số lượng thanh
ñiệu tiếng Việtcó thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lại
với nhau.
Người ta phân biệt thanh ñiệu dựa vào 2 yếu tố: âm ñiệu và âm vực.
Âm ñiệu là sự thay ñổi tần số cơ bản của thanh ñiệu, hay ñường nét
của thanh ñiệu.
Âm vực: là miền giá trị của tần số cơ bản.
1.2.2.Âm vị
Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều
từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan ñiểm ngữ âm, âm vị ñược xem
là ñơn vị nhỏ nhất của tiếng nói.
Âm vị gồm 2 loại chính: nguyên âm và phụ âm.
Nguyên âmlà các âm mà khi phát âm, luồng không khí ñi ra không
bị cản trở.
Phụ âm là các âm mà luồng không khí khi ñi ra bị cản trở ở một số
bộ phận của bộ máy phát âm.
Ngoài ra, người ta còn chia một dạng âm vị nữa như một bán nguyên âm,
khi sự cản trở luồng khôngkhí là không ñáng kể. Các bán nguyên âm có ñặc ñiểm
gần như nguyên âm nhưng thường chỉ ñi kèm, và bản thân không tạo thành âm tiết
ñược.
Các nguyên âm và phụ âm riêng biệt lại ñược chia thành nhiều nhóm nhỏ
dựa vào các ñặc ñiểm vật lý, sinh học, hay vị trí và cách thức phát âm của bộ máy
phát âm.
1.2.3.Trường ñộ
Trường ñộ tiếng nói là thời gian phát âm một tiếng. Xét ñến trường ñộ sẽ
liên quan ñến tính tắc–xát, hệ thống âm chính–âm cuối, ảnh hưởng của những
biến ñổi của âm cuối… Thường thì âm tắc, còn gọi làâm khép, sẽ làm cho trường
ñộ của tiếng nói giảm do sự tắc thanh quản.
7
Chương 2.
Xử lý tín hiệu số -phân tích tín hiệu tiếng nói
2.1.X lý tín hiu s
Hiểu một cách ñơn giản thì tín hiệu (signal) là tất cả các biến có mang hoặc
chứa một loại thông tin nào ñấy mà tacó thể biến ñổi, hiển thị hoặc gia công. Các
tín hiệu trong thế giới thực như tiếng nói (voice), âm thanh (sound), hình ảnh
(image)… ñều có bản chất hết sức phức tạp. Do ñó các tín hiệu này thường bị biến
ñổi thành các tín hiệu số (số hóa) ñể dễ dàng xử lýchúng. Tín hiệu số (digital
signal) là tín hiệu ñược biểu diễn bằng một dãy số. Xử lý tín hiệu số (Digital Signal
Processing–DSP) bao hàm mọi phép xử lý các dãy số ñể có ñược các thông tin
cần thiết.
Thông thường, sau khi số hóa tín hiệu, ta chọn các phép biến ñổi với mục
ñích chung là làm cho tín hiệu này dễ xử lý hơn.
2.1.1.Lấy mẫu tín hiệu
Hàm lấy mẫu:
Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các hệ thống liên tục.
Nó ñược gọi bằng các tên khác nhau như: hàm Dirac Delta, hàm sàng lọc,… và
“hàm lấy mẫu” là một trong số các tên ñó. Hàm lấy mẫu có các tính chất sau:
Tính chất 1:
Tính chất 2:
Trong các tính chất trên,
là một số thực bất kì.
8
Hình sau ñây minh họa hàm lấy mẫu lý tưởng:
Hình 2.1: Hàm lấy mẫu lý tưởng
Kết quả của phép lấy mẫu là:
2.1.1.1.Phổ của các tín hiệu ñược lấy mẫu
Sử dụng lý thuyết của phép biến ñổi Fourier, phổ tần số của các tín hiệu liên
tục theo thời gian ñược mô tả như sau:
Và dạng sóng của tín hiệu ñược thể hiện theo phổ của nó như sau:
Do biểu thức trên ñược áp dụng cho tất cả các hàm liên tục theo thời gian
x(t) nên nó cũng ñúng cho x
s
(t):
Thay x
s
(t) vào, ta ñược:
9
Trật tự phép lấy phân tích và phép cộng có thể thay ñổi, áp dụng tính chất 1
của hàm lấy mẫu, ta ñược:
Phương trình trên là dạng biểu diễn chính xác hàm X(f) theo chuỗi Fourier.
Trong ñó, X
s
(f) là hàm tuần hoàn theo chukỳ 1/T. Các hệ số của chuỗi Fourier là
x(nT) và chúng ñược tính bằng tích phân sau:
Hai biểu thức (2.8) và (2.9) là cặp biến ñổi giữa tín hiệu trên miền thời gian
và phổ tần số của nó.
2.1.1.2.Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu
liên tục theo thời gian thời gian
Trong biểu thức (2.5), ta thay t = nT và dùng công thức (2.9):
Ta viết lại vế phải của phương trình (2.5):
10
Đổi biến = f-
T
m
(thay f = +
T
m
, df = d ) ta ñược:
Đưa tổng vào trong tích phân, và thay vào biểu thức (2.10), ta sẽ rút ra ñược:
2.1.2.Dãy xung
Có duy nhất 1 dãy gọi là dãy xung ñơn vị, ñây là một dãy quan trọng, và
ñược ký hiệu là u(n).Dãy này mang giá tr
ị 0 tại tất cả các giá trị n, trừ n = 0. Tại
n = 0, dãy xung có giá trị bằng 1. Thông thường dãy này ñược dịch ñi m giá trị
trước khi sử dụng u(n-m). Dãy u(n) là phần tương ứng của hàm lấy mẫu trong
không gian rời rạc.
Tínhchất của dãy xung cũng tương tự như tính chất của hàm lấy mẫu:
11
Hình 2.2 : Dãy xung
2.1.3.Biến ñổi Fourier rời rạc
Các tín hiệu hình sin sau khi qua xử lý vẫn ñảm bảo cho ra các kết xuất là
các tín hiệuhình sin, chỉ có biên ñộ và pha là có thể thay ñổi, còn tần số và hình
dạng vẫn giữ nguyên. Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ,
các sóng này là tổng hợp của các ñường hình sin rời rạc có tần số, biên ñộ khác
nhau và pha của tínhiệu hình sin có tần số f tương ứng với một giá trị biểu diễn ñặc
tính tần số của tín hiệu tại tần số f. Vì vậy, các tín hiệu Fourier có thể dùng ñể tổng
hợp trở lại thành các tín hiệu hình sin ban ñầu thông qua biến ñổi Fourier (Fourier
Transform). Có 4 loại biến ñổi Fourier tương ứng với 4 loại tín hiệu:
Loại biến ñổiLoại tín hiệu
Biến ñổi Fourier
(Fourier Transform)
Liên tục không chu kỳ
Chuỗi Fourier
(Fourier Series)
Liên tục có chu kỳ
Biến ñổi Fourier thời gian rời rạc
(Discrete Time Fourier Transform)
Rời rạc không chu kỳ
Biến ñổi Fourier rời rạcRời rạc có chu kỳ
12
(Discrete Fourier Transform–DFT)
Một tín hiệu x(n) có ñộ dài L hữu hạn ñược dùng như là một chu kỳ tín hiệu.
(Ta có thể xây dựng tín hiệu x
p
(n) tuần hoàn bằng cách xếp chồng tuần hoànx(n)).
Biến ñổi Fourier của x(n):
Trong ñó X(w) ñược lấy mẫu tại các ñiểm w=2 k/N, với L≤N là ñiều kiện ñể
có thể khôi phục lại x(n) từ X(w) (ñịnh lý lấy mẫu Shannon).
Do phải xử lý bằng máy tính nên những tín hiệu có ñộ dài hữu hạn vàcó trục
tần số rời rạc mới có thể thực hiện dễ dàng nên biến ñổi Fourier rời rạc là thích hợp
nhất.
2.1.3.1.Biến ñổi Fourier rời rạc
Sau khi lấy mẫu hàm X(w) ta ñược một chuỗi X(k) chiều dài N, quá trình
này là biến ñổi Fourier rời rạc X(k) = DFT(x(n)) và ñược tóm tắt lại như sau:
Một số tính chất của biến ñổi Fourier rời rạc:
- Tính ñối xứng
X(k) = X(N-k) với k=N/2, …, N-1
- Tính tuyến tính
Đặt:
X
1
(k)=DFT(x
1
(n))
X
2
(k)=DFT(x
2
(n))
X(k)=DFT(x(n))
Nếu x(n)=ax
1
(n)+bx
2
(n) (a, b là hằng số) thì X(k)=aX
1
(k)+bX
2
(k).
- Tính dịch vòng
13
DFT(x(n-p))=e
-j2
kp/N
X(k) với dãy (n-p) ñược ñịnh nghĩa là dịch vòng của
x(n).
Độ phức tạp của công thức này là O(N
2
), không hiệu quả vì phải thực hiện
một khối lượng tính toán lớn. Người ta thường dùng một phương pháp hiệu quả hơn
ñó là biến ñổi Fourier nhanh (Fast Fourier Transform–FFT).
2.1.3.2.Biến ñổi Fourier nhanh
Nguyên tắc cơ bản của tất cả các thuật toán FFT là dựa trên việc phân tích
cách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số ñiểm
tính DFT nhỏ hơn). Một trong những thuật toán FFT thông dụng hiện nay là thuật
toán FFT cơ số 2 phân chia theo tần số (Radix-2, Decimation-In-Frequency
FFT Algorithm). Thuật toán phân chia dựa trên việc phân chia dãy x(n) thành các
dãy nhỏ hơn ñược gọi là thuật toán phân chia theo tần số vì chỉ số n thường ñược
gắn liền với tần số. Ví dụ phân chia theo tần số của FFT 16 ñiểm ñược minh họa
như sau:
1 tín hi
ệu
2 tín hiệu
4 tín hiệu
8 tín hiệu
16 tín hi
ệu 1
Độ phức tạp của phương pháp này là O(Nlog
2
(N)).
2.1.4.Biến ñổi cosin rời rạc
Với biến ñổi fourier, ta sử dụng cả hàm sin và cos ñể mô tả tín hiệu. Còn với
biến ñổi cosine, ta chỉ sử dụng hàm cos ñể mô tả tín hiệu. Cụ thể ta có công thức
biến ñổi dãy u(n), n=0 (N-1), sau:
Ở ñây ñược tính như sau:
N
1
0 ,
14
N
k
2
với k = 1 (N-1)
Và công thức biến ñổi ngược lại là:
2.1.5.Các bộ lọc
Bộ lọc số có vai trò rất quan trọng trong DSP, chúng ñược dùng với 2 mục ñích
chính:
- Tách các tín hiệu ñã bị trộn: Các tín hiệu ban ñầu thường chứa ñựng các
nhiễu hoặc các tín hiệu không mong muốn khác, các nhiễu này sẽ làm giảm
ñáng kể chất lượng của các phương trình xử lý tín hiệu số do ñó cần phải
tách riêng các tín hiệu cần thiết rakhỏi các nhiễu.
Ví dụ: Âm thanh khi ñược thu, tín hiệu thường chứa thêm các tiếng ồn của
môi trường như tiếng ồ ồ của quạt trần thổi vào micro; các ñiểm lốm ñốm trên
những tấm ảnh lâu ngày ….
- Khôi phục các tín hiệu méo mó: Có một số trường hợp vì một nguyên nhân
nào ñó (thường là nguyên nhân liên quan ñến thiết bị) sẽ tạo ra các tín hiệu
vào bị méo mó. Vì vậy cần phải chỉnh lại ñể tăng chất lượng chương trình xử
lý tín hiệu số.
Ví dụ: Các micro cũ, dơ sẽ cho ra các tín hiệu âm thanh không tốt; “con mắt”
(forcus len) của các máy quét bị mờ sẽ làm cho các ảnh ñược quét bị mờ theo ….
Trong thực tế kỹ thuật, người ta thường phân biệt hai trường hợp ñáp ứng
xung:
- Hệ có ñáp ứng xung hữu hạn (Finite Impulse Response–FIR): hệ có tín
hiệu ra chỉ phụ thuộc vào tínhiệu vào nên các hệ này còn ñược gọi là mạch
không truy hồi hay mạch không ñệ qui (non-recursive). Nghĩa là có N=0
trong phương trình sai tuyến tính hệ số hằng. Khi ñó:
15
- Hệ có ñáp ứng xung vô hạn (Infinite Impulse Response–IIR): hệ xử lý
có ñáp ứng xung có ñộ dài vô hạn hay ñáp ứng xung vô hạn. Tín hiệu ra
không những chỉ phụ thuộc vào tín hiệu vào mà còn phụ thuộc vào quá khứ
của chính tín hiệu ra, vì vậy chúng còn ñược gọi là các mạch có truy hồi hay
ñệ qui. Nghĩa là N>0 trong phươngtrình sai phân tuyến tính hệ số hăng.
2.1.6.Cửa sổ tín hiệu
Thông thường, việc phân tích tín hiệu ñược thực hiện trên một dãy hữu hạn
gồm N mẫu x
N
(n
0
),…, x
N
(n
0
+ N–1). Dãy tín hiệu này ñược lấy ra từ một tín hiệu
dài hơn hoặc dài vô hạn x(n). Một dãy con như vậy gọi là một cửa sổ tín hiệu. Việc
quan sát tín hiệu x(n) bằng một ñoạn x
N
(n) trong khoảng n
0
…(n
0
+ N–1) tương
ñương với việc nhân x(n) với một hàm cửa sổ w(n-n
0
)
Trong xử lý tín hiệu số, các cửa sổ thường dùng ñược biểu diễn thông qua
cửa sổ Hamming tổng quát:
Tuỳ theo các giá trị khác nhau của mà ta có các cửa sổ khác nhau:
= 0.54, ta có cửa sổ Hamming:
16
= 0.5, ta có cửa sổ Hanning:
= 1, ta có cửa sổ chữ nhật:
Thêm vào ñó, ñộ rộng của cửa sổ cũng có tác ñộng khá lớn ñến kết quả của
các phép phân tích.
Một số cửa sổ khác cũng ñược sử dụng trong xử lý tín hiệu số như: cửa sổ
tam giác, cửa sổ Kaiser, cửa sổ Blackman, cửa sổ cosin…
Sau ñây là một số vídụ cho thấy sự khác biệt giữa các loại cửa sổ. Các ví dụ
này áp dụng phép phân tích phổ bằng thuật toán FFT cho các khung tín hiệu tiếng
nói có ñộ dài khác nhau và hàm lấy cửa sổ cũng khác nhau.
17
Hình 2.7a: Âm /a/, cửa sổ chữ nhật,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
Hình 2.7b: Âm /a/, cửa sổ Hamming,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
18
Hình 2.7c: Âm /a/, cửa sổ Hanning,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
Hình 2.8a: Âm /s/, cửa sổ chữ nhật,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
19
Hình 2.8b: Âm /s/, cửa sổ Hamming,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)
Hình 2.8c: Âm /s/, cửa sổ Hanning,
512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)