Tải bản đầy đủ (.pdf) (54 trang)

XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 54 trang )


































BỘ GIÁO DỤC VÀ ĐÀO TẠO
Trường Đại học Yersin Đà Lạt
Khoa Công Nghệ Thông Tin
  






XỬ LÝ VÀ NHẬN DẠNG
TIẾNG NÓI

LUẬN VĂN CỬ NHÂN TIN HỌC

GIÁO VIÊN HƯỚNG DẪN:
TS Nguyễn Đức Minh


Niên khóa 2010 - 2014






1



NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN






















Đà Lạt, ngày……tháng….năm 2014
GIÁO VIÊN HƯỚNG DẪN




2



NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

























3



LỜI CẢM ƠN

Xin chân thành cảm ơn thầy Nguyễn Đức Minh đã tận tình
hướng dẫn em để em có thể hoàn thành luận văn này. Các buổi học
cùng thầy trên khoa cùng những tài liệu mà thầy đã cung cấp cho
em thật là quý giá, không những thầy đã dạy kiến thức chuyên
ngành mà còn truyền đạt những kỹ năng và phương pháp học tiếng
anh giúp em cải thiện hơn vốn tiếng anh hiện có.
Em xin gởi lời cảm ơn đến các thầy cô trong trường, đặc biệt
là các thầy cô trong khoa Công Nghệ Thông Tin đã tạo điều kiện tốt
nhất để em có thể học tập và nghiên cứu.
Em cũng không thể không nhắc đến sự động viên chăm sóc
của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè.

Em xin được tri ơn tất cả.


Đà lạt, tháng 06 năm 2014


Trần Mạnh Hải

4

MỤC LỤC

NHẬN XÉT CỦA GIÁO VIÊN HƢỚNG DẪN 1
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 2
LỜI CẢM ƠN 3

LỜI NÓI ĐẦU 5
DANH SÁCH HÌNH VẼ 6
Chƣơng I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG NÓI 7
I. Nhận dạng 7
II. Các tính chất đặc trưng của nhận dạng tiếng nói 11
1. Tiếng nói con ngƣời 11
2. Phân loại nhận dạng tiếng nói 11
3. Những khó khăn 12
III. Ứng dụng 12
Chƣơng II – XỮ LÝ VÀ RÚT TRÍCH ĐẶC TRƢNG TIẾNG NÓI 13
I. Quá trình xữ lý và lấy mẫu 13
1. Mô hình tổng quan 13
II. Rút trích đặc trưng 14
1. Phân khung tín hiệu 15
2. Lấy cửa sổ 16
3. Biến đổi tín hiệu sang miền tần số (Biến đổi Fourier rời rạc - DFT) 20
4. Đặc trƣng MFCC (Mel Frenquency Cepstral Coefficients) 21
5. Đặc trƣng Mã hóa dự đoán tuyến tính (LPC) 25
III. Nhận xét 30
Chƣơng III –NHẬN DẠNG BẰNG MÔ HÌNH MẠNG NEURAL 31
I. Tổng quan 31
II. Quá trình hoạt động 32
1) Tế bào của mạng 32
2) Mạng Neural truyền thẳng nhiều lớp 34
a) Mô hình cơ bản: 34
b) Luật học của mạng: 34
III. Quá trình huấn luyện 36
1) Thuật toán lan truyền ngược 36
a) Khái niệm và ý tưởng 36
b) Mô hình minh họa 36

c) Tính toán các giá trị và tham số 38
d) Các bước xây dựng thuật toán 42
2) Mô phỏng trên Matlab và ứng dụng vào nhận dạng tiếng nói 44
IV. Kết luận 50
KẾT LUẬN 51
TÀI LIỆU THAM KHẢO: 53
5


LỜI NÓI ĐẦU
Ngày nay với sự phát triển mạnh mẽ của công nghệ, con ngƣời đã tự động hóa
khá nhiều công việc mà ngày trƣớc phải tốn sức ngƣời là chính. Các hệ thống
thông minh ra đời đã nâng cao nâng suất cũng nhƣ chất lƣợng của công việc. Tuy
nhiên để điều khiển máy móc, con ngƣời phải làm khá nhiều thao tác tốn nhiều
thời gian và cần phải đƣợc đào tạo. Điều này gây trở ngại không ít đối với việc sử
dụng các máy móc, thành tựu khoa học kỹ thuật. Trong khi đó, nếu điều khiển máy
móc thiết bị bằng tiếng nói sẽ dễ dàng hơn. Nhu cầu điều khiển máy móc thiết bị
bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, nhƣ: điện thoại di
động, máy Palm/Pocket PC,…
Con ngƣời dễ dàng để hiểu nhau nhờ ngôn ngữ, nhƣng điều đó là khó khăn
đối với máy móc. Nhƣng không phải là không làm đƣợc, trên thế giới đã hình
thành các hệ thống nhận dạng tiếng nói từ đơn giản tới các hệ thống cực kỳ phức
tạp, chứng tỏ rằng máy móc sau quá trình huấn luyện của con ngƣời thì chúng cũng
có khả năng hiểu chúng ta qua tiếng nói.
Luận văn này em tập trung vào nghiên cứu hai phần lớn trong nhận dạng tiếng
nói đó là rút trích đặc trưng và phương pháp Neural cho nhận dạng và huấn luyện.
Luận văn gồm các phần chính nhƣ sau:
CHƢƠNG I: Cung cấp cái nhìn tổng quan về tín hiệu tiếng nói và nhận
dạng tiếng nói.
CHƢƠNG II: Xữ lý và rút trích đặc trƣng. Giới thiệu các bộ lọc cơ bản

cho xử lý tín hiệu, mô hình và các phƣơng pháp rút trích đặc trƣng
CHƢƠNG III: Phƣơng pháp nhận dạng Mạng Neural. Giới thiệu về
mạng Neural, phƣơng pháp huấn luyện trên mạng.


6

DANH SÁCH HÌNH VẼ

Hình 1. 1 Cấu trúc của tai người _________________________________________________ 7
Hình 1. 2 Mô hình nhận dạng tiếng nói ____________________________________________ 8
Hình 1. 3 Mô hình mô phỏng phương pháp HMM ___________________________________ 10

Hình 2. 1 Sơ đồ các khối của mô hình lấy mẫu _____________________________________ 13
Hình 2. 2 Trình tự rút trích đặc trưng ____________________________________________ 14
Hình 2. 3 Khung tín hiệu với N = 256 ____________________________________________ 15
Hình 2. 4 Phân đoạn tiếng nói thành các khung chồng lấp ____________________________ 16
Hình 2. 5 Cửa sổ Hamming theo miền thời gian và tần số _____________________________ 17
Hình 2. 6 Cửa sổ Hann theo miền thời gian và tần số. _______________________________ 18
Hình 2. 7 Cửa sổ Tam giác theo miền thời gian và tần số _____________________________ 19
Hình 2. 8 Minh họa cửa sổ hình chữ nhật _________________________________________ 19
Hình 2. 9 Âm “a” theo cửa sổ Hann _____________________________________________ 20
Hình 2. 10 Âm “a” với cửa sổ Hamming _________________________________________ 20
Hình 2. 11 Minh họa biến đổi Fourier ____________________________________________ 21
Hình 2. 12 a) Mel và tần số_____________________________________________________ 22
Hình 2. 13 Minh họa bộ lọc tam giác _____________________________________________ 24
Hình 2. 14 Bộ lọc tam giác thực tế trên miền tần số _________________________________ 25
Hình 2. 15 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói ________________________ 27

Hình 3. 1 Mô hình chi tiết 1 tế bào neural _________________________________________ 32

Hình 3. 2 Mô hình mạng nhiều lớp _______________________________________________ 34
Hình 3. 3 Mô hình tổng quát 3 lớp _______________________________________________ 37
Hình 3. 4 Mô hình chi tiết cơ bản _______________________________________________ 37
Hình 3. 5 Hình minh họa đồ thị _________________________________________________ 44
Hình 3. 6 Hình minh họa quá trình huấn luyện _____________________________________ 46
Hình 3. 7 Đồ thị dạng tam giác (xi) ______________________________________________ 46
Hình 3. 8 Mạng Neural sử dụng _________________________________________________ 47

7

Chương I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG
NÓI
I. Nhận dạng
Nhƣ chúng ta đã biết nhận biết đƣợc tiếng nói là một khả năng tuyệt vời mà
tạo hóa ban cho chúng ta, nhƣ đôi mắt giúp con ngƣời nhìn thấy đƣợc sự chuyển
động biến đổi của thế giới thì đôi tai giúp con ngƣời nghe đƣợc những âm thanh
mà môi trƣờng xung quanh muốn truyền đạt tới chúng ta. Quá trình nhận thức
đƣợc một âm than h, tiếng nói trong cơ thể chúng ta là một quá trinh vô cùng
phức tạp và tinh vi.
Sóng âm thanh đƣợc truyền vào trong tai ngƣời và tạo nên các rung động cơ
học trên các bộ phận trong tai. Trong cùng của tai là Ốc tai, đây là nơi tín hiệu
đƣợc phân tích thành những khung tần số nhất định.

Hình 1. 1 Cấu trúc của tai người

8

Quá trình xữ lý và nhận dạng trong bộ não con ngƣời là một quá trình
rất phức tạp và độ chính xác vô cùng cao. Các mô hình nhận dạng tiếng nói
về mặt lý thuyết đều dựa trên sự mô phỏng giống nhƣ tai ngƣời, về cấu trúc

lẫn hoạt cách thức hoạt động.
Dƣới đây là mô hình nhận dạng tiếng nói tổng quát:





















Xây dựng cơ sở
dữ liệu tiếng
nói

Xữ lý và rút trích đặc
trƣng
Nhận dạng so

khớp mẫu
Kết quả
Tín hiệu để học
Tín hiệu cần nhận dạng
Huấn luyện
Tín hiệu tiếng nói
Hình 1. 2 Mô hình nhận dạng tiếng nói
9

 Tín hiệu tiếng nói đƣợc thu lại thông qua các thiết bị ghi âm nhƣ:
microphone… và nó đƣợc chuyển sang tín hiệu điện.
 Xữ lý và rút trích đặc trƣng: là quá trình tinh chỉnh tín hiệu đầu vào, tạo
ra tín hiệu mẫu tốt nhất. Sau đó sử dụng các phƣơng pháp để rút trích
các đặc trƣng cơ bản của tín hiệu đó.
 Xây dựng cơ sở dữ liệu tiếng nói: Tín hiệu tiếng nói sau khi đƣợc xữ lý
và rút trích đặc trƣng đƣợc lƣu lại thông qua quá trình huấn luyện hay
học bằng các mô hình nhận dạng.
 Nhận dạng so sánh khớp mẫu: Tín hiệu tiếng nói sau khi đƣợc xữ lý và
rút trích đặc trƣng có thể là tín hiệu cần nhận dạng. Nó đƣợc đem so
sánh với mẫu bằng các phƣơng pháp nhận dạng tiếng nói. Nếu nhƣ tín
hiệu đó so khớp nhất ứng với một lớp tín hiệu nào đó thì hệ thống nhận
dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu nào đó với một tỉ lệ
nhất định.
 Kết quả: tín hiệu đầu ra sẽ phục vụ cho các ứng dụng, tùy ứng dụng mà
kết quả đầu ra sẻ khác nhau.

Các mô hình nhận dạng tiếng nói phổ biến:
Mô hình Markov - ẩn (Hidden Markov Model – HMM)
 Mô hình Markov ẩn (Hidden Markov Model - HMM) là mô hình
thống kê trong đó hệ thống đƣợc mô hình hóa đƣợc cho là một quá trình Markov

với các tham số không biết trƣớc và nhiệm vụ là xác định các tham số ẩn từ các
tham số quan sát đƣợc, dựa trên sự thừa nhận này. Các tham số của mô hình
đƣợc rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp.

10


 Trong một mô hình Markov điển hình, trạng thái đƣợc quan sát trực
tiếp bởi ngƣời quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các
tham số duy nhất. Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có
xác suất phân bổ trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các
biểu hiện đƣợc sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái.

Mô hình mạng Neural
(sẽ đƣợc trình bày kỹ ở chƣơng III)
Hình 1. 3 Mô hình mô phỏng phương pháp HMM
11

II. Các tính chất đặc trưng của nhận dạng tiếng nói
1. Tiếng nói con ngƣời
 Tiếng nói con ngƣời sử dụng hằng ngày mang bản chất của sóng âm
thanh, nó lan truyền trong không khí nhờ sự giản nở của không khí. Tín hiệu
âm thanh tiếng nói là tín hiệu biến thiên liên tục về mặt thời gian. Dải tần mà
tai ngƣời có thể nghe đƣợc là 20Hz đến 20kHz.
 Tiếng nói đƣợc tạo thành từ các chuỗi âm vị liên tiếp, sự sắp xếp
những âm vị này đƣợc chi phối bởi các quy luật ngôn ngữ cho nên các mô
hình toán học khi đƣợc áp dụng thì phải gắn bó mật thiết với các quy luật
ngôn ngữ.
Ba đặc trưng:
 Âm vực hay độ cao (Pitch) là độ cảm nhận sự rung động của

tần số của âm thanh trong một khoảng thời gian. Âm nào cũng có một cao độ
nhất định, độ trầm bổng phụ thuộc vào tần số giao động và đối với tiếng nói
thì tần số dao động của dây thanh quy định quyết định độ cao của giọng nói
con ngƣời. Và mỗi ngƣời có một độ cao giọng nói khác nhau.
 Âm nhấn là độ cảm nhận cường độ rung động của âm thanh qua
một khoảng thời gian và cao độ. Cường độ chính là độ to nhỏ của âm thanh,
cƣờng độ càng lớn thì âm càng truyền đƣợc xa hơn, nếu xét về mặt sóng âm
thì cƣờng độ chính là biên độ giao động, nó quyết định năng lƣợng của sóng
âm.
 Âm sắc là một thuật ngữ trong âm nhạc, nó thể hiện sự hài hòa
các đặc tính động của âm thanh nhƣ là điều biên, tăng lên hay rớt xuống của
tín hiệu. Cùng một cao độ nhƣng mỗi ngƣời lại có một âm sắc khác nhau

2. Phân loại nhận dạng tiếng nói
 Nhận dạng theo các từ hay các âm rời rạc.
 Nhận dạng tiếng nói độc lập hay phụ thuộc vào ngƣời nói.
 Nhận dạng với từ điển cỡ vừa, nhỏ hay cỡ lớn.
 Nhận dạng với môi trƣờng nhiễu cao hay thấp.
12


3. Những khó khăn
 Tốc độ nói của ngƣời khác nhau, có ngƣời nói nhanh có ngƣời nói chậm.
 Độ dài ngắn của âm khác nhau.
 Kết quả phân tích ở hai lần đối với một ngƣời nói khác nhau.
 Chất giọng theo vùng miền thì chất giọng khác nhau hoặc là giọng nam hay
giọng nữ.
 Các yếu tố của môi trƣờng làm nhiễu tín hiệu, đôi khi bị nhiễu từ chính thiết
bị thu.
III. Ứng dụng

 Điểu khiển giao tiếp không dây: chẳng hạn hệ thống máy tính nhận lệnh điều
khiển bằng tiếng nói của con ngƣời nhƣ: “chạy chƣơng trình”, “tắt máy”…. Các
hệ thống thông minh nhận lệnh trực tiếp của con ngƣời thông qua tiếng nói.
 Đọc chính tả: đƣợc sử dụng nhiều nhất trong các hệ nhận dạng. Nhập liệu
bằng tiếng nói thay vì bằng cách thủ công là ngồi đánh máy.
 Điện thoại liên lạc: một số hệ thống cho phép ngƣời sử dụng đọc tên ngƣời
trong danh bạ thay vì bấm số. Truy cập các ứng dụng, viết tin nhắn bằng tiếng
nói…

13

Chương II – XỮ LÝ VÀ RÚT TRÍCH ĐẶC TRƯNG
TIẾNG NÓI

I. Quá trình xữ lý và lấy mẫu
1. Mô hình tổng quan
Trong xử lý tín hiệu, lấy mẫu là chuyển đổi một tín hiệu liên tục thành một
tín hiệu rời rạc. Mặc dù có sự tự do trong việc lựa chọn thứ tự các mẫu tính hiệu
đƣợc tạo ra từ những tín hiệu tƣơng tự. Nhƣng ở đây tôi xin đƣa ra mô hình xử lý
và lấy mẫu tối ƣu nhất, các khối trong mô hình có thể thay đổi vị trí cho nhau, tùy
vào từng trƣờng hợp.

 Khối lọc thấp và chống biệt danh: theo Định lý lấy mẫu Nyquist-
Shannon thì tần số lấy mẫu (f
c
) sẽ là cao gấp đôi độ rộng của dãi tần, hay tần số
lớn nhất. Vì vậy, ta chọn tần số lấy mẫu sẽ là 40 – 44kHz (gấp đôi tần số nghe
của tai ngƣời 20kHz). Nhƣ vậy có thể chống Biệt danh. Khối lọc thấp sẽ lọc
các tín hiệu có tần số cao tạo độ mịn cho tín hiệu đầu ra.
 Khối lọc cao: khối này cắt bỏ các tín hiệu có tần số thấp, tạo độ biến

thiên nhỏ nhất.
 Tiền nhấn: Tăng cƣờng tín hiệu, làm rõ các đặc trƣng của tín hiệu.
Lƣợng tử hóa: việc biểu diễn số tín hiệu đòi hỏi lƣợng tử hóa mỗi mẫu tín hiệu
với một giá trị rời rạc hữu hạn. Mỗi mẫu tín hiệu đƣợc lƣợng tử hóa, mã hóa rồi
truyền đi. Bên thu nhận tín hiệu sẽ giải mã và thu đƣợc tín hiệu tƣơng tự.



Hình 2. 1 Sơ đồ các khối của mô hình lấy mẫu
14

II. Rút trích đặc trưng
Để cho việc nhận dạng tiếng nói dễ dàng hơn và giảm chi phí thì việc rút
trích đặc trƣng tín hiệu là một phần vô cùng quan trọng. Tín hiệu thô ban đầu có
dung lƣợng rất lớn, và độ phức tạp cao. Việc rút trích các đặc trƣng từ tín hiệu
đó sẽ giúp cho khâu so sánh khớp mẫu dễ dàng hơn, và tạo ra độ chính xác cao
hơn.
Các bƣớc rút trích đặc trƣng:
















Xữ lý và làm rõ tín hiệu
Phân khung tín hiệu
Lấy cửa sổ
Phân tích đặc trưng
Tín
hiệu
Hình 2. 2 Trình tự rút trích đặc trưng
15

1. Phân khung tín hiệu
Tín hiệu sau quá trình lấy mẫu đƣợc phân khung, chẳng hạn một luồng
của tín hiệu âm thanh đƣợc chuyển thành tập các khung tín hiệu. Trong bƣớc
này tín hiệu đƣợc chia thành các khung mỗi khung ứng với N mẫu, khoảng
cách giữa các khung là M mẫu Độ dài thời gian cho mỗi khung khoảng
20~30ms. Nếu thời gian khung quá lớn, chúng ta không thể nắm bắt các đặc
điểm khác nhau theo thời gian của tín hiệu. Ngƣợc lại, nếu thời gian khung quá
nhỏ, thì chúng ta không thể rút trích các đặc trƣng hợp lệ hoặc có giá trị. Nói
chung, một khung tín hiệu cần chứa vài chu kỳ cơ bản của tín hiệu âm thanh
nhất định, thƣờng kích thƣớc của khung bằng với mũ cơ số 2 (chẳng hạn 256,
512, 1024 ) nhƣ vậy có khả năng để biến đổi Fourier nhanh.

Nếu chúng ta muốn giảm bớt sự khác biệt giữa các khung lân cận, chúng
ta có thể sử dụng các khung chồng lấp nhau, thƣờng thực hiện chồng lấp 1/3
Hình 2. 3 Khung tín hiệu với N = 256
16

hoặc 2/3 của khung tín hiệu gốc. Khung chồng lắp nhiều, yêu cầu tính toán cũng

nhiều hơn. Nhƣ hình 1.2 minh họa chồng lấp 1/3. Khung thứ nhất có N mẫu,
khung thứ hai bắt đầu từ mẫu thứ M và kết thúc ở vị trí M+N. Khi M << N thì
khung này sang khung khác đƣợc hoàn toàn trơn. Ngƣợc lại, nếu M > N thì sẽ
không có sự chồng lấp giữa các khung kề nhau, dẫn đến một số mẫu tiếng nói bị
mất (tức là không xuất hiện trong bất kỳ khung nào).

Hình 2. 4 Phân đoạn tiếng nói thành các khung chồng lấp
Giả sử các tín hiệu âm thanh trong một khung là không thay đổi, chúng ta
có thể trích các đặc trƣng chẳng hạn nhƣ tỷ lệ điểm qua zero, âm lƣợng, cao độ,
MFCC, LPC,…
Chúng ta có thể thực hiện phát hiện điểm đầu và cuối của tín hiệu dựa tỷ
lệ điểm qua zero và âm lƣợng, và giữ lại các khung tín hiệu có tiếng nói để phân
tích về sau.

2. Lấy cửa sổ
Bƣớc tiếp theo trong xử lý là lấy cửa sổ tín hiệu ứng với mỗi khung để giảm
thiểu sự gián đoạn tín hiệu ở đầu và cuối mỗi khung. Gọi mẫu thứ n của khung
thứ l là
l
h
n
, w(n) là hàm cửa sổ:

l
ĥ
n
=
l
h
n

. w(n) n
-1}

Các dạng cửa sổ tín hiệu:
17

Trong xử lý tín hiệu số, các cửa sổ thƣờng dùng đƣợc biểu diễn thông qua
cửa sổ Hamming:




= 0.54 0.46 cos

2
1




Hình 2. 5 Cửa sổ Hamming theo miền thời gian và tần số
Với cửa sổ Hamming phổ tần số rơi xuống một cách nhanh chóng, vì thế nó
cho phép cô lập tín hiệu tốt nhất. Tuy nhiên, các sóng âm có cao độ lớn bị giữ lại
hoàn toàn một cách bằng phẳng và nó che phủ phần lớn phổ tần số. Mặc dù vậy,
nó vẫn phổ biến nhất nhờ vào tính kế thừa.

Cửa sổ Hann (Hanning): đây là một loại khác của cửa sổ Hamming. Sự khác
biệt giữa chúng là cửa sổ Hann đặt 0 cho n=0 và n= N-1. Giá trị Zero ở khúc
đuôi có thể có hoặc không mong muốn phụ thuộc vào trƣờng hợp chúng ta xử lý
tín hiệu và giải thích cho điều này là khi dần tiến về Zero, mật độ dữ liệu không

đƣợc sử dụng. Tuy nhiên trong nhận dạng giọng nói, nó không có vấn đề gì hết
bởi vì chúng thƣờng có vừa đủ khung chồng lên nhau trong việc tính toán đặc
trƣng .
18





= 0.5

1 cos

2
1




Với cửa sổ Hamming thì các tần số thấp rơi xuống một cách nhanh chóng và
sau đó gần nhƣ trở thành phẳng với các tần số cao. Mặt khác, cửa sổ Hann rơi
chậm hơn một chút với tần số cao nhƣng nhanh chóng với tần số thấp. Vì vậy,
với mỗi loại đều có ƣu điểm hoặc hạn chế riêng của chúng.

Cửa sổ Tam giác: nhƣ tên gọi thì nó chỉ là một tam giác với đỉnh nằm ở
trung tâm của cửa sổ (n =

2
). Cửa sổ này quan trọng và thƣờng đƣợc sử dụng
trong phƣơng pháp MFCC. Biểu thức của cửa sổ tam giác:





= 1 

2+ 1
1


Hình 2. 6 Cửa sổ Hann theo miền thời gian và tần số.
19


Nhƣ phổ tần số hình 1.5 thì nó rơi xuống khá đột ngột. Các sóng có tần số
cao có độ rộng nhiều hơn so với hai cửa sổ trên.
Cửa sổ hình chữ nhật:






=

1, 0 
0, 












Hình 2. 7 Cửa sổ Tam giác theo miền thời gian và tần số
Hình 2. 8 Minh họa cửa sổ hình chữ nhật
20

Một số ví dụ minh họa:




3. Biến đổi tín hiệu sang miền tần số (Biến đổi Fourier rời rạc - DFT)
Bƣớc tiếp theo trong việc xữ lý tín hiệu tiếng nói để có thể tính toán đƣợc
các đặc trƣng quang phổ là biến đổi Fourier rời rạc trên các cửa sổ tín hiệu.




=  



2



1
=0
=  


()

2


1
=0


Hình 2. 9 Âm “a” theo cửa sổ Hann
Hình 2. 10 Âm “a” với cửa sổ Hamming
21

Khi k = {0,1,…,N-1} là chỉ số của miền tần số với k = 0 tƣơng ứng
với thành phần DC và k = N/2 ứng với tần số gấp.













Phép biến đổi nhanh fourier rời rạc (FFT)
Phép biến đổi nhanh này đều dựa trên kỹ thuật phân chia theo cơ số 2,
nghĩa là thay vì biến đổi trên toàn bộ tín hiệu thì phép biến đổi này sẽ phân chia
chuỗi tín hiệu thành 2 chuỗi tín hiệu con, và lại áp dụng phép biến đổi lần nữa
cho 2 phần này một cách đệ quy. Do phép chia cho 2, nên chuỗi tín hiệu đòi hỏi
phải có chiều dài là lũy thừa của 2 (điều này có thể dễ dàng giải quyết đƣợc
bằng cách tăng kích thƣớc chuỗi tín hiệu lên và điền 0 vào).
4. Đặc trƣng MFCC (Mel Frenquency Cepstral Coefficients)
Định nghĩa Mel (Melody): Mel là từ viết tắt của âm điệu (melody), nó là
một đơn vị của âm vực.Nó được xác định là bằng với 1000 Pitch trong một tần
số âm vực 1000 Hz với biên độ là 40dB nằm trên ngưỡng nghe.
Hình 2. 11 Minh họa biến đổi Fourier
22













Đặc trƣng trích ra nhờ dựa trên khả năng cảm nhận âm của thính giác con

ngƣời, và thang đo trong hệ thống nhận dạng của con ngƣời không phải là thang
tuyến tính. Ứng với MFCC thì ta dùng thang Mel.
Quá trình trích đặc trƣng bằng MFCC:







a)
b)
DFT

Lọc với thang Mel và Log()
Biến đổi Cosin

Tín
hiệu
Ma trận tín hiệu
Hình 2. 12 a) Mel và tần số
b) Mel và tần số đƣợc chia trên thang Log

23



Ta có công thức định nghĩa cho MFCC:



=









21


2


1
=0


Trong đó
l
C
m
là biến đổi cosin rời rạc (DCT) :


=  




2



Thang Mel: Ĥ

= 

 





=

0,1, , 1




Ma trận 

là ma trận thứ (m,k) của ma trận , {: 

 

}
Hệ số a

m
:


=


1

,  = 0
2

,  > 0








24

Lọc tín hiệu theo thang Mel


Hình 2. 13 Minh họa bộ lọc tam giác

Dãy bộ lọc Mel-scale bao gồm một dãy các bộ lọc tam giác chồng lên
nhau với tần số và độ rộng dãy tính theo tỉ lệ tần số Mel. Tỉ lệ tần số Mel, giống

nhƣ tỉ lệ Bark sử dụng cho phƣơng pháp PLP, đƣợc dựa trên những kết quả nghiên
cứu tâm lý từ con ngƣời. Mỗi khoảng nghỉ trong tỉ lệ Mel ứng với một cao độ
tƣơng đối của một tone mà con ngƣời cảm nhận.

×